Cazaquistão lança seu primeiro grande modelo linguístico

Em 16 de dezembro, o Cazaquistão dará um grande salto tecnológico ao lançar seu primeiro grande modelo de linguagem (LLM) chamado KazLLM. Este lançamento coincide com o 33º aniversário da independência do país.

Leia também: Inteligência artificial gerativa dá vida a NPCs de videogame

O anúncio foi feito pelo Instituto de Sistemas Inteligentes e Inteligência Artificial (ISSAI) durante um briefing na Universidade Nazarbayev em 18 de julho. A coleta de dados para o projeto começou em março e o modelo é treinado em uma plataforma de computação em nuvem fornecida com nós NVIDIA H100.

Estudantes e especialistas unem forças no desenvolvimento de IA

Estudantes da Universidade Nazarbayev, estudantes da Astana IT University, bolsistas Bolashak e participantes locais estão colaborando no projeto KazLLM. O principal objetivo desta iniciativa é criar o KazLLM e criar uma força de trabalho capaz de produzir ferramentas e aplicações inteligentes de IA.

A lacuna tecnológica com outros países é o que o fundador e diretor do ISSAI, Professor Atakan Varol, pretende colmatar através deste projeto. Ele disse que após a sua conclusão, o Cazaquistão ficaria apenas 18 meses atrás das nações líderes em termos de tecnologia. Espera-se que a integração das capacidades de voz reduza este período para 12 meses, enquanto novos avanços no modelo de visão linguística poderão colocar o Cazaquistão na vanguarda do desenvolvimento da inteligência artificial.

Artigos da Wikipedia, meios de comunicação, sites governamentais e conjuntos de dados abertos, como Common Crawl, são algumas das fontes de onde os dados do projeto são obtidos. Há mais de cinco anos, a ISSAI cria vários conjuntos de dados de processamento de linguagem natural projetados especificamente para a língua cazaque. Esta grande coleção de conjuntos de dados é muito importante porque ajuda a treinar o KazLLM de forma eficaz e precisa.

O Cazaquistão espera abordar a segurança nacional e de segurança cibernética com inovação em IA

O projeto KazLLM tem implicações nacionais e de segurança cibernética. O Cazaquistão espera minimizar a sua dependência de tecnologia estrangeira, que poderia resultar em violações de dados e na apresentação de informações distorcidas, através da criação de um modelo linguístico fabricado localmente.

A vice-diretora de Relações Externas e diretora de dados, Madina Abdrakhmanova, destacou o extenso corpus de treinamento do modelo. “Consistirá em um mínimo de 100 bilhões de tokens nos idiomas cazaque, russo, inglês e turco, com cada idioma representado por 25 bilhões de tokens”, disse o diretor.

Atualmente, o projeto possui mais de 30 bilhões de tokens, incluindo 26 bilhões de tokens produzidos por meio do tradutor Tilmash, que converte dados do inglês para o cazaque. Esta capacidade de tradução garante que o modelo possa gerar texto consistente e preciso no idioma cazaque.

Leia também: OpenAI torna-se leve, lança um modelo de IA mais barato chamado GPT-4o mini

A ISSAI pretende criar uma interface amigável para o KazLLM, como as dos modelos OpenAI, para torná-lo mais acessível. Uma vez concluído, será capaz de apoiar a interação do modelo, reforçar a aprendizagem a partir do feedback humano e ajustar diferentes situações para maximizar o desempenho. KazLLM será oferecido como um pacote de assinatura geral e como uma API para usuários avançados.