Cerebras desafia a Nvidia ao lançar um serviço de inferência de IA

Cerebras Systems anunciou uma solução de inferência de IA para desenvolvedores na terça-feira. Segundo a empresa, é uma solução de inferência muito mais rápida, 20 vezes mais rápida que as ofertas da Nvidia.

A Cerebras fornecerá acesso a seus chips maiores para executar aplicativos de IA que, segundo a empresa, também são mais baratos que as GPUs Nvidia. As GPUs Nvidia padrão da indústria são frequentemente acessadas por meio de provedores de nuvem para executar grandes modelos de linguagem, como ChatGPT. Obter acesso geralmente não é fácil para muitas pequenas empresas e é caro.

Cerebras afirma que seus novos chips podem oferecer desempenho que vai além das GPUs

A inferência de IA é o processo de usar um modelo de IA já treinado para obter resultados, como respostas de chatbots e resolução de diferentes tarefas. Os serviços de inferência são a espinha dorsal das aplicações de IA atuais, pois dependem deles para operações diárias para facilitar os usuários.

Cerebras disse que a inferência é o segmento de crescimento mais rápido da indústria de IA, pois representa 40% de todas as cargas de trabalho relacionadas à IA na computação em nuvem. O CEO da Cerebras, Andrew Feldman, disse que os chips superdimensionados da empresa oferecem mais desempenho do que uma GPU. As GPUs não podem atingir esse nível, disse ele. Feldman falou à Reuters em entrevista.

Ele acrescentou,

"Fazemos isso com a máxima precisão e oferecemos pelo menor preço." Fonte: Reuters .

O CEO disse que os serviços existentes de inferência de IA não são satisfatórios para todos os clientes. Ele disse a um grupo separado de repórteres em São Francisco que a empresa está “vendo todo tipo de interesse” em soluções mais rápidas e baratas.

Até agora, a Nvidia dominou o mercado de computação de IA com seus chips prontos para uso e ambiente de programação CUDA (Compute Unified Device Architecture). Isso ajudou a Nvidia a prender os desenvolvedores em seu ecossistema, fornecendo uma ampla gama de ferramentas.

Os chips Cerbras têm 7.000 vezes mais memória que as GPUs Nvidia H100

A Cerebras disse que seu serviço de inferência de alta velocidade é uma virada de jogo para a indústria de inteligência artificial. Os novos chips da empresa, do tamanho de pratos de jantar, são chamados de Wafer Scale Engines. Eles podem processar 1.000 tokens por segundo, o que, segundo a empresa, é comparável à introdução da Internet de banda larga.

Segundo a empresa, os novos chips fornecem diferentes quantidades de produção para os diversos modelos de IA. Para o Llama 3.1 8B, os novos chips podem processar até 1.800 tokens por segundo, enquanto para o Llama 3.1 70B eles podem processar 450 tokens por segundo.

A Cerebras oferece serviços de inferência a 10 centavos por milhão de tokens, valor inferior aos baseados em GPU. Normalmente, acredita a indústria, abordagens alternativas comprometem a precisão em detrimento do desempenho, enquanto os novos chips Cerebras são capazes de manter a precisão, disse a empresa.

A Cerebras disse que oferecerá produtos de inferência de IA em diversas formas. A empresa planeja introduzir um serviço de inferência por meio de sua nuvem e uma chave de desenvolvedor. A empresa também venderá os novos chips para clientes de data centers e para aqueles que desejam operar seus próprios sistemas.

Os novos chips Wafer Scale Engine possuem seus próprios módulos integrados de resfriamento e fornecimento de energia e fazem parte de um sistema de data center da Cerebras chamado CS-3. De acordo com vários relatórios , o sistema Cerebras CS-3 é a espinha dorsal do serviço de inferência da empresa.

O sistema possui 7.000 vezes mais capacidade de memória do que as GPUs Nvidia H100. Isso também resolve o problema fundamental da largura de banda da memória, que muitos fabricantes de chips estão tentando resolver.

A Cerbras também trabalha para se tornar uma empresa de capital aberto. Para fazer isso, apresentou um prospecto confidencial à Securities and Exchange Commission (SEC) este mês.