NVIDIA está sob escrutínio por supostamente extrair dados não licenciados para modelos de inteligência artificial

Documentos vazados obtidos pela 404 Media sugerem que a NVIDIA se envolveu em coleta de dados não licenciada, usando imagens de jogos e imagens da Internet para treinar seus produtos de inteligência artificial.

Os documentos vazados revelam que eles estavam tentando baixar filmes completos de vários canais, incluindo Netflix, e seu principal interesse eram os vídeos do YouTube. A partir de e-mails obtidos pela 404 Media, os gerentes de projeto pretendiam implantar entre 20 e 30 máquinas virtuais na Amazon Web Services para obter 80 anos de vídeo em um dia.

NVIDIA defende suas ações e invoca disposições de uso justo

A raspagem de dados é a prática de extrair conteúdo de vídeo, texto e áudio da Internet sem a permissão dos proprietários do conteúdo para treinar modelos de inteligência artificial. Esta prática pode ser vista como a utilização de conteúdos de plataformas de redes sociais que contêm conteúdos protegidos por direitos de autor.

A NVIDIA alegou que não violou nenhuma lei de direitos autorais durante o processo de coleta de dados. A empresa também disse que suas atividades se enquadram na doutrina de uso justo porque utiliza material protegido por direitos autorais para treinamento em IA.

Documentos obtidos nas comunicações internas da 404 Media indicam que alguns funcionários da NVIDIA expressaram preocupações sobre essas atividades de coleta de dados. No entanto, os gerentes de projeto minimizaram as preocupações, dizendo que questões legais, como violações dos Termos de Serviço do YouTube, seriam abordadas mais tarde.

Um funcionário destacou que os engenheiros de IA da NVIDIA tentaram obter o máximo possível de clipes de jogo para enriquecer o corpus de treinamento. Isso envolveu streaming de jogos para o serviço de nuvem GeForceNow da NVIDIA para gravar vídeos de jogos em alta definição. Jim Fan, analista sênior de pesquisa, também destacou em mensagens internas a importância dessas filmagens como contribuição para o treinamento de modelos de IA.

A empresa toma medidas para gerenciar a percepção pública de suas práticas de dados

Os documentos também detalham as tentativas da NVIDIA de controlar os danos nas repercussões dessas práticas. De acordo com os e-mails vazados, o vice-presidente de pesquisa Ming-Yu Liu recomendou que a empresa evitasse publicar documentos relacionados a técnicas de extração de dados para evitar reações públicas. Também criou seu próprio conjunto de ferramentas de coleta de dados do YouTube e contas API para facilitar o processo de coleta de dados.

A posição jurídica relativamente às regras que regem a utilização de inteligência artificial na recolha de dados ainda não é muito clara. De acordo com Robert Mahari, do MIT, pode ser muito difícil determinar se a extração de dados realmente ocorreu. As organizações podem beneficiar da não divulgação das fontes dos seus dados de formação, uma vez que se torna difícil provar o abuso na ausência de provas tangíveis.

Outra plataforma, Suno, uma plataforma de geração de música baseada em IA, recentemente ganhou destaque por admitir o uso de coleta de dados para treinar modelos de IA. Como a Cryptopolitan relatou anteriormente, o CEO do Reddit, Steve Huffman, disse que a empresa continuará a proibir a Microsoft e outras empresas de IA de usar coleta de dados até que haja pagamento e controle sobre como os dados serão adquiridos pela plataforma. Ele disse que o Reddit não permitirá a coleta de dados para uso no treinamento de modelos de IA sem a licença adequada.