Gigantes da tecnologia usam legendas do YouTube para treinamento de IA sem permissão

Descobriu-se que Apple, Nvidia e Anthropic usam legendas do YouTube para treinar modelos de IA, o que vai contra as políticas do YouTube. Um relatório da Proof News e da Wired mostrou que essas empresas usaram um conjunto de dados de transcrições de milhares de vídeos do YouTube sem adquirir a licença adequada para fazê-lo.

Leia também: Watchdog do Reino Unido inicia investigação sobre aquisição de talentos de IA da Microsoft

O estudo revelou que Apple, Nvidia e Anthropic usaram o conjunto de dados de legendas do YouTube. Este conjunto de dados consiste em transcrições de 173.536 vídeos do YouTube de 48.000 canais. Os vídeos incluem canais educacionais como Khan Academy e MIT, canais de notícias como The Wall Street Journal e criadores importantes como MrBeast e Marques Brownlee.

YouTubers populares reagem à exploração de dados

Marques Brownlee, um popular YouTuber, comentou sobre o assunto no X. Ele disse: “A Apple tem coletado dados para IA de outras empresas. Um deles coletou muitos dados/transcrições de vídeos do YouTube, inclusive os meus. ” Embora a Apple possa não ter recuperado os dados diretamente, Brownlee enfatizou que esse problema persistirá.

O conjunto de dados “Legendas do YouTube” foi desenvolvido pela EleutherAI e lançado em 2020. Ele contém 5,7 GB de dados, que incluem legendas de vídeos do YouTube que foram removidos da plataforma.

De acordo com os termos e condições do YouTube, é proibido acessar vídeos por “meios automatizados”. A existência de legendas em vídeos removidos apenas agrava o problema, levantando preocupações sobre privacidade e violação de direitos autorais.

A Salesforce, organização envolvida na investigação, também admitiu usar esse conjunto de dados.

“O conjunto de dados Pile referenciado no artigo de pesquisa foi treinado em 2021 para fins acadêmicos e de pesquisa. O conjunto de dados estava disponível publicamente e lançado sob uma licença permissiva.”

Porta-voz da Salesforce

No entanto, usar conteúdo do YouTube sem permissão ainda é controverso hoje. Em abril, o CEO do YouTube, Neal Mohan, disse que usar vídeos, transcrições ou clipes do YouTube para treinamento de IA é uma “violação clara” das políticas. No entanto, de acordo com o New York Times, a OpenAI usou um milhão de horas de vídeos do YouTube para treinar seu modelo GPT-4.

Batalhas legais surgem sobre o uso de conteúdo da Internet pelas empresas de IA

O problema das empresas de IA que usam conteúdo da Internet sem permissão aumentou após o lançamento do ChatGPT. Além disso, os criadores de conteúdo estão processando Stability AI e Midjourney por supostamente removerem obras protegidas por direitos autorais sem permissão. O proprietário do YouTube, Google, enfrentou ações judiciais coletivas por reivindicações semelhantes, dizendo que tais ações ameaçam os fundamentos da inteligência artificial generativa.

Em entrevista ao Wall Street Journal, Mira Murati, CTO da OpenAI, não explicou se a empresa usou vídeos de plataformas de mídia social para treinar esse novo modelo. O CEO da Microsoft AI, Mustafa Suleyman, disse que o conteúdo da web aberta é considerado uso justo desde a década de 1990, sob o que ele chamou de “contrato social”.