Logo Folha de Pernambuco

MÍDIA

Sistemas de IA enfrentam escassez de informações de qualidade para treinar seus robôs, diz 'WSJ'

Jornais e outros canais de mídia têm bloqueado acesso a suas plataformas por empresas de inteligência artificial

Inteligência artificialInteligência artificial - Foto: Rawpick/Freepik

Empresas que estão na corrida para desenvolver sistemas poderosos de inteligência artificial estão começando a enfrentar um novo problema: as informações disponíveis na Internet podem ser insuficientes para seus planos, especialmente as informações de qualidade. É que esses modelos de IA - como os desenvolvidos pela OpenAI, pelo Google e outros - precisam de um oceano de informações para serem treinados. E a oferta, segundo reportagem do Wall Street Journal, já está bem perto de não dar conta dessa demanda

O universo de dados públicos de qualidade existentes no ambiente digital está sob pressão, pois donos desses dados usados para treinamento dos modelos de IA estão bloqueando seu acesso. Entre eles jornais e outros canais de mídia.

Recentemente, o New York Times entrou com processo contra a OpenAI, criadora do ChatGPT, e outras plataformas populares de IA, por questões de direitos autorais. No processo, o NYT alega que milhões de artigos publicados em seu site foram utilizados para treinar chatbots automatizados que agora competem com o veículo de notícias como fonte de informações confiáveis.

A agência de fotos Getty Images e escritores também alegam que seu material foi usado sem autorização para treinar os robôs.

Executivos e pesquisadores afirmam que a demanda por dados de alta qualidade deve ultrapassar a oferta em até dois anos, segundo WSJ. Isso pode retardar o tão esperado desenvolvimento da IA.

A reportagem revela que, para solucionar o problema, as empresas de IA estão buscando novas fontes de informação e repensando como treinar esses sistemas. Mas a resposta não é tão simples.

Segundo pessoas a par das conversas, a OpenAI, dona do ChatGPT, já discutiu treinar o GPT-5 (seu próximo modelo), a partir de transcrições de vídeos públicos do YouTube. Mas o CEO do YouTube já demonstrou preocupação no caso de uso indevido de vídeos de criadores de conteúdo por parte desses sistemas.

Escassez de dados
O uso de dados gerados pela própria inteligência artificial (os chamados dados sintéticos) também vêm sendo testados como fonte de treinamento. Mas essa é uma abordagem arriscada, tendo em vista que as informações geradas pelo sistema podem causar falhas graves, segundo pesquisadores.

De acordo com o WSJ, todos esses esforços são frequentemente secretos pois os executivos consideram que as soluções podem ser uma vantagem competitiva.

— Esse é um problema da pesquisa de fronteira — disse Ari Morcos ao WSJ, pesquisador de IA que trabalhou na Meta e na unidade DeepMind do Google antes de fundar a DatologyAI no ano passado.

A empresa de Morcos constrói modelos para aprimorar a seleção de dados, o que poderia ajudar as empresas a treinar modelos de IA de forma mais barata.

— Não existe uma maneira estabelecida de fazer isso — afirmou ele.

Os dados fazem parte de uma série de recursos essenciais para o desenvolvimento e que ainda estão em falta. Líderes do setor também estão preocupados com a escassez de data centers. A eletricidade é outro desafio para alimentar estes sistemas, já que eles consomem bastante energia.

Os modelos de linguagem de larga escala (em inglês, large languages models ou LLMs) são os sistemas baseados em IA que vêm sendo construídos. Eles são compostos por uma rede neural com muitos parâmetros. Seu treinamento depende de grandes quantidades de textos que são submetidos ao aprendizado da máquina.

Normalmente, estes textos são retirados da Web - incluindo pesquisas científicas, artigos de notícias e verbetes da Wikipedia, por exemplo. Em seguida, todo esse material é dividido em tokens - palavras e partes de palavras que os modelos usam para aprender a formular expressões humanas. Quanto mais dados são inseridos, mais potentes se tornam esses modelos de IA.

Dona do ChatGPT, a OpenAI apostou alto nesta abordagem de captura dos dados. Mas não fornece detalhes sobre o material usado para treinar o GPT-4, versão que estabeleceu certo padrão para sistemas de IA generativa avançada.

A estimativa é que o GPT-4 tenha sido treinado com até 12 trilhões de tokens, segundo Pablo Villalobos, que estuda inteligência artificial no instituto de pesquisa Epoch.

Ele estima ainda que um sistema superior como o GPT-5 precisaria de 60 trilhões a 100 trilhões de tokens de dados, caso os pesquisadores sigam a trajetória de crescimento atual.

E mesmo com trilhões de tokens a mais, o pesquisador calcula que ainda haveria uma escassez de 10 trilhões a 20 trilhões de tokens para aproveitar todos os dados de linguagem e imagem de alta qualidade disponíveis atualmente. E não está claro como se essa lacuna vai ser preenchida.

Demanda maior que a oferta
Junto com outros pesquisadores, Villalobos calculou há dois anos que havia 50% de chance de a demanda por dados de alta qualidade superar a oferta até meados de 2024. E 90% de chance de que isso acontecesse até 2026. Os estudiosos agora estão mais otimistas e esperam que isso ocorra até 2028.

Há dois grandes desafios para preencher essa escassez de informações. Primeiro, a maioria dos dados disponíveis na web são inúteis para o treinamento de IA porque eles contêm falhas como fragmentos de frases ou não proporcionam novo conhecimento ao modelo.

Villalobos estimou que apenas uma pequena parte da web é útil para esse tipo de treinamento - talvez apenas um décimo das informações coletadas pelo Common Crawl, uma organização sem fins lucrativos cujo arquivo da web é amplamente utilizado por desenvolvedores de IA.

Em segundo lugar, dezenas de redes sociais, jornais e outros canais de mídia têm limitado o acesso aos seus dados para treinamento de IA devido a preocupações com questões como violação de direitos e compensação justa. E há pouco interesse público em fornecer dados de mensagens privadas - como chats pelo iMessage - para ajudar a treinar esses modelos.

O CEO da Meta, Mark Zuckerberg, há pouco tempo destacou o acesso da empresa aos dados de suas plataformas - como WhatsApp, Facebook e Instagram - como uma vantagem significativa para seus esforços de IA.

Como a Meta é a dona de três redes sociais, a empresa poderia extrair centenas de bilhões de imagens e vídeos compartilhados publicamente em suas redes. Mas não está claro qual porcentagem desses dados seria considerada de alta qualidade.

Startups vão atrás de soluções
As startups têm ido atrás de soluções para minimizar esses problemas. A DatologyAI, startup de ferramentas de seleção de dados, usa uma estratégia chamada de "aprendizado de currículo". Os dados são inseridos nos modelos de linguagem em uma ordem específica, na esperança de que a IA forme conexões mais inteligentes entre os conceitos.

Algumas empresas de tecnologia - incluindo a parceira da Microsoft, a OpenAI - estão construindo modelos de linguagem menores que são uma fração do tamanho do GPT-4, mas que poderiam realizar objetivos específicos.

O próprio CEO da OpenAI, Sam Altman, disse que a empresa trabalha em novos métodos para treinar modelos futuros. "Acho que estamos no final da era em que serão esses modelos gigantes, gigantes", disse ele, em uma conferência no ano passado. "E vamos torná-los melhores de outras maneiras".

A OpenAI também discute a criação de um mercado de dados onde poderia criar uma maneira de atribuir quanto valor cada ponto de dados individual contribui para o modelo treinado final e assim pagar ao provedor desse conteúdo, segundo fontes. Essa mesma ideia está sendo discutida dentro do Google. Mas não está claro se há avanços nesta direção.

A OpenAI e a Anthropic também estão experimentando criar seus próprios dados. Mas, para isso dar certo, a aposta precisa ser em dados sintéticos de qualidade. Em uma entrevista recente, o cientista-chefe da Anthropic, Jared Kaplan, disse que alguns dados gerados internamente foram aproveitados para as últimas versões da Claude.

Apesar dos desafios, muitos estudiosos estão otimistas de que soluções surgirão. Villalobos comparou o fenômeno ao "pico do petróleo", momento em que começou a emergir um medo generalizado de que a produção de petróleo pudesse atingir o maior nível e depois entrar em um colapso economicamente doloroso.

Graças a novas tecnologias, essa preocupação acabou se mostrando imprecisa. A fraturação hidráulica, criada no início dos anos 2000, afastou parte dessas preocupações. É possível que o mundo da IA possa ver um desenvolvimento semelhante, diz o pesquisador.

— A maior incerteza é sobre que avanços você verá — disse.

Veja também

Newsletter