INTELIGÊNCIA ARTIFICIAL

OpenAI: ex-pesquisador diz que empresa violou a lei de direitos autorais

Suchir Balaji ajudou a reunir e organizar as enormes quantidades de dados da internet usados para treinar o chatbot ChatGPT da startup

ChatGPT - ChatGPT/Reprodução

Suchir Balaji passou quase quatro anos como pesquisador de inteligência artificial na OpenAI. Entre outros projetos, ele ajudou a reunir e organizar as enormes quantidades de dados de internet que a empresa usou para construir seu chatbot online, o ChatGPT.

Na época, ele não considerou cuidadosamente se a empresa tinha o direito legal de construir seus produtos dessa forma. Ele assumiu que a start-up de São Francisco era livre para usar quaisquer dados da internet, fossem eles protegidos por direitos autorais ou não.

Mas após o lançamento do ChatGPT no final de 2022, ele pensou mais profundamente sobre o que a empresa estava fazendo. Ele chegou à conclusão de que o uso de dados protegidos por direitos autorais pela OpenAI violava a lei, e que tecnologias como o ChatGPT estavam prejudicando a internet. Em agosto, ele deixou a OpenAI porque não queria mais contribuir com tecnologias que ele acreditava que trariam mais danos do que benefícios à sociedade.

“Se você acredita no que eu acredito, você tem que simplesmente deixar a empresa”, ele disse durante uma série recente de entrevistas para o The New York Times.

Balaji, de 25 anos, que não aceitou um novo emprego e está trabalhando no que ele chama de “projetos pessoais”, está entre os primeiros funcionários a deixar uma grande empresa de IA, e falar publicamente contra a maneira como essas empresas usaram dados protegidos por direitos autorais para criar suas tecnologias. Um ex-vice-presidente da start-up Stability AI de Londres, especializada em tecnologias de geração de imagem e áudio, fez argumentos semelhantes.

Nos últimos dois anos, vários indivíduos e empresas processaram várias instituições que desenvolvem IA, incluindo a OpenAI, argumentando que elas usaram ilegalmente material protegido por direitos autorais para treinar suas tecnologias. Aqueles que entraram com ações judiciais incluem programadores de computador, artistas, gravadoras, autores de livros e organizações de notícias.

Em dezembro, o The New York Times processou a OpenAI e sua principal parceira, a Microsoft, alegando que eles usaram milhões de artigos publicados pelo The Times para construir chatbots que agora competem com o canal de notícias como fonte de informação confiável. Ambas as empresas negaram as alegações.

Muitos pesquisadores que trabalharam dentro da OpenAI e outras empresas de tecnologia alertaram que as tecnologias de IA podem causar danos sérios. Mas a maioria desses avisos tem sido sobre riscos futuros, como sistemas de IA que podem um dia ajudar a criar novas armas biológicas ou até mesmo destruir a humanidade.

Balaji acredita que as ameaças são mais imediatas. O ChatGPT e outros chatbots, ele disse, estão destruindo a viabilidade comercial dos indivíduos, empresas e serviços de internet que criaram os dados digitais usados para treinar esses sistemas de IA.

“Este não é um modelo sustentável para o ecossistema da internet como um todo”, disse ele ao The Times.

A OpenAI discorda de Balaji, dizendo em uma declaração: “Construímos nossos modelos de IA usando dados disponíveis publicamente, de uma maneira protegida pelo uso justo e princípios relacionados, e apoiados por precedentes legais de longa data e amplamente aceitos. Vemos esse princípio como justo para os criadores, necessário para os inovadores e crítico para a competitividade dos EUA.”

Em 2013, uma startup de inteligência artificial de Londres chamada DeepMind revelou uma tecnologia de IA que aprendeu a jogar jogos clássicos da Atari sozinha, incluindo Space Invaders, Pong e Breakout.

Quando Balaji era um adolescente crescendo em Cupertino, Califórnia, ele tropeçou em uma notícia sobre a tecnologia. Ela capturou sua imaginação, assim como uma criação posterior da DeepMind que dominava o antigo jogo de Go.

“Eu pensei que a IA era algo que poderia ser usado para resolver problemas insolúveis, como curar doenças e parar o envelhecimento”, ele disse. “Eu pensei que poderíamos inventar algum tipo de cientista que pudesse ajudar a resolvê-los.”

Durante um ano sabático após o ensino médio e como estudante de ciência da computação na Universidade da Califórnia, Berkeley, Balaji começou a explorar a ideia-chave por trás das tecnologias da DeepMind: um sistema matemático chamado rede neural que poderia aprender habilidades analisando dados digitais.

Em 2020, ele se juntou a um grupo de graduados de Berkeley que foram trabalhar para a OpenAI. No início de 2022, Balaji começou a coletar dados digitais para um novo projeto chamado GPT-4. Esta era uma rede neural que passou meses analisando praticamente todos os textos em inglês na internet.

Ele e seus colegas, disse Balaji, trataram isso como um projeto de pesquisa. Embora a OpenAI tenha se transformado recentemente em uma empresa lucrativa e tenha começado a vender acesso a uma tecnologia semelhante chamada GPT-3, eles não pensavam em seu trabalho como algo que competiria com os serviços de internet existentes. O GPT-3 não era um chatbot. Era uma tecnologia que permitia que empresas e programadores de computador construíssem outros aplicativos de software.

“Com um projeto de pesquisa, você pode, falando de modo geral, treinar em qualquer dado”, disse Balaji. “Essa era a mentalidade na época.”

Então a OpenAI lançou o ChatGPT. Inicialmente impulsionado por um precursor do GPT-4 e depois pelo próprio GPT-4, o chatbot atraiu a atenção de centenas de milhões de pessoas e rapidamente se tornou um gerador de dinheiro.

A OpenAI, a Microsoft e outras empresas disseram que usar dados da internet para treinar seus sistemas de IA atende aos requisitos da doutrina do “uso justo”. A doutrina tem quatro fatores. As empresas argumentam que esses fatores — incluindo que elas transformaram substancialmente as obras protegidas por direitos autorais e não estavam competindo no mesmo mercado com um substituto direto para essas obras — jogam a seu favor.

Balaji não acredita que esses critérios tenham sido atendidos. Quando um sistema como o GPT-4 aprende com dados, ele disse, ele faz uma cópia completa desses dados. A partir daí, uma empresa como a OpenAI pode ensinar o sistema a gerar uma cópia exata dos dados. Ou pode ensinar o sistema a gerar texto que não é de forma alguma uma cópia. A realidade, ele disse, é que as empresas ensinam os sistemas a fazer algo intermediário.

“As saídas não são cópias exatas das entradas, mas também não são fundamentalmente novas”, ele disse. Esta semana, ele postou um ensaio em seu site pessoal que incluía o que ele descreve como uma análise matemática que visa mostrar que essa afirmação é verdadeira.

Mark Lemley, professor de direito da Universidade de Stanford, argumentou o oposto. A maior parte do que os chatbots produzem, ele disse, é suficientemente diferente de seus dados de treinamento.

“Ocasionalmente, há circunstâncias em que uma saída parece uma entrada”, ele disse. “Uma vasta maioria das coisas geradas por um ChatGPT ou um sistema de geração de imagens não se baseiam muito em um pedaço específico de conteúdo.”

A tecnologia viola a lei, argumentou Balaji, porque em muitos casos ela compete diretamente com os trabalhos protegidos por direitos autorais dos quais aprendeu. Modelos generativos são projetados para imitar dados online, ele disse, para que possam substituir “basicamente qualquer coisa” na internet, de notícias a fóruns online.

O problema maior, ele disse, é que, à medida que as tecnologias de IA substituem os serviços de internet existentes, elas estão gerando informações falsas e, às vezes, completamente inventadas — o que os pesquisadores chamam de “alucinações”. A internet, ele disse, está mudando para pior.

Bradley J. Hulbert, advogado de propriedade intelectual especializado em leis de propriedade intelectual, disse que as leis de direitos autorais intelectuais atualmente em vigor foram escritas bem antes do surgimento da IA e que nenhum tribunal ainda decidiu se tecnologias de IA como o ChatGPT violam a lei.

Ele também argumentou que o Congresso deveria criar uma nova lei que abordasse essa tecnologia. “Dado que a IA está evoluindo tão rapidamente”, ele disse, “é hora do Congresso intervir”.

Balaji concordou. “A única saída para tudo isso é a regulamentação”, disse ele.