TECNOLOGIA

OpenAI apresenta ferramenta de áudio que ler texto e imita vozes

Empresa diz estar ouvindo instituições de diversos países sobre a Voice Engine, por enquanto disponível apenas para poucos desenvolvedores. Teme-se aumento da criação de 'deepfakes'

Empresa é responsável pelo Chat GPT - Foto: ChatGPT/Reprodução

A OpenAI divulgou os primeiros resultados de um teste para um recurso que pode ler palavras em voz alta com uma voz humana convincente. A ferramenta define uma nova fronteira para a inteligência artificial (IA) e aumenta os riscos do uso de deepfake, a criação de conteúdos falsos.

A empresa está compartilhando as primeiras demonstrações e uma prévia dos casos de uso do modelo de conversão de texto em fala, chamado Voice Engine, que foi demonstrado a cerca de 10 desenvolvedores até agora, disse um porta-voz. A OpenAI decidiu ser contrária a uma implementação mais ampla do recurso.

Leia também

• Apple negocia uso da inteligência artificial da Baidu em smartphones chineses, diz jornal

• Inteligência Artificial: um novo conceito no mercado imobiliário

• Arábia Saudita planeja investir US$ 40 bilhões em inteligência artificial

Um porta-voz da empresa disse que a opção por reduzir esse lançamento veio depois de receber feedback de partes interessadas, como legisladores, especialistas do setor, educadores e criativos.

A empresa planejou inicialmente lançar a ferramenta para até 100 desenvolvedores por meio de um processo de inscrição, de acordo com a coletiva de imprensa anterior.

Em uma publicação feita num blog na última sexta-feira, a empresa disse reconhecer que promover a ferramenta de geração de falas que se assemelhe às vozes das pessoas apresenta sérios riscos, ainda mais em um ano eleitoral.

“Estamos nos envolvendo com parceiros dos EUA e também internacionais de todos os setores, como o governo, mídia, entretenimento, educação, sociedade civil e outros, para garantir que incorporamos suas opiniões à medida que construímos”, disse.

Outras tecnologias de IA já foram usadas para falsificar vozes em alguns contextos. Em janeiro, um telefonema falso, mas de aparência realista, supostamente do presidente Joe Biden, encorajou as pessoas em New Hampshire a não votarem nas primárias – um evento que alimentou temores sobre a IA antes de eleições globais críticas.

Ao contrário dos esforços anteriores da OpenAI para gerar conteúdo de áudio, o Voice Engine pode criar falas que soam como pessoas individuais, completas com sua cadência e entonações específicas. Tudo o que o software precisa são 15 segundos de áudio gravado de uma pessoa falando para recriar sua voz.

Durante uma demonstração da ferramenta, a Bloomberg ouviu um vídeo do CEO da OpenAI, Sam Altman, explicando brevemente a tecnologia em uma voz que era extremamente parecida com a sua, mas foi inteiramente gerada por IA.

– Se você tiver a configuração de áudio correta, é basicamente uma voz humana padrão. É uma qualidade técnica bastante impressionante – disse Jeff Harris, líder de produto da OpenAI.

Ele, no entanto, reconhece que a ferramenta pode trazer riscos:

– Há obviamente muita delicadeza de segurança em torno da capacidade de imitar com precisão a fala humana.

Um dos atuais parceiros desenvolvedores da OpenAI e que também usa a ferramenta é o Instituto de Neurociências Norman Prince, ligado à ONG de saúde Lifespan. Eles estão usando a tecnologia para ajudar os pacientes a recuperar a voz.

A ferramenta foi usada para restaurar a voz de uma jovem paciente que perdeu a capacidade de falar de forma clara devido a um tumor cerebral. A replicação sua fala veio de uma gravação anterior, feita para um projeto escolar, disse o blog da empresa.

O modelo de fala personalizado da OpenAI também pode traduzir o áudio gerado para diferentes idiomas. Isso o torna útil para empresas do ramo de áudio, como o Spotify. Este já usou a tecnologia em seu próprio programa piloto para traduzir podcasts de apresentadores populares, como Lex Fridman.

A OpenAI também elogiou outras aplicações benéficas da tecnologia, como a criação de uma gama mais ampla de vozes para conteúdo educacional para crianças.

No programa de testes, a OpenAI exige que seus parceiros concordem com suas políticas de uso, obtenham o consentimento do locutor original antes de usar sua voz e divulguem aos ouvintes que as vozes que estão ouvindo são geradas por IA.

A empresa também está instalando uma marca d'água de áudio inaudível para permitir distinguir se um trecho de áudio foi criado por sua ferramenta.

Antes de decidir se lançará o recurso de forma mais ampla, a OpenAI disse que está solicitando feedback de especialistas externos. “É importante que as pessoas em todo o mundo entendam para onde esta tecnologia está indo, quer nós mesmos a implantemos amplamente ou não”, disse a empresa no blog.

A OpenAI também disse que espera que a pré-visualização do seu software “motive a necessidade de reforçar a resiliência social” contra os desafios trazidos pelas tecnologias de IA mais avançadas.

Um exemplo disso foi o apelo que a empresa fez aos bancos para eliminarem gradualmente a autenticação de voz como medida de segurança para clientes acessarem a contas bancárias e informações sensíveis.

A empresa também busca fornecer educação pública sobre conteúdo enganoso feito por IA e um maior desenvolvimento de técnicas para detectar se o conteúdo de áudio é real ou gerado por inteligência artificial.

Reportar Erro

Leia também

• Apple negocia uso da inteligência artificial da Baidu em smartphones chineses, diz jornal

• Inteligência Artificial: um novo conceito no mercado imobiliário

• Arábia Saudita planeja investir US$ 40 bilhões em inteligência artificial

Veja também