Meta cria tradutor simultâneo de 101 idiomas mais preciso da história
Inteligência artificial imita a voz dos interlocutores, filtra mais de 40% do ruído e, ao contrário da estratégia de rede de Zuckerberg, mitiga a "toxicidade" ao moderar mensagens violentas
Meta, a empresa de Mark Zuckerberg, multinacional do Facebook, Instagram e WhatsApp, desenvolveu um modelo de inteligência artificial (IA) capaz de traduzir instantaneamente comunicações por voz ou texto em até 101 idiomas, imitando a expressão e o tom dos interlocutores.
Leia também
• CEO do TikTok agradece a Trump por buscar solução para o futuro do aplicativo chinês nos EUA
• Trump diz que tomará decisão em breve sobre o TikTok após decisão da Suprema Corte
• Suprema Corte aprova lei que contempla proibição do TikTok nos EUA
A novidade, publicada nesta sexta-feira na revista Nature, é denominada SEAMLESSM4T, e promete superar os sistemas existentes.
Segundo a pesquisadora-chefe Marta Costa-Jussà, da divisão de inteligência artificial da Meta (FAIR, Foundational AI Research), o modelo será disponibilizado ao público e utilizado posteriomente para fins comerciais.
O SEAMLESSM4T pode reconhecer até 101 idiomas (escritos ou falados) e é capaz de traduzi-los em 36 em formato de voz e 96 em arquivo de texto.
De acordo com os resultados de Costa-Jussà, “traduz com 8% a 23% mais precisão do que os sistemas existentes, pode filtrar o ruído de fundo (entre 42% e 66% mais) e ajusta-se a variação de vozes.”
“A margem de erro varia dependendo dos idiomas de entrada e saída. A melhor forma de resolver isso seria aumentar a variedade de dados de treinamento e melhorar a modelagem para que ela possa aprender com menos dados”, explica a pesquisadora, que destaca a capacidade de identificar nuances na entonação: “Leva em conta o que chamamos de expressividade e somos capazes de transferir tais características da entrada para a saída.”
Enquanto a Meta eliminou o sistema de verificação de dados e moderação de conteúdos nas suas plataformas de comunicação, o sistema de tradução simultânea optou pela estratégia oposta, com um sistema de “mitigação de toxicidade”.
Olga Koreneva Antonova, professora da Faculdade de Tradução e Interpretação da Universidade Pablo de Olavide (UPO), alerta que, por exemplo, os atuais tradutores de computador “não consideram a igualdade de gênero” e tendem a substituir o feminino pelo masculino porque as fontes com as quais se treina já incluem esse preconceito.
A Meta também altera palavrões ou resultados que possam incitar ódio, violência ou abuso contra uma pessoa ou grupo (com base em religião, raça ou gênero).
Para mitigá-lo, desenvolveu uma ferramenta chamada Etox, especialmente treinada em elementos tóxicos da fala.
Outra limitação que o novo sistema tenta superar é a escassez de linguagens operacionais. Embora mais de metade da humanidade fale principalmente meia dúzia de línguas, a diversidade é tão ampla que as mais de 7 mil existentes no mundo estão fora de serviço.
O modelo Meta tentou aliviar esta deficiência incorporando até 101 idiomas, apesar da escassez de dados de áudio e modelos para incorporá-los à IA.
Tanel Alumäe , do laboratório de tecnologia linguística da Universidade de Tallinn, na Estônia, destaca na Nature a alta capacidade do sistema de traduzir fala simultaneamente graças a dados de 4,5 milhões de horas de áudio falado multilíngue.
“Esse tipo de treinamento ajuda o modelo a aprender padrões a partir dos dados, facilitando o ajuste para tarefas específicas sem a necessidade de grandes quantidades de dados de treinamento personalizados”, explica.
No entanto, na sua opinião, “a maior virtude deste trabalho não é a ideia ou o método proposto, mas o fato de todos os dados e códigos para executar e otimizar esta tecnologia estarem publicamente disponíveis, embora o modelo em si só possa ser utilizado para usos não comerciais.”
Allison Koenecke, do Departamento de Ciências da Informação da Universidade Cornell, alerta, também na Nature, para as limitações destes sistemas de tradução, apesar do seu progresso, em ambientes onde a precisão é essencial, como em atividades médicas ou jurídicas.
“Modelos como o desenvolvido pela SEAMLESS estão acelerando o progresso nesta área, mas os usuários desses modelos (médicos e funcionários judiciais, por exemplo) devem estar cientes da falibilidade das tecnologias de fala. Esse tipo de erro induzido por máquina pode causar danos reais, como prescrever erroneamente um medicamento ou acusar uma pessoa. E os danos afetam desproporcionalmente as populações marginalizadas, que provavelmente serão mal ouvidas.”
Koenecke saúda os esforços para eliminar a “toxicidade” das traduções, mas defende “ampliar o escopo dos preconceitos linguísticos estudados” e alertar os usuários sobre as possibilidades de erro.
Apesar dos avanços no sistema de tradução, o modelo levanta suspeitas entre alguns pesquisadores. Um dos mais críticos é Víctor Etxebarria, professor de Engenharia de Sistemas e Automação da Universidade do País Basco (UPV/EHU).
“Não contribui para o progresso científico, pois, com base no que é publicado, especialistas independentes não têm permissão para reproduzir, verificar ou mesmo melhorar suas bases tecnológicas. Eles só têm acesso para se conectar ao tradutor para realizar traduções superficiais. Este software não cumpre os princípios da IA de código aberto, conforme definido pela Open Source Initiative: usar, estudar, modificar e compartilhar para qualquer finalidade. Este tradutor não permite isso e, portanto, não é consistente com os princípios da ciência aberta”, afirma ao Science Media Center (SMC) Espanha.
E mesmo reconhecendo alguma virtude como ferramenta de ajuda, o pesquisador acrescenta: “O produto não evita atrasos ou erros de tradução, que não corrige em tempo real, como fazem os tradutores. Outra limitação é que ele só pode ser utilizado online através da API (Application Programming Interface) imposta pela empresa. No geral, o tradutor é um produto tecnológico avançado e provavelmente muito útil, mas fechado aos princípios da ciência aberta e com múltiplas limitações tecnológicas e legais.
Maite Martín, professora de Ciência da Computação da Universidade de Jaén e pesquisadora do grupo SINAI (INTELLIGENT Information Access Systems), destaca a incorporação de linguagens com poucos recursos (mais minoritárias), embora à custa de uma maior taxa de erro.
“Este esforço não só melhora a acessibilidade das tecnologias de tradução para estas comunidades, mas também marca o progresso na inclusão linguística ao democratizar o acesso a ferramentas avançadas de comunicação”, explica.
Ao contrário de Etxebarria, a investigadora considera que o acesso à comunidade científica está garantido e elogia “a interação em tempo real, a expressividade da voz traduzida e a mitigação dos preconceitos e da toxicidade de gênero”.
“Embora o SEAMLESSM4T represente um avanço significativo, ainda há trabalho a fazer para otimizar a sua implementação em cenários práticos”, conclui SMC.
Em relação à toxicidade, Andreas Kaltenbrunner, pesquisador-chefe do grupo AI and Data for Society da UOC, lembra a contradição do Meta com sua recente estratégia de suprimir a moderação de conteúdo e promovê-la no tradutor: “É louvável que o estudo inclui uma análise para saber se as traduções aumentam a toxicidade dos textos ou como abordam possíveis preconceitos de gênero.
No entanto, é lamentável que a Meta, a empregadora dos investigadores neste estudo, pareça ter recentemente decidido abandonar os esforços neste sentido com a sua nova política de moderação de conteúdo.”
Kaltenbrunner lembra na SMC que o desenvolvimento é uma variante daquele apresentado em agosto de 2023, mas com melhorias na unificação do ambiente de uso, nos idiomas incluídos, nos filtros de ruído e na diversidade de sotaques.