Em parceria com a Lenovo, CESAR desenvolve tradutor de linguagem de sinais em tempo real
Ferramenta é capaz de contextualizar a linguagem de sinais facilitando a comunicação
RIO DE JANEIRO - Ultrapassando a barreira da linguagem para promover a comunicação, uma ferramenta criada pelo Centro de Estudos Avançados e Sistemas do Recife (CESAR) em conjunto com a Lenovo tem o potencial de facilitar na inclusão de milhões de brasileiros que têm surdez profunda e possuem dificuldades para conversar com pessoas ouvintes.
Com o auxílio da inteligência artificial, a ferramenta realiza a tradução da linguagem de sinais em tempo real para pessoas ouvintes. Após cinco anos de co-desenvolvimento, o projeto foi demonstrado durante o Web Summit Rio 2024, evento de tecnologia e inovação que aconteceu no Rio de Janeiro na última semana.
O diferencial do sistema está na sua capacidade de contextualizar gestos individuais, gerando assim a tradução não apenas das palavras como também de frases completas. Esse processo facilita a comunicação ao integrar as palavras e levar para o usuário uma frase já contextualizada auxiliando no entendimento da mensagem.
Leia Também
• Airchat: rede social de áudio mistura X e Clubhouse e já recebeu cheque do "pai" do ChatGPT
• Galaxy Book4 Series: conheça a nova linha de notebook lançada pela Samsung Brasil nesta quarta (17)
• Rede social que não permite ofensas, Striver é lançado oficialmente no Brasil
Para tal, a inteligência artificial foi alimentada com dados de milhares de vídeos da Língua Brasileira de Sinais (LIBRAS). Após realizar a identificação visual, o sistema transforma, em tempo real, as frases em mensagens de texto e áudio em português.
A ferramenta é pioneira mundialmente e tem o potencial de ser aplicada em outras línguas. Atualmente, de acordo com a Organização Mundial da Saúde (OMS), cerca de 430 milhões de pessoas em todo o mundo têm perda auditiva moderada ou grave no ouvido com melhor audição. No Brasil, a surdez profunda atinge cerca de 2,3 milhões de pessoas.
A arquitetura do sistema de tradução é semelhante a utilizada pelo GPT-3 e tem como base redes neurais de aprendizado profundo. Para gerar os vídeos de linguagem de sinais, um avatar virtual foi criado utilizando uma Rede Generativa Adversarial (GAN), modelo de IA que é composto por uma rede neural capaz de gerar novos dados e uma segunda rede neural treinada para distinguir amostras reais das geradas pela outra rede.
"Uma equipe de 80 pessoas, incluindo cinco profissionais surdos, trabalhou no projeto para garantir que tivéssemos contribuições diretas da comunidade que o tradutor de linguagem de sinais em tempo real irá atender. O propósito deste projeto vai além de oferecer um novo serviço. Nós entendemos a importância da acessibilidade e inclusão e, junto com a Lenovo, buscamos desenvolver algo com impacto na sociedade" afirmou Vitor Casadei, gerente de ciência de dados na CESAR, que co-liderou a iniciativa.
Com grande potencial de aplicação mundial, o projeto do primeiro tradutor de linguagem de sinais em tempo real foi finalista da edição do SXSW Innovation Awards, premiação do maior festival de tecnologia e inovação do mundo, fato que é motivo de orgulho para os desenvolvedores.
"É uma honra fazer parte deste projeto inspirador. Como parte da visão da Lenovo de oferecer tecnologia inteligente para todos, esta nova solução de IA preenche lacunas de comunicação existentes, além de aprimorar seu uso para acelerar a aprendizagem de LIBRAS usando visão computacional para rastrear a precisão dos gestos e 'instruir' os usuários a fazer ajustes específicos," destacou Hildebrando Lima, Diretor de P&D da Lenovo.