O Google fica mais multilíngue, mas será que vai ter nuances?
A nova tecnologia de inteligência artificial está permitindo expandir amplamente o repertório de idiomas do mundo do Google Tradutor.
Cerca de 10 milhões de pessoas falam quíchua, mas tentar traduzir automaticamente e-mails e mensagens de texto para a família de línguas indígenas mais faladas nas Américas era quase impossível.
Isso mudou na quarta-feira, quando o Google adicionou o quíchua e uma variedade de outros idiomas ao seu serviço de tradução digital.
A gigante da internet diz que a nova tecnologia de inteligência artificial está permitindo expandir amplamente o repertório de idiomas do mundo do Google Tradutor. Ele adicionou 24 deles esta semana, incluindo o quíchua e outras línguas indígenas sul-americanas, como o guarani e o aimará. Também está adicionando vários idiomas africanos e do sul da Ásia amplamente falados que estão faltando em produtos de tecnologia populares.
_______
“Analisamos idiomas com populações muito grandes e carentes”, disse o cientista de pesquisa do Google, Isaac Caswell, a repórteres.
_______
As novidades da vitrine anual de tecnologia de E/S da empresa da Califórnia podem ser comemoradas em muitos cantos do mundo. Mas provavelmente também atrairá críticas daqueles frustrados por produtos de tecnologia anteriores que não conseguiram entender as nuances de seu idioma ou cultura.
Uma grande vitória
Adicioná-lo aos idiomas reconhecidos pelo Google é uma grande vitória para ativistas da língua quíchua como Luis Illaccanqui, um peruano que criou o site Qichwa 2.0, que inclui dicionários e recursos para aprender o idioma.
“Isso ajudará a colocar o quíchua e o espanhol no mesmo status”, disse Illaccanqui, que não esteve envolvido no projeto do Google.
Illaccanqui, cujo sobrenome em quíchua significa “você é o raio”, disse que o tradutor também ajudará a manter a língua viva com uma nova geração de jovens e adolescentes, “que falam quíchua e espanhol ao mesmo tempo e são fascinados por redes sociais.”
Grande avanço tecnológico
Caswell chamou a notícia de um “grande avanço tecnológico” porque, até recentemente, não era possível adicionar idiomas se os pesquisadores não conseguissem encontrar uma grande quantidade de texto online – como livros digitais, jornais ou postagens de mídia social – para seus Sistemas de IA para aprender.
Os gigantes da tecnologia dos EUA não têm um grande histórico de fazer sua tecnologia de linguagem funcionar bem fora dos mercados mais ricos, um problema que também tornou mais difícil para eles detectar informações erradas perigosas em suas plataformas.
Até esta semana, o Google Tradutor era oferecido em idiomas europeus como frísio, maltês, islandês e corso – cada um com menos de 1 milhão de falantes – mas não em idiomas da África Oriental como oromo e tigrinya, que têm milhões de falantes.
Os novos idiomas serão lançados esta semana. Eles ainda não serão entendidos pelo assistente de voz do Google, o que os limita a traduções de texto para texto por enquanto. O Google disse que está trabalhando para adicionar reconhecimento de fala e outros recursos, como traduzir um sinal apontando uma câmera para ele.
Isso será importante para línguas amplamente faladas como o quíchua, especialmente no campo da saúde, porque muitos médicos e enfermeiros peruanos que falam apenas espanhol trabalham em áreas rurais e “não conseguem entender os pacientes que falam principalmente quíchua”, disse Illaccanqui.
Desafio: trabalhar na fala
“A próxima fronteira, ou desafio, é trabalhar na fala”, disse Arturo Oncevay, pesquisador peruano de tradução automática da Universidade de Edimburgo, que co-fundou uma coalizão de pesquisa para melhorar a tecnologia da língua indígena nas Américas. “As línguas nativas das Américas são tradicionalmente orais.”
Em seu anúncio, o Google alertou que a qualidade das traduções nos idiomas recém-adicionados “ainda está muito atrás” de outros idiomas suportados, como inglês, espanhol e alemão, e observou que os modelos “cometerão erros e exibirão seus próprios preconceitos”. Mas a empresa só adicionou idiomas se seus sistemas de IA atingirem um certo limite de proficiência, disse Caswell.
“Se houver um número significativo de casos em que está muito errado, não o incluiríamos”, disse ele. “Mesmo que 90% das traduções sejam perfeitas, mas 10% sejam sem sentido, isso é um pouco demais para nós.”
“Zero-shot” ou “Zero-resource”
O Google disse que seus produtos agora suportam 133 idiomas. Os 24 últimos são o maior lote único a ser adicionado desde que o Google incorporou 16 novos idiomas em 2010. O que tornou a expansão possível é o que o Google chama de modelo de tradução automática “zero-shot” ou “zero-resource” – aquele que aprende a traduzir para outro idioma sem nunca ver um exemplo disso.
O modelo do Google funciona treinando um “único modelo de IA neural gigantesco” em cerca de 100 linguagens ricas em dados e, em seguida, aplicando o que aprendeu a centenas de outras linguagens que não conhece, disse Caswell.
_________
“Imagine se você é um grande poliglota e começa a ler romances em outro idioma, pode começar a entender o que isso pode significar com base em seu conhecimento de linguagem em geral”, disse ele.
_______
Ele disse que o novo grupo varia de línguas menores, como o Mizo, falado no nordeste da Índia por cerca de 800.000 pessoas, a idiomas mais falados, como o lingala, falado por cerca de 45 milhões de pessoas em toda a África Central.
Foi há mais de 15 anos – em 2006 – que a Microsoft obteve alguma atenção positiva na América do Sul com um recurso de software que traduz menus e comandos familiares da Microsoft para o quíchua. Mas isso foi antes da atual onda de avanços da IA na tradução em tempo real.
O estudioso de idiomas da Universidade de Harvard Américo Mendoza-Mori, que fala quíchua, disse que chamar a atenção do Google traz a visibilidade necessária para o idioma em lugares como o Peru, onde os falantes de quíchua ainda carecem de muitos serviços públicos. A sobrevivência de muitas dessas linguagens “vai depender de seu uso em contextos digitais”, disse ele.
Revitalização linguística
Outro estudioso de idiomas, Roberto Zariquiey, disse estar cético de que o Google possa fazer uma ferramenta eficaz de revitalização linguística para quíchua, aimará ou guarani sem a participação mais próxima de grupos comunitários da região.
“As línguas estão profundamente ligadas a vidas, culturas, grupos étnicos e organizações políticas”, disse Zariquiey, linguista da Pontifícia Universidade Católica do Peru. “Isso deve ser levado em consideração.”
Novos idiomas adicionados
Os novos idiomas adicionados são: Assamese, Aymara, Bambara, Bhojpuri, Dhivehi, Dogri, Ewe, Guarani, Ilocano, Konkani, Krio, Lingala, Luganda, Maithili, Meiteilon (Manipuri), Mizo, Oromo, Quechua, Sânscrito, Sepedi, Sorani Curdo, Tigrinya, Tsonga e Twi.
Com informações: AP News / Fox 17 / The Star