O Meta leva a transcrição de fala para texto a mais de 1.600 idiomas, 500 deles pela primeira vez

A palavra "welcome" (bem-vindo) em diferentes idiomas

UNSPLASH/ZHENDONG WANG

MADRI 11 nov. (Portaltic/EP) -

A Meta apresentou um modelo com recursos de reconhecimento automático de fala para mais de 1.600 idiomas, incluindo os menos representados, o que considera "um avanço significativo em direção a um sistema de transcrição verdadeiramente universal".

A empresa de tecnologia apresentou as novas ferramentas com as quais busca preencher a lacuna existente na tecnologia de reconhecimento automático de fala, de modo que os sistemas de conversão de fala em texto de alta qualidade também possam alcançar idiomas menos falados e com poucos recursos.

Uma dessas ferramentas é o Omnilingual ASR, um conjunto de modelos que oferece reconhecimento automático de fala em mais de 1.600 idiomas, incluindo 500 idiomas que nunca foram transcritos por IA. Para a empresa, isso "representa um avanço significativo na criação de um sistema de transcrição verdadeiramente universal".

De acordo com seus dados, o Omnilingual ASR "alcança desempenho de ponta em mais de 1.600 idiomas, com taxas de erro de caracteres inferiores a 10% em 78% deles". Os idiomas com poucos recursos e menos de dez horas de treinamento apresentam taxas de erro de caracteres inferiores a 10% em 36% dos casos.

Os sistemas de reconhecimento automático de fala exigem grandes quantidades de dados de idiomas para transcrições precisas. Como nem todos têm recursos suficientes, o Meta introduziu uma abordagem baseada no aprendizado contextual para que transcrições de qualidade aceitável possam ser obtidas a partir de alguns exemplos de áudio e texto emparelhados.

"Embora o desempenho sem exemplos de aprendizado ainda seja inferior ao de sistemas totalmente treinados, ele oferece uma maneira muito mais escalável de trazer novos idiomas para o domínio digital", afirma a empresa em seu blog sobre IA.

A Meta oferece o Omnilingual ASR em dois tamanhos: com 7 bilhões de parâmetros e com 300 milhões de parâmetros, este último para uso em dispositivos de baixo consumo de energia; e o acompanha com seu modelo de reconhecimento de fala de uso geral wav2vec 2.0. Todas essas ferramentas estão disponíveis em um modo de código aberto.

A empresa também disponibilizou o corpus Omnilingual ASR, o conjunto de dados de treinamento Omnilingual ASR, que é "um dos maiores já criados para essa finalidade, tanto em termos de volume quanto de diversidade linguística", e que "abrange centenas de idiomas nunca antes vistos pelos sistemas ASR".

Esta notícia foi traduzida por um tradutor automático

O Meta leva a transcrição de fala para texto a mais de 1.600 idiomas, 500 deles pela primeira vez

Contenido patrocinado