MADRID 4 ago. (Portaltic/EP) -
A Xiaomi desenvolveu um modelo de reconhecimento de áudio que lançou como código aberto, o qual oferece uma grande compreensão do contexto do usuário e interage com a linguagem natural em aplicativos para a casa e o automóvel.
O MiDashengLM é o modelo de reconhecimento de áudio da Xiaomi que foi treinado com legendas de áudio gerais que geram uma compreensão mais completa do ambiente, capturando representações de fala, sons ambientes e elementos musicais.
Dessa forma, diferentemente das abordagens de reconhecimento automático de fala (ASR), ele não descarta a música ou os sons do ambiente, nem perde informações que permitem a compreensão do que a voz transmite, como emoção ou propriedades acústicas.
Para isso, ele foi treinado em uma coleção de 38.662 horas de legendas de áudio gerais, coletadas no banco de dados ACAVCaps. O MiDashengLM também se baseia no codificador Dasheng e é alimentado pelo modelo Qwen2.5-Omni-7B Thinker da Alibaba.
O MiDashengLM é um modelo de IA de áudio que demonstra uma forte compreensão do ambiente, sendo capaz de analisar a situação do usuário para dar uma resposta mais humana e em linguagem natural, conforme explicado pela IT Home, uma mídia especializada chinesa.
A Xiaomi destacou o desempenho de seu novo modelo, que "oferece até quatro vezes mais velocidade em termos de tempo para o primeiro token (TTFT) e desempenho até 20 vezes mais rápido do que modelos comparáveis", conforme declarado no white paper.
Atualmente, ele tem mais de 30 aplicações para uso em residências e carros, incluindo monitoramento contínuo de sons anômalos para alto-falantes móveis e detecção aprimorada de arranhões com o modo sentinela no Xiaomi YU7.
O MiDashengLM é lançado sob uma licença de código aberto Apache 2.0 e está disponível no GitHub e no Hugging Face.
Esta notícia foi traduzida por um tradutor automático