MADRID 19 mar. (Portaltic/EP) -
A Xiaomi apresentou os novos modelos MiMo-V2-Pro, Omni e TTS, voltados para agentes de inteligência artificial, aos quais oferece recursos de orquestração de fluxos de trabalho, capacidades multimodais avançadas e a capacidade de falar e cantar, tudo isso para operar no mundo real.
O MiMo é uma plataforma inteligente universal com a qual a Xiaomi pretende levar a IA a todos os usuários em um contexto de colaboração entre pessoas e máquinas. Os novos modelos lançados globalmente se concentram nos agentes, com três variantes que buscam potencializar diferentes capacidades.
O MiMo-V2-Pro foi projetado para orquestrar os fluxos de trabalho com agentes. Para isso, foi desenvolvido com um bilhão de parâmetros, 42 bilhões deles ativos, e um mecanismo de atendimento híbrido aprimorado que combina automação com intervenção humana na proporção de 7:1.
Além de responder a perguntas e gerar demonstrações, a Xiaomi garante que o MiMo-V2-Pro foi “projetado para realizar tarefas” em ambientes de produtividade.
Ele também está otimizado para cenários com agentes e utiliza como motor a estrutura OpenClaw, juntamente com uma janela de contexto de até um milhão de tokens para “suportar sem problemas fluxos de aplicativos de alta intensidade e do mundo real”.
Por sua vez, o MiMo-V2-Omni é um “modelo omnidirecional que combina uma compreensão multimodal de ponta com uma sólida capacidade de gerenciamento de agentes”. Isso significa que ele pode perceber, compreender e raciocinar com imagem, vídeo e áudio simultaneamente para operar no mundo real.
No áudio, ele é capaz de identificar e separar o som ambiente em um cenário onde há também várias pessoas falando, em combinação com o conteúdo visual e por dez horas seguidas.
Ele pode compreender e analisar gráficos complexos, enquanto nos vídeos demonstra uma compreensão profunda da ação, com a capacidade de antecipar o que vai acontecer a seguir com base no contexto.
O terceiro modelo, MiMo-V2-TTS, proporciona interação multimodal aos agentes, dando-lhes voz para que possam se expressar. Segundo a Xiaomi, “não é um mecanismo passivo de conversão de texto em voz, mas uma extensão natural de como um agente se comunica e se conecta”.
Este modelo dota os agentes da capacidade de compreender o contexto emocional, para adaptar as conversas em tom e entonação; permite que se adaptem a uma ampla variedade de estilos de conversa de acordo com o nível de formalidade; e os ajuda a manter uma conversa natural, fluida e em tempo real.
A isso se soma a capacidade de compreender eventos paralinguísticos, como tosse, pausas, expressões de hesitação, suspiros e risadas; o que se estende também aos textos, com letras maiúsculas para ênfase, repetição de caracteres e pontuação.
Para isso, o MiMo-V2-TTS foi pré-treinado com mais de 100 milhões de horas de dados de voz e aperfeiçoado por meio de aprendizado por reforço multidimensional, para que a expressividade resulte natural em cada contexto.
O MiMo-V2-TTS também tem a capacidade de cantar. “Isso a torna a única API de síntese de voz disponível comercialmente que suporta nativamente tanto a geração de voz falada quanto a cantada. Sem modelos separados. Sem mudança de modo. A mesma arquitetura que transmite uma confissão sussurrada pode interpretar um refrão pop em volume máximo”, indicou a Xiaomi.
Esta notícia foi traduzida por um tradutor automático