MADRI 18 dez. (Portaltic/EP) -
A Xiaomi apresentou o MiMo-V2-Flash, um modelo de inteligência artificial (IA) de código aberto que oferece desempenho próximo ao DeepSeek V3.2 e ao Google Gemini 3 Pro em cenários de raciocínio, programação e agentes com eficiência e baixo custo.
O MiMo-V2-Flash é um modelo que usa a arquitetura Mixture of Experts (MoE) com 309 bilhões de parâmetros, 15 bilhões dos quais estão ativos, para fornecer um processamento mais eficiente, convertendo o modelo em pequenos modelos especializados que são ativados seletivamente, dependendo do tipo de entrada de informações, para executar uma tarefa conjunta com mais eficiência.
Esse modelo também adota uma arquitetura de atenção híbrida em uma proporção de 1:5, usando atenção global e atenção de janela deslizante (de 128 tokens). Essa última restringe o escopo de atenção de cada token a uma janela local em vez de toda a sequência, o que reduz a complexidade computacional e de memória.
Além disso, o MiMo-V2-Flash é pré-treinado com 27 bilhões de tokens de fontes de alta qualidade usando a previsão de vários tokens, permitindo que o modelo use vários tokens para verificar em paralelo durante uma inferência - um processo no qual a IA faz uma previsão ou dá uma resposta a uma solicitação - sem aumentar o uso da memória.
De modo geral, isso torna o modelo da Xiaomi "poderoso, eficiente e ultrarrápido", como afirma a empresa na página dedicada. Quando comparado em avaliações de benchmark, sua sólida capacidade de raciocínio, desempenho de programação e cenários agênticos são destacados, oferecendo desempenho muito próximo ao do DeepSeek V3.2 thinking e do Google Gemini 3 Pro.
Entre as opções que oferece, o MiMo-V2-Flash pode alternar entre um modo de raciocínio, que leva tempo para fornecer uma resposta fundamentada, e um modo que fornece a resposta mais rapidamente, e pode gerar páginas da Web HTML funcionais com um único clique.
Ele também suporta uma janela de contexto de até 256.000 tokens, de modo que pode concluir as tarefas solicitadas em "centenas de rodadas de interações de agentes e chamadas de ferramentas", de acordo com a Xiaomi.
A empresa também destacou o baixo custo de uso do modelo, alegando que ele oferece inferência de 150 tokens por segundo a um custo ultrabaixo de US$ 0,1 por milhão de tokens de entrada e US$ 0,3 por milhão de tokens de saída.
O MiMo-V2-Flash é de código aberto e os pesos para esse modelo podem ser encontrados no Hugging Face e na Xiaomi MiMo API Open Platform.
Esta notícia foi traduzida por um tradutor automático