Publicado 27/02/2025 05:02

A Microsoft lança os modelos Phi-4-multimodal e Phi-4-mini para oferecer recursos avançados de IA aos desenvolvedores

Microsoft
PETER KNEFFEL/DPA - ARCHIVO

MADRI, 27 fev. (Portaltic/EP) -

A Microsoft anunciou dois novos modelos de linguagem pequenos (SLMs) na família Phi, Phi-4-multimodal e Phi-4-mini, que foram projetados para fornecer aos desenvolvedores recursos avançados de Inteligência Artificial (IA) em tarefas de processamento de fala, texto e imagem.

A empresa comentou em seu blog que esses modelos são "ideais para cenários extremos e ambientes com restrições de computação" e já estão sendo usados para explorar diferentes casos de uso em vários setores, incluindo a detecção de anomalias na fabricação ou o aprimoramento das experiências dos clientes no varejo.

O Phi-4-multimodal é um modelo com 5,6 bilhões de parâmetros, que integra processamento de fala, imagem e texto em uma única arquitetura unificada. Como ele aproveita técnicas avançadas de aprendizado multimodal, permite interações "mais naturais e sensíveis ao contexto", disse a Microsoft.

O modelo pode processar imagens e áudio ao mesmo tempo, bem como gráficos, tabelas e documentos, superando modelos especializados como o WhisperV3 e o SeamlessM4T-v2-Large em tarefas de tradução e reconhecimento automático de fala. Além disso, ele oferece inferência de baixa latência e alta eficiência, otimizando o desempenho no dispositivo e reduzindo a sobrecarga computacional.

A Microsoft também observou que o Phi-4-multimodal "está entre os poucos modelos abertos que implementam com sucesso a sumarização de fala" e atingem os níveis de desempenho do GPT-4o. No entanto, ele tem uma lacuna em relação a outros modelos, como o Gemini-2.0-Flash, em tarefas de resposta a perguntas, e está trabalhando para melhorar esse recurso em iterações futuras.

O Phi-4-mini, por sua vez, é um modelo de 3,8 bilhões de parâmetros, com capacidade de responder a consultas em cluster, um vocabulário de 200.000 palavras e "foi projetado para ser rápido e eficiente". Nesse sentido, a March indicou que, apesar de seu tamanho compacto, ele ainda supera os modelos maiores em tarefas baseadas em texto, incluindo raciocínio, matemática, acompanhamento de instruções e codificação.

O modelo suporta sequências de até 128.000 tokens e oferece alta precisão e escalabilidade para que os desenvolvedores possam adaptá-lo a aplicativos avançados de IA. Ele também pode ser integrado a interfaces de programação estruturadas.

Por fim, a Microsoft observou que tanto o Phi-4-multimodal quanto o Phi-4-mini estão agora disponíveis no Azure AI Foundry, Hugging Face e Nvidia API Catalog, com uma experiência multimodal completa.

Esta notícia foi traduzida por um tradutor automático

Contenido patrocinado