Publicado 29/04/2025 06:24

A Alibaba apresenta os modelos Qwen3, com recursos de agente e modo de pensamento

Recurso do modelo Qwen3
ALIBABA

MADRI 29 abr. (Portaltic/EP) -

A Alibaba revelou a terceira geração de seus modelos de inteligência artificial Qwen, que introduzem uma nova maneira de pensar, para perguntas que exigem um raciocínio mais profundo, e são otimizados com recursos de agente.

A nova família Qwen 3 é liderada pelo modelo principal Qwen3-235B-A22B, que oferece desempenho alinhado com DeepSeek-R1, OpenAI o1 e o3-mini, Grok-3 e Gemini-2.5-Pro, também em tarefas mais concretas de programação e matemática.

Esse modelo tem 235 bilhões de parâmetros, incluindo 22 bilhões de parâmetros ativados, conforme detalhado pela empresa de tecnologia no GitHub. Ela também tem outro modelo menor, o Qwen3-30B-A3B, com 30 bilhões de parâmetros e 3 bilhões de parâmetros ativados.

Os dois modelos foram desenvolvidos com a arquitetura Mixture of Experts (MoE), que tem a capacidade de dividir um modelo de IA em pequenas redes neurais para agir separadamente como se fossem especialistas diferentes. Isso faz com que as tarefas sejam executadas com mais eficiência, ativando as redes seletivamente, dependendo do tipo de entrada de informações.

A Alibaba observou que os modelos Qwen 3 introduzem um modo de pensamento híbrido para a solução de problemas. Com ele, eles raciocinam sua resposta passo a passo, levando mais tempo para fornecê-la. Eles também têm um modo mais rápido, sem raciocínio, para perguntas simples.

A empresa os pré-treinou com 36 bilhões de tokens abrangendo 119 idiomas e dialetos de dados da Web e documentos PDF, dos quais as informações foram extraídas com o apoio dos modelos Qwen 2.5, que também ajudaram a aumentar a quantidade de dados em matemática e programação. Eles também foram otimizados para recursos de programação e de agente.

Esta notícia foi traduzida por um tradutor automático

Contenido patrocinado