Publicado 15/09/2025 11:34

A Alibaba lança o Qwen3-Next, uma nova geração de modelos eficientes de IA

A nova família de modelos de IA da Alibaba, Qwen3-Next.
ALIBABA.

MADRI 15 set. (Portaltic/EP) -

A Alibaba lançou uma nova geração de modelos de linguagem orientados por inteligência artificial (IA), o Qwen3-Next, que se destaca por sua eficiência graças a inovações como um mecanismo de atenção híbrida, uma arquitetura Mix of Experts (MoE) esparsa e avanços na atenção híbrida.

A empresa chinesa explicou que o escalonamento do comprimento do contexto e o escalonamento do parâmetro total são "duas tendências principais" para o futuro dos modelos de grande escala (LLMs), e seus novos modelos estão indo nessa direção.

Com base na família Qwen3, a Alibaba lançou uma nova geração de modelos de IA, a Qwen3-Next, focada em melhorar a eficiência do treinamento e da inferência em ambientes de grande contexto e grande parâmetro, informou a empresa em seu site.

Um desses modelos, o Qwen3-Next-80B-A3B-Base, opera em uma arquitetura MoE esparsa, com base em 80 bilhões de parâmetros totais, mas apenas cerca de 3 bilhões de parâmetros acionados por etapa de inferência, o que reduz muito o custo computacional sem sacrificar a qualidade do modelo.

Os modelos de IA funcionam como um cérebro que precisa usar todos os seus neurônios para cada pergunta, o que é lento e consome muita energia; com o Qwen3-Next-80B-A3B-Base, a Alibaba projetou um modelo que funciona de forma diferente, pois opera com uma "equipe de especialistas" para cada pergunta, de modo que o modelo ativa apenas os especialistas necessários, alcançando uma eficiência "extrema" tanto no treinamento quanto na inferência.

Os novos modelos baseiam seus aprimoramentos em avanços como a atenção híbrida, que foi obtida com a incorporação da tecnologia Gated DeltaNet combinada com a Gated Attention, que substitui a atenção padrão para melhorar a capacidade de aprender no contexto e, ao mesmo tempo, aumentar a eficiência computacional.

A Alibaba explicou que a combinação dos dois métodos (75% usam a Gated DeltaNet e 25% mantêm a atenção padrão) alcança um desempenho superior e maior eficiência.

Por sua vez, a Alibaba implementou a previsão de múltiplos tokens (MTP) em sua nova família de modelos, o que aumenta o desempenho do modelo e a eficiência da inferência, e desenvolveu otimizações que promovem a estabilidade do treinamento, fazendo com que o modelo em larga escala seja executado com mais facilidade.

DUAS VERSÕES PÓS-TREINADAS COM BASE NA VERSÃO ANTERIOR

A Alibaba também lançou duas versões pós-treinadas com base no modelo anterior: Qwen3-Next-80B-A3B-Instruct e Qwen3-Next-80B-A3B-Thinking. A primeira tem desempenho comparável ao modelo principal da empresa chinesa, Qwen3-235B-A22B-Instruct-2507, e mostra "vantagens claras" em tarefas que exigem um contexto muito grande (até 256.000 tokens).

Enquanto isso, o modelo Qwen3-Next-80B-A3B-Thinking se destaca em tarefas de raciocínio complexas, superando os modelos de custo mais alto, como o Qwen3-30B-A3B-Thinking-2507 e o Qwen3-32B-Thinking, superando o Gemini 2.5 Flash de código fechado em vários benchmarks e se aproximando do desempenho do modelo de ponta da Alibaba, o Qwen3-235B-A22B-Thinking-2507, informou a empresa.

COMPARAÇÃO COM OUTROS MODELOS

Os testes realizados pela empresa Artificial Analysis mostraram que o modelo Qwen3-Next-80B-A3B-Base está à frente de outros modelos, como o DeepSeek V3.1 ou o Gemini 2.5 Flash, em termos de inteligência, ou seja, a capacidade de processar grandes volumes de dados.

Da mesma forma, em termos de velocidade ou do número de tokens que emite por segundo, o modelo da Alibaba está em uma posição melhor do que o Claude 4 Sonnet ou o Grok 4.

Esta notícia foi traduzida por um tradutor automático

Contenido patrocinado