Publicado 25/03/2025 07:08

O DeepSeek atualiza seu modelo V3 para o V3-0324 para melhorar seu desempenho e a estética da interface.

Uma pessoa testa o assistente do DeepSeek
EDUARDO PARRA - EUROPA PRESS

MADRI 25 mar. (Portaltic/EP) -

A DeepSeek lançou a versão mais recente de seu modelo V3-0324, uma atualização que introduz melhorias de desempenho, responde com mais precisão às chamadas de função e oferece interfaces mais estéticas do que seu antecessor, algo que já foi verificado por alguns especialistas em computadores Mac Studio com o chip M3.

O DeepSeek V3, lançado em dezembro do ano passado, foi treinado com 671 bilhões de parâmetros com a arquitetura Mixture of Experts (MoE), que divide um modelo de IA em pequenas redes neurais para atuarem separadamente, como se fossem aspectos diferentes.

O modelo também tem 37 bilhões de parâmetros habilitados para cada token e, para "obter inferência eficiente e treinamento econômico", os desenvolvedores usaram o mecanismo Multi-Lead Latent Attention (MLA), conforme explicaram no GitHub na época.

Como resultado, o DeepSeek V3 obteve uma pontuação de 75,9 em comparação com 78,0 para Claude 3.5 Sonnet, 72,6 para GPT 4o e 73,3 para Llama 3.1 40B. Isso significa que o modelo é capaz de superar outros modelos de código-fonte aberto e atinge um desempenho comparável ao dos principais modelos de código-fonte fechado.

Os mantenedores compartilharam recentemente uma atualização da V3 no Hugging Face. Essa é a V3-0324, uma versão que "demonstra melhorias notáveis em relação à sua antecessora em várias áreas importantes", conforme observado nesta publicação.

Em primeiro lugar, ela oferece melhorias "significativas" no desempenho de benchmark, com valores como 81,2 na avaliação de compreensão de linguagem (MMLU-Pro), acima dos 75,9 da V3; 59,4 no AIME (acima dos 39,6) e 49,2 no LiveCodeBench (acima dos 39,2).

Além disso, essa atualização oferece páginas da Web e front-ends de jogos mais agradáveis esteticamente e "melhorou a precisão das chamadas de função", de modo que aborda alguns dos problemas observados nas versões anteriores do modelo de linguagem.

Ele também ganha novas competências no idioma chinês, com estilo aprimorado - alinhado com o estilo de escritor R1 - e melhor qualidade em textos médios e longos. Além disso, a reescrita interativa em vários turnos e a qualidade otimizada de redação e tradução de cartas foram otimizadas.

A pesquisadora de aprendizado de máquina da Apple, Awni Hanun, teve a oportunidade de testar o novo modelo DeepSeek em um computador Apple Mac Studio com um chip M3 e ficou satisfeita com o fato de que "em quatro bits, ele funciona a mais de 20 tokens por segundo".

O programador britânico Simon Willison disse que o novo DeepSeek V3-0324 é "um monstro de 641 GB licenciado pelo MIT, que pode ser executado em um Mac Studio M3 de 512 GB em nível de consumidor".

Esta notícia foi traduzida por um tradutor automático

Contenido patrocinado