MADRI 9 abr. (Portaltic/EP) -
A Deep Cogito entrou no setor de modelos de Inteligência Artificial (IA) com a apresentação de seus modelos de código aberto Cogito v1, que se baseiam em modelos híbridos capazes de alternar entre capacidades de raciocínio e respostas instantâneas, superando em desempenho os modelos equivalentes da Meta ou da DeepSeek, com os quais pretende avançar em direção à superinteligência geral.
A empresa de tecnologia foi fundada em junho do ano passado com sede em São Francisco (Califórnia, Estados Unidos) e tem como objetivo desenvolver uma "superinteligência geral" capaz de realizar qualquer tipo de tarefa, "não apenas para igualar as capacidades humanas, mas também para descobrir capacidades completamente novas", por meio de raciocínio avançado e "autoaperfeiçoamento iterativo".
Nesse sentido, o Cogito v1 é apresentado como uma série de modelos de grande escala (LLMs) de código aberto, que se baseiam na operação híbrida, ou seja, eles podem usar seus recursos para fornecer respostas diretas a solicitações simples, bem como para refletir antes de responder a perguntas mais complexas, a fim de usar seus recursos de forma mais otimizada.
Como a empresa disse em uma publicação no blog, o Cogito v1 está disponível nos tamanhos 3B, 8B, 14B, 32B e 70B, todos desenvolvidos por "uma pequena equipe" em aproximadamente 75 dias.
Embora esses modelos sejam baseados nos modelos abertos Meta e Qwen da Alibaba, a Deep Cogito disse que eles superam "os melhores modelos abertos do mesmo tamanho", incluindo os modelos Llama desenvolvidos pela Meta, bem como os modelos da DeepSeek.
Especificamente, a empresa observou que o modelo 70B Cogito v1 supera o recém-anunciado Llama 4 109B MoE no teste de IA de uso geral LiveBench. Nesse sentido, de acordo com os resultados da avaliação compartilhada, a versão maior também supera o modelo de raciocínio R1 da DeepSeek na maioria das tarefas de matemática e linguagem.
Para alcançar esses recursos, o Deep Cogito esclareceu que seus modelos foram treinados usando os métodos Iterated Distillation and Amplification (IDA), "uma estratégia de alinhamento escalável e eficiente para superinteligência geral por meio de autoaperfeiçoamento iterativo".
Conforme explicaram, ao usar destilação e amplificação, eles utilizam mais recursos computacionais para fazer com que o modelo chegue a uma solução melhor e, em seguida, reduzem o processo de pensamento aos parâmetros do próprio modelo.
"À medida que o LLM aprimora sua inteligência, o próprio processo de pensamento se torna mais poderoso", disseram eles, ao mesmo tempo em que determinaram que é criado um ciclo de feedback positivo no qual os recursos do modelo são cada vez mais determinados pelos recursos computacionais e pela eficácia do processo de amplificação e destilação, em vez de "pelas limitações do supervisor original".
Dessa forma, esses modelos Cogito v1 já estão disponíveis para download via Huggingface, Ollama ou via API no Fireworks AI ou Together AI. A Deep Cogito também indicou que lançará modelos maiores nos próximos meses, incluindo os tamanhos 109B, 400B e 671B.
Esta notícia foi traduzida por um tradutor automático