MADRI 19 mar. (Portaltic/EP) -
A Nvidia lançou sua nova família de modelos abertos, Llama Nemotron, que, com recursos de raciocínio, foi projetada para oferecer aos desenvolvedores e às empresas uma base para a criação de agentes avançados de IA que podem trabalhar de forma independente ou em equipes para resolver tarefas complexas.
A empresa de tecnologia revelou sua nova família de modelos de IA, com base nos modelos Llama, no evento de tecnologia CES 2025, onde disse que eles foram projetados como modelos LLM abertos que fornecem "alta precisão em uma ampla gama de tarefas de IA".
Agora, na conferência GTC 2025 na terça-feira, a Nvidia lançou oficialmente a família de modelos Llama Nemotron, que foram aprimorados durante o pós-treinamento para otimizar seu desempenho em matemática, codificação, raciocínio e tarefas complexas de tomada de decisão.
Conforme explicado em uma declaração em seu blog, esse processo de refinamento aumentou a precisão dos modelos em até 20% em comparação com o modelo básico e otimizou a velocidade de inferência em até cinco vezes em comparação com outros modelos de raciocínio aberto do setor.
Como resultado, os modelos oferecem recursos de raciocínio de IA sob demanda e, com as melhorias no desempenho da inferência, podem lidar com tarefas de raciocínio mais complexas e reduzir os custos operacionais para as empresas.
Conforme detalhado pelo fundador e CEO da Nvidia, Jensen Huang, a família de modelos Llama Nemotron está disponível como microsserviços Nvidia NIM nos tamanhos Nano, Super e Ultra, cada um otimizado para diferentes necessidades de implementação.
O modelo Nano oferece alta precisão em PCs e dispositivos de borda, enquanto o modelo Super oferece "a melhor precisão e o mais alto desempenho em uma única GPU". Por fim, o modelo Ultra oferece "a mais alta precisão de agente" em servidores com várias GPUs.
Os desenvolvedores agora podem implantar modelos de raciocínio Llama Nemotron com as novas ferramentas e software de IA agêntica da Nvidia para acelerar a adoção de raciocínio avançado em sistemas de IA colaborativos, tudo por meio da plataforma Nvidia AI Enterprise, disse a Nvidia.
Especificamente, os modelos Nano e Super, bem como os microsserviços NIM, estão disponíveis como interfaces de programação de aplicativos (APIs) no serviço build.nvidia.com e no Hugging Face. As empresas podem executar os microsserviços Llama Nemotron NIM com o Nvidia AI Enterprise em centros de dados acelerados e infraestruturas de nuvem.
Nesse contexto, a Nvidia observou que algumas das principais empresas que desenvolvem agentes de IA, como Accenture, CrowdStrike, Deloitte, Microsoft e ServiceNow, já estão colaborando com a Nvidia para criar seus modelos de raciocínio e software.
DIMENSIONAMENTO DE MODELOS DE RACIOCÍNIO COM O NVIDIA DYNAMO
Além de tudo isso, outro novo recurso anunciado no evento GTC foi o software de inferência gratuito e de código aberto Nvidia Dynamo, projetado para acelerar e dimensionar modelos de raciocínio de IA em fábricas de IA, alcançando a mais alta eficiência com o menor custo.
A empresa destacou a importância de coordenar com eficiência as solicitações de inferência de IA em uma grande frota de GPUs para garantir que as fábricas de IA operem com o menor custo possível. Com o Nvidia Dynamo, o sucessor do Nvidia Triton Inference Server, a empresa está oferecendo uma opção para maximizar a geração de receita de tokens para fábricas de IA que implementam modelos de raciocínio.
Especificamente, isso ocorre porque ele acelera a comunicação de inferência entre GPUs e usa um serviço desagregado para separar as fases de processamento e geração de grandes modelos de linguagem (LLMs) em diferentes GPUs. Ao fazer isso, ele otimiza cada fase independentemente, garantindo a utilização máxima dos recursos da GPU.
Como resultado, a Nvidia afirma que, com a mesma quantidade de GPUs, o Dynamo "dobra o desempenho e a receita das fábricas de IA" usando modelos Llama na atual plataforma Nvidia Hopper.
A empresa também disse que essa abordagem é "ideal" para modelos de raciocínio, como a nova família Llama Nemotron, pois o gerenciamento desagregado permite que os recursos sejam ajustados e alocados para cada fase de forma independente, melhorando o desempenho e fornecendo respostas mais rápidas para os usuários.
O Nvidia Dynamo é de código aberto e compatível com PyTorch, SGLang, Nvidia TensorRT-LLM e vLLM, permitindo que empresas, startups e pesquisadores desenvolvam e otimizem a implementação de modelos de IA usando inferência desagregada.
Em suma, ele estará disponível nos microsserviços NVIDIA NIM e será suportado em uma versão futura na plataforma de software NVIDIA AI Enterprise com segurança, suporte e estabilidade de nível de produção.
Esta notícia foi traduzida por um tradutor automático