MADRID 6 mar. (Portaltic/EP) -
A AMD apresentou o Instella, uma nova família de modelos de linguagem grande (LLM) com 3 bilhões de parâmetros, que está disponível em um modo "totalmente aberto".
O Instella consiste em quatro modelos: Instella-3B-Stage1, para o desenvolvimento da linguagem natural na fase de pré-treinamento; Instella-3B, para melhorar as capacidades de resolução de problemas na fase de pré-treinamento; Instella-3B-SFT, que usa o ajuste fino supervisionado para permitir o seguimento de instruções; e Instella-3B-Instruct, para fortalecer as capacidades de bate-papo e alinhar-se com as preferências humanas.
A empresa de tecnologia usou 128 GPUs Instinct MI300X para treinar o Instella do zero usando 4,15 trilhões de tokens. Isso aumenta a capacidade e a escalabilidade do modelo em relação ao seu antecessor, o AMD OLMo, que foi treinado com 64 GPUs Instinct MI250 e 1,3 trilhão de tokens e ofereceu um bilhão de parâmetros.
Como resultado, o desempenho dessa família LLM supera os modelos abertos mais avançados do momento, comparáveis em tamanho, como Llama-3.2-3B, Gemma-2-2B e Qwen-2.5-3B, de acordo com a AMD em um comunicado à imprensa.
A AMD lançou o Instella como uma família de LLMs "totalmente aberta e acessível", o que significa que ela tornou os pesos do modelo, os hiperparâmetros de treinamento, os conjuntos de dados e o código facilmente acessíveis. Eles podem ser encontrados no Hugging Face e no GitHub.
"Ao abrir totalmente o código-fonte dos modelos da Instella, nosso objetivo é promover a inovação e a colaboração na comunidade de IA", afirmam.
Esta notícia foi traduzida por um tradutor automático