Intel revela método para lidar com algoritmos de aceleração de IA que aumenta a inferência LLM em 2,8

Archivo - Arquivo - O Programa Empreendedorismo Jovem 2025 começa com um curso sobre novos desenvolvimentos em Inteligência Artificial

GOBIERNO DE CANTABRIA - Arquivo

MADRI 18 jul. (Portaltic/EP) -

A Intel e o Weizmann Institute of Science apresentaram um avanço na decodificação especulativa, um novo método para gerenciar algoritmos de inteligência artificial (IA) que permite um aumento de 2,8 vezes na inferência de modelos de linguagem grandes (LLM).

A decodificação especulativa é uma técnica de otimização de inferência projetada para tornar os modelos de aprendizagem profunda (DLMs) mais rápidos e mais eficientes na resolução de solicitações, sem comprometer a precisão.

Essa técnica funciona combinando um modelo pequeno e rápido que gera a resposta com um modelo maior e mais preciso que a verifica e valida. No entanto, ela pode causar dificuldades quando usada com vocabulários diferentes.

Nessa estrutura, pesquisadores da Intel e do Weizmann Institute of Science descobriram um novo procedimento que permite aumentar a velocidade de inferência dos LLMs em até 2,8 vezes, facilitando a decodificação especulativa em modelos heterogêneos.

A empresa de tecnologia revelou a descoberta na Conferência Internacional sobre Aprendizado de Máquina (ICML) em Vancouver, Canadá, que permite que qualquer modelo pequeno de "rascunho" acelere qualquer LLM, "independentemente das diferenças de vocabulário".

Assim, essa novidade resolve uma "ineficiência fundamental na IA generativa", conforme detalhou a Intel em um comunicado, no qual ressaltou que, além disso, também funciona com modelos de diferentes desenvolvedores e ecossistemas, e de código aberto, o que a torna uma novidade "independente de fornecedor".

Especificamente, o novo método é baseado em três novos algoritmos, que "desacoplam a codificação especulativa do alinhamento de vocabulário". Isso facilita a implementação flexível do LLM e possibilita a combinação de qualquer modelo de rascunho pequeno com qualquer modelo grande para otimizar a velocidade e o custo da inferência.

"Em um cenário fragmentado de IA, esse avanço na decodificação especulativa promove a abertura, a interoperabilidade e a implantação econômica da nuvem até a borda", disse a empresa de tecnologia, observando que desenvolvedores, empresas e pesquisadores "agora podem combinar modelos para atender às suas necessidades de desempenho e restrições de hardware".

A Intel compartilhou que os algoritmos agora estão disponíveis na biblioteca Hugging Face Transformers de código aberto.

Esta notícia foi traduzida por um tradutor automático

Intel revela método para lidar com algoritmos de aceleração de IA que aumenta a inferência LLM em 2,8

Contenido patrocinado