O Google apresenta um algoritmo de compressão que resolve o problema da sobrecarga de memória em LLMs sem perda de precisão

Recurso do algoritmo de compressão TurboQuant

GOOGLE

MADRID 26 mar. (Portaltic/EP) -

O Google apresentou um algoritmo de compressão que reduz a memória cache dos grandes modelos de linguagem (LLM) sem perda de precisão, com o objetivo de resolver os gargalos que surgem na recuperação de informações.

O TurboQuant aborda o problema da sobrecarga de memória na quantização vetorial tanto na compressão de cache chave-valor (KV) quanto na pesquisa vetorial, e o faz em conjunto com as soluções Quantized Johnson-Lindenstrauss (QJL) e PolarQuant em um processo de duas fases.

Para entender a importância desse algoritmo, o Google explica em seu site que os modelos de inteligência artificial utilizam vetores para compreender e processar informações: vetores pequenos que “descrevem atributos simples, como um ponto em um gráfico”, e vetores de alta dimensão que “capturam informações complexas, como o significado de uma palavra”.

Os vetores de alta dimensão consomem grandes quantidades de cache, a memória que armazena informações de uso frequente para recuperá-las mais rapidamente em uma busca. Embora a técnica de compreensão de quantização vetorial resolva parcialmente o problema, ela também gera outro, já que, como observam no Google, costuma “introduzir sua própria sobrecarga de memória”, com um ou dois bits adicionais.

O Google desenvolveu o TurboQuant para abordar precisamente o problema da sobrecarga de memória na quantização vetorial. Para isso, utiliza, por um lado, o PolarQuant para realizar uma compressão de alta qualidade por meio da rotação aleatória de vetores de dados. Por outro lado, recorre ao QJL para eliminar os erros ocultos que possam ter permanecido da etapa anterior.

O resultado é um algoritmo de compressão sem perda de precisão, que faz uso mínimo de memória e consome quase nenhum tempo de processamento. “Isso torna a pesquisa semântica na escala do Google mais rápida e eficiente”, afirma a empresa.

UM POUCO DE HUMOR

O anúncio desse algoritmo gerou repercussão nas redes sociais, onde alguns usuários encontraram certo paralelismo entre o Google e a Pied Piper, a startup fictícia da série “Silicon Valley”, da HBO.

O motivo está no fato de que os fundadores da Pied Piper apresentaram um algoritmo de compressão que reduzia o tamanho dos arquivos com uma compressão praticamente sem perdas. O mesmo que o Google, só que, neste último caso, aplicado à IA.

Esta notícia foi traduzida por um tradutor automático

O Google apresenta um algoritmo de compressão que resolve o problema da sobrecarga de memória em LLMs sem perda de precisão

UM POUCO DE HUMOR

Contenido patrocinado