Compressão extrema promete frear demanda voraz dos data centers por DRAM
Google TurboQuant – Anunciada pela companhia na última semana, a nova técnica de quantização pode diminuir drasticamente o volume de memória exigido por grandes modelos de linguagem, abrindo caminho para um respiro nos preços de RAM, VRAM e HBM que vêm sufocando o mercado desde 2026.
- Em resumo: TurboQuant comprime o KV cache em até seis vezes e acelera o processamento de longos contextos em oito vezes.
KV cache: o “rascunho” que engole gigabytes
Ao gerar respostas, um modelo precisa acessar cada palavra já dita no diálogo. Esse histórico é armazenado no chamado Key-Value cache, que cresce na mesma proporção do contexto e da quantidade de usuários simultâneos. Segundo um levantamento citado pela MIT Technology Review, até 60 % do orçamento energético de um data center de IA é consumido apenas para mover dados de e para a memória.
“Quanto maior o documento ou a conversa que a IA precisa processar, mais dados o sistema deve manter acessíveis instantaneamente.”
TurboQuant encolhe dados para 3 bits — sem comprometer respostas
Para conter esse ciclo de fome infinita por DRAM, o Google combinou duas abordagens internas: PolarQuant e QJL. O resultado permite representar cada valor do cache com apenas 3 bits, contra os 16 ou 32 bits tradicionais. Na prática, o mesmo servidor pode atender muito mais sessões de chatbot ou análise de documentos complexos sem trocar um único módulo de memória.
O ganho chega em momento crítico. Analistas de mercado lembram que a cotação dos chips HBM saltou mais de 300 % desde a popularização do ChatGPT em 2023. Ao reduzir a necessidade de upgrades urgentes, TurboQuant pode adiar planos multibilionários de expansão de hardware e, em consequência, moderar a escassez que respinga no varejo de PCs.
O que você acha? A compressão agressiva vai mesmo derrubar os preços ou é só alívio temporário? Para mais análises sobre IA e infraestrutura, acesse nossa editoria especializada.
Crédito da imagem: Divulgação / Google