A frase que tem circulado esta semana — "Google TurboQuant RAM price crash" (queda de preços de RAM pelo TurboQuant do Google) — está equivocada em dois pontos fundamentais.
Primeiro, o TurboQuant não é um produto de hardware RAM. Trata-se de um algoritmo de compressão do Google Research, anunciado em 24 de março de 2026 através de um post no blog oficial e de um artigo técnico, com detalhes adicionais apresentados no evento AI at Scale em 30 de março. O Google o descreve como uma forma de comprimir o KV cache utilizado durante a inferência de modelos de linguagem de grande escala (LLMs) e, de forma mais ampla, como uma técnica de quantização vetorial para cargas de trabalho intensivas em memória. O próprio texto do Google afirma que o alvo é um dos maiores gargalos da inferência: a sobrecarga de memória, especialmente quando as janelas de contexto aumentam. O anúncio original está no Google Research blog, e resumos externos seguiram a mesma linha, incluindo o TechInformed.
Segundo, os preços da memória DDR5 para o consumidor final não despencaram. Em 1º de abril, os preços no varejo dos EUA para DDR5 pareciam mais um patamar estável do que um colapso. Um kit de 2x16GB DDR5-6000 CL30 estava custando em média US$ 529, apenas um pouco abaixo da faixa de US$ 535–$ 550 vista no final de março. Isso está em conformidade com o rastreamento amplo de preços de RAM do Tom's Hardware e com as análises de mercado do DropReference.
O que realmente aconteceu foi algo mais restrito, porém significativo: as ações de semicondutores ligadas ao setor de memória sofreram uma forte liquidação (sell-off) após o anúncio do Google e as discussões subsequentes.
O que realmente se movimentou
As negociações do final de março mostram uma reação clara do mercado, mesmo que o rótulo de "colapso da RAM" seja impreciso.
A Micron foi a mais atingida no mercado americano. Em dois dias, a empresa caiu mais de 14–15%, perdendo mais de US$ 25 bilhões em valor de mercado, e o declínio se intensificou em 30 e 31 de março, com múltiplas interrupções de negociação (halts). A Western Digital caiu 11–13%, a Seagate recuou cerca de 9%, e o impacto se espalhou pela Ásia: a SK Hynix caiu 6,2–6,4% em 26 de março, a Samsung Electronics recuou cerca de 4,7% e a Kioxia caiu quase 6%. A CNBC capturou o tom desse movimento regional ao relatar que os nomes do setor de memória na Coreia do Sul e a Kioxia caíram depois que o anúncio de software do Google assustou investidores sobre a demanda futura por chips.
Isso não prova que o TurboQuant reduzirá materialmente a demanda por memória, mas mostra que os investidores o trataram rapidamente como uma ameaça credível — ou, pelo menos, um motivo convincente para reavaliar expectativas muito otimistas.
O que o TurboQuant promete e por que os investidores se importam
As promessas principais do Google explicam por que o assunto se espalhou tão rápido.
O TurboQuant é descrito como capaz de reduzir o uso de memória do KV cache em pelo menos 6 vezes e entregar acelerações de até 8 vezes em certas cargas de trabalho de atenção. O artigo técnico diz que o sistema combina PolarQuant com métodos de Quantização Johnson-Lindenstrauss (QJL). Análises da comunidade colocaram a proposta em termos práticos: comprimir o KV cache para aproximadamente 3–4 bits por elemento sem necessidade de retreinar ou ajustar o modelo nos cenários testados, conforme observado em um resumo voltado para desenvolvedores no Dev.to.
Isso é relevante porque o KV cache é um centro de custo real na inferência. Se um modelo pode manter mais contexto com menos memória, os operadores podem rodar cargas maiores na mesma infraestrutura, acomodar mais sessões por GPU ou evitar a migração para configurações de memória de maior capacidade tão cedo quanto o esperado. Em teoria, a eficiência de software pode atacar a demanda de hardware pela base.
Foi nessa teoria que os investidores apostaram ao vender suas ações.
O problema: os números das manchetes não são iguais à realidade de implementação
É aqui que a análise precisa ser cautelosa, pois os detalhes importam.
O texto da pesquisa disponível inclui várias ressalvas:
Essas ressalvas importam mais do que a versão simplificada da história sugere. Um resultado de laboratório voltado para a compressão de KV cache não significa automaticamente uma redução generalizada em toda a demanda por memória. Pode acabar sendo significativo para certas cargas de inferência, mas pouco relevante para outras, e difícil de operacionalizar em escala até que as ferramentas melhorem.
Um veículo descreveu a reação online com uma piada sobre a série Silicon Valley e a empresa Pied Piper, mas o MakeMeTechie fez uma observação mais útil: por enquanto, ainda é um resultado em estágio de laboratório.
Por que o mercado vendeu primeiro mesmo assim
Apesar de toda a incerteza, a liquidação não foi irracional. Foi rápida, mas não sem fundamento.
Muitas empresas de memória vinham sendo negociadas sob a premissa de que a inferência e o treinamento de IA manteriam todo o setor em uma alta prolongada de demanda. O TurboQuant atingiu um ponto fraco nessa narrativa: e se o software começar a reduzir quanta memória cada consulta ou cada modelo implantado realmente precisa?
Foi essencialmente assim que vários analistas interpretaram a situação.
O analista do Morgan Stanley, Shawn Kim, argumentou que, embora o TurboQuant possa reduzir o uso de memória por consulta, ele também pode desencadear o efeito do Paradoxo de Jevons: tornar a inferência mais barata pode aumentar tanto o uso total de IA que a demanda agregada por memória ainda acabe subindo. Nessa leitura, o TurboQuant não é necessariamente ruim para o setor de memória no longo prazo; ele pode simplesmente mudar a curva de custo e permitir implementações locais ou de menor custo.
Andrew Rocha, analista do Wells Fargo, levou a sério a preocupação direta, afirmando que o TurboQuant ataca a curva de custo da inferência de IA e levanta a questão de quanta capacidade de memória será realmente necessária a longo prazo se as especificações dos sistemas caírem.
Peter Callahan, analista do Goldman Sachs, descreveu o movimento como um "teste de sanidade" em vez de pânico, com investidores reavaliando se o superciclo da memória pode sobreviver a ganhos significativos de eficiência impulsionados por software.
Vários bancos de primeira linha também rebaixaram o setor de memória de Overweight (acima da média) para Neutral (neutro), citando uma possível mudança estrutural nos investimentos em IA, priorizando a otimização de software em vez do acúmulo de hardware.
Esse conjunto de visões ajuda a explicar como um post em um blog de pesquisa pôde apagar dezenas de bilhões em valor de mercado. O mercado não estava precificando um colapso verificado na demanda de DRAM, mas sim a possibilidade de que as premissas de pico de demanda fossem otimistas demais.
Por que isso não é realmente sobre DDR5 para desktops
Uma razão pela qual a manchete "queda da RAM" é enganosa é que ela mistura vários mercados muito diferentes.
O TurboQuant está sendo discutido principalmente no contexto de inferência de IA, especialmente em relação à pressão de memória nas GPUs e ao KV cache. As referências de desempenho nos materiais apontam para aceleradores de classe NVIDIA H100 e B200, com trabalhos da comunidade tocando também em ambientes de CPU e Apple Silicon. Isso não é o mesmo que dizer que os pentes comuns de DDR5 para PC devam ficar subitamente mais baratos.
Mesmo que o TurboQuant se prove útil, o efeito de primeira ordem provavelmente apareceria na economia da inferência em servidores, na utilização de aceleradores e no planejamento de configuração de memória para sistemas de IA. O preço do varejo de DDR5 depende de um mix mais amplo de demanda de PCs, estoque nos canais de venda, contratos de preços, disciplina dos fornecedores e segmentação de produtos. Os fatos atuais simplesmente não mostram um colapso no varejo.
O contra-argumento de curto prazo: a demanda já está contratada
Há também uma razão prática para não interpretar a queda das ações como um fato consumado.
Um porta-voz da Micron afirmou que a capacidade total de HBM4 da empresa para o ano está esgotada sob contratos vinculantes, incluindo seu primeiro acordo de cinco anos com um cliente. Isso não invalida a tese da eficiência de software, mas sugere que a demanda de curto prazo permanece robusta, especialmente nos níveis de memória de IA de maior valor.
Esta é a parte que os mercados costumam simplificar em uma única história. Um avanço de software pode pressionar o modelo de demanda de longo prazo, enquanto mantém a oferta atual apertada, contratada e cara. Ambas as situações podem ser verdadeiras simultaneamente por algum tempo.
Confusão de datas e ruído nos dados
Um ponto menor, mas relevante: até a cobertura do cronograma do TurboQuant tem sido um pouco confusa.
Alguns relatos e resumos secundários referem-se ao dia 25 de março como a data de lançamento público, enquanto o anúncio do Google e os materiais pré-verificados apontam para 24 de março. Há também inconsistências em algumas tabelas de preços de ações e valores de "antes e depois" em diferentes agregadores. Nada disso muda o quadro geral, mas reforça a rapidez com que esta história superou o rigor das fontes.
Esse é outro motivo para ter cautela com afirmações drásticas sobre um "colapso".
O que observar a seguir
Se você está tentando entender se isso se tornará uma história real de mercado ou apenas uma reação exagerada, alguns fatores importam mais do que os slogans.
Primeiro, a implementação oficial é o que conta. Até 1º de abril, o Google não havia lançado uma biblioteca oficial, código-fonte ou integração de produção para o TurboQuant. O trabalho da comunidade é útil, mas o impacto amplo geralmente depende de uma implantação mais fácil e de benchmarks repetíveis.
Segundo, a reprodução independente vale mais do que os máximos de um blog. Os números de "até 8x" e "6x" chamam a atenção, mas a questão real é o que acontece sob configurações comuns de inferência, especialmente onde os operadores já utilizam técnicas de menor precisão.
Terceiro, monitore os comentários sobre HBM e configurações de aceleradores mais do que as prateleiras de RAM de desktop. Se o TurboQuant mudar o comportamento de compra, isso provavelmente aparecerá primeiro no planejamento de infraestrutura de IA do que nos preços das memórias DIMM para consumidores.
Por fim, não confunda uma liquidação de ações com um ajuste confirmado do mercado final. O que o mercado claramente fez foi reprecificar a possibilidade de o software "comer" as premissas de hardware. O que ele ainda não mostrou foi um colapso literal nos preços da RAM ou uma queda demonstrada na demanda de memória no mundo real.
Por enquanto, a conclusão prática é direta: o TurboQuant parece importante o suficiente para ser monitorado, mas não está finalizado o suficiente para encerrar o debate sobre o futuro da memória. Se as promessas se confirmarem em ambientes de produção, os fornecedores de memória podem enfrentar mais pressão sobre a questão de "quanta capacidade é suficiente". Se a implementação se mostrar complicada, ou se a inferência mais barata expandir o uso mais rápido do que a compressão reduz a memória por consulta, a queda atual pode parecer exagerada. As evidências até agora sustentam a cautela em ambos os sentidos — apenas não justificam a frase "colapso nos preços da RAM".
Comentários