Ao falar sobre o custo da infraestrutura de IA, o foco geralmente está na Nvidia e nas GPUs, mas a memória está se tornando uma parte cada vez mais importante do cenário. Os preços dos chips DRAM disparam à medida que os hiperscaladores se preparam para construir bilhões de dólares em novos data centers No ano passado foi cerca de 7 vezes mais.
Ao mesmo tempo, há maior disciplina na coordenação de toda a memória para garantir que os dados certos cheguem ao agente certo, no momento certo. As empresas que dominarem isso poderão realizar as mesmas consultas com menos tokens, o que pode ser a diferença entre fechar as portas e permanecer no mercado.
Analista de semicondutores Dan O’Loughlin Ele conversa com Val Bercovici, diretor de IA da Weka, e fornece alguns insights interessantes sobre a importância dos chips de memória no Substack. Ambos são especialistas em semicondutores, portanto seu foco está em chips, e não em arquiteturas mais amplas. O impacto no software de IA também é muito importante.
Fiquei particularmente impressionado com esta passagem. Bercovitch examina a nossa sociedade cada vez mais complexa. Documentação de cache de prompt antrópico:
Você pode descobrir visitando a página de preços do Prompt Cash da Anthropic. Começou como uma página muito simples há seis ou sete meses, especialmente na época em que o Claude Code foi lançado. Eles apenas disseram: “É mais barato se você usar dinheiro”. Agora é uma enciclopédia de conselhos sobre exatamente quantas gravações de cache comprar antecipadamente. Há uma janela de 5 minutos, ou de 1 hora, que é muito comum em todo o setor, e nada mais. Esse é um anúncio muito importante. Claro, você tem todos os tipos de oportunidades de arbitragem em relação ao preço das leituras de cache com base no número de gravações de cache que você comprou antecipadamente.
A questão aqui é por quanto tempo Claude mantém o prompt na memória cache. Você pode pagar por uma janela de 5 minutos ou até mais por uma janela de 1 hora. É muito mais barato utilizar dados que ainda estão em cache; portanto, se você gerenciar seus dados adequadamente, poderá economizar muito dinheiro. No entanto, há um problema. Cada vez que você adiciona novos dados à sua consulta, algo mais pode ser retirado da janela do cache.
Isto é complexo, mas a conclusão é muito simples. O gerenciamento de memória para modelos de IA será uma grande parte do futuro da IA. As empresas que fizerem isso bem chegarão ao topo.
E muito progresso está sendo feito neste novo campo. Eu o entrevistei em outubro. Uma startup chamada TensorMesh Isso operou em uma camada da pilha conhecida como otimização de cache.
evento de crise tecnológica
Boston, Massachusetts
|
23 de junho de 2026
As oportunidades também existem em outras partes da pilha. Por exemplo, mais abaixo na pilha está como os data centers usam os diferentes tipos de memória que possuem. (A entrevista inclui uma boa discussão sobre quando chips DRAM são usados em vez de HBM, mas é bastante profundo no hardware.) Mais acima na pilha, os usuários finais estão descobrindo como configurar seus conjuntos de modelos para aproveitar as vantagens do cache compartilhado.
À medida que as empresas melhoram a orquestração da memória, utilizam menos tokens e o custo da inferência torna-se mais barato. enquanto isso, O modelo agora é mais eficiente no processamento de cada token.Reduza ainda mais os custos. À medida que o custo dos servidores diminui, muitas aplicações que atualmente parecem inviáveis começarão gradualmente a tornar-se lucrativas.