A Uber gastou todo o seu orçamento de inteligência artificial para 2026 em apenas quatro meses. Em abril, os limites estavam esgotados. A Microsoft, por sua vez, foi forçada a revogar licenças do Claude Code de parte de seus funcionários. E, em um dos casos mais extremos relatados, uma empresa acumulou uma conta de US$ 500 milhões com a Anthropic, desenvolvedora do modelo Claude. O fenômeno tem nome: a crise dos tokens de IA está chegando ao balanço das empresas, e muitas delas não estavam preparadas.
O que são tokens e por que eles custam tanto
Para entender a crise, é preciso entender o que são tokens. Na prática, os modelos de linguagem processam texto em unidades chamadas tokens, que correspondem a fragmentos de palavras, palavras inteiras ou combinações de caracteres. Cada chamada a uma API de IA consome uma quantidade de tokens proporcional ao tamanho do texto enviado e ao da resposta gerada. E cada token tem um custo.
O preço por token caiu significativamente nos últimos anos à medida que as empresas de IA aprimoraram seus modelos e reduziram os custos computacionais. O problema é que esse barateamento teve um efeito colateral que os gestores financeiros não anteciparam: o consumo explodiu. Com o custo unitário menor, as equipes de desenvolvimento passaram a usar os modelos de forma muito mais intensiva, criando agentes autônomos, pipelines automatizados e fluxos de trabalho que disparam centenas de chamadas de API por hora.
O resultado? O consumo de tokens por desenvolvedor cresceu aproximadamente 18,6 vezes em apenas nove meses, segundo dados citados por analistas do setor. O Goldman Sachs projeta que o uso global de tokens vai aumentar 24 vezes até 2030. Os números são astronômicos e as empresas estão descobrindo isso da pior forma possível: olhando para as faturas do final do mês.
A armadilha dos agentes autônomos
Um dos principais vilões dessa crise de custos é a ascensão dos agentes de IA. Diferentemente de um chatbot simples, que responde a perguntas pontuais, os agentes autônomos executam tarefas complexas em múltiplas etapas, muitas vezes disparando dezenas ou centenas de chamadas de API em sequência. Um agente encarregado de pesquisar, analisar e redigir um relatório pode consumir milhares de tokens em uma única tarefa.
Quando as empresas começaram a implantar esses agentes em escala, os gastos cresceram de forma exponencial. O diretor sênior de finanças de TI da Priceline, Chris Reed, resumiu o problema com uma analogia impactante: “É como a epidemia do crack. Você começa a usar, vê os benefícios e fica viciado. Depois descobre que é quase impossível parar.”
A frase captura com precisão o dilema enfrentado pelos líderes de tecnologia em 2026: os benefícios da IA são reais e mensuráveis, mas o custo pode sair rapidamente do controle se não houver mecanismos de governança adequados.
As empresas buscam saídas
Diante do problema, o setor começou a reagir. Alexander Embiricos, responsável pela área de enterprise da OpenAI, relata uma mudança perceptível nas conversas com clientes corporativos: “As discussões agora são sobre visibilidade, auditoria, controles de tokens e eficiência de modelos.” O vocabulário dos contratos de IA está mudando rapidamente, incorporando conceitos financeiros que até pouco tempo eram exclusivos das negociações de infraestrutura em nuvem.
J.R. Storment, diretor executivo da FinOps Foundation, organização dedicada a boas práticas de gestão financeira de tecnologia em nuvem, coloca o problema em perspectiva: “Precisamos de guardrails. Como controlamos isso?” A fundação, que ajudou empresas a domar os gastos com AWS, Google Cloud e Azure ao longo da última década, está agora se preparando para enfrentar o mesmo desafio com os provedores de IA.
Em resposta a essa demanda crescente, a Linux Foundation anunciou a criação da Tokenomics Foundation, um novo organismo de padronização que será lançado formalmente em julho de 2026. A missão da nova entidade é estabelecer métricas comuns e definições claras para o custo de tokens de IA, da mesma forma que o FinOps fez para os gastos com computação em nuvem. A ideia é dar às empresas uma linguagem comum para comparar preços, monitorar consumo e identificar ineficiências.
Eficiência de modelos como vantagem competitiva
Uma das respostas mais práticas ao problema vem do campo da eficiência de modelos. Nicholas Arcolano, responsável por pesquisa na empresa de engenharia de software Jellyfish, aponta que o maior retorno sobre investimento não vem de transformar usuários casuais em especialistas em IA, mas de elevar a maioria dos usuários moderados a um nível de uso mais consistente. Em outras palavras, otimizar o meio da curva de adoção é mais eficiente do que focar nos extremos.
Isso se traduz em práticas como escolher modelos menores e mais baratos para tarefas simples, reservando os modelos mais poderosos e caros apenas para as situações que realmente exigem maior capacidade. Um modelo de linguagem menor pode custar 10 vezes menos por token do que um modelo de ponta e, para muitas tarefas de rotina, como classificação de textos ou extração de informações estruturadas, a diferença de qualidade é marginal.
O que as empresas precisam fazer agora
A crise dos tokens de IA expõe uma lacuna grave na maturidade de muitas organizações: a falta de governança sobre o consumo de inteligência artificial. Assim como as empresas aprenderam a monitorar e otimizar os gastos com servidores e armazenamento em nuvem ao longo dos anos 2010, elas precisam agora desenvolver as mesmas capacidades para a IA.
Isso implica mapear quais equipes e quais aplicações estão consumindo mais tokens, estabelecer limites de uso por projeto ou departamento, criar alertas automáticos para gastos anômalos e avaliar regularmente se os modelos utilizados são os mais adequados para cada caso de uso.
Empresas que chegarem cedo a esse nível de maturidade vão ter uma vantagem competitiva real: a capacidade de usar IA em escala sem ver os custos corroer a rentabilidade. Para as demais, a conta dos tokens vai continuar chegando, mês após mês, com valores cada vez maiores e impacto cada vez mais visível no balanço.
A reportagem completa foi publicada pelo TechCrunch em 5 de junho de 2026.



