
L’intelligenza artificiale di ultima generazione (generativa) doveva rendere l’informatica più efficiente e meno costosa. In parte lo sta facendo, perché il prezzo unitario (a livello di token) di molti servizi è diminuito rispetto a un paio d’anni fa.
Eppure, guardando i bilanci delle aziende che offrono l’AI, le bollette dell’infrastruttura e anche i costi per le aziende che la usano, il conto finale lievita. Il paradosso è apparente solo in superficie.
La traiettoria dell’AI contemporanea, trainata da modelli multimodali sempre più grandi e da workflow “agentici” e/o di reasoning composti da molti passaggi, spinge al rialzo la domanda di calcolo, energia, memoria e banda. Di conseguenza i costi totali crescono più velocemente delle riduzioni di prezzo per singolo token o per chip.
Le aziende che integrano AI in prodotti esistenti si ritrovano margini più sottili di quanto previsto, nonostante listini API sempre più segmentati e l’arrivo di modelli “mini”. Il problema non è solo il prezzo al token, ma soprattutto il numero di token elaborati per completare compiti reali. Un assistente che “ragiona” su un repository di codice, interroga strumenti esterni, consulta basi di conoscenza e pianifica azioni consuma ordini di grandezza in più rispetto a una semplice chat. La somma alla fine del mese si vede.
Negli ultimi dodici mesi i fornitori hanno introdotto fasce di modelli e sconti che riducono il costo unitario. OpenAI ha reso disponibili opzioni come GPT‑4o mini e piani con caching dei prompt che riconoscono uno sconto rilevante sui token ripetuti; Anthropic ha pubblicato listini differenziati tra modelli “Sonnet” e “Haiku”.
La microeconomia, a livello di prezzo per milione di token, sembra quindi migliorare. Ma la macroeconomia racconta altro. Le applicazioni realmente utili stanno diventando composizioni di chiamate: retrieval aumentato, tool use, browsing, funzioni di verifica, catene di pianificazione ed esecuzione. Ogni passaggio aggiunge latenza e, soprattutto, token.
Aumenta il contesto
In parallelo, l’aumento delle finestre di contesto invita a caricare sempre più materiale in ingresso. Non si mette più solo la domanda, ma interi manuali, log, dataset, documenti legali, librerie di funzioni, immagini e audio.
Maggiore ragionamento
L’aumento dei token utilizzati dipende anche dalla crescita dei modelli di ragionamento e della complessità dei task sottoposti all’AI.
È un progresso sul piano delle capacità, che però sposta la curva dei costi. Se anche il prezzo a token scende, raddoppiare o decuplicare i token per richiesta spinge il costo per richiesta verso l’alto.
Molte nuove forme di IA rieseguono le query per ricontrollare le loro risposte, si diffondono sul web per raccogliere ulteriori informazioni, scrivono persino piccoli programmi per calcolare i fattori richiesti.
Gli agenti di IA eseguono una lunga serie di azioni basate sui prompt dell’utente, che possono richiedere minuti o addirittura ore.
Di conseguenza, forniscono risposte significativamente migliori, ma possono spendere molti più token nel processo. Inoltre, quando si assegna loro un problema difficile, potrebbero semplicemente continuare fino a quando non ottengono la risposta, oppure fallire nel tentativo.
I costi per prompt e token
Ecco i valori approssimativi dei token necessari per attività di diverso livello, basati su una varietà di fonti:
• Domande e risposte di base del chatbot: da 50 a 500 token
• Breve riassunto di un documento: da 200 a 6.000 token
• Assistenza di base per la scrittura di codice: da 500 a 2.000 token
• Scrittura di codice complesso: da 20.000 a oltre 100.000 token
• Analisi di documenti legali: da 75.000 a oltre 250.000 token
• Flusso di lavoro dell’agente in più fasi: da 100.000 a oltre un milione di token
L’inferenza dei modelli di frontiera è sempre più vincolata alla memoria ad altissima banda e alla comunicazione tra GPU, non soltanto ai FLOPs “puri”. I modelli con ragionamento più profondo mantengono KV‑cache molto voluminose, che richiedono VRAM, interconnessioni veloci e software di scheduling sofisticato.
Strategie per ridurre i costi
Algoritmi come FlashAttention‑3, le tecniche di speculative decoding e i metodi di compressione o riciclo delle cache riducono la latenza e migliorano l’efficienza, ma non annullano il fatto che per ottenere qualità di risposta stabile sui compiti più duri servono molte GPU per ciascuna sessione, specialmente quando l’input è lungo o multimodale.
Al crescere del numero di utenti, questi costi di inferenza scalano in modo quasi lineare se non si adottano strategie di batching aggressive o non si distilla su modelli più piccoli. Le piattaforme che hanno provato a mantenere prezzi “flat” si sono scontrate con i cosiddetti inference whales, utenti o team che, legittimamente, spingono al massimo l’utilizzo sotto abbonamento fisso e generano costi di backend sproporzionati.
Dietro l’AI c’è un’infrastruttura materiale. La fornitura di HBM, la memoria che alimenta le GPU di fascia alta, resta tesa. I superchip di nuova generazione hanno prezzi elevati, mentre i sistemi rack completi aggiungono costi di rete, storage e integrazione. Anche quando si accede via cloud, i prezzi orari riflettono questo scenario e possono variare da pochi dollari a oltre dieci a GPU‑ora a seconda di disponibilità e rete.
Sul piano energetico il quadro è altrettanto impegnativo. Le stime internazionali indicano che il consumo elettrico dei data center potrebbe più che raddoppiare nel decennio, con l’AI come principale catalizzatore di crescita. Il risultato è una pressione crescente sulle reti, sui piani di approvvigionamento e su risorse spesso invisibili all’utente finale come l’acqua per il raffreddamento. In molte aree i nuovi campus nascono solo dove è possibile garantire megawatt continui e licenze idriche adeguate. Questi vincoli non sono semplici “costi di startup”, ma oneri strutturali che entrano nei prezzi finali dei servizi.
Aumento di investimenti infrastrutturali
Nel secondo e terzo trimestre del 2025 i grandi fornitori di cloud hanno alzato in modo significativo la guidance sugli investimenti infrastrutturali. Alphabet ha indicato un capex (Alphabet ~85 mld $ – luglio 2025) annuo nell’ordine di decine di miliardi per data center, server e rete, con priorità alla capacità AI. Amazon ha comunicato un’accelerazione della spesa per AWS, mentre Microsoft ha segnalato trimestri con investimenti record per sostenere Azure e i carichi generativi. Meta ha rivisto più volte il perimetro del suo piano di data center a supporto della propria roadmap di modelli aperti e proprietari. Questi numeri non sono “cosmesi” da trimestrale, ma la prova tangibile che l’elasticità dell’offerta richiede capitale reale in volumi storicamente inediti per l’IT.
Sul lato dei chip, il passaggio alla generazione Blackwell ha evidenziato un doppio effetto. Da una parte, migliori prestazioni per watt e un rapporto costo/prestazioni più favorevole sui carichi di inferenza lunghi e complessi. Dall’altra, prezzi assoluti elevati, specie per i sistemi rack ad alta interconnessione, con il risultato che il costo di ingresso per costruire cluster di frontiera resta nell’ordine di milioni. In parallelo, la disponibilità di HBM rimane il collo di bottiglia critico, con contratti a lungo termine che assicurano fornitura agli hyperscaler ma lasciano volatilità per il resto del mercato.i
Anche i listini API mostrano la doppia anima del momento. Le opzioni “mini” hanno abbassato il costo unitario e, con funzioni come il prompt caching, permettono sconti sostanziosi nei flussi ripetitivi. Tuttavia, l’adozione dei modelli di ragionamento e dei sistemi realtime multimodali tende ad aumentare sia il volume di token sia la varietà di tariffe applicate, dalle chiamate di ricerca web ai tool integrati, rendendo più difficile prevedere la spesa mensile senza un controllo di FinOps granulare.
Infine, l’energia. Le previsioni indipendenti convergono su uno scenario di raddoppio del fabbisogno elettrico dei data center entro il 2030 e di forte crescita della potenza installata in Nord America ed Europa entro metà degli anni Trenta. Se questo percorso verrà accompagnato da contratti di fornitura rinnovabile, miglioramenti di efficienza a livello di chip e software, e da siti costruiti vicino a infrastrutture energetiche adeguate, il costo marginale dell’AI potrà scendere in modo più visibile. In assenza di queste condizioni, l’AI rimarrà un bene infrastrutturale “scarso”, con prezzi coerenti con la scarsità.
Il paradosso dell’AI più cara si vede nelle storie delle aziende software che l’hanno abbracciata più convintamente. Prodotti di produttività e coding assistant hanno dovuto ripensare i piani tariffari dopo ondate di utilizzo inatteso, non per malafede degli utenti ma perché i flussi di lavoro agentici producono molte più chiamate di quante ne faccia una chat convenzionale. Ogni linting, test, refactor o ricerca documentale è una nuova catena di prompt, con costi cumulativi. In parallelo, i grandi player della nuvola hanno alzato rapidamente la spesa in conto capitale per data center, server e reti, spostando l’economia dell’intero ecosistema verso un’intensità di capitale che ricorda i cicli delle telecomunicazioni.
Lo schema si ripete anche lato consumer. Piani premium a prezzo fisso con accesso “illimitato” alle funzioni AI hanno rivelato la loro fragilità. Gli operatori hanno introdotto limiti dinamici, quote settimanali o formule legate all’“sforzo” computazionale della richiesta. È il segnale di un’industria che sta riconoscendo la natura variabile del costo di servizio e che cerca modelli di monetizzazione più allineati all’uso reale delle risorse.
Non tutto però va nella direzione dei costi in crescita. Esistono tre controtendenze concrete.
La prima è l’adozione di modelli piccoli e medi, spesso open weight, che offrono un ottimo rapporto qualità‑prezzo per compiti mirati. Gli 8‑70 miliardi di parametri ben addestrati, supportati da retrieval su dati proprietari e da una buona ingegneria del prompt, risolvono molti casi d’uso a una frazione del costo dei frontier models.
La seconda è la progressiva maturazione delle architetture sparse, come i Mixture‑of‑Experts, che attivano solo una parte del modello per ciascun token e promettono risparmi di calcolo a parità di qualità percepita.
La terza è l’ottimizzazione software: cache dei prompt, KV‑cache compresse, batching opportunistico, quantizzazione attenta, grafo statico per i percorsi più frequenti. Sono tasselli che, combinati, fanno la differenza sull’ordine di grandezza della spesa.
C’è poi un quarto elemento, più “organizzativo”, che vale quanto l’innovazione algoritmica. La progettazione dei prodotti. La tentazione di risolvere tutto con la massima potenza di fuoco è forte, ma spesso inutile. Una pipeline che instrada il 70‑80% delle richieste su modelli economici e invia ai modelli di punta solo i casi ambigui o ad alto valore è, nella pratica, la leva più efficace di FinOps per l’AI.
Il primo passo è misurare bene. Molti team conoscono il costo medio per 1.000 token, pochi hanno un’idea chiara del costo per compito completato con qualità accettabile. Serve un’osservabilità che unisca metrica di qualità, latenza, tasso di “tool call” e consumo di token lungo l’intera catena. Solo così si può fare routing intelligente e scegliere dove investire in prompt engineering o in retrieval migliore per ridurre il “rumore” in input.
Il secondo passo è stabilire dei guardrail tecnici. Finestre di contesto molto lunghe sono un’arma a doppio taglio. Se tutto finisce in prompt, si paga due volte: per la tokenizzazione e per la memoria. Un design attento usa la memoria del sistema e funzioni di ricerca per portare al modello solo l’essenziale, con meccanismi di caching e deduplicazione. Quando lo scenario lo consente, la distillazione verso modelli più piccoli o una MoE calibrata riducono tempi e costi senza impatti sostanziali sull’esperienza utente.
Il terzo passo riguarda l’infrastruttura. Il cloud resta la via più flessibile, ma a certe scale conviene valutare riserva di capacità o forme di “reserved instance” per abbassare il costo unitario. Chi opera con carichi stabili può combinare prenotazioni a lungo termine con cluster on‑prem o in colocation, a patto di tenere conto dei costi energetici locali e della disponibilità di raffreddamento adeguata. In tutti i casi, il dimensionamento della rete è cruciale: l’inferenza moderna non è solo calcolo, è scambio di KV‑cache tra GPU.
Infine, c’è il tema dei prezzi e del posizionamento. Le aziende che vendono funzioni AI integrate devono uscire dall’ambiguità dell’“illimitato” e ancorare i listini a metriche che riflettono l’effort computazionale. Piani per segmento d’utenza, limiti ragionevoli, crediti trasferibili e trasparenza sui sovraccosti riducono attriti e allineano incentivi tra fornitore e cliente.
La traiettoria dei costi dell’AI dipenderà anche dalle scelte infrastrutturali e regolatorie. Se nei prossimi anni reti e produzione elettrica cresceranno di pari passo con la domanda dei data center, la pressione sui prezzi potrebbe attenuarsi. Viceversa, colli di bottiglia nella connessione alla rete e nell’approvvigionamento di energia pulita manterranno alto il costo marginale.
Gli operatori stanno firmando PPA a lungo termine e investendo in generazione distribuita, ma la realizzazione richiede tempi che non sempre coincidono con i cicli dell’hardware. In mezzo, restano il tema idrico e l’uso del territorio, che costringono a una pianificazione più attenta di siti e tecnologie di raffreddamento.
Nel breve periodo è difficile immaginare un’inversione di tendenza, perché i modelli di punta continueranno a crescere nelle capacità e ad assorbire più risorse per richiesta. Lato offerta, l’arrivo di nuove generazioni di GPU e una maggiore disponibilità di HBM potranno alleviare il vincolo, ma la domanda di calcolo da parte di grandi piattaforme e laboratori rimarrà sostenuta. Nel frattempo, il mercato maturerà verso una segmentazione più netta tra AI “di base”, economica, e AI “di frontiera”, costosa ma riservata ai casi in cui il delta di qualità si traduce in reale vantaggio competitivo.
Per le organizzazioni che devono decidere oggi, la strategia praticabile è mettere a terra l’AI dove crea valore misurabile, riducendo l’ansia da “frontier” e costruendo architetture capaci di sfruttare il meglio dei diversi mondi. Il fine non è vincere un benchmark, ma portare a casa un ROI sostenibile nel tempo.
L’AI non è diventata “cara” per un capriccio dei fornitori, ma perché abbiamo imparato a chiederle molto di più. I modelli ragionano meglio, vedono e ascoltano, orchestrano strumenti e pianificano sequenze di azioni. Tutto questo ha un costo che scorre lungo catene tecniche e fisiche. La buona notizia è che esistono leve per governarlo: scegliere il modello giusto per il compito, progettare pipeline sobrie, usare caching e routing, monitorare costantemente qualità e spesa. La partita dell’AI, oggi, è tanto economica quanto algoritmica. Chi la vince sa dove mettere potenza, e dove invece mettere intelligenza di prodotto.
S&P Global Market Intelligence, “Alphabet raises 2025 capex guidance to $85bn”, 2025. https://www.spglobal.com/market-intelligence/en/news-insights/research/microsoft-and-meta-earnings-previews
Wall Street Journal, “Cutting‑Edge AI Was Supposed to Get Cheaper. It’s More Expensive Than Ever.”, 2025. https://www.wsj.com/tech/ai/ai-costs-expensive-startups-4c214f59
International Energy Agency (IEA), “AI is set to drive surging electricity demand from data centres”, 2025. https://www.iea.org/news/ai-is-set-to-drive-surging-electricity-demand-from-data-centres-while-offering-the-potential-to-transform-how-the-energy-sector-works
BloombergNEF, “Power for AI: Easier Said Than Built”, 2025. https://about.bnef.com/insights/commodities/power-for-ai-easier-said-than-built/
Financial Times, “Inside the relentless race for AI capacity”, 2025. https://ig.ft.com/ai-data-centres/
OpenAI, “API Pricing”, consultato agosto 2025. https://openai.com/api/pricing/
Anthropic, “Pricing”, consultato agosto 2025. https://docs.anthropic.com/en/docs/about-claude/pricing
Reuters, “Nvidia’s Blackwell B200 AI chip price”, 2024. https://www.reuters.com/technology/nvidias-new-ai-chip-be-priced-over-30000-cnbc-reports-2024-03-19/
Lambda, “AI Cloud Pricing”, consultato agosto 2025. https://lambda.ai/pricing
Business Insider, “’Inference whales’ are eating into AI coding startups’ business model”, 2025. https://www.businessinsider.com/inference-whales-threaten-ai-coding-startups-business-model-2025-8
TechCrunch, “Cursor apologizes for unclear pricing changes that upset users”, 2025. https://techcrunch.com/2025/07/07/cursor-apologizes-for-unclear-pricing-changes-that-upset-users/
Stanford HAI, “AI Index Report 2025”, 2025. https://hai.stanford.edu/ai-index/2025-ai-index-report
Tri Dao et al., “FlashAttention‑3: Fast and Accurate Attention with Asynchrony and Low‑precision”, 2024. https://arxiv.org/abs/2407.08608
Hugging Face Blog, “KV Caching explained”, 2025. https://huggingface.co/blog/not-lain/kv-caching
Data Center Dynamics, “Google expects 2025 capex to surge to $75bn on AI data center buildout”, 2025. https://www.datacenterdynamics.com/en/news/google-expects-2025-capex-to-surge-to-75bn-on-ai-data-center-buildout/
***** l’articolo pubblicato è ritenuto affidabile e di qualità*****
Visita il sito e gli articoli pubblicati cliccando sul seguente link