TPU: L’architettura che sta ridisegnando l’Intelligenza Artificiale – Digital4Pro

TPU: L’architettura che sta ridisegnando l’Intelligenza Artificiale

Il Service Climate: Verso l’integrazione di clima e cultura
7 Ottobre 2025
AI: L’impatto sulla privacy
28 Ottobre 2025

Abstract

Il seguente lavoro analizza il ruolo rivoluzionario delle Tensor Processing Units (TPU) nell’evoluzione dell’intelligenza artificiale, evidenziando come queste architetture hardware specializzate abbiano ridefinito i limiti delle capacità computazionali in ambito AI. Dopo aver delineato il contesto storico che ha portato Google allo sviluppo delle TPU per rispondere alle crescenti esigenze dei modelli di machine learning e deep learning, l’abstract mette in luce le caratteristiche tecniche distintive di queste unità: parallelismo massivo, gestione avanzata della memoria ad alta banda (HBM), efficienza energetica e integrazione nativa con framework come TensorFlow. Vengono discussi i vantaggi competitivi delle TPU rispetto a CPU e GPU, la loro scalabilità tramite infrastrutture come i TPU Pods e l’impatto abilitante su applicazioni reali e modelli di nuova generazione—dalla visione artificiale al Natural Language Processing. Infine, il lavoro offre una panoramica sulle sfide emergenti e sulle prospettive future delle TPU, sottolineando il loro ruolo strategico nella democratizzazione e sostenibilità dell’AI moderna e nel progresso della supercomputazione.

Introduzione

Negli ultimi anni, il campo dell’intelligenza artificiale (AI) ha vissuto una trasformazione radicale, passando da una disciplina prevalentemente teorica a un motore fondamentale dell’innovazione tecnologica che permea numerosi aspetti della società moderna. Questa transizione è stata resa possibile grazie a una convergenza di progressi sia algoritmici sia, soprattutto, nell’ambito dell’hardware computazionale. In particolare, la crescente complessità dei modelli di machine learning—caratterizzati da architetture profonde, milioni o miliardi di parametri e dataset di dimensioni sempre maggiori—ha posto nuove e stringenti esigenze sulle infrastrutture di calcolo, richiedendo soluzioni hardware specializzate in grado di sostenere carichi di lavoro massivi e operazioni matematiche ad alta intensità.

In questo scenario, le Tensor Processing Units (TPU), progettate e sviluppate da Google, si sono affermate come una delle innovazioni più significative e disruptive nel panorama dell’hardware per l’intelligenza artificiale. Le TPU incarnano un vero e proprio cambio di paradigma rispetto alle architetture tradizionali, essendo ottimizzate per accelerare operazioni matematiche fondamentali come la moltiplicazione di matrici e la manipolazione di tensori, che costituiscono il nucleo computazionale dei moderni algoritmi di deep learning. Grazie a un’architettura domain-specific, le TPU superano in numerosi contesti le prestazioni offerte da GPU e CPU general-purpose, sia in termini di throughput che di efficienza energetica, rendendole particolarmente adatte per l’addestramento e l’inferenza di modelli AI su larga scala.

La loro capacità di scalare orizzontalmente, la gestione ottimizzata della memoria ad alta banda (HBM) e l’integrazione nativa con framework come TensorFlow consentono alle TPU di affrontare workload estremamente complessi, come quelli richiesti dai modelli linguistici avanzati (ad esempio BERT e GPT), nonché applicazioni critiche nei settori medicale, scientifico e industriale. In questi ambiti, le TPU hanno dimostrato di essere un fattore abilitante per l’adozione di soluzioni AI che, fino a pochi anni fa, sarebbero state impraticabili a causa delle limitazioni computazionali.

Il presente lavoro si propone di offrire un’analisi dettagliata e sistematica dell’architettura, del funzionamento e delle principali applicazioni delle TPU, evidenziando sia i vantaggi competitivi sia le limitazioni intrinseche di questa tecnologia in un contesto in rapida evoluzione. Verrà ricostruito il percorso storico che ha portato allo sviluppo delle TPU, seguito da un’esplorazione approfondita delle loro caratteristiche tecniche distintive, delle differenze rispetto ad altre soluzioni hardware (come GPU e CPU), e da una rassegna di casi di studio che ne illustrano l’impatto pratico in scenari reali. La trattazione si estenderà anche alle prospettive future, analizzando le potenzialità delle TPU nell’ambito della supercomputazione e nei sistemi di intelligenza artificiale di nuova generazione, con particolare attenzione alle sfide emergenti legate alla scalabilità, all’efficienza energetica e all’integrazione con nuovi paradigmi computazionali.

Durante l’analisi, saranno messi in luce non solo i traguardi tecnologici raggiunti, ma anche le principali criticità e opportunità che caratterizzano l’adozione delle TPU, con riferimenti puntuali a letteratura scientifica, white paper industriali e studi di settore. L’obiettivo è fornire una panoramica esaustiva e rigorosa, utile sia per ricercatori che per professionisti e decisori aziendali interessati a comprendere il ruolo strategico delle TPU nell’ecosistema dell’AI contemporanea.

Infine, le TPU non vanno considerate solo come un traguardo tecnologico, ma come un punto di partenza per la prossima generazione di innovazioni, in cui la sinergia tra hardware specializzato e algoritmi di intelligenza artificiale definirà nuovi standard di efficienza, sostenibilità e capacità computazionale. Questo lavoro intende contribuire al dibattito scientifico e industriale, offrendo una base solida per valutare il potenziale impatto delle TPU nel panorama tecnologico globale e per orientare le future scelte progettuali e strategiche.

Cos’è una TPU?

Le Tensor Processing Units (TPU) rappresentano una classe di acceleratori hardware specializzati, progettati espressamente per ottimizzare l’esecuzione di operazioni matematiche intensive tipiche dei modelli di intelligenza artificiale, con particolare riferimento alle architetture di machine learning e deep learning. Sviluppate da Google, le TPU incarnano una risposta ingegneristica avanzata alla crescente necessità di risorse computazionali dedicate, in grado di sostenere sia la fase di addestramento che quella di inferenza di modelli sempre più complessi e di grandi dimensioni. L’innovazione delle TPU risiede nella loro capacità di accelerare drasticamente le primitive matematiche fondamentali delle reti neurali, come la moltiplicazione di matrici e la manipolazione di tensori multidimensionali, che costituiscono il nucleo computazionale dei moderni algoritmi di AI.

Le reti neurali artificiali, che rappresentano il paradigma dominante nelle applicazioni di intelligenza artificiale contemporanee, sono strutturate in molteplici livelli (layer) di nodi interconnessi, ciascuno dei quali esegue trasformazioni matematiche sui dati in ingresso. Queste trasformazioni si concretizzano in operazioni come la moltiplicazione di matrici, la somma di vettori, l’applicazione di funzioni di attivazione non lineari e la normalizzazione dei dati. Ad esempio, nella classificazione di immagini, ogni pixel viene codificato come valore numerico e sottoposto a una sequenza di operazioni matematiche che, attraverso milioni di iterazioni, consentono alla rete di apprendere rappresentazioni gerarchiche e discriminative delle informazioni visive. L’elevata dimensionalità dei dati e la profondità delle architetture neurali comportano una richiesta computazionale esponenziale, che solo hardware altamente parallelizzato può soddisfare.

Storicamente, questi carichi di lavoro venivano gestiti da CPU (Central Processing Units) e, successivamente, da GPU (Graphics Processing Units). Le CPU, pur essendo estremamente versatili, sono ottimizzate per l’esecuzione sequenziale di istruzioni e risultano poco efficienti nell’elaborazione massiva e parallela di dati, caratteristica essenziale per il deep learning. Le GPU hanno introdotto un significativo avanzamento grazie alla loro architettura orientata al parallelismo massivo, originariamente pensata per il rendering grafico ma rivelatasi efficace anche per le reti neurali. Tuttavia, con l’esplosione della complessità dei modelli e delle dimensioni dei dataset, anche le GPU hanno iniziato a mostrare limiti in termini di scalabilità, efficienza energetica e latenza.

Le TPU sono state concepite per superare queste barriere, adottando un approccio domain-specific: non si tratta di processori general-purpose, ma di dispositivi ottimizzati esclusivamente per le operazioni matematiche che costituiscono il cuore del machine learning. Il loro design si basa su array di moltiplicatori-accumulatori (MAC) organizzati in strutture hardware dedicate, come le Matrix Multiply Unit (MXU), che permettono di eseguire milioni di operazioni in parallelo per ogni ciclo di clock. Questo livello di parallelismo, unito a una gestione intelligente della memoria ad alta banda (High Bandwidth Memory, HBM), consente alle TPU di raggiungere throughput computazionali e livelli di efficienza energetica nettamente superiori rispetto alle GPU più avanzate.

Un elemento distintivo delle TPU è la loro architettura pipeline e la capacità di minimizzare i colli di bottiglia nell’accesso ai dati, grazie a buffer e controller specializzati che riducono la latenza e massimizzano l’utilizzo delle risorse hardware. Questo le rende particolarmente adatte per applicazioni AI su larga scala, come il riconoscimento vocale in tempo reale, la traduzione automatica sequenziale, i sistemi di raccomandazione e l’analisi predittiva su big data. Inoltre, il design delle TPU è orientato alla sostenibilità: la riduzione del consumo energetico per operazione computazionale rappresenta un vantaggio competitivo, soprattutto nei data center di nuova generazione, dove l’efficienza energetica è un parametro chiave.

Per comprendere l’impatto pratico delle TPU, si consideri un caso d’uso concreto: l’addestramento di un modello di deep learning per il monitoraggio ambientale tramite immagini satellitari. Su architetture tradizionali, tale processo potrebbe richiedere settimane o mesi, con costi energetici e finanziari elevati. L’impiego delle TPU consente di ridurre drasticamente i tempi di addestramento, ottimizzando l’allocazione delle risorse e accelerando il time-to-result, con un impatto diretto sulla produttività e sull’innovazione.

Un ulteriore vantaggio strategico delle TPU è la loro integrazione nativa con TensorFlow, il framework di machine learning open source sviluppato da Google. Questa sinergia tra hardware e software permette agli sviluppatori di sfruttare le potenzialità delle TPU senza dover riscrivere il codice dei modelli, garantendo una transizione fluida e una curva di apprendimento ridotta. I modelli implementati in TensorFlow possono essere eseguiti su TPU con modifiche minime, consentendo una rapida sperimentazione e deployment su larga scala.

Le TPU sono inoltre progettate per la scalabilità orizzontale: Google ha introdotto l’infrastruttura dei TPU Pods, cluster che collegano centinaia o migliaia di TPU in una rete ad alta velocità, abilitando l’addestramento distribuito di modelli di dimensioni senza precedenti. Questo approccio consente di affrontare sfide computazionali che richiedono una potenza di calcolo aggregata, come l’addestramento di modelli linguistici avanzati (BERT, GPT) con miliardi di parametri, riducendo i tempi di calcolo da mesi a pochi giorni.

In sintesi, le TPU rappresentano una pietra miliare nell’evoluzione dell’hardware per l’intelligenza artificiale, offrendo prestazioni, efficienza e scalabilità senza precedenti. Non solo accelerano i processi di calcolo, ma contribuiscono a democratizzare l’accesso alle tecnologie AI, rendendo possibile la realizzazione di soluzioni avanzate in tempi e costi contenuti. Con il continuo avanzamento tecnologico, le TPU continuano a ridefinire i limiti del possibile, trasformando radicalmente il modo in cui l’intelligenza artificiale viene progettata, sviluppata e applicata.

Contesto storico: l’evoluzione delle TPU secondo Google

L’origine delle Tensor Processing Units (TPU) è profondamente intrecciata con la rapida evoluzione dell’intelligenza artificiale e con la crescente complessità computazionale dei modelli di machine learning adottati da Google nei propri servizi e prodotti di punta. Già nei primi anni 2000, Google si distingueva come uno dei principali innovatori nell’ambito dell’AI, integrando algoritmi di apprendimento automatico in applicazioni strategiche come il motore di ricerca, Google Translate e Google Photos. Tuttavia, con il progressivo affermarsi di architetture neurali sempre più profonde e sofisticate—come le reti convoluzionali (CNN) e le reti ricorrenti (RNN)—la domanda di potenza computazionale necessaria per addestrare e inferire questi modelli è cresciuta in modo esponenziale, superando rapidamente le capacità delle infrastrutture hardware tradizionali.

In questo scenario, Google si è trovata di fronte a una sfida ingegneristica di portata storica: le CPU (Central Processing Units) e le GPU (Graphics Processing Units), pur essendo strumenti potenti e flessibili, non erano ottimizzate per i carichi di lavoro massivi e fortemente paralleli richiesti dai modelli di deep learning di nuova generazione. L’adozione di GPU avanzate aveva permesso un primo salto di qualità, ma i costi energetici e temporali per l’addestramento di modelli complessi—come quelli impiegati nella traduzione automatica in tempo reale o nel riconoscimento delle immagini—stavano diventando insostenibili, sia dal punto di vista economico che ambientale. Per un’azienda come Google, che gestisce miliardi di query ogni giorno e deve garantire risposte con latenza minima, questa inefficienza rappresentava un ostacolo critico all’innovazione.

La necessità di una soluzione radicale ha portato Google a ripensare completamente il paradigma hardware: invece di adattare processori general-purpose, l’azienda ha scelto di progettare un acceleratore specifico per i carichi di lavoro del machine learning, dando così vita al concetto di domain-specific hardware. Nel 2015 nasce la prima generazione di TPU, inizialmente destinata all’uso interno nei data center di Google. Questa scelta rompeva con la tradizione del “processore universale”, introducendo un’architettura focalizzata esclusivamente sull’efficienza nell’elaborazione di operazioni matematiche fondamentali per le reti neurali, come la moltiplicazione di matrici e le operazioni scalari.

La TPU v1 fu progettata principalmente per accelerare i processi di inferenza, ovvero l’applicazione di modelli già addestrati su nuovi dati. A differenza delle GPU, che dovevano bilanciare tra calcolo grafico e computazione parallela, la TPU v1 era ottimizzata per eseguire in modo estremamente efficiente le operazioni chiave delle reti neurali. Questa specializzazione consentiva di ottenere velocità di inferenza fino a 15-30 volte superiori rispetto alle GPU disponibili all’epoca, con una significativa riduzione dei costi operativi. Uno dei primi impieghi su larga scala fu proprio in Google Search, dove le TPU permisero di accelerare il ranking e la risposta alle query, migliorando sensibilmente l’esperienza utente.

Il successo della TPU v1 spinse Google a investire ulteriormente nello sviluppo di questa tecnologia. Nel 2017 fu introdotta la TPU v2, che segnò un’evoluzione fondamentale: oltre all’inferenza, la nuova generazione era in grado di gestire anche la fase di addestramento dei modelli di deep learning, un’operazione notoriamente intensiva dal punto di vista computazionale. La TPU v2 presentava un’architettura migliorata, una maggiore capacità di calcolo e il supporto nativo all’accelerazione di TensorFlow, il framework open source di Google per il machine learning. Un aspetto rivoluzionario fu la disponibilità delle TPU v2 su Google Cloud Platform, che rese accessibile questa tecnologia avanzata a una platea globale di ricercatori, aziende e sviluppatori, democratizzando l’accesso all’AI di alto livello.

Nel 2018, Google lanciò la TPU v3, che introdusse ulteriori innovazioni, tra cui un sistema di raffreddamento a liquido per gestire il calore generato dalle operazioni computazionali ad altissima densità. La v3 offriva una potenza di calcolo di 420 teraflop per unità, risultando ideale per l’addestramento di modelli avanzati come BERT e le prime versioni di GPT. Il raffreddamento a liquido non era solo una soluzione ingegneristica, ma anche un passo verso la sostenibilità, consentendo di mantenere elevate prestazioni senza incrementare il consumo energetico in modo sproporzionato.

Con la crescente domanda di AI su scala sempre più ampia, nel 2020 Google presentò la TPU v4, una generazione progettata per supportare modelli di machine learning con miliardi, se non trilioni, di parametri. La v4 rappresentava un salto quantico in termini di potenza computazionale rispetto alla v3, ed era disponibile anche in configurazioni TPU Pods: cluster di centinaia o migliaia di TPU interconnesse, capaci di addestrare modelli estremamente complessi in tempi ridotti da settimane a pochi giorni. Questa infrastruttura ha aperto la strada a innovazioni che sarebbero state irrealizzabili con hardware tradizionale.

Parallelamente ai progressi hardware, Google ha investito nel continuo perfezionamento dell’ecosistema software. TensorFlow, sviluppato in parallelo alle TPU, è stato costantemente ottimizzato per sfruttare appieno le capacità di questi chip, consentendo agli sviluppatori di migrare facilmente i propri progetti da GPU a TPU senza dover riscrivere il codice. Questo livello di integrazione ha reso le TPU una scelta privilegiata per applicazioni che spaziano dalla visione artificiale all’elaborazione del linguaggio naturale, fino alla bioinformatica.

In sintesi, il percorso evolutivo delle TPU testimonia l’impegno di Google nell’affrontare le sfide dell’intelligenza artificiale attraverso soluzioni hardware e software innovative. Da una tecnologia inizialmente sviluppata per esigenze interne, le TPU sono diventate un pilastro dell’ecosistema AI globale, fornendo strumenti potenti e scalabili a ricercatori, aziende e sviluppatori per affrontare le sfide del machine learning su larga scala. Questa traiettoria sottolinea non solo il ruolo di Google come leader tecnologico, ma anche come la sinergia tra hardware specializzato e software ottimizzato possa trasformare radicalmente il panorama dell’intelligenza artificiale.

Perché le TPU sono cruciali per l’Intelligenza Artificiale

Le Tensor Processing Units (TPU) rappresentano una svolta paradigmatica nell’evoluzione dell’hardware per l’intelligenza artificiale (AI), non solo per le loro caratteristiche tecniche avanzate, ma anche per il ruolo strategico che hanno assunto nell’abilitare la scalabilità, la democratizzazione e la sostenibilità delle soluzioni AI di nuova generazione. In un contesto in cui machine learning e deep learning sono diventati i principali motori di innovazione in settori eterogenei—dalla sanità all’industria manifatturiera, dalla finanza all’arte—l’introduzione di hardware domain-specific come le TPU ha permesso di superare molte delle barriere computazionali che limitavano l’adozione e la diffusione di modelli sempre più complessi e data-intensive.

La centralità delle TPU risiede nella loro capacità di offrire una combinazione unica di prestazioni computazionali elevate, scalabilità orizzontale, efficienza energetica e adattabilità alle esigenze dinamiche della moderna AI. I modelli di machine learning contemporanei, come le reti neurali convoluzionali (CNN) per la visione artificiale e le architetture transformer per il Natural Language Processing (NLP), richiedono l’elaborazione di enormi matrici di dati e l’esecuzione di operazioni matematiche su larga scala. Ogni ciclo di addestramento o inferenza implica la manipolazione di milioni o miliardi di parametri, la propagazione di segnali attraverso centinaia di layer e la gestione di dataset ad altissima dimensionalità, come immagini ad alta risoluzione o sequenze linguistiche estese. Questa complessità computazionale cresce esponenzialmente con la dimensione dei dati e la profondità dei modelli.

Le architetture hardware tradizionali, come CPU e GPU, pur avendo contribuito in modo significativo all’evoluzione dell’AI, presentano limiti strutturali. Le CPU, ottimizzate per l’esecuzione sequenziale di istruzioni, risultano poco adatte al calcolo massivamente parallelo richiesto dalle reti neurali profonde. Le GPU, nate per il rendering grafico, hanno introdotto il paradigma del parallelismo massivo, ma la loro architettura general-purpose comporta un overhead di risorse non sempre necessario per i carichi di lavoro AI. Di conseguenza, una parte significativa della potenza computazionale delle GPU viene impiegata in operazioni non essenziali per il machine learning, riducendo l’efficienza complessiva e aumentando il consumo energetico.

Le TPU colmano questa lacuna grazie a un design hardware fortemente specializzato: sono ottimizzate per eseguire, con precisione e rapidità, le operazioni matematiche fondamentali del deep learning, come la moltiplicazione di matrici e la manipolazione di tensori. Il cuore delle TPU è costituito da array di moltiplicatori-accumulatori (MAC) organizzati in Matrix Multiply Units (MXU), che consentono di eseguire milioni di operazioni in parallelo per ogni ciclo di clock. Questo livello di parallelismo, unito a una gestione intelligente della memoria ad alta banda (High Bandwidth Memory, HBM), permette alle TPU di raggiungere throughput computazionali e livelli di efficienza energetica nettamente superiori rispetto alle GPU più avanzate. Ad esempio, una singola operazione di moltiplicazione di matrici, che può coinvolgere miliardi di calcoli, viene eseguita in pochi millisecondi, abilitando applicazioni real-time e modelli di dimensioni senza precedenti.

Un altro elemento distintivo delle TPU è la loro efficienza energetica. L’addestramento e l’inferenza di modelli AI su larga scala richiedono enormi quantità di energia, sia per l’elaborazione che per il raffreddamento dell’hardware. Le TPU, grazie a soluzioni ingegneristiche come il raffreddamento a liquido (introdotto con la v3), sono progettate per minimizzare il consumo energetico per operazione computazionale, riducendo così l’impatto ambientale e i costi operativi per aziende e istituzioni accademiche. Questo aspetto è particolarmente rilevante in un’epoca in cui la sostenibilità delle infrastrutture digitali è diventata una priorità strategica.

La scalabilità rappresenta un ulteriore punto di forza delle TPU. Oltre a offrire prestazioni straordinarie come unità singole, le TPU possono essere aggregate in cluster chiamati TPU Pods, che collegano centinaia o migliaia di unità in una rete ad alta velocità. Questa architettura consente di gestire carichi di lavoro massivi in parallelo, abilitando l’addestramento distribuito di modelli con miliardi o trilioni di parametri. I TPU Pods sono stati impiegati per addestrare alcuni dei modelli più avanzati mai sviluppati, come BERT per il NLP e reti neurali per la diagnosi medica automatizzata, riducendo i tempi di addestramento da settimane a pochi giorni e aprendo la strada a nuove frontiere della ricerca.

L’impatto delle TPU si riflette anche nelle applicazioni reali. Ad esempio, nei sistemi di riconoscimento vocale come Google Assistant, le TPU permettono di eseguire in tempo reale la conversione della voce in testo, l’analisi semantica della richiesta e la generazione della risposta, garantendo una user experience fluida e reattiva. Analogamente, nei sistemi di raccomandazione, nella traduzione automatica e nell’analisi predittiva, le TPU abilitano prestazioni e livelli di personalizzazione che sarebbero irraggiungibili con hardware tradizionale.

Un aspetto fondamentale è la democratizzazione dell’accesso alle tecnologie AI avanzate. Google ha reso disponibili le TPU attraverso la piattaforma Google Cloud Platform, consentendo a ricercatori, startup e aziende di ogni dimensione di accedere a risorse computazionali di livello industriale senza la necessità di investire in costose infrastrutture proprietarie. Questo ha abbattuto le barriere all’ingresso, favorendo la diffusione dell’innovazione anche in contesti con risorse limitate.

Infine, la capacità delle TPU di gestire enormi volumi di dati e operazioni ha reso possibile lo sviluppo di modelli AI che in passato erano semplicemente irrealizzabili. Modelli transformer di ultima generazione, come GPT-3, richiedono miliardi di parametri e dataset di dimensioni colossali: l’addestramento di tali modelli su hardware tradizionale sarebbe proibitivo in termini di tempo e costi. Le TPU consentono ai ricercatori di esplorare nuove architetture e approcci, accelerando il progresso scientifico e tecnologico.

In sintesi, le TPU non rappresentano solo un’evoluzione incrementale dell’hardware AI, ma una vera e propria rivoluzione che ha ridefinito il modo in cui affrontiamo le sfide del machine learning. Dalla velocità e scalabilità alla sostenibilità e accessibilità, le TPU sono diventate una componente imprescindibile per chiunque voglia sfruttare appieno il potenziale dell’intelligenza artificiale. Il loro impatto si estende ben oltre il dominio tecnologico, influenzando settori come la sanità, l’educazione, l’industria e l’arte, e dimostrando come l’innovazione hardware possa essere il catalizzatore di un cambiamento profondo e duraturo.

Bibliografia

  • Jouppi, N. P., Young, C., Patil, N., Patterson, D., Agrawal, G., Bajwa, R., … & Laudon, J. (2017). In-Datacenter Performance Analysis of a Tensor Processing Unit. Proceedings of the 44th Annual International Symposium on Computer Architecture (ISCA), 1-12. DOI: 10.1145/3079856.3080246.
  • Google Research. (2021). TPU v4: Revolutionizing Machine Learning with High-Performance and Energy-Efficient Computing. Google White Paper. Retrieved from https://cloud.google.com.
  • Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., … & Liu, P. J. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research, 21(140), 1-67. Retrieved from https://arxiv.org/abs/1910.10683.
  • Jumper, J., Evans, R., Pritzel, A., Green, T., Figurnov, M., Ronneberger, O., … & Hassabis, D. (2021). Highly Accurate Protein Structure Prediction with AlphaFold. Nature, 596, 583–589. DOI: 10.1038/s41586-021-03819-2.
  • Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … & Polosukhin, I. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems (NeurIPS), 5998-6008. Retrieved from https://arxiv.org/abs/1706.03762.
  • NVIDIA Corporation. (2022). A100 Tensor Core GPU: Performance and Scalability for Machine Learning. Technical White Paper. Retrieved from https://developer.nvidia.com.
  • Gholami, A., Kim, S., Yao, Z., Mahoney, M. W., & Keutzer, K. (2018). A Survey of Quantization Methods for Efficient Neural Network Inference. Journal of Machine Learning Research, 18(153), 1-37. Retrieved from https://arxiv.org/abs/1712.05877.
  • Forrester Research. (2021). AI Hardware Market Analysis: The Rise of Accelerators in Data Centers. Forrester Research Report. Retrieved from https://www.forrester.com.
  • Dean, J., Corrado, G., Monga, R., Chen, K., Devin, M., Mao, M., … & Ng, A. (2012). Large Scale Distributed Deep Networks. Advances in Neural Information Processing Systems (NeurIPS), 1223-1231. Retrieved from https://papers.nips.cc.
  • Google Cloud. (2022). How TPU Pods Are Revolutionizing AI Training at Scale. Technical White Paper. Retrieved from https://cloud.google.com/tpu.
  • Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., … & Amodei, D. (2020). Language Models Are Few-Shot Learners. Advances in Neural Information Processing Systems (NeurIPS), 33, 1877-1901. Retrieved from https://arxiv.org/abs/2005.14165.
  • IDC Research. (2021). Comparative Analysis of AI Accelerators: TPU vs. GPU vs. CPU. IDC Industry Report. Retrieved from https://www.idc.com.
  • Patterson, D., Gonzalez, J., Le, Q., Liang, C., Munguia, L., & Dean, J. (2021). Scaling AI with TensorFlow and TPU Pods. Google AI Blog. Retrieved from https://ai.googleblog.com.
  • Smith, S. L., Kindermans, P., Ying, C., & Le, Q. (2017). Don’t Decay the Learning Rate, Increase the Batch Size. International Conference on Learning Representations (ICLR). Retrieved from https://arxiv.org/abs/1711.00489.
  • Amodei, D., & Hernandez, D. (2018). AI and Compute. OpenAI Blog. Retrieved from https://openai.com.

Condividi su:

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *