Il futuro è nei dati
I super computer
Elaborare grandi quantità di dati con algoritmi di machine learning ha comportato una crescente richiesta di potenza di calcolo. L’High Performance Computing rappresenta una risorsa strategica con applicazioni in innumerevoli settori
12 minG
ià oggi generiamo decine di zetabyte (decine di migliaia di miliardi di gigabyte) all’anno. Si prevede che entro pochi anni, quando 150 miliardi di nuovi dispositivi “intelligenti” saranno connessi a Internet, i dati generati annualmente aumenteranno di diversi yottabyte, un numero addirittura superiore alla costante di Avogadro (che esprime il numero di particelle - atomi, molecole o ioni - contenute in una mole). In questo scenario l’intelligenza artificiale, e in particolare il machine learning, con i suoi progressi incredibili degli ultimi decenni, sembra essere l’unico strumento possibile per analizzare ed estrarre valore da questi enormi volumi di dati. In particolare, le tecnologie di machine learning sono oramai essenziali in tutte le fasi dell’analisi di big data, che vanno dall’estrarre pattern dai dati (informazione), all’individuare correlazioni tra tali pattern (conoscenza), all’utilizzare tale conoscenza per costruire una rappresentazione matematica (un modello) coerente con i dati e infine alla realizzazione di algoritmi predittivi coerenti con tali modelli.
Elaborare grandi quantità di dati con algoritmi di machine learning ha comportato una crescente richiesta di potenza di calcolo. Si stima infatti che dal 2012 la quantità di calcolo utilizzata nelle fasi di training da algoritmi di machine learning sia aumentata in modo esponenziale, con un periodo di raddoppio (doubling time) pari a 3,4 mesi (ovvero la quantità di calcolo utilizzata nella fase di training raddoppia all’incirca ogni 3,4 mesi). Tanto per fare un confronto, la legge di Moore prevede un periodo di raddoppio pari a 2 anni. Per fissare le idee, dal 2012 la metrica relativa alla quantità di calcolo utilizzata è cresciuta di oltre 300.000 volte, mentre il raddoppio di 2 anni previsto dalla legge di Moore avrebbe prodotto soltanto una crescita di un fattore pari a 7. Questi miglioramenti nella capacità di elaborazione sono stati una componente chiave del progresso degli algoritmi di machine learning. Finché questo trend continua, è importante essere pronti a prevedere sistemi di calcolo in grado di andare molto al di là delle attuali capacità di calcolo.
High Performance Computing (HPC) oggi
High Performance Computing (calcolo ad elevate prestazioni) si riferisce alle tecnologie utilizzate per creare sistemi di elaborazione in grado di fornire prestazioni molto elevate, attualmente dell’ordine dei PetaFLOPS, ricorrendo tipicamente a calcolo parallelo. L’interesse per HPC è iniziato negli anni 60, con le prime applicazioni, soprattutto relative a simulazioni, nate nelle università e negli enti governativi statunitensi. Negli anni successivi, l’evoluzione delle architetture hardware e degli strumenti software ha consentito di sfruttare al meglio le potenzialità dei sistemi HPC per una molteplicità di applicazioni. Negli ultimi anni, infatti, sono emerse moltissime nuove possibilità di applicazione di HPC in contesti aziendali, molto diversi da contesti originari per cui era stato concepito HPC. Le principali applicazione odierne di HPC includono la sicurezza cyber, la biometria, l’ottimizzazione, la gestione del rischio, il miglioramento dei processi, la previsione comportamentale e il miglioramento di business model. Anche grazie alle innumerevoli applicazioni in contesti aziendali, il mercato HPC globale è in forte crescita: oggi supera i 40 miliardi di dollari, e si prevedono ulteriori sviluppi.
A titolo di esempio di applicazioni HPC in contesti aziendali, basti pensare a PayPal che utilizza un cluster HPC per identificare frodi e pattern di comportamenti sospetti in tempo reale; per creare nuovi modelli anti-frode in modo rapido e con minimo sforzo; per estrapolare insight in tempi rapidi dai dati e dagli eventi che vengono registrati continuamente sui sistemi aziendali. PayPal realizza questi obiettivi riuscendo a correlare dati provenienti da molte sorgenti eterogenee e ottenendo così informazioni utili a pianificare interventi di business tempestivi. In particolare, la velocità di calcolo del cluster HPC consente di elaborare e correlare dati provenienti da migliaia di sorgenti diverse, relativi a circa 3 milioni di eventi / secondo, così da riuscire ad avere insight in tempo reale. Grazie a questo cluster HPC, PayPal è in grado di analizzare application log, dati operativi, ambientali ed eventi registrati su social media, con flussi di 25 Tb/ora, provenienti da migliaia di servers, inclusi i trend su social media e interazioni clienti. Tutto questo consente di identificare pattern e anomalie: grazie all’analisi dei dati in tempo reale HPC permette all’azienda di intervenire immediatamente, prima di eventuali esperienze negative da parte degli utenti.
Cambiando segmento di business, Eni utilizza HPC in attività upstream, sia per migliorare la ricerca di idrocarburi (tramite la modellazione dei giacimenti in fase di produzione), sia per migliorare le capacità di predizione e di simulazione. Per raggiungere questi obiettivi, Eni ha due sistemi HPC, con capacità di calcolo di picco combinata di 52 PetaFlop/s, in cui combina simulazione numerica con tecniche di machine learning, e in particolare deep learning. La capacità di calcolo dei sistemi HPC ha permesso ad Eni di ridurre i tempi necessari a ricostruire i modelli del sottosuolo da alcuni mesi a pochi giorni o addirittura a ore. Inoltre, con l’introduzione dei sistemi HPC, sono stati dimezzati i tempi di completamento della prima produzione, passando da 9 anni a 4,5 anni.
Secondo i dati aggiornati a giugno 2024 (Fonte www.top500.org), i paesi leader mondiali nell’HPC sono gli Stati Uniti e la Cina, rispettivamente con 171 e 80 istallazioni. L’Italia occupa attualmente l’ottavo posto nella classifica mondiale con 11 istallazioni.
I sistemi HPC attualmente più potenti al mondo, sempre con dati aggiornati a giugno 2024, sono in gran parte statunitensi: i primi tre sono Frontier, istallato presso l’Oak Ridge National Laboratory; Aurora, istallato presso l’Argonne National Laboratory; Eagle, di Microsoft Azure. L’Italia è oggi il terzo Paese dell’Unione Europea per potenza di calcolo, dopo Germania e Francia, e ha tre sistemi HPC nella top 100 mondiale: Leonardo di Cineca, in settima posizione, HPC5 di Eni in ventiquattresima posizione, e HPC4 di Eni in ottantunesima posizione. Rispetto ad altri contesti di riferimento (Unione Europea e Mondo), l’Italia si distingue per il maggiore utilizzo di HPC in ambito industriale.
Uno sguardo al futuro
Nell'imediato futuro si prevede l'inrtoduzione di nuovi sistemi HPC, come ad esempio HPC6, recentemente annunciato da Eni, che avrà una potenza di picco di oltre 600 PetaFlop/s. Inoltre, ci sono due particolari tendenze tecnologiche che potrebbero risultare particolarmente significative per il settore HPC, e riguardano le interazioni tra HPC e Quantum computing, e tra HPC e Cloud computing.
Il Quantum Computing è un modello di calcolo basato sulla teoria quantistica
Uno degli aspetti più interessanti dal punto di vista computazionale è il bit quantistico (Qubit), l’unità di informazione quantistica che può esistere contemporaneamente in due stati (polarizzazione orizzontale e verticale), grazie al principio di sovrapposizione della fisica quantistica. Il potere computazionale del Quantum Computing non si basa quindi su velocità di clock più elevate, ma sul fatto che può gestire dati esponenzialmente più grandi. Dati i limiti attuali del Quantum Computing e l’evoluzione di HPC, nel breve termine si possono prevedere sistemi ibridi che utilizzano tecnologie quantistiche e classiche sulla stessa piattaforma: effettuando elaborazioni general purpose ad alta velocità (con HPC) combinate con ultra-performance specifiche per i casi d’uso (con Quantum Computing). In particolare, il programma EuroHPC JU (European High Performance Computing Joint Undertaking) ha finanziato il progetto HPCQS (High-Performance Computer and Quantum Simulator hybrid), con l’obiettivo di integrare tecnologie HPC quantistiche e classiche (integrando simulatori quantistici nei supercomputer europei già esistenti). Questo rappresenterà un incubatore per Quantum-HPC hybrid computing unico al mondo, e potrà liberare nuovo potenziale innovativo e preparare Europa per l’era post-Exascale.
Nell’immediato futuro è anche importante avviare un’ulteriore riflessione sulle possibili interazioni tra HPC e cloud computing
Negli ultimi anni, infatti, i principali fornitori di cloud hanno investito in reti globali di sistemi massive-scale che hanno il potenziale di essere molto competitivi con gli attuali sistemi HPC. Spinti dalle enormi richieste di calcolo degli algoritmi di intelligenza artificiale a cui si è precedentemente accennato, gli odierni sistemi cloud sono costruiti sempre più utilizzando chip custom e semiconduttori personalizzati. Questo rischia di avere ripercussioni negative su HPC, perché ha l’effetto di ridurre il leverage finanziario dei vendor tradizionali di hardware e di CPU, che hanno da sempre avuto un ruolo centrale nello sviluppo di sistemi HPC. Nell’immediato futuro saranno quindi gli attuali fornitori di cloud ad assicurarsi i servizi e le applicazioni tipiche dei sistemi HPC? Difficile dirlo, anche se già da oggi le architetture e i sistemi cloud stanno assumendo posizioni di assoluta leadership in molte applicazioni, come ad esempio il gaming e la visione artificiale, e di conseguenza stanno ridefinendo anche il modo in cui pensiamo alla natura stessa del calcolo ad alte prestazioni. Per questi motivi costruire la prossima generazione di sistemi HPC richiederà molto probabilmente un ripensamento profondo degli approcci tradizionali, e una maggiore attenzione alle caratteristiche di successo delle architetture cloud, come ad esempio l’adozione di configurazioni hardware personalizzate e una maggiore prototipazione su larga scala. Vi è inoltre una ulteriore importante considerazione da tenere presente: fino ad oggi, i sistemi HPC hanno da sempre necessitato di grossi investimenti finanziari da parte dei governi e dal mondo della ricerca, mentre al contrario i sistemi cloud sono in grado di generare grosse revenue. È questo ancora un modello sostenibile per i sistemi HPC? Anche questo aspetto sembra suggerire la necessità di un rafforzamento delle collaborazioni tra HPC e gli attori che hanno una posizione dominante nell’attuale ecosistema informatico, inclusi i fornitori di cloud computing. Non a caso già oggi il terzo sistema HPC più potente al mondo è il supercomputer Eagle di Microsoft Azure.