Il nuovo acceleratore di Nvidia, 7nm e 54 miliardi di transistors

Finalmente è arrivato il giorno in cui Nvidia toglie il velo alla sua architettura di Ampere. Più o meno. Infatti l’evento GTC di oggi riguarda solo l’ Nvidia A100, un acceleratore progettato principalmente per l’imminente ondata di supercomputer exascale e AI Research. Stiamo parlando della discendente della GPU Tesla V100 di Nvidia, e come accadde per Volta V100 non ci aspettiamo di vedere il questo chip in nessuna GPU consumer. Beh, magari su ipotetica Titan RTX 3000? Ma non vogliamo nemmeno immaginare quanto costerebbe una scheda del genere, perché l’A100 è un chip colossale.

Cominciamo dalle specifiche più succulente. Per prima cosa, l’A100 conterrà 54 miliardi di transistor, un enorme quantità, con un die di 826 mm quadrati. Per avere giusto un rapido riferimento, il suo predecessore, GV100 aveva 21,1 miliardi di transistor in un die di 815 mm quadrati, quindi l’A100 ha oltre 2,5 volte il numero di transistor, mentre è solo l’1,3% più grande. Aumento che è dovuto al processo FinFET a 7 nm di TSMC, che AMD, Apple e altri usano già da tempo. Si tratta di un gradito e necessario aggiornamento al processo produttivo a 12 nm di Volta.

Insieme alla mostruosa GPU, troviamo sei stacks di memoria HBM2, che secondo Nvidia forniscono 40 GB di capacità totale. Per quanto riguarda i sistemi HPC, Nvidia ha portato l’NVLink a 600 GB/s per ogni GPU, e NVSwitch fornisce connessioni a piena velocità verso qualsiasi altro nodo. L’azienda comunica inoltre che alcuni nuovi sistemi A100 sono stati già spediti ai clienti.

nvidia A100 arch

In ambito deep learning, i nuovi Tensor core di terza generazione arrivano con un il supporto al nuovo formato TF32 (Tensor Float 32) che mira ad accelerare le operazioni in virgola mobile a singola precisione. Per quanto riguarda i carichi di lavoro in TF32, l’A100 può fornire 312 TFLOPS su singolo chip. Questo è un valore 20 volte più grande rispetto ai 15,7 TFLOPS i FP32 del V100, ma non è un paragone del tutto equo, dato che le matrici TF32 e FP32 non sono propriamente la stessa cosa. È interessante notare anche, che Nvidia ritiene che i Tensor core di terza generazione supportino anche l’FP64

Ribadiamo che questa GPU non entrerà nella gamma GeForce a breve. Alla domanda sulla linea consumer, il CEO di Jensen Huang ha fatto notare che Nvidia non monta le HBM2 nelle sue schede video destinato ad ambito gaming. Possiamo tranquillamente presumere le GPU Ampere saranno dotate di VRAM GDDR6, e non useranno il chip A100. Il che, ancora una volta, è ragionevole. 54 miliardi di transistor e 40 GB HBM2 non è qualcosa di cui i nostri PC hanno veramente bisogno in questo momento, per non parlare dei cluster FP64 e TF32.

Un’interessante chicca che non è mai venuta fuori durante l’evento è il tema il ray-tracing. Anche Volta V100 non ha integrato il ray tracing, in parte perché è arrivata prima dell’architettura Turing. Sembra probabile che l’A100 seguirà un percorso simile e lascerà gli RT core alle altre GPU Ampere.

Nvidia ha già iniziato a commercializzare il suo nuovo acceleratore all’interno del nuovo sistema deep learning Nvidia DGX A100. Dotato di otto GPU A100 collegate tramite sei NVSwitch con 4,8 TBps di bandwidth, e quindi il sistema può in effetti comportarsi come se avesse una singola massiccia GPU. Le otto GPU possono anche fornire 10 POPS (PetaOPS) di prestazioni INT8, 5 PFLOPS in FP16, 2,5 TFLOPS in TF32 e 156 TFLOPS in FP64 in un singolo nodo. E tutto questo può essere vostro, per soli 199.000 dollari, beh, potrebbe esserlo ad un certo punto, dato che la lista d’attesa è probabilmente già abbastanza lunga.

Avete bisogno di prestazioni ancora maggiori? Nvidia DGX A100 Superpod farà sicuramente al caso vostro. Con 140 sistemi DGX A100, ciascuno con otto GPU A100 (1.120 GPU in totale), l’A100 Superpod è stato costruito in meno di tre settimane e fornisce 700 PFLOPS di prestazioni AI. Nvidia ha aggiunto quattro superpod al suo supercomputer Saturn V, che in precedenza aveva 1.800 sistemi DGX-1 con  una potenza di 1,8 ExaFLOPS. Aggiungendo solo 560 sistemi DGX A100 si aggiungono altri 2,8 ExaFLOPS, per un totale di 4,6 ExaFLOPS.

Questa è un’ottima notizia per il mondo dei supercomputer e HPC, ma ci lascia pochissime informazioni sulle GeForce di prossima generazione. Sappiamo che Nvidia ha inserito 2,5 volte più transistor in circa lo stesso die, il che significa che potrebbe certamente fare lo stesso per le GPU consumer. Rimuovete alcune funzionalità FP64 e deep learning per favorire ray-tracing e core grafici, e la GPU risultante dovrebbe essere molto potente. Ma temo che questo lo scopriremo solo nei prossimi giorni.

TechTips consiglia Se vuoi una nuova e freschissima gpu la puoi trovare qui