GPU-ul emblematic al centrului de date al NVIDIA, Hopper H100, a fost fotografiat în toată splendoarea sa. (Credite imagine: CNET)
La GTC 2022, NVIDIA a prezentat GPU-ul său Hopper H100, o putere de calcul concepută pentru următoarea generație de centre de date. A trecut ceva timp de când am vorbit despre acest cip puternic, dar se pare că NVIDIA a oferit un prim-plan al cipului său emblematic pentru a selecta media.
GPU NVIDIA Hopper H100: primul cu 4nm și tehnologie HBM3 realizează imagini de înaltă rezoluție
CNET a reușit să pună mâna pe nu doar placa grafică pe care este fuzionat GPU-ul H100, ci și cipul H100 în sine. GPU-ul H100 este un cip monstruos care vine cu cea mai recentă tehnologie de 4 nm și încorporează 80 de miliarde de tranzistori împreună cu tehnologia de memorie HBM3 de generație următoare. Potrivit prizei de tehnologie, H100 se bazează pe placa PCB PG520 care are peste 30 de VRM-uri de putere și un interpozitor masiv masiv care utilizează tehnologia CoWoS a TSMC pentru a combina GPU-ul Hopper H100 cu un design HBM3 cu 6 stive.
Imaginea GPU NVIDIA Hopper H100 (Credite imagine: CNET):
Dintre cele șase stive, două stive sunt menținute pentru a asigura integritatea performanței. Dar noul standard HBM3 permite capacități de până la 80 GB la viteze de 3 TB/s, ceea ce este o nebunie. Pentru comparație, cea mai rapidă placă grafică de gaming actuală, RTX 3090 Ti, oferă doar 1TB/s lățime de bandă și capacități VRAM de 24 GB. În afară de asta, GPU-ul Hopper H100 include și cel mai recent format de date FP8 și, prin noua sa conexiune SXM, ajută la adaptarea configurației de putere de 700 W în jurul căreia este proiectat cipul.
Rezumatul specificațiilor GPU-ului NVIDIA Hopper H100
Deci, din punct de vedere al specificațiilor, GPU-ul NVIDIA Hopper GH100 este compus dintr-un design masiv de cip 144 SM (Streaming Multiprocessor), care vine într-un total de 8 GPC-uri. Aceste GPC-uri au un total de 9 TPC-uri care sunt formate din 2 unități SM fiecare. Acest lucru ne oferă 18 SM-uri per GPC și 144 în configurația completă cu 8 GPC. Fiecare SM este format din până la 128 de unități FP32, ceea ce ar trebui să ne ofere un total de 18.432 de nuclee CUDA. Următoarele sunt câteva dintre configurațiile la care vă puteți aștepta de la cipul H100:
Implementarea completă a GPU-ului GH100 include următoarele unități:
- 8 GPC, 72 TPC (9 TPC/GPC), 2 SM/TPC, 144 SM per GPU complet
- 128 de nuclee FP32 CUDA per SM, 18432 de nuclee FP32 CUDA per GPU complet
- 4 nuclee tensor de a patra generație per SM, 576 per GPU complet
- 6 stive HBM3 sau HBM2e, 12 controlere de memorie pe 512 biți
- 60 MB de cache L2
- NVLink Gen 4 și PCIe Gen 5
GPU-ul NVIDIA H100 în formatul plăcii SXM5 include următoarele unități:
- 8 GPC, 66 TPC, 2 SM/TPC, 132 SM per GPU
- 128 de nuclee FP32 CUDA per SM, 16896 de nuclee FP32 CUDA per GPU
- 4 Gen 4 Tensor Cores per SM, 528 per GPU
- 80 GB HBM3, 5 stive HBM3, 10 controlere de memorie pe 512 biți
- 50 MB de cache L2
- NVLink Gen 4 și PCIe Gen 5
Aceasta este o creștere de 2,25 ori față de configurația completă a GPU GA100. NVIDIA folosește, de asemenea, mai multe nuclee FP64, FP16 și Tensor în GPU-ul său Hopper, ceea ce ar crește considerabil performanța. Și asta va fi o necesitate pentru a concura cu Ponte Vecchio de la Intel, care este de așteptat să aibă și un FP64 1:1.
Cache-ul este un alt spațiu căruia NVIDIA i-a acordat o atenție deosebită, ducându-l la 48MB pe GPU-ul Hopper GH100. Aceasta este o creștere cu 20% față de cei 50 MB de memorie cache incluse în GPU-ul Ampere GA100 și de 3 ori mai mult decât GPU-ul AMD Aldebaran MCM, MI250X.
Rotunjind cifrele de performanță, GPU-ul NVIDIA Hopper GH100 va oferi 4.000 de TFLOP-uri de FP8, 2.000 de TFLOP-uri de FP16, 1.000 de TFLOP-uri de TF32 și 60 de TFLOP-uri de FP64. Aceste numere record decimează toate celelalte acceleratoare HPC care au apărut înainte. Prin comparație, acesta este de 3,3 ori mai rapid decât propriul GPU A100 al NVIDIA și cu 28% mai rapid decât Instinct MI250X de la AMD pe calculul FP64. În calculul FP16, GPU-ul H100 este de 3 ori mai rapid decât A100 și de 5,2 ori mai rapid decât MI250X, ceea ce este literalmente nebunesc.
Varianta PCIe, care este un model redus, a fost recent listată în Japonia pentru peste 30.000 USD, așa că ne putem imagina că varianta SXM cu o configurație mai robustă va costa cu ușurință în jur de 50.000 USD.
Specificații pentru GPU NVIDIA Ampere GA100 Tesla A100:
Placa grafica NVIDIA Tesla | NVIDIA H100 (SMX5) | NVIDIA H100 (PCIe) | NVIDIA A100 (SXM4) | NVIDIA A100 (PCIe4) | Tesla V100S (PCIe) | Tesla V100 (SXM2) | Tesla P100 (SXM2) | tesla p100 (PCI Express) |
tesla m40 (PCI Express) |
tesla k40 (PCI Express) |
---|---|---|---|---|---|---|---|---|---|---|
GPU | GH100 (pâlnie) | GH100 (pâlnie) | GA100 (amperi) | GA100 (amperi) | GV100 (tensiune) | GV100 (tensiune) | GP100 (Pascali) | GP100 (Pascali) | GM200 (Maxwell) | GK110 (Kepler) |
nodul procesului | 4nm | 4nm | 7nm | 7nm | 12 nm | 12 nm | 16 nm | 16 nm | 28 nm | 28 nm |
tranzistoare | 80 de miliarde | 80 de miliarde | 54,2 miliarde | 54,2 miliarde | 21,1 miliarde | 21,1 miliarde | 15,3 miliarde | 15,3 miliarde | 8 miliarde | 7,1 miliarde |
Dimensiunea matriței GPU | 814 mm2 | 814 mm2 | 826 mm2 | 826 mm2 | 815 mm2 | 815 mm2 | 610 mm2 | 610 mm2 | 601 mm2 | 551 mm2 |
mesaj | 132 | 114 | 108 | 108 | 80 | 80 | 56 | 56 | 24 | cincisprezece |
TPC | 66 | 57 | 54 | 54 | 40 | 40 | 28 | 28 | 24 | cincisprezece |
Miezuri CUDA FP32 per SM | 128 | 128 | 64 | 64 | 64 | 64 | 64 | 64 | 128 | 192 |
Nuezele CUDA FP64/SM | 128 | 128 | 32 | 32 | 32 | 32 | 32 | 32 | 4 | 64 |
Nuezele CUDA FP32 | 16896 | 14592 | 6912 | 6912 | 5120 | 5120 | 3584 | 3584 | 3072 | 2880 |
Nuezele CUDA FP64 | 16896 | 14592 | 3456 | 3456 | 2560 | 2560 | 1792 | 1792 | 96 | 960 |
nuclei tensori | 528 | 456 | 432 | 432 | 640 | 640 | N / A | N / A | N / A | N / A |
unități de textură | 528 | 456 | 432 | 432 | 320 | 320 | 224 | 224 | 192 | 240 |
amplifica ceasul | Determinat | Determinat | 1410MHz | 1410MHz | 1601 MHz | 1530 MHz | 1480MHz | 1329 MHz | 1114 MHz | 875 MHz |
TOP (DNN/AI) | 2000 de vârfuri 4000 TOP |
1600 TOP 3200 TOP |
1248 de capace 2496 TOP cu deficit |
1248 de capace 2496 TOP cu deficit |
130 de vârfuri | 125 de vârfuri | N / A | N / A | N / A | N / A |
Calcul FP16 | 2000 TFLOPS | 1600 TFLOPS | 312 TFLOPS 624 TFLOP-uri cu deficit |
312 TFLOPS 624 TFLOP-uri cu deficit |
32,8 TFLOPS | 30,4 TFLOPS | 21,2 TFLOPS | 18,7 TFLOPS | N / A | N / A |
Calcul FP32 | 1000 TFLOPS | 800 TFLOPS | 156 TFLOPS (standard de 19,5 TFLOP) |
156 TFLOPS (standard de 19,5 TFLOP) |
16,4 TFLOPS | 15,7 TFLOPS | 10,6 TFLOPS | 10,0 TFLOPS | 6,8 TFLOPS | 5,04 TFLOP |
FP64 Calculează | 60 TFLOPS | 48 TFLOPS | 19,5 TFLOPS (9,7 TFLOP standard) |
19,5 TFLOPS (9,7 TFLOP standard) |
8.2 TFLOP | 7,80 TFLOPS | 5.30 TFLOPS | 4,7 TFLOPS | 0,2 TFLOPS | 1,68 TFLOP |
interfață de memorie | HBM3 5120 biți | HBM2e 5120 biți | HBM2e pe 6144 de biți | HBM2e pe 6144 de biți | HBM2 4096 biți | HBM2 4096 biți | HBM2 4096 biți | HBM2 4096 biți | GDDR5 pe 384 de biți | GDDR5 pe 384 de biți |
Capacitate de memorie | Până la 80 GB HBM3 la 3,0 Gbps | Până la 80 GB HBM2e la 2,0 Gbps | Până la 40 GB HBM2 la 1,6 TB/s Până la 80 GB HBM2 la 1,6 TB/s |
Până la 40 GB HBM2 la 1,6 TB/s Până la 80 GB HBM2 la 2,0 TB/s |
16 GB HBM2 la 1134 GB/s | 16 GB HBM2 la 900 GB/s | 16 GB HBM2 la 732 GB/s | 16 GB HBM2 la 732 GB/s 12 GB HBM2 la 549 GB/s |
24 GB GDDR5 la 288 GB/s | 12 GB GDDR5 la 288 GB/s |
Dimensiunea cache L2 | 51200KB | 51200KB | 40960KB | 40960KB | 6144KB | 6144KB | 4096KB | 4096KB | 3072KB | 1536KB |
TDP | 700W | 350W | 400W | 250W | 250W | 300W | 300W | 250W | 250W | 235W |