Cel mai rapid GPU de 4 nm din lume și primul din lume cu memorie HBM3

La GTC 2022, NVIDIA a prezentat GPU-ul său Hopper H100, o putere de calcul concepută pentru următoarea generație de centre de date. A trecut ceva timp de când am vorbit despre acest cip puternic, dar se pare că NVIDIA a oferit un prim-plan al cipului său emblematic pentru a selecta media.

GPU NVIDIA Hopper H100: primul cu 4nm și tehnologie HBM3 realizează imagini de înaltă rezoluție

CNET a reușit să pună mâna pe nu doar placa grafică pe care este fuzionat GPU-ul H100, ci și cipul H100 în sine. GPU-ul H100 este un cip monstruos care vine cu cea mai recentă tehnologie de 4 nm și încorporează 80 de miliarde de tranzistori împreună cu tehnologia de memorie HBM3 de generație următoare. Potrivit prizei de tehnologie, H100 se bazează pe placa PCB PG520 care are peste 30 de VRM-uri de putere și un interpozitor masiv masiv care utilizează tehnologia CoWoS a TSMC pentru a combina GPU-ul Hopper H100 cu un design HBM3 cu 6 stive.

Noua generație NVIDIA GeForce RTX 4090 cu GPU AD102 superior ar putea fi prima placă grafică pentru jocuri care depășește 100 TFLOP

Imaginea GPU NVIDIA Hopper H100 (Credite imagine: CNET):

Dintre cele șase stive, două stive sunt menținute pentru a asigura integritatea performanței. Dar noul standard HBM3 permite capacități de până la 80 GB la viteze de 3 TB/s, ceea ce este o nebunie. Pentru comparație, cea mai rapidă placă grafică de gaming actuală, RTX 3090 Ti, oferă doar 1TB/s lățime de bandă și capacități VRAM de 24 GB. În afară de asta, GPU-ul Hopper H100 include și cel mai recent format de date FP8 și, prin noua sa conexiune SXM, ajută la adaptarea configurației de putere de 700 W în jurul căreia este proiectat cipul.

Rezumatul specificațiilor GPU-ului NVIDIA Hopper H100

Deci, din punct de vedere al specificațiilor, GPU-ul NVIDIA Hopper GH100 este compus dintr-un design masiv de cip 144 SM (Streaming Multiprocessor), care vine într-un total de 8 GPC-uri. Aceste GPC-uri au un total de 9 TPC-uri care sunt formate din 2 unități SM fiecare. Acest lucru ne oferă 18 SM-uri per GPC și 144 în configurația completă cu 8 GPC. Fiecare SM este format din până la 128 de unități FP32, ceea ce ar trebui să ne ofere un total de 18.432 de nuclee CUDA. Următoarele sunt câteva dintre configurațiile la care vă puteți aștepta de la cipul H100:

Implementarea completă a GPU-ului GH100 include următoarele unități:

CEO-ul Intel, Pat Gelsinger, anticipează sfârșitul penuriei de cipuri până în 2024

  • 8 GPC, 72 TPC (9 TPC/GPC), 2 SM/TPC, 144 SM per GPU complet
  • 128 de nuclee FP32 CUDA per SM, 18432 de nuclee FP32 CUDA per GPU complet
  • 4 nuclee tensor de a patra generație per SM, 576 per GPU complet
  • 6 stive HBM3 sau HBM2e, 12 controlere de memorie pe 512 biți
  • 60 MB de cache L2
  • NVLink Gen 4 și PCIe Gen 5

GPU-ul NVIDIA H100 în formatul plăcii SXM5 include următoarele unități:

  • 8 GPC, 66 TPC, 2 SM/TPC, 132 SM per GPU
  • 128 de nuclee FP32 CUDA per SM, 16896 de nuclee FP32 CUDA per GPU
  • 4 Gen 4 Tensor Cores per SM, 528 per GPU
  • 80 GB HBM3, 5 stive HBM3, 10 controlere de memorie pe 512 biți
  • 50 MB de cache L2
  • NVLink Gen 4 și PCIe Gen 5

Aceasta este o creștere de 2,25 ori față de configurația completă a GPU GA100. NVIDIA folosește, de asemenea, mai multe nuclee FP64, FP16 și Tensor în GPU-ul său Hopper, ceea ce ar crește considerabil performanța. Și asta va fi o necesitate pentru a concura cu Ponte Vecchio de la Intel, care este de așteptat să aibă și un FP64 1:1.

Cache-ul este un alt spațiu căruia NVIDIA i-a acordat o atenție deosebită, ducându-l la 48MB pe GPU-ul Hopper GH100. Aceasta este o creștere cu 20% față de cei 50 MB de memorie cache incluse în GPU-ul Ampere GA100 și de 3 ori mai mult decât GPU-ul AMD Aldebaran MCM, MI250X.

Rotunjind cifrele de performanță, GPU-ul NVIDIA Hopper GH100 va oferi 4.000 de TFLOP-uri de FP8, 2.000 de TFLOP-uri de FP16, 1.000 de TFLOP-uri de TF32 și 60 de TFLOP-uri de FP64. Aceste numere record decimează toate celelalte acceleratoare HPC care au apărut înainte. Prin comparație, acesta este de 3,3 ori mai rapid decât propriul GPU A100 al NVIDIA și cu 28% mai rapid decât Instinct MI250X de la AMD pe calculul FP64. În calculul FP16, GPU-ul H100 este de 3 ori mai rapid decât A100 și de 5,2 ori mai rapid decât MI250X, ceea ce este literalmente nebunesc.

Varianta PCIe, care este un model redus, a fost recent listată în Japonia pentru peste 30.000 USD, așa că ne putem imagina că varianta SXM cu o configurație mai robustă va costa cu ușurință în jur de 50.000 USD.

Specificații pentru GPU NVIDIA Ampere GA100 Tesla A100:

Placa grafica NVIDIA Tesla NVIDIA H100 (SMX5) NVIDIA H100 (PCIe) NVIDIA A100 (SXM4) NVIDIA A100 (PCIe4) Tesla V100S (PCIe) Tesla V100 (SXM2) Tesla P100 (SXM2) tesla p100
(PCI Express)
tesla m40
(PCI Express)
tesla k40
(PCI Express)
GPU GH100 (pâlnie) GH100 (pâlnie) GA100 (amperi) GA100 (amperi) GV100 (tensiune) GV100 (tensiune) GP100 (Pascali) GP100 (Pascali) GM200 (Maxwell) GK110 (Kepler)
nodul procesului 4nm 4nm 7nm 7nm 12 nm 12 nm 16 nm 16 nm 28 nm 28 nm
tranzistoare 80 de miliarde 80 de miliarde 54,2 miliarde 54,2 miliarde 21,1 miliarde 21,1 miliarde 15,3 miliarde 15,3 miliarde 8 miliarde 7,1 miliarde
Dimensiunea matriței GPU 814 mm2 814 mm2 826 mm2 826 mm2 815 mm2 815 mm2 610 mm2 610 mm2 601 mm2 551 mm2
mesaj 132 114 108 108 80 80 56 56 24 cincisprezece
TPC 66 57 54 54 40 40 28 28 24 cincisprezece
Miezuri CUDA FP32 per SM 128 128 64 64 64 64 64 64 128 192
Nuezele CUDA FP64/SM 128 128 32 32 32 32 32 32 4 64
Nuezele CUDA FP32 16896 14592 6912 6912 5120 5120 3584 3584 3072 2880
Nuezele CUDA FP64 16896 14592 3456 3456 2560 2560 1792 1792 96 960
nuclei tensori 528 456 432 432 640 640 N / A N / A N / A N / A
unități de textură 528 456 432 432 320 320 224 224 192 240
amplifica ceasul Determinat Determinat 1410MHz 1410MHz 1601 MHz 1530 MHz 1480MHz 1329 MHz 1114 MHz 875 MHz
TOP (DNN/AI) 2000 de vârfuri
4000 TOP
1600 TOP
3200 TOP
1248 de capace
2496 TOP cu deficit
1248 de capace
2496 TOP cu deficit
130 de vârfuri 125 de vârfuri N / A N / A N / A N / A
Calcul FP16 2000 TFLOPS 1600 TFLOPS 312 TFLOPS
624 TFLOP-uri cu deficit
312 TFLOPS
624 TFLOP-uri cu deficit
32,8 TFLOPS 30,4 TFLOPS 21,2 TFLOPS 18,7 TFLOPS N / A N / A
Calcul FP32 1000 TFLOPS 800 TFLOPS 156 TFLOPS
(standard de 19,5 TFLOP)
156 TFLOPS
(standard de 19,5 TFLOP)
16,4 TFLOPS 15,7 TFLOPS 10,6 TFLOPS 10,0 TFLOPS 6,8 TFLOPS 5,04 TFLOP
FP64 Calculează 60 TFLOPS 48 TFLOPS 19,5 TFLOPS
(9,7 TFLOP standard)
19,5 TFLOPS
(9,7 TFLOP standard)
8.2 TFLOP 7,80 TFLOPS 5.30 TFLOPS 4,7 TFLOPS 0,2 TFLOPS 1,68 TFLOP
interfață de memorie HBM3 5120 biți HBM2e 5120 biți HBM2e pe 6144 de biți HBM2e pe 6144 de biți HBM2 4096 biți HBM2 4096 biți HBM2 4096 biți HBM2 4096 biți GDDR5 pe 384 de biți GDDR5 pe 384 de biți
Capacitate de memorie Până la 80 GB HBM3 la 3,0 Gbps Până la 80 GB HBM2e la 2,0 Gbps Până la 40 GB HBM2 la 1,6 TB/s
Până la 80 GB HBM2 la 1,6 TB/s
Până la 40 GB HBM2 la 1,6 TB/s
Până la 80 GB HBM2 la 2,0 TB/s
16 GB HBM2 la 1134 GB/s 16 GB HBM2 la 900 GB/s 16 GB HBM2 la 732 GB/s 16 GB HBM2 la 732 GB/s
12 GB HBM2 la 549 GB/s
24 GB GDDR5 la 288 GB/s 12 GB GDDR5 la 288 GB/s
Dimensiunea cache L2 51200KB 51200KB 40960KB 40960KB 6144KB 6144KB 4096KB 4096KB 3072KB 1536KB
TDP 700W 350W 400W 250W 250W 300W 300W 250W 250W 235W

Add Comment