NVIDIA HGX-2

Beschleunigt durch NVIDIA Tesla V100-Grafikprozessoren und NVSwitch

Ein neues Zeitalter der Informationstechnologie bricht an, in dem KI und High Performance Computing (HPC) unsere Welt verwandeln.

Von selbstfahrenden Autos bis hin zu Simulationen des globalen Klimas: Um die neuen Herausforderungen zu meistern, sind enorme Rechenressourcen erforderlich. NVIDIA HGX-2 ist auf Multi-Precision-Computing ausgelegt. Hierbei wird wissenschaftliches High-Precision-Computing mit der Schnelligkeit von KI-Computing kombiniert, bei dem die Präzision normalerweise geringer ist. So entsteht eine einheitliche, flexible und leistungsstarke Plattform, mit der sich diese massiven Herausforderungen bewältigen lassen.

UNTERSTÜTZUNG FÜR DEN WELTWEIT GRÖSSTEN GRAFIKPROZESSO

Dank der Beschleunigung durch 16 NVIDIA® Tesla® V100-Grafikprozessoren und mithilfe von NVIDIA NVSwitch™ bietet die HGX-2 eine beispiellose Rechenleistung, Bandbreite und Speichertopologie, um umfangreiche Modelle schneller zu trainieren, Datensätze zu analysieren und Simulationen schneller und effizienter zu berechnen. Die 16 Tesla V100-Grafikprozessoren agieren als einheitlicher 2-PetaFLOPS-Beschleuniger mit einem Grafikprozessor-Gesamtspeicher von einem halben Terabyte (TB), sodass damit die rechenintensivsten Aufgaben erledigt werden können und der„ weltweit größte Grafikprozessor“ bereitgestellt werden kann.

Ermöglicht den weltweit größten Grafikprozessor

KI DER NÄCHSTEN GENERATION BESCHLEUNIGEN

Die Komplexität der KI-Modelle hat enorm zugenommen. Sie erfordern einen großen Speicher, mehrere Grafikprozessoren und eine extrem schnelle Verbindung zwischen den Grafikprozessoren, um eine ordnungsgemäße Funktion zu gewährleisten. Mit NVSwitch, die alle Grafikprozessoren und den einheitlichen Speicher verbinden, verfügt die HGX-2 über die notwendige Leistungsfähigkeit zur Unterstützung dieser neuen Modelle, um ein schnelleres Training der modernen KI zu ermöglichen. Eine einzelne HGX-2 ersetzt 300 Server mit CPU, sodass erheblich weniger Kosten anfallen und auch der Platz- und Energiebedarf im Rechenzentrum reduziert wird.

MASCHINELLES KI-LERNEN DER NÄCHSTEN GENERATION BESCHLEUNIGEN

Modelle des maschinellen KI-Lernens machen das Laden, Umwandeln und Verarbeiten sehr großer Datensätze notwendig, um Erkenntnisse zu erlangen. Mit 0,5 TB vereinheitlichtem Speicher, auf den auf einer Bandbreite von 16 TB/s zugegriffen werden kann, und einer multilateralen Grafikprozessorkommunikation mit NVSwitch verfügt HGX-2 über die Leistung, Berechnungen riesiger Datensätze zu laden und durchzuführen, um schnell handlungsorientierte Erkenntnisse zu erlangen. Mit der RAPIDS Open-Source-Software für maschinelles Lernen ersetzt eine einzige HGX-2 rund 544 CPU-basierte Server und führt zu einer erheblichen Kosten- und Platzersparnis.

HPC-SUPERKNOTEN MIT HÖCHSTLEISTUNG

HPC-Anwendungen erfordern leistungsfähige Serverknoten mit ausreichender Rechenleistung, um eine hohe Anzahl von Berechnungen pro Sekunde durchzuführen. Durch die enorme Erhöhung der Rechendichte jedes Knotens wird die Anzahl der erforderlichen Server erheblich reduziert. Dies führt zu großen Kosteneinsparungen und senkt den Platz- und Energiebedarf in Rechenzentren. Für HPC-Simulationen und die damit verbundene hochdimensionale Matrix-Multiplikation muss ein Prozessor Daten aus vielen Umgebungen abrufen, um die Berechnung zu vereinfachen. Daher ist die Verbindung der Grafikprozessoren durch NVSwitch ideal. Ein einzelner HGX-2-Server ersetzt 60 reine CPU-Server.

NVSWITCH FÜR COMPUTING MIT VOLLER BANDBREITE

Dank NVSwitch kann jeder Grafikprozessor mit einem anderen Grafikprozessor mit voller Bandbreite von 2,4 TB/Sek. kommunizieren, um die größten KI- und HPC-Probleme zu beheben. Jeder Grafikprozessor hat vollen Zugriff auf 0,5 TB des HBM2-Gesamtspeichers und ist in der Lage, die umfangreichsten Datensätze zu verarbeiten. Da durch NVSwitch ein einheitlicher Serverknoten bereitgestellt wird, können komplexe KI- und HPC-Anwendungen erheblich beschleunigt werden.

TECHNISCHE DATEN

 HGX-1HGX-2
Leistung 1 PetaFLOPS Tensor-Operationen
125 TeraFLOPS Single-Precision-Leistung
62 TeraFLOPS Double-Precision-Leistung
2 PetaFLOPS Tensor-Operationen
250 TeraFLOPS Single-Precision-Leistung
125 TeraFLOPS Double-Precision-Leistung
Grafikprozessoren 8 × NVIDIA Tesla V100 16 × NVIDIA Tesla V100
Grafikprozessorspeicher 256 GB (gesamt)
7,2 TB/s Bandbreite
512 GB (gesamt)
16 TB/s Bandbreite
NVIDIA CUDA® Recheneinheiten 40,960 81,920
NVIDIA Tensor-Recheneinheiten 5,120 10,240
Kommunikationskanal Hybrid-Cube-Mesh mit NVLink 300 GB/s Bisektionsbandbreite NVSwitch mit NVLink 2.4 TB/s Bisektionsbandbreite