April 19, 2026
Technologie

Nvidia baut Vera Rubin zur KI-Fabrik aus - Weg vom Einzelchip hin zum Rack-System

Mit Vera Rubin verschiebt Nvidia den Fokus vom einzelnen Beschleuniger auf komplette Rack- und POD-Systeme. Die Plattform verbindet Rechenleistung, Netzwerk und Speicher enger als bisher und soll damit die nächste Ausbaustufe für agentische KI vorbereiten.

Nvidia treibt den Umbau seiner KI-Hardware in eine neue Richtung. Auf der GTC 2026 hat das Unternehmen die Vera-Rubin-Plattform nicht nur als Nachfolger von Blackwell präsentiert, sondern als vollständiges System für sogenannte AI Factories. Der entscheidende Punkt dabei: Im Mittelpunkt steht nicht mehr nur ein einzelner GPU-Beschleuniger, sondern ein eng verzahntes Gesamtpaket aus Rechenleistung, Netzwerk, Speicher und Interconnects.

Nach Angaben von Nvidia besteht Vera Rubin aus mehreren Bausteinen, die gemeinsam als ein großes System arbeiten sollen. Dazu gehören die Vera CPU, die Rubin GPU, NVLink 6, ConnectX-9, BlueField-4, Spectrum-6 sowie ein neuer Groq-3-LPX-Baustein für besonders latenzkritische Inferenz. Nvidia beschreibt das nicht als klassische Produktfamilie, sondern als Rack- und POD-Plattform, die auf unterschiedliche Phasen moderner KI-Workloads zugeschnitten ist: vom Vortraining über Post-Training und Test-Time-Scaling bis hin zu agentischer Inferenz.

Gerade dieser Systemansatz ist die eigentliche Technologiegeschichte hinter der Ankündigung. Nvidia argumentiert, dass die Anforderungen großer KI-Modelle heute nicht mehr allein durch mehr GPU-Leistung gelöst werden können. Engpässe entstehen zunehmend bei Speicherhierarchien, Netzwerklatenzen, Energieversorgung und der Frage, wie sich große Cluster als zusammenhängende Rechenplattform betreiben lassen. Vera Rubin soll genau dort ansetzen und mehrere Ebenen der Infrastruktur gleichzeitig optimieren.

In der Praxis bedeutet das eine deutliche Verschiebung in der Architektur. Statt einzelne Server zu verkaufen, denkt Nvidia in ganzen NVL72-Racks, CPU-Racks, Storage-Racks und Netzwerk-Racks. Die Chips werden so angeordnet, dass sie wie ein einziges KI-Supercomputersystem zusammenarbeiten. Laut Nvidia soll Vera Rubin dadurch große Mixture-of-Experts-Modelle mit deutlich weniger GPUs trainieren können als Blackwell und bei der Inferenz spürbar mehr Durchsatz pro Watt liefern.

Tom's Hardware beschreibt die Plattform deshalb als sichtbaren Schritt weg vom klassischen Chipgeschäft hin zu rack-skalierter KI-Infrastruktur. Auch TechCrunch hatte bereits zum CES-Start hervorgehoben, dass Rubin nicht nur schneller werden soll, sondern vor allem neue Flaschenhälse in Speicher, Verbindungen und Kontextverwaltung adressiert. Das passt zu einem Markt, in dem die eigentliche Herausforderung längst nicht mehr nur darin besteht, Rohleistung bereitzustellen, sondern komplette Systeme mit möglichst hoher Effizienz unter Dauerlast zu betreiben.

Ein zentrales Element ist dabei die stärkere Aufteilung spezialisierter Aufgaben. Für agentische KI und große Kontexte reicht es nicht, nur mehr Rechenkerne bereitzustellen. Nvidia ergänzt die Plattform deshalb um neue Speicher- und Netzwerkschichten, die Schlüsselaufgaben wie KV-Cache-Verwaltung, Datenbewegung und Rack-übergreifende Kommunikation effizienter machen sollen. Genau diese Komponenten waren in früheren Generationen häufig der Teil der Infrastruktur, der unter wachsender Last zuerst an Grenzen gestoßen ist.

Die Plattform ist damit auch ein Hinweis auf die nächste Phase des KI-Ausbaus. Während frühere Generationen vor allem auf immer stärkere Beschleuniger setzten, verschiebt sich der Wettbewerb nun stärker in Richtung integrierter Gesamtsysteme. Wer Training, Inferenz, Speicher und Netzwerk als geschlossenes Design anbieten kann, verschafft sich einen Vorteil bei Effizienz, Skalierung und Betriebskosten. Nvidia versucht mit Vera Rubin, genau diesen Standard zu definieren.

Für die Technologiebranche ist das relevant, weil es den Blick auf KI-Hardware verändert. Die Diskussion dreht sich damit weniger um einzelne Spitzenwerte eines Chips und stärker um die Frage, wie komplette Rechenfabriken aufgebaut werden. Vera Rubin steht deshalb nicht nur für eine neue GPU-Generation, sondern für den Versuch, die Infrastruktur hinter KI als durchoptimiertes Gesamtsystem neu zu ordnen.