November 16, 2025
Technologie

AWS und Cerebras wollen KI-Inferenz beschleunigen - Amazon Bedrock setzt auf geteilte Workloads

Amazon Web Services kombiniert eigene Trainium-Chips mit Cerebras-CS-3-Systemen und trennt die Inferenz erstmals in zwei spezialisierte Rechenpfade. Die Partnerschaft zeigt, wie sich KI-Infrastruktur von universellen Setups hin zu stärker aufgeteilten Architekturen entwickelt.

Amazon Web Services und Cerebras Systems haben Mitte März eine Partnerschaft vorgestellt, die ein konkretes Problem moderner KI-Anwendungen lösen soll: die Geschwindigkeit bei der Inferenz. Gemeint ist damit der Moment, in dem bereits trainierte Modelle Anfragen verarbeiten und Antworten erzeugen. Gerade bei Chatbots, Coding-Assistenten und interaktiven Anwendungen wird diese Phase immer wichtiger, weil Nutzer nicht nur gute Antworten erwarten, sondern auch kurze Reaktionszeiten.

Der technologische Kern der Kooperation liegt in einer Architektur, die beide Unternehmen als "disaggregated inference" bezeichnen. Dabei wird die Inferenz in zwei getrennte Arbeitsschritte aufgeteilt. Die sogenannte Prefill-Phase, in der Eingaben vorbereitet und in Tokens zerlegt werden, soll auf AWS-Trainium-Systemen laufen. Die anschließende Decode-Phase, in der das Modell die eigentliche Antwort generiert, übernimmt die CS-3-Hardware von Cerebras. Verbunden werden beide Schichten über Amazons Elastic Fabric Adapter in AWS-Rechenzentren.

Gerade diese Trennung macht die Nachricht technologisch relevant. In vielen bisherigen KI-Setups laufen beide Schritte auf derselben Infrastruktur, meist auf GPU-basierten Systemen. AWS und Cerebras setzen stattdessen darauf, dass unterschiedliche Rechenaufgaben auch auf unterschiedliche Hardware verteilt werden sollten. Das Ziel ist nicht nur mehr Geschwindigkeit, sondern eine effizientere Nutzung von Energie, Bandbreite und verfügbarer Rechenleistung.

Reuters ordnete die Partnerschaft deshalb nicht nur als Cloud-Deal, sondern auch als direkte Kampfansage im Wettbewerb um KI-Infrastruktur ein. Cerebras versucht seit Längerem, sich als Alternative zu Nvidia zu positionieren. Anders als klassische GPU-Architekturen verfolgt das Unternehmen mit seinen Wafer-Scale-Systemen einen grundsätzlich anderen Ansatz. Durch die Integration in AWS bekommt diese Technologie nun erstmals die Reichweite eines großen Hyperscalers.

Für AWS ist der Schritt ebenfalls strategisch. Der Konzern treibt seit einiger Zeit den Ausbau eigener KI-Chips voran und will Kunden nicht nur Rechenleistung, sondern eine vollständige Infrastruktur für Training und Inferenz anbieten. Die Zusammenarbeit mit Cerebras erweitert diese Strategie um eine zusätzliche Ebene. Statt alles auf einer einzigen Chipfamilie abzubilden, baut AWS an einem Modell, in dem spezialisierte Systeme je nach Aufgabe zusammenspielen. Genau das könnte für Bedrock zu einem wichtigen Differenzierungsmerkmal werden.

Nach Angaben der beteiligten Unternehmen soll die Lösung über Amazon Bedrock in AWS-Rechenzentren bereitgestellt werden. DCD berichtete ergänzend, dass AWS später im Jahr auch Open-Source-Modelle und die hauseigenen Nova-Modelle auf Cerebras-Hardware anbieten will. Reuters zufolge soll das Angebot in der zweiten Jahreshälfte 2026 in den produktiven Einsatz gehen. Das deutet darauf hin, dass es nicht bei einem Pilotprojekt bleiben soll, sondern dass die neue Architektur breiter in den Produktbetrieb einfließen könnte.

Entscheidend ist dabei weniger die einzelne Partnerschaft als das Signal an den Gesamtmarkt. KI-Inferenz entwickelt sich zunehmend zu einem eigenständigen Optimierungsfeld. Während in den vergangenen Jahren vor allem das Training großer Modelle im Mittelpunkt stand, wird nun deutlicher, dass produktive KI-Systeme an ganz anderen Engpässen scheitern können: an Latenz, Kosten, Netzwerkanbindung und der Frage, welche Hardware für welchen Verarbeitungsschritt am besten geeignet ist.

Genau hier setzt das Modell von AWS und Cerebras an. Wenn sich dieser Ansatz bewährt, könnte sich die Infrastruktur für KI-Anwendungen in den kommenden Jahren stärker in spezialisierte Schichten aufteilen. Für Entwickler wäre das vor allem eine Frage der Geschwindigkeit. Für Cloud-Anbieter und Chipfirmen geht es dagegen um weit mehr: um die Kontrolle über den nächsten Standard, auf dem KI-Dienste in großem Maßstab betrieben werden.