AWS und Cerebras wollen KI-Inferenz beschleunigen - Amazon Bedrock setzt auf geteilte Workloads

Amazon Web Services kombiniert eigene Trainium-Chips mit Cerebras-CS-3-Systemen und trennt die Inferenz erstmals in zwei spezialisierte Rechenpfade. Die Partnerschaft zeigt, wie sich KI-Infrastruktur von universellen Setups hin zu stärker aufgeteilten Architekturen entwickelt.

Amazon Web Services und Cerebras Systems haben Mitte März eine Partnerschaft vorgestellt, die ein konkretes Problem moderner KI-Anwendungen lösen soll: die Geschwindigkeit bei der Inferenz. Gemeint ist damit der Moment, in dem bereits trainierte Modelle Anfragen verarbeiten und Antworten erzeugen. Gerade bei Chatbots, Coding-Assistenten und interaktiven Anwendungen wird diese Phase immer wichtiger, weil Nutzer nicht nur gute Antworten erwarten, sondern auch kurze Reaktionszeiten.

‍

Der technologische Kern der Kooperation liegt in einer Architektur, die beide Unternehmen als "disaggregated inference" bezeichnen. Dabei wird die Inferenz in zwei getrennte Arbeitsschritte aufgeteilt. Die sogenannte Prefill-Phase, in der Eingaben vorbereitet und in Tokens zerlegt werden, soll auf AWS-Trainium-Systemen laufen. Die anschließende Decode-Phase, in der das Modell die eigentliche Antwort generiert, übernimmt die CS-3-Hardware von Cerebras. Verbunden werden beide Schichten über Amazons Elastic Fabric Adapter in AWS-Rechenzentren.

‍

Gerade diese Trennung macht die Nachricht technologisch relevant. In vielen bisherigen KI-Setups laufen beide Schritte auf derselben Infrastruktur, meist auf GPU-basierten Systemen. AWS und Cerebras setzen stattdessen darauf, dass unterschiedliche Rechenaufgaben auch auf unterschiedliche Hardware verteilt werden sollten. Das Ziel ist nicht nur mehr Geschwindigkeit, sondern eine effizientere Nutzung von Energie, Bandbreite und verfügbarer Rechenleistung.

‍

Reuters ordnete die Partnerschaft deshalb nicht nur als Cloud-Deal, sondern auch als direkte Kampfansage im Wettbewerb um KI-Infrastruktur ein. Cerebras versucht seit Längerem, sich als Alternative zu Nvidia zu positionieren. Anders als klassische GPU-Architekturen verfolgt das Unternehmen mit seinen Wafer-Scale-Systemen einen grundsätzlich anderen Ansatz. Durch die Integration in AWS bekommt diese Technologie nun erstmals die Reichweite eines großen Hyperscalers.

‍

Für AWS ist der Schritt ebenfalls strategisch. Der Konzern treibt seit einiger Zeit den Ausbau eigener KI-Chips voran und will Kunden nicht nur Rechenleistung, sondern eine vollständige Infrastruktur für Training und Inferenz anbieten. Die Zusammenarbeit mit Cerebras erweitert diese Strategie um eine zusätzliche Ebene. Statt alles auf einer einzigen Chipfamilie abzubilden, baut AWS an einem Modell, in dem spezialisierte Systeme je nach Aufgabe zusammenspielen. Genau das könnte für Bedrock zu einem wichtigen Differenzierungsmerkmal werden.

‍

Nach Angaben der beteiligten Unternehmen soll die Lösung über Amazon Bedrock in AWS-Rechenzentren bereitgestellt werden. DCD berichtete ergänzend, dass AWS später im Jahr auch Open-Source-Modelle und die hauseigenen Nova-Modelle auf Cerebras-Hardware anbieten will. Reuters zufolge soll das Angebot in der zweiten Jahreshälfte 2026 in den produktiven Einsatz gehen. Das deutet darauf hin, dass es nicht bei einem Pilotprojekt bleiben soll, sondern dass die neue Architektur breiter in den Produktbetrieb einfließen könnte.

‍

Entscheidend ist dabei weniger die einzelne Partnerschaft als das Signal an den Gesamtmarkt. KI-Inferenz entwickelt sich zunehmend zu einem eigenständigen Optimierungsfeld. Während in den vergangenen Jahren vor allem das Training großer Modelle im Mittelpunkt stand, wird nun deutlicher, dass produktive KI-Systeme an ganz anderen Engpässen scheitern können: an Latenz, Kosten, Netzwerkanbindung und der Frage, welche Hardware für welchen Verarbeitungsschritt am besten geeignet ist.

‍

Genau hier setzt das Modell von AWS und Cerebras an. Wenn sich dieser Ansatz bewährt, könnte sich die Infrastruktur für KI-Anwendungen in den kommenden Jahren stärker in spezialisierte Schichten aufteilen. Für Entwickler wäre das vor allem eine Frage der Geschwindigkeit. Für Cloud-Anbieter und Chipfirmen geht es dagegen um weit mehr: um die Kontrolle über den nächsten Standard, auf dem KI-Dienste in großem Maßstab betrieben werden.

Weitere relevante Artikel

Warum der Aerospace-Sektor 2026 vor einem massiven Wachstumsschub stehen könnte

Steigende Verteidigungsausgaben, autonome Systeme, Satellitentechnologie und KI könnten den Aerospace-Sektor 2026 zu einem der stärksten Wachstumsmärkte machen.

Mehr erfahren

14 Mio. für Performativ: Warum dieser Deal zeigt, wohin sich Europas Finanz-Stack wirklich bewegt

Mit der 14-Mio.-Finanzierung von Performativ zeigt sich, wohin sich Europas Finanzmarkt bewegt: weg von einzelnen Produkten und hin zu integrierten Plattformen für Daten, Reporting und Infrastruktur. Performativ sitzt genau an dieser Schnittstelle und wird damit zum Beispiel für eine neue Phase im WealthTech-Markt, in der Kontrolle über Daten und Nutzeroberfläche strategisch immer wichtiger wird.

Mehr erfahren

Nvidia baut Vera Rubin zur KI-Fabrik aus - Weg vom Einzelchip hin zum Rack-System

Mit Vera Rubin verschiebt Nvidia den Fokus vom einzelnen Beschleuniger auf komplette Rack- und POD-Systeme. Die Plattform verbindet Rechenleistung, Netzwerk und Speicher enger als bisher und soll damit die nächste Ausbaustufe für agentische KI vorbereiten.

Mehr erfahren

Nokia und Google Cloud machen Mobilfunknetze für KI-Agenten programmierbar

Mit der Integration von Google Clouds Agentic-AI-Werkzeugen in Nokias Plattform "Network as Code" sollen Unternehmensanwendungen direkt mit Mobilfunknetzen interagieren können. Der Schritt zeigt, wie sich Netze von reiner Infrastruktur zu einer programmierbaren Softwareschicht entwickeln.

Mehr erfahren

Microsoft übernimmt KI-Ausbau in Texas - Abilene wird zum neuen Machtzentrum der AI-Infrastruktur

Microsoft sichert sich in Abilene einen neuen 900-Megawatt-Campus für KI-Workloads, nachdem OpenAI auf eine weitere Expansion am Standort verzichtet hat. Der Schritt zeigt, wie sehr sich der Wettbewerb in der KI inzwischen um Strom, Rechenzentren und physischen Ausbau dreht.

Mehr erfahren

Arm bringt erstmals eigenen Rechenzentrumschip auf den Markt - Meta wird zum Startpartner

Mit der neuen AGI CPU verlässt Arm sein klassisches Lizenzgeschäft und liefert erstmals fertiges Silizium für KI-Rechenzentren. Der Schritt zeigt, wie stark der Wettbewerb in der KI inzwischen von Dichte, Effizienz und Infrastruktur geprägt ist.

Mehr erfahren

AWS und Cerebras wollen KI-Inferenz beschleunigen - Amazon Bedrock setzt auf geteilte Workloads

Weitere relevante Artikel

Warum der Aerospace-Sektor 2026 vor einem massiven Wachstumsschub stehen könnte

14 Mio. für Performativ: Warum dieser Deal zeigt, wohin sich Europas Finanz-Stack wirklich bewegt

Nvidia baut Vera Rubin zur KI-Fabrik aus - Weg vom Einzelchip hin zum Rack-System

Nokia und Google Cloud machen Mobilfunknetze für KI-Agenten programmierbar

Microsoft übernimmt KI-Ausbau in Texas - Abilene wird zum neuen Machtzentrum der AI-Infrastruktur

Arm bringt erstmals eigenen Rechenzentrumschip auf den Markt - Meta wird zum Startpartner

Cookie-Einstellungen