OpenAI halbiert Inferenzkosten: Chip-Aktien stürzen ab
04.07.2026 - 00:05:37 | boerse-global.de
Das Unternehmen hinter ChatGPT hat die Betriebskosten seiner KI-Modelle drastisch gesenkt – und damit eine Kettenreaktion an den Börsen ausgelöst. Software-Optimierungen, die Ingenieure im Juni 2026 entwickelten, haben die sogenannten Inferenzkosten halbiert. Die Folge: OpenAI benötigt für den Gratis-Zugang von ChatGPT nur noch wenige hundert Nvidia-Grafikchips – statt bisher Zehntausende.
Effizienzrevolution ohne neue Hardware
Der Durchbruch gelang allein durch bessere Auslastung der vorhandenen Infrastruktur. Branchenkenner vermuten, dass Techniken wie Quantisierung, Batching, intelligentes Query-Routing und die Wiederverwendung von Key-Value-Caches zum Einsatz kommen. Das spart nicht nur Strom, sondern verändert grundlegend, wie viel Rechenleistung KI-Anwendungen tatsächlich brauchen.
Die finanziellen Auswirkungen sind enorm. OpenAI gab in der ersten Jahreshälfte 2025 noch 5,02 Milliarden Euro für Azure-Inferenz aus. Mit den neuen Effizienzen verbessert sich die Bilanz des Unternehmens, das sich auf einen möglichen Börsengang vorbereitet. Nach dem S-1-Antrag im Mai 2026 meldete OpenAI eine Bruttomarge von 39 Prozent für das erste Quartal – das Ziel liegt bei 52 Prozent bis Ende 2026.
Chip-Aktien unter Druck
Die Nachricht von OpenAIs Effizienzsprung traf die Halbleiterbranche hart. Zusammen mit Metas Plänen, ins Cloud-Geschäft einzusteigen, löste sie einen Ausverkauf aus. Der PHLX Semiconductor Index (SOX) fiel diese Woche um mehr als sechs Prozent. Besonders betroffen: Intel verlor neun Prozent, AMD gab 6,9 Prozent nach. Nvidia kam mit minus 1,3 Prozent vergleichsweise glimpflich davon.
Anleger fürchten, dass Software-Innovationen und die Entwicklung eigener Chips die Nachfrage nach teuren High-End-GPUs dämpfen könnten. OpenAI arbeitet eigenen Angaben zufolge mit Broadcom an einem eigenen Inferenz-Chip mit dem Codenamen „Jalapeño". Er soll die Leistung der Spitzenhardware zum halben Preis bieten.
Während die Industrie die Effizienz ihrer KI-Modelle optimiert, fragen sich viele Nutzer, wie sie ChatGPT bereits heute produktiv im Alltag einsetzen können. Dieser kostenlose Ratgeber zeigt Ihnen, wie Sie die Technologie ganz ohne Vorkenntnisse für Ihre Aufgaben nutzen. Urlaub planen, Sprachen lernen, Zeit sparen: So erledigt ChatGPT Ihre Alltagsaufgaben in Sekunden
Milliarden-Wette auf neue Infrastruktur
OpenAI diversifiziert seine Hardware-Partnerschaften und passt seine langfristigen Ausgabenpläne an. Mit Cerebras schloss das Unternehmen einen Cloud-Vertrag über umgerechnet rund 20 Milliarden Euro für das Modell GPT-5.6 Sol. Ab Juli 2026 soll diese Infrastruktur 750 Tokens pro Sekunde liefern – 15-mal schneller als der aktuelle Standard.
Gleichzeitig kappte OpenAI seine geplanten Ausgaben für Rechenleistung bis 2030 von 1,4 Billionen auf 600 Milliarden Euro. Grund sind unter anderem Verzögerungen beim „Stargate"-Projekt, einer 500-Milliarden-Euro-Initiative, die an Personalmangel und Streitigkeiten zwischen den Partnern zu scheitern droht. Trotz dieser Kürzungen erwartet OpenAI für 2030 Einnahmen von über 280 Milliarden Euro.
Neue Maßstäbe für KI-Leistung
Auf dem Global AI Frontier Symposium in Seoul betonte OpenAI-Forschungs-Vizepräsident Noam Brown am heutigen Freitag, die Branche müsse umdenken. Standard-Benchmarks würden oft nicht berücksichtigen, wie viel Zeit, Tokens und Kosten eine KI-Antwort tatsächlich verursache. Die Leistung von Modellen wie GPT-5.5 verbessere sich zwar mit mehr Inferenz-Rechenleistung – doch aktuelle Tests spiegelten das nicht wider.
Trotz der rasanten technischen Entwicklung wissen viele Anwender noch nicht, wie sie das volle Potenzial von KI-Tools effektiv ausschöpfen können. Ein neuer Gratis-Report enthüllt jetzt die praktischsten Tipps und Befehle, mit denen Einsteiger sofort Zeit sparen. Diese einfachen ChatGPT-Befehle kennen die wenigsten – jetzt Gratis-Report sichern
Brown verwies zudem auf die wachsende Bedeutung von Speicherchips. KI-Agenten mit langer Laufzeit würden die Nachfrage nach koreanischen Speicherprodukten ankurbeln. Die These, die Halbleiternachfrage habe ihren Zenit übersritten, wies er zurück: „Frontier-Modelle werden sowohl für das Training als auch für die Inferenz enorme Speicherressourcen benötigen.“
GPT-5.6-Familie startet
Die Kostensenkungen fallen mit dem limitierten Launch der GPT-5.6-Modellfamilie zusammen, die am 26. Juni 2026 an den Start ging. Sie umfasst drei Stufen: Sol (das Flaggschiff), Terra (eine ausgewogene Version) und Luna (optimiert für Geschwindigkeit). Aufgrund laufender Sicherheitsprüfungen durch die Regierung sind die Modelle derzeit nur für rund 20 Partnerorganisationen verfügbar. Die Preise liegen je nach Stufe zwischen einem und 30 Euro pro Million Tokens. Die allgemeine Verfügbarkeit wird in den kommenden Wochen erwartet.
