ChatGPT: KI-Modelle scheitern an wissenschaftlicher Genauigkeit
22.03.2026 - 00:00:37 | boerse-global.deKI-Nutzer stellen die Zuverlässigkeit populärer Sprachmodelle zunehmend in Frage. Eine umfassende Studie der Washington State University enthüllt gravierende Mängel bei wissenschaftlicher Präzision und Antwortkonsistenz – just zum Start von OpenAIs neuem GPT-5.4 Mini.
Studie entlarvt systematische Schwächen
Forscher der Washington State University veröffentlichten am 18. März 2026 alarmierende Ergebnisse. Sie testeten ChatGPT mit hunderten Hypothesen aus wissenschaftlicher Literatur. Das System sollte bewerten, ob diese Behauptungen faktisch korrekt sind.
Die zunehmende Integration von KI-Systemen in Unternehmensprozesse bringt nicht nur technische, sondern auch komplexe rechtliche Fragen mit sich. Dieser kostenlose Leitfaden zeigt Ihnen, wie Sie die Anforderungen der neuen EU-KI-Verordnung rechtssicher in Ihrem Unternehmen umsetzen. EU-KI-Verordnung kompakt: Jetzt kostenloses E-Book sichern
Das vermeintliche Ergebnis von 80 Prozent Trefferquote erwies sich als trügerisch. Nach Bereinigung um Rateraten sank die tatsächliche Genauigkeit auf etwa 60 Prozent – eine glatte Vier minus im akademischen Maßstab. Besonders eklatant: Falsche Behauptungen erkannte die KI nur in 16,4 Prozent der Fälle.
„Das zeigt einen persistenten Zustimmungs-Bias“, so die Forscher. Das Modell neigt dazu, Aussagen eher zu bestätigen, als sie kritisch zu hinterfragen. Ein fundamentales Problem für wissenschaftliche Anwendungen.
Instabile Antworten untergraben Vertrauen
Noch beunruhigender als die Fehlerquote ist die mangelnde Konsistenz. Bei zehnfacher Wiederholung identischer Fragen lieferte ChatGPT in 27,1 Prozent der Fälle widersprüchliche Antworten. Mal bewertete es eine wissenschaftliche Aussage als wahr, mal als falsch – ohne Änderung der Eingabe.
Forscher Mesut Cicek warnt: „Diese Instabilität ist ein tieferes strukturelles Problem als einzelne Faktenfehler.“ Wenn ein System ohne logische Begründung unterschiedlich antwortet, wird jede korrekte Antwort zum Zufallsprodukt. Für professionelle Einsätze in Forschung oder Medizin ist das untragbar.
OpenAI startet trotzdem neue Modelle
Die kritische Studie erschien ausgerechnet zum Rollout von GPT-5.4 Mini am 18. März. OpenAI bewirbt die fünfte Generation als Quantensprung in Sachen Genauigkeit. Die März-Updates sollen Halluzinationen bei komplexen Themen wie Recht und Medizin um 27 Prozent reduzieren.
Während die technologische Entwicklung rasant voranschreitet, müssen Unternehmen auch die neuen Compliance-Regeln für künstliche Intelligenz im Blick behalten. Erfahren Sie in diesem Praxis-Report, welche Kennzeichnungspflichten und Risikoklassen die KI-Verordnung seit August 2024 für Anbieter und Nutzer vorschreibt. Kostenlosen Umsetzungsleitfaden zur KI-Verordnung herunterladen
Bereits Anfang März hatte das Unternehmen das Deep-Reasoning-Modell GPT-5.4 Thinking und GPT-5.3 Instant veröffentlicht. Am 17. März folgte ein vereinfachter Model-Picker in der Benutzeroberfläche. Doch die akademischen Daten zeigen: Trotz aller Architektur-Verbesserungen bleibt die probabilistische Natur der Modelle ein Problem.
Zustimmungs-Bias gefährdet Enterprise-Einsatz
Der in der Studie identifizierte Bias bestätigt branchenweite Beobachtungen. KI-Modelle sind darauf trainiert, plausible Textfortsetzungen zu generieren – oft auf Kosten faktischer Korrektheit. Eine Studie von Live Science vom 12. März 2026 zeigt: Durch Memory-Funktionen verstärken Chatbots oft bestehende Fehlannahmen der Nutzer.
Für Unternehmen wird das zum Risiko. „Das selbstbewusste, kohärente Formulieren erweckt den Eindruck faktischer Genauigkeit“, warnt ein Technologieanalyst. Wenn Konversationsfluss über objektive Wahrheit gestellt wird, wird die KI zur Belastung – besonders in Medizin, Forschung und datenbasierten Entscheidungsprozessen.
Wie geht es weiter mit KI-gestĂĽtzter Forschung?
Die Branche steht vor einem Dilemma. Einerseits drängt OpenAI die Nutzer zur Migration: Der Legacy Deep Research Mode wird am 26. März 2026 abgeschaltet. Gleichzeitig expandieren Impact Surveys für Enterprise- und Education-Kunden, um Produktivitätseffekte besser zu tracken.
Experten raten zu strengen Verifikationsprotokollen. Hyper-spezifische Prompts und Chain-of-Thought-Reasoning sollen Halluzinationen minimieren. Doch die Washington-Studie erinnert deutlich: Bis zu echter logischer Konsistenz ist es noch ein weiter Weg. Sprachliche Flüssigkeit allein reicht nicht – für verlässliche KI braucht es fundamentale Architektur-Änderungen.
So schätzen die Börsenprofis Aktien ein!
FĂĽr. Immer. Kostenlos.

