ChatGPT und Co: KI-Modelle erzählen immer mehr Unsinn

Entwickler rätseln über Gründe:ChatGPT & Co erzählen immer mehr Unsinn

von Oliver Klein

13.05.2025 | 18:45

Neue Sprachmodelle fantasieren häufiger als ihre Vorgänger. Woran das genau liegt, weiß bisher niemand. Aber Beispiele aus dem Alltag zeigen, wie brisant das werden kann.

Eine Schülerin nutzt das Programm ChatGPT — Workshop für Schüler zum Umgang mit ChatGPT in Duisburg (Symbolfoto)
Quelle: Imago

Sprachmodelle wie ChatGPT, Gemini, Claude oder die Meta-KI Llama halten immer weiter Einzug in unseren Alltag. Private Anwender nutzen sie als Google-Ersatz, zur Reiseplanung oder lassen sich bei Übersetzungen helfen. Unternehmen setzen Sprachmodelle beispielsweise in Chatbots ein, um Kundenanfragen automatisch zu beantworten, Juristen erstellen Schriftsätze fürs Gericht mit KI.

Was vielen jedoch nicht bewusst ist: Ausgerechnet die leistungsfähigsten neuen Systeme machen zunehmend Fehler - sie denken sich Antworten einfach aus. Experten sprechen in solchen Fällen von "Halluzinationen".

Die Spur: Der gefährliche Goldrausch im Silicon Valley — ChatGPT ist ein Programm, das der Startschuss einer weltweiten Revolution sein könnte. Für die einen ist es ein Segen, für andere eine große Gefahr.
14.06.2023 | 29:19 min

Fehlerraten von bis zu 80 Prozent bei neuen KI-Modellen

Laut internen Tests der ChatGPT-Entwicklerfirma OpenAI halluzinieren gerade die neueren Modelle von ChatGPT besonders häufig. Das Flaggschiff-Modell GPT o3 macht in etwa einem Drittel der Fälle Fehler, wenn es Fragen zu öffentlichen Personen beantworten soll. Das ist mehr als doppelt so häufig wie der Vorgänger o1. Bei allgemeinen Wissensfragen kommt o4-mini auf Fehlerraten von bis zu etwa 80 Prozent. Auch andere Entwickler von Sprachmodellen haben das Problem.

Wie gravierend die Folgen solcher Fehler sein können, zeigt ein Vorfall bei der Entwicklerplattform Cursor, über den die "New York Times" berichtete. Ein Sprachbot, der für den Kundensupport eingesetzt wurde, verkündete fälschlicherweise eine neue Unternehmensrichtlinie: Cursor dürfe künftig nur noch auf einem einzigen Gerät genutzt werden. Kunden empörten sich öffentlich, kündigten Abos - bis die Firma klarstellte, dass es nie eine solche Regel gab.

Die KI-Gemeinde ist alarmiert. DeepSeek könnte eine ernsthafte Alternative zu ChatGPT werden. Die neue KI ist schneller, billiger und benötigt deutlich weniger Rechenleistung.

29.01.2025 | 3:07 min

OpenAI muss Update zurückziehen - ChatGPT war zu nett

Es sind längst keine Einzelfälle mehr. Besonders problematisch sind falsche Informationen von Künstlicher Intelligenz in sensiblen Bereichen wie Medizin oder Justiz. Tatsächlich kam es bereits mehrfach vor, dass Anwälte in Gerichtsverfahren KI nutzten und sich auf angebliche Präzedenzfälle beriefen, die es nie gab. Sprachmodelle hatten sie erfunden - samt Aktenzeichen, Gerichtsbarkeit und Argumentation.

Was passiert, wenn neue Versionen von Sprachmodellen mitunter schlechter arbeiten als Vorgänger, musste Ende April das KI-Unternehmen OpenAI mit seinem neuen GPT-4o erleben: Das Update war ein Desaster und musste nach nur drei Tagen zurückgezogen werden. Hier waren weniger Halluzinationen das Problem - die neue Version war zu nett und wurde dadurch gefährlich. ChatGPT zeigte sich geradezu unterwürfig und lobte mit Begeisterung selbst die absurdesten und sogar riskante Ideen der Anwender.

KI - Risiko für die Demokratie — KI-generierte Bilder und Videos sind kaum noch von echten zu unterscheiden. Eine so gesteuerte Desinformation gilt als weltweit größtes Risiko für Wahlen.
06.06.2024

KI empfiehlt antisemitische Verschwörungstheoretiker

Ein Nutzer, der vorschlug, er wolle seine Medikamente absetzen, weil er spirituell erwacht sei, wurde von der KI voll und ganz darin bestärkt. Ein Journalist des Bayerischen Rundfunks machte einen Versuch: Er erzählte ChatGPT, er habe erkannt, dass die Welt von Echsenmenschen beherrscht würde. Die KI habe diese Erkenntnis gelobt und daraufhin Werke antisemitischer Verschwörungstheoretiker als Lesestoff vorgeschlagen, berichtet er in einem Podcast.

In einem offiziellen Statement erklärte OpenAI, was mit dem Update schief gelaufen war und wie künftige Versionen besser trainiert und überprüft werden sollen.

Nur noch Handys mit KI? — ZDF-Redakteur Sven-Hendrik Hahn berichtet von der Mobilfunkmesse in Barcelona. Er erklärt, welche Bedeutung Künstliche Intelligenz zukünftig für die Handys hat und wie es dabei um den Datenschutz steht.
04.03.2025 | 5:43 min

Das Grundproblem von Sprachmodellen: Sie können nicht entscheiden, was wahr und was falsch ist. KI-Systeme funktionieren nicht nach festen Regeln, sondern nach Wahrscheinlichkeiten. "Diese Modelle wurden gebaut, um Wörter vorherzusagen, nicht um die Wahrheit vorherzusagen oder wiederzugeben", erklärt Informatik-Professor Jannik Strötgen von der Hochschule Karlsruhe im Gespräch mit ZDFheute.

Fortschritt mit Rückschritt

Mögliche Gründe für die in jüngster Zeit vermehrt auftretenden Fehler: Neue Versionen von Sprachmodellen würden häufig Fähigkeiten verlieren, die sie davor bereits hatten, erklärt Strötgen:

Wenn Modelle neue Aufgaben oder neues Wissen zusätzlich lernen sollen, und dabei bereits Gelerntes wieder vergessen, spricht man oft von 'Catastrophic Forgetting' [katastrophaler Wissensverlust] - was das Problem ganz gut auf den Punkt bringt.

Prof. Jannik Strötgen, Fakultät für Informatik und Wirtschaftsinformatik, Hochschule Karlsruhe

Schachcomputer gehackt
:Wenn die KI betrügt: Welche Folgen das hat

KI-Systeme sollen unseren Alltag verbessern und menschliche Fehler beseitigen - doch auch KI verstößt gegen Regeln.

von Lukas Wagner

Das Bild zeigt eine holografische KI, die eine Schachfigur in der Hand hält.

mit Video

Modelle könnten also oft sehr gut angepasst werden, um Neues zu lernen. Es sei aber sehr schwierig über sämtliche bereits gelernten Fähigkeiten hinweg keine Qualitätseinbußen in Kauf nehmen zu müssen, so der Experte.

Reasoning-Modelle geraten ins Straucheln

Ähnlich sieht das auch Laura Perez-Beltrachini, Forscherin an der Universität Edinburgh, die das Halluzinationsproblem intensiv untersucht: "So wie diese Systeme trainiert werden, fangen sie an, sich auf eine Aufgabe zu konzentrieren - und vergessen dabei andere", erklärte sie gegenüber der "New York Times".

US-Präsident Trump hat ein gigantisches KI-Projekt angekündigt. Geplant sind Milliarden-Investitionen für das Projekt „Stargate“. Damit setzt Trump Europa unter Zugzwang.
22.01.2025 | 1:13 min

Hintergrund: Die Unternehmen hinter den Sprachmodellen setzen inzwischen verstärkt auf sogenanntes "Reinforcement Learning", eine Art Lernprozess durch Versuch und Irrtum. Das funktioniert gut bei Mathematik oder Programmieren, versagt aber bei allgemeinem Wissen. Dabei geraten die neuen "Reasoning"-Modelle, die Schritt für Schritt denken sollen, besonders oft ins Straucheln. Sie können bei jedem Teilschritt Fehler machen - die sich dann am Ende summieren.

Warum die neuen Systeme trotz technischer Fortschritte schlechter mit Fakten umgehen, ist bislang nicht vollständig geklärt. OpenAI selbst räumt die Probleme offen ein. Man arbeite daran, die höheren Halluzinationsraten zu reduzieren, erklärte Unternehmenssprecherin Gaby Raila gegenüber der New York Times. Bis solche KI-Systeme fehlerfrei funktionieren, gilt: Wer sich auf die neue Intelligenz verlässt, muss selbst immer klüger prüfen.