Grosse Sprachmodelle wie ChatGPT stossen an ihre Grenzen, wenn sie im notfallmedizinischen Bereich eingesetzt werden, wie Forscher der University of California San Francisco festgestellt haben. Werden sie in der Notaufnahme zur Erstbeurteilung von Patienten eingesetzt, schlagen sie unnötige Röntgenaufnahmen und Antibiotika vor und plädieren für Einweisungen, obwohl keine Krankenhausbehandlung benötigt wird. Das Modell könne zwar so programmiert werden, dass seine Antworten genauer werden. Dennoch könne es mit dem klinischen Urteilsvermögen eines menschlichen Arztes nicht mithalten.
"Kliniker sollten diesen Modellen nicht blind vertrauen. ChatGPT kann Fragen zu medizinischen Untersuchungen beantworten und bei der Erstellung klinischer Notizen helfen. Aber es ist derzeit nicht für Situationen ausgelegt, die komplexere Überlegungen erfordern, wie sie in einer Notaufnahme ständig nötig sind", mahnt Studienleiterin Chris Williams. KI sei nur etwas besser als der Mensch, wenn es darum geht zu entscheiden, welcher von zwei Notfallpatienten am dringendsten medizinische Hilfe braucht.
Doch bei komplexeren Aufgaben scheitere das KI-Modell oft. Im Test sollte es Empfehlungen abgeben, wie sie ein Arzt nach der Erstuntersuchung eines Patienten in der Notaufnahme ausspricht. Dazu gehört die Entscheidung, ob der Patient eingewiesen, geröntgt oder anderweitig behandelt oder ob ihm Antibiotika verschrieben werden sollen. Für jede der drei Entscheidungen hat das Team 1.000 Beispiele aus Notaufnahmen zusammengestellt, die die KI beurteilen sollte. Sie konnte je zwischen "Ja" und "Nein" zu stationärer Aufnahme des Patienten wählen und ihn für das Röntgen oder die Einnahme von Antibiotika vorschlagen.
Williams hat ChatGPT-3.5 und ChatGPT-4 mit den Symptomen der Patienten und den ersten Untersuchungsergebnissen von "echten" Ärzten gefüttert und sich angeschaut, was die KI daraus machte. Sie neigte dazu, häufiger unnötige Leistungen zu empfehlen. ChatGPT-4 schnitt mit acht Prozent unnötiger Therapien deutlich besser ab als ChatGPT-3.5, das in 24 Prozent der Fälle falsch lag.
"Diese Modelle sind, weil sie entsprechend trainiert worden sind, darauf ausgerichtet, zu sagen: 'Suchen Sie medizinischen Rat', was aus Sicht der allgemeinen öffentlichen Sicherheit durchaus richtig ist", sagt Williams. "Aber in der Notaufnahme ist es nicht immer angebracht, auf Nummer sicher zu gehen, da unnötige Eingriffe den Patienten schaden, Ressourcen belasten und zu höheren Kosten für die Patienten führen können."