ChatGPT: Bot wird zum geprüften Radiologen (Bild: Alexandra Koch, pixabay.com)

Chat GPT hat eine Prüfung der Radiological Society of North America bestanden. "Die Verwendung grosser Sprachmodule wie Chat GPT explodiert und wird noch zunehmen", so Prüfer Rajesh Bhayana, Radiologe am Toronto General Hospital. "Unsere Forschung gibt Aufschluss über die Leistung von Chat GPT im radiologischen Kontext und unterstreicht das unglaubliche Potenzial grosser Sprachmodule sowie die derzeitigen Einschränkungen, die es unzuverlässig machen." Das könne Gefahren mit sich bringen, denn Chat GPT und ähnliche Chatbots würden in Suchmaschinen wie Google und Bing integriert, die Ärzte und Patienten verwenden, um nach medizinischen Infos zu suchen, so Bhayana.

Das Team hat die Chat-GPT-Version GPT-3.5 getestet, die derzeit am häufigsten verwendet wird. Die Prüfung bestand aus 150 Multiple-Choice-Fragen, die auf den Stil, den Inhalt und den Schwierigkeitsgrad der Prüfungen des Canadian Royal College und des American Board of Radiology abgestimmt waren. Dabei ging es um das Abrufen von Wissen und das Grundverständnis, um Anwendungen, Analysen und Synthesen sowie Beschreibungen der Bildgebungsbefunde, klinisches Management, Berechnung und Klassifikationen.

GPT-3.5 beantwortete 69 Prozent der Fragen richtig (104 von 150). Für ein Bestehen der Prüfung wären nach der Praxis des Royal College in Kanada 70 Prozent nötig gewesen. Das Modell schnitt bei Wissensfragen mit 84 Prozent richtigen Antworten (51 von 61) am besten ab, hatte aber Probleme mit Fragen, die das Denken höherer Ordnung betrafen (60 Prozent, 53 von 89). Genauer gesagt, hatte die Software Probleme bei der Beschreibung der Bildgebungsbefunde (61 Prozent richtig, 28 von 46), der Berechnung und Klassifizierung (25 Prozent, zwei von acht) und der Anwendung von Konzepten (30 Prozent, drei von zehn). Die schlechte Leistung bei Denkfragen höherer Ordnung ist wegen fehlender radiologiespezifischer Vorschulung nicht überraschend, so Bhayana.

Die Nachfolge-Software GPT-4, die im März 2023 in begrenzter Form für zahlende Nutzer freigegeben wurde, machte es besser: Sie bestand die Prüfung mit 81 Prozent richtigen Antworten. Insbesondere registrierten die Radiologen Verbesserungen bei anspruchsvolleren Aufgaben. "Wir waren überrascht von den großenteils genauen und selbstbewussten Antworten von Chat GPT auf einige herausfordernde radiologische Fragen, aber dann ebenso überrascht von einigen sehr unlogischen und ungenauen Behauptungen. Es ist gefährlich, sich nur auf Chat GPT zu verlassen", so Bhayanas Fazit.