Notfalldiagnostik: Mensch vs. Maschine

KI in der Medizin-- Ein niederländisches Forschungsteam hat sich der Frage angenommen, ob ChatGPT in der Notfallmedizin eine Rolle als „Diagnosenautomat“ übernehmen könnte – oder ob doch nichts über den ärztlichen Verstand geht.

Von Katja Schäringer Veröffentlicht:

Die Fähigkeit des Large Language Models ChatGPT, Informationen aus eingespeisten Texten zu extrahieren, könnte im klinischen Alltag – vor allem im zeitsensiblen Setting der Notaufnahme – von Nutzen sein. Hier müssen schnellstmöglich umfassende medizinische Informationen analysiert werden, um daraus die korrekte Diagnose abzuleiten. Ein Forschungsteam aus den Niederlanden wollte herausfinden, ob ChatGPT dabei eine Hilfe sein könnte. Dafür zogen sie die Daten von 30 Personen heran, die im März 2022 die Notaufnahme der Jeroen Bosch Klinik im niederländischen ´s-Hertogenbosch aufgesucht und schlussendlich eine einzelne bestätigte Diagnose erhalten hatten. Basis der Analyse waren Aufzeichnungen der Ärztinnen und Ärzte in der Notaufnahme, die unmittelbar bei der Vorstellung der Patientinnen und Patienten erfasst wurden, u. a. die medizinische Vorgeschichte, körperliche Untersuchung und Medikation sowie standardisierte Laborwerte. Die endgültige Diagnose wurde dem Entlassbrief entnommen.

60 % Übereinstimmung zwischen ärztlicher Intelligenz und KI

Für die Studie werteten Ärztinnen und Ärzten aus Notfall- oder innerer Medizin die Notizen retrospektiv aus. Dieselben Daten wurden auch in drei Versionen des Chatbots eingespeist (ChatGPT v3.5 und v4.0 sowie die Ausführung in niederländischer Sprache). Alle gaben eine Auswahl an fünf möglichen Differenzialdiagnosen an und benannten die ihrer Meinung nach am wahrscheinlichsten zutreffende. Insgesamt stimmten die vorgeschlagenen Differenzialdiagnosen von Mensch und Maschine zu 60 % überein.

In der Zusammenschau von medizinischer Vorgeschichte, körperlicher Untersuchung und Laborwerten war bei den Medizinerinnen und Mediziner in 87 % der Fälle die letztendlich korrekte Diagnose in ihrer Top-5-Auswahl enthalten. ChatGPT v4.0 erreichte den gleichen Wert, Version 3.5 listete bei 97 % die richtige Diagnose. Bei der korrekten Zuordnung der Diagnose im Entlassbrief lagen Ärzteteam und ChatGPT v4.0 mit 53 % der Fälle erneut gleichauf. ChatGPT v3.5 war auch hier mit 60 % etwas besser. Ein statistisch aussagekräftiger Unterschied ergab sich dadurch jedoch nicht – genau wie bei allen anderen erhobenen Werten in dieser Studie. In manchen Fällen spuckte der Chatbot außerdem falsche Diagnosen aus.

Chatbot widerspricht sich selbst

Insgesamt betrachtet schnitten Ärztinnen und Ärzte sowie ChatGPT also gleich gut ab, wenn es darum ging, Differenzialdiagnosen anhand von notfallmedizinischen Aufzeichnungen abzuleiten. Allerdings offenbarte der Chatbot in der Analyse ein klares Manko: Die Forschenden hatten jede Version jeweils dreimal mit denselben Daten gefüttert – und dabei teils unterschiedliche Ergebnisse erhalten. Bei den Anfragen in englischer Sprache gab das Programm lediglich in 60 % der Fälle jedes Mal dieselbe Diagnose an. Für das Studienteam bestätigt sich damit: „Diese Modelle sind lediglich Werkzeuge, die den Ärztinnen und Ärzten zwar helfen, sie aber nicht ersetzen können.“

Fazit

KI-Systeme können bei der Diagnosefindung in knapper Zeit unterstützen, ersetzen jedoch nicht die medizinische Expertise.

Limitierung: Kleine Fallzahl, retrospektives Design, vergleichsweise „simple“ Fälle mit je nur einer Diagnose.

Literatur-- Ten Berg H et al. Ann Emerg Med. 2023; https://doi.org/10.1016/j.annemergmed.2023.08.003

Schlagworte: