Interview

Die Schizophrenie des ChatGPT

KI in der Medizin-- ChatGPT hat aus Rohdaten gelernt, wie Wörter aneinanderzureihen sind. Ein darauf aufgesetztes Dialogmodul ermöglicht eloquente Antworten, auch auf medizinische Fragen und mit Referenzierung. Das wirkt wie ein Wunder, ist jedoch teilweise nur Halluzination. Es gibt jedoch sinnvolle Anwendungsmöglichkeiten in der Medizin, verrät die KI-Expertin und Psychologin Prof. Ute Schmid.

Ein Interview von Carola Göring Veröffentlicht:
ChatGPT ist ein neuronales Netzwerk, das auf ein großes Sprachmodell zurückgreift.

ChatGPT ist ein neuronales Netzwerk, das auf ein großes Sprachmodell zurückgreift.

© Vitor Miranda / stock.adobe.com

Frau Prof. Ute Schmid, Sie beschäftigten sich seit mehr als 20 Jahren mit Künstlicher Intelligenz. Um ChatGPT ist in letzter Zeit ein Hype ausgebrochen. Was ist denn ChatGPT?

Prof. Ute Schmid: ChatGPT ist ein Chatbot, der auf einem sogenannten großen Sprachmodell („large language model“) arbeitet. GPT steht für „generative pretrained transformer network“. Das ist eine der vielen erfolgreichen neueren Architekturen für tiefe neuronale Netze.

Den Hype, den wir gerade um ChatGPT erleben, hatten wir etwa im Jahr 2015 schon mal mit den sogenannten „convolutional neuronal networks“ (CNN). Diese werden in der Medizin vor allem im Bereich bildbasierte Diagnostik eingesetzt. Ein bekanntes Anwendungsbeispiel ist die Hautkrebs-Früherkennung.

Weil sie „Hype“ und „früherer Hype“ sagten – was kann man aus der Vergangenheit für die jetzige Situation lernen?

Künstliche Intelligenz (KI) existiert bereits seit 1956 als Teildisziplin der Informatik. Auch maschinelles Lernen war von Anfang an als ein wichtiger Forschungsbereich dabei. Bereits vorher wurde das Lernen mit sogenannten Perzeptrons als Modell eines einzelnen Neurons vorgeschlagen. In den 80er-Jahren wurden die ersten neuronalen Netze entwickelt, sogenannte Multilayer-Perzeptrons, die bis heute genutzt werden. Diese klassischen neuronalen Netze benötigen als Input sogenannte Merkmalsvektoren. Das heißt, dass Rohdaten, wie zum Beispiel Bilder nicht direkt verarbeitet werden können. Stattdessen werden aus den Bilddaten Informationen wie Farbverteilungen oder Texturmerkmale extrahiert und als Merkmalsvektoren gespeichert. Um Merkmalsvektoren zu erzeugen, ist also komplexe Vorverarbeitung nötig und es besteht immer das Risiko, dass relevante Information dabei verloren geht. Das war der große Flaschenhals für maschinelles Lernen auf Bilddaten.

Dann kam mit den CNNs eine ganz neue Art von Netzwerkarchitektur. Die sogenannten „convolution layers“ sind Faltungen, die wie Filter arbeiten. Sie ermöglichen es, dass das Netzwerk die bisher notwendigen menschlichen Vorarbeiten der Merkmalsextraktion „selbstlernend“ übernehmen kann.

Prof. Ute Schmid ist Inhaberin des Lehrstuhls für Kognitive Systeme an der Universität Bamberg.

Prof. Ute Schmid ist Inhaberin des Lehrstuhls für Kognitive Systeme an der Universität Bamberg.

© J. Schabel

zur Person

Prof. Ute Schmidt hat neben Diplom, Promotion und Habilitation in Informatik auch ein Diplom in Psychologie erworben.

Seit mehr als 20 Jahren lehrt und forscht sie in den Bereichen Künstliche Intelligenz, maschinelles Lernen und kognitive Modellierung.

Seit 2020 ist Ute Schmid Mitglied im Direktorium des Bayerischen Instituts für Digitale Transformation (bidt). Sie leitet die Fraunhofer IIS Projektgruppe Comprehensible AI.

Ute Schmid widmet sich zudem intensiv der Förderung von Frauen in der Informatik und engagiert sich seit vielen Jahren in der Vermittlung von Informatik, speziell auch KI-Konzepten für Kinder und Jugendliche.

Das war ein großer Durchbruch und hat viele Anwendungen beflügelt, wie die Fußgängererkennung beim autonomen Fahren, die bildbasierte Diagnostik in der Medizin und viele andere. Die Möglichkeit, direkt aus Rohdaten zu lernen hat es auf einmal viel einfacher gemacht, Daten direkt in Lernsysteme zu füttern. Anfangs war die Euphorie bei den vielen potenziellen Anwenderinnen und Anwendern hier groß – es wirkte so einfach – Daten rein, dann kommt „die Magie“ und hinten kommt Erkenntnis raus. Allerdings hat sich schnell gezeigt, dass es nicht ganz so problemlos ist und man Denken nicht durch Daten ersetzen kann. Und auf die Hochstilisierung der KI zur „Wunderbox“ folgte relativ schnell die Ernüchterung. Wenn man seine Daten nicht sorgfältig wählt, kann es zum Beispiel zu „Clever Hans“-Effekten kommen – benannt nach dem Pferd Hans, das vermeintlich Rechenaufgaben lösen konnte. Dieser Effekt beschreibt ein „overfitting“ des gelernten Modells auf für die eigentliche Entscheidung irrelevante Information in den Daten.

Beispielsweise könnten auf Röntgenbildern, bei denen ein Bruch zu sehen ist, unbeabsichtigt häufiger Textmarken auf den Aufnahmen sein als bei Bildern ohne Bruch. Dann würde zum Beispiel ein Modell gelernt, das vorhersagt, dass immer wenn Text auf einem Röntgenbild steht, ein Bruch vorliegt.

In Arztbriefen sind bisher nicht auswertbare Informationsschätze enthalten. Hier könnte ChatGPT helfen.

Zudem können unbalancierte Verteilungen zu unfairen Modellen führen. So wurden zum Beispiel Modelle trainiert, bei denen mehr Daten von hellhäutigen Menschen vorlagen als von dunkelhäutigen und entsprechend wurden Malignome bei dunkelhäutigen Menschen schlechter erkannt. Solchen Problemen kann man durch mehr Sorgfalt bei der Zusammenstellung der Trainingsdaten oder durch statistische Ansätze, die die Unbalanciertheit ausgleichen, entgegenwirken.

Der aktuelle Hype heißt ChatGPT. Möglich wurde er nicht zuletzt durch die Publikation „Attention is all you need“ im Jahr 2017 von Forschenden bei Google Brain und Google Research, in dem die Grundlage für die heutigen Transformernetze gelegt wurden. Generative Transformer ermöglichen den Aufbau von Modellen zur Erzeugung von Texten, Bildern oder auch Programmcode.

Wie funktioniert ChatGPT?

ChatGPT besteht im Prinzip aus zwei Teilen: Aus dem Generative Pretrained Transformer GPT in der Version 3 (oder 3.5) sowie aus einem Dialogsystem. GPT3 wurde aus den im Jahr 2021 crawlbaren, also im Internet frei zugänglichen Daten, trainiert und dann eingefroren. In dem Netzwerk sind alle in den riesigen Datenmengen vorkommenden Worte und andere Symbole gespeichert. Aus den vorhandenen Wortfolgen wurden Übergangswahrscheinlichkeiten ermittelt.

GPT kann man sich also als großes Netz vorstellen mit allen möglichen Worten und Symbolen als Knoten, und Verbindungen zwischen den Worten, die die Wahrscheinlichkeit angeben, mit der ein Wort auf ein anderes folgt. Wird Text generiert, wird nicht immer die Kante mit dem höchsten Wert gewählt. Das heißt, die Textgenerierung kann verschiedenen Pfaden folgen.

ChatGPT ist ein Dialogsystem, das auf GPT3 zugreift. Während das Sprachmodell GPT selbst nicht weiter trainiert wird, lernt das darauf aufbauende Dialoggenerierungsmodell durch sogenanntes human-in-the-loop Reinforcement Learning aus den Rückmeldungen der Nutzenden ständig weiter. Eine weitere Lernkomponente von ChatGPT sind die Contentfilter, die verhindern sollen, dass toxische oder gefährdende Inhalte ausgegeben werden.

Was ist denn die Folge davon, dass das Sprachmodell einmal trainiert wird und die KI dann nicht mehr weiter lernt?

Man sollte sich klar machen, dass diese KIs ganz anders lernen als Menschen. Wir Menschen nutzen beim Lernen immer auch Wissen, das wir bereits haben, wir lernen permanent weiter und wir korrigieren auch Dinge, die wir fehlerhaft gelernt haben. Das macht ein neuronales Netz nur während der Trainingsphase, wenn es gezielt mit Trainingsdaten gefüttert wird. Dabei ist es notwendig, dass für jedes Beispiel, etwa die Aufnahme eines Gewebeschnitts, dazu gesagt wird, was hierfür die korrekte Ausgabe wäre – zum Beispiel, ob es sich um einen Tumor handelt. Nach dem Training wird das gelernte Modell eingefroren. Das gilt auch für das ChatGPT zugrunde liegende Transformernetz GPT, das nur Daten bis 2021 enthält.

Weiter sollte man wissen, dass beim Aufbau des Sprachmodells die Quellen, aus denen die Wortfolgen gewonnen wurden, nicht mit in das Modell eingeflossen sind. Man kann also nicht rekonstruieren, aus welchen Quellen bestimmte Teile der von ChatGPT gegebenen Antworten ursprünglich stammen.

Aber ChatGPT gibt Quellen mit aus?

Ja, wenn man zum Beispiel gezielt nach Quellen fragt, werden Quellen in der üblichen Form von Literaturangaben ausgegeben, diese sind aber meist frei erfunden oder willkürlich gewählt – existieren gar nicht oder beziehen sich auf ganz andere Themen.

Warum ist das so?

Wie bereits beschrieben, wurde das Sprachmodell durch crawling von Inhalten im Internet aufgebaut. Zu diesen Inhalten gehören wissenschaftliche Texte genauso wie vielleicht weniger gut geprüfte Seminararbeiten bis hin zu Foreneinträgen, die mal mehr mal weniger seriös sind.

Da in wissenschaftlichen Texten auch Referenzen vorkommen, „weiß“ ChatGPT wie eine Literaturreferenz im Prinzip aufgebaut ist. Das Sprachmodell kann also problemlos eine Quellenangabe nach diesem Muster generieren. Die Referenz wirkt echt, aber häufig existiert sie nicht oder die an dem genannten Literaturverweis auffindbare Publikation hat nichts mit dem Thema zu tun, auf das referenziert werden soll. Man muss verstehen, dass GPT keine Kopien von Textblöcken gespeichert hat. Es hat aus allen Wortfolgen, die es gibt, Übergangswahrscheinlichkeiten gelernt. Damit gibt es in den generierten Antworten keinen Bezug mehr zu spezifischen Webseiten oder Texten.

Propaganda wären Tür und Tor geöffnet.

Zudem muss man berücksichtigen, dass die Menge von Texten mit seriösen Inhalten im Vergleich zu eher unseriösen Meinungsäußerungen je nach Themenbereich sehr unterschiedlich sein kann. Bei einem sehr speziellen Thema, wie der Kardiologie, wird es vermutlich überwiegend wissenschaftlich geprüfte Inhalte im Internet geben, bei anderen Themen wie Impfung oder sinnvolles Vorgehen zur Gewichtsreduktion werden vermutlich viel weniger geprüfte Inhalte ins Netz eingegangen sein.

Wie man die Antworten von ChatGPT mithilfe weiterer KI-Methoden überprüfen kann und wie man im Nachhinein vielleicht doch Quellen zuordnen kann, ist ein aktuelles Forschungsthema. Man muss bei den Antworten von ChatGPT sehr aufpassen, dass man sich nicht bluffen lässt. Die Antworten sind sehr eloquent und wirken durch die Nutzung von Fachbegriffen sehr plausibel – auch wenn inhaltlich ziemlicher Unsinn generiert wird. Man sagt hier auch, dass ChatGPT halluziniert.

Im Gegensatz zu ChatGPT liefert uns eine Suchmaschine auf eine Anfrage hin Links zu Webseiten. Hier können wir als Menschen aufgrund des Kontexts der Seite selber beurteilen, ob wir den Aussagen auf der Seite trauen wollen oder nicht. Fragt man etwa nach Behandlungsmethoden bei einer bestimmten Krankheit, wird man der Webseite einer Uni-Klinik mehr trauen als einer Seite, die Heilsteine anbietet.

Wie ist die Qualität mit unterschiedlichen Sprachen?

ChatGPT wurde mit Inhalten aus vielen Sprachen trainiert und kann entsprechend zwischen Sprachen wechseln. Typischerweise gilt, dass je weniger Trainingsdaten aus einer Sprache vorhanden waren, umso schlechter die Formulierungsgüte ist und umso weniger zuverlässig die Aussagen. Ich selbst habe ChatGPT auf deutsch und auf englisch getestet. Sprachlich sind die Formulierungen im Deutschen wie im Englischen meistens sehr gut. Allerdings wurde zum Beispiel die auf deutsch gestellte Frage, ‚Was ist schwerer, ein Kilo Watte oder ein Kilo Stahl?‘, nicht korrekt beantwortet. Es wurde behauptet, dass ein Kilo Stahl schwerer sei, während die Antworten bei der englischen Anfrage korrekt war.

Wenn ich ChatGPT mit Fragen in eine bestimmte Richtung dränge und bestimmte Behauptungen in jede Frage hineinschreibe, würde das System diese Behauptung irgendwann als „richtige“ Antwort ausgeben?

Das ist gerade die große Befürchtung einiger Experten, wie auch derzeit immer wieder in den Medien zu lesen ist. Anfang Mai hat zum Beispiel Geoffrey Hinton, der „Godfather of neural networks“ bei Google gekündigt, unter anderem, weil er nicht kontrollierbare Effekte bei den großen Sprachmodellen und Chatbots befürchtet.

Man sollte sich klarmachen, dass diese KIs ganz anders lernen als Menschen.

Etwas vereinfacht gesagt, könnte man einen Bot programmieren, der verschiedenste Fragen zu Herz-Kreislauf-Erkrankungen stellt und dann die Antworten von ChatGPT immer mit dem Satz „… und 90 Prozent der Herz-Kreislauf-Erkrankungen sind verkappte Impfschäden“ korrigiert oder kommentiert. Wenn der Bot dies permanent behauptet, könnte es durchaus sein, dass diese Falschinformation gegenüber der seriösen Information mengenmäßig die Überhand gewinnt – und damit wären natürlich Propaganda Tür und Tor geöffnet.

Bringt das Nachfolgemodell ChatGPT4 mehr Sicherheit?

GPT3 war fokussiert auf symbolische Daten wie zum Beispiel Wortfolgen. GPT4 ermöglicht zusätzlich Multimodalität. Es kann also auch Bilder oder Audios als Input verwenden. Es heißt auch, dass GPT4 verlässlicher sei. Allerdings kann man Systeme wie ChatGPT zwar mit viel Aufwand zuverlässiger machen, aber es wird nie ganz auszuschließen sein, dass Ausgaben frei erfunden und faktisch falsch sind.

Ich höre viele Bedenken aus Ihren Antworten. Sind denn die Informationen, die man von ChatGPT momentan bekommt, in den medizinisch-kardiologischen Bereichen überhaupt nutzbar?

Ich sehe großes Potenzial für die Nutzung von Sprachgeneratoren in der Medizin, allerdings nicht für das Beantworten von Fragen über Faktenwissen zu Erkrankungen – weder für Ärztinnen und Ärzte noch für Patientinnen und Patienten. Aber es gibt viele andere sinnvolle Einsatzmöglichkeiten. Beispielsweise das Generieren von Standardtexten wie in der Korrespondenz mit Kassen oder in Arztbriefen – bei sorgfältig gegebenen Prompts. „Prompten“ meint die Information, die wir ChatGPT als Vorgaben geben. Ein Bereich, von dem ich mir viel verspreche, ist die Extraktion von spezifischen Informationen aus Arztbriefen – sogenannte „named entity recognition“.

In Arztbriefen und anderen medizinischen Berichten sind Informationsschätze enthalten, die bisher kaum auswertbar sind, da sie nicht in Form von Tabellendaten vorliegen. Wenn man aus Arztbriefen soziodemografische Daten, Vorerkrankungen, Medikamentenverordnungen deren Wirkungen und Nebenwirkungen extrahieren könnte, könnten damit Wechselwirkungen von Medikamenten in Abhängigkeit von soziodemografischen Daten dargestellt werden. Sie könnten beispielsweise feststellen, dass Frauen über 50 Jahren nicht das Medikament X zur Blutdrucksenkung bekommen sollten, wenn sie gleichzeitig das Antidepressivum Y nehmen und einen BMI über 28,5 kg/m2 haben.

Kann man das auch andersherum nutzen, in dem Sinn, dass ChatGPT den Arztbrief schreibt?

Briefe an die Krankenkasse oder an Kolleginnen könnten sicher von ChatGPT geschrieben werden. Dazu sollte man gut „prompten“, also die Eingabe an das System sehr klar formulieren. Wichtig wäre auch, ChatGPT alle Fakten mit zu geben, sodass es nur formuliert und nicht halluziniert. Das könnte natürlich eine bürokratische Entlastung sein.

Könnte man ChatGPT auch verwenden, um Patientinnen und Patienten weiterführende Informationen zu geben, zum Beispiel als Ergänzung zum Arztgespräch?

Das wäre möglich. Auch hier sollte man die Prompts sehr gut formulieren, sodass wirklich nur korrekte und intendierte Information vermittelt werden. Ich bin mir aber nicht sicher, ob die Wirksamkeit bzw. die Motivation der Patientinnen und Patienten dabei nicht auf der Strecke bleibt. Es macht schon einen Unterschied, ob ein Arzt oder eine Ärztin mir erklärt, dass ich zum Beispiel mit dem Rauchen aufhören soll oder ob das als Info von einer Künstlichen Intelligenz auf meinem Handy aufpoppt oder auf einem Zettel steht.

Können Sie noch ein kurzes Fazit zum Schluss geben?

Als Ideengeber ist ChatGPT großartig, solange der Mensch über die Sinnhaftigkeit der Antwort entscheidet. Man kann und darf sich jedoch nicht auf ChatGPT verlassen, wenn man Informationen erfragt, deren Korrektheit man nicht selbst beurteilen kann.

Vielen Dank für das Gespräch!

Schlagworte: