In einer aktuellen Studie veröffentlicht in JAMA-Netzwerk geöffnetbewertete eine Gruppe von Forschern die Fähigkeiten der künstlichen Intelligenz (KI) des Generative Pre-trained Transformer 4 (GPT-4) im probabilistischen Denken im Vergleich zu menschlichen Klinikern, indem sie Wahrscheinlichkeitsschätzungen vor und nach dem Test in diagnostischen Fällen bewerteten.
Hintergrund
Um eine Krankheit zu diagnostizieren, ist es notwendig, die Wahrscheinlichkeit verschiedener Erkrankungen entsprechend der Ausprägung der Symptome zu berechnen und diese Prozentsätze dann anhand diagnostischer Befunde zu korrigieren.
Dennoch ist es für Kliniker nicht einfach, die Wahrscheinlichkeiten vor und nach dem Test anhand von Statistiken oder tatsächlichen Patientenfallsituationen abzuschätzen. Große Sprachmodelle (LLMs) können bei der Bewältigung komplizierter diagnostischer Probleme, beim Bestehen medizinischer Untersuchungen und bei einfühlsamen Patienteninteraktionen beim klinischen Denken helfen.
Weitere Forschung ist erforderlich, um das volle Potenzial und die Grenzen der KI in komplexen, realen Diagnoseszenarien zu erkunden, da aktuelle Studien zeigen, dass die Leistung der KI beim probabilistischen Denken im Vergleich zu menschlichen Klinikern unterschiedlich hoch ist.
Über die Studie
Die vorliegende Studie umfasste die Analyse der Leistung von 553 Praktikern im probabilistischen Denken anhand von Daten aus einer nationalen Umfrage, die zwischen Juni 2018 und November 2019 durchgeführt wurde. Diese Praktiker wurden in fünf Fällen bewertet, die jeweils an wissenschaftlichen Referenzstandards ausgerichtet waren.
Um die Fähigkeiten der KI in diesem Bereich zu bewerten, haben die Forscher jeden Fall aus der Umfrage in ein Modell repliziert. Dieser Ansatz beinhaltete die Einbeziehung spezifischer Eingabeaufforderungen, die darauf ausgelegt waren, von der KI eine konkrete Reaktion auf die Wahrscheinlichkeiten vor und nach dem Test zu erhalten.
Angesichts der stochastischen Natur von LLMs wandte das Team eine Strategie an, um die Zuverlässigkeit ihrer Ergebnisse sicherzustellen. Sie führten hundertmal eine identische Eingabeaufforderung innerhalb der Anwendungsprogrammierschnittstelle des LLM aus. Dies erfolgte bei der Standardtemperatureinstellung des Modells, die darauf abgestimmt ist, ein Gleichgewicht zwischen Kreativität und Konsistenz der Antworten aufrechtzuerhalten. Dieser im Oktober 2023 durchgeführte Prozess ermöglichte die Erstellung einer Verteilung der Ausgabeantworten der KI.
Um die Leistung der KI zu quantifizieren, berechneten die Forscher den Median und die Interquartilbereiche (IQRs) der LLM-Schätzungen. Darüber hinaus ermittelten sie den mittleren absoluten Fehler (MAE) und den mittleren absoluten prozentualen Fehler (MAPE) sowohl für die KI- als auch für die menschlichen Teilnehmer. Das Team führte seine Analyse durch und erstellte Diagramme mit R, Version 4.3.0. Der institutionelle Prüfungsausschuss der University of Maryland hielt diese Studie für ausgenommen, da sie keine menschlichen Teilnehmer umfasste, und hielt sich während der gesamten Durchführung an die Berichterstattungsrichtlinie „Strengting the Reporting of Observational Studies in Epidemiology“ (STROBE).
Studienergebnisse
In einer Vergleichsstudie zwischen menschlichen Klinikern und einem LLM wurden interessante Ergebnisse hinsichtlich der Schätzung der Wahrscheinlichkeiten vor und nach dem Test in verschiedenen diagnostischen Fällen beobachtet. Diese Studie, die eine Analyse von fünf verschiedenen Fällen umfasste, ergab, dass der LLM im Vergleich zu menschlichen Praktikern durchweg geringere Fehlerraten bei der Vorhersage von Wahrscheinlichkeiten nach einem negativen Testergebnis aufwies.
Ein bemerkenswertes Beispiel hierfür war der Fall einer asymptomatischen Bakteriurie. Hier wurde die mittlere Vortestwahrscheinlichkeit der LLMs auf 26 % geschätzt (mit einem IQR von 20 %–30 %), während die mittlere Schätzung der menschlichen Kliniker mit 20 % etwas niedriger war, jedoch einen viel breiteren Interquartilbereich von 10 %–50 % aufwies. . Obwohl die mittlere Schätzung des LLM weiter von der richtigen Antwort entfernt war als die des Menschen, wies das LLM einen niedrigeren MAE- und MAPE-Wert von 26,2 bzw. 5240 % auf.
Im Gegensatz dazu waren die Zahlen für Humanmediziner höher, nämlich 32,2 % für MAE und 6450 % für MAPE. Dieser Unterschied könnte auf die engere Verteilung der Antworten des LLM zurückgeführt werden, was im Vergleich zu der größeren Variabilität, die bei menschlichen Antworten beobachtet wird, einen konsistenteren Bereich von Schätzungen liefert.
Darüber hinaus war ihre Einschätzung des Post-Probability-Tests nach einem positiven Testergebnis ebenfalls bemerkenswert, aber inkonsistent. Beispielsweise übertraf der LLM in Bezug auf Brustkrebs und eine imaginäre Situation mit Tests die Präzision von Ärzten. Dies weist darauf hin, dass es möglich ist, dass der LLM diese spezifischen medizinischen Störungen besser verstanden oder behandelt hat.
Die Leistung der KI ähnelte auch in zwei anderen Situationen der der menschlichen Kliniker, was auf eine gute Fachkompetenz hindeutet, die mit der von fachmännisch ausgebildetem medizinischem Personal vergleichbar ist. Dennoch zeigt ein Fall, bei dem die Genauigkeit des LLM geringer war als die des Menschen, einige Punkte, die bei den Diagnosefähigkeiten des LLM verbessert werden könnten.
Diese Ergebnisse unterstreichen das Potenzial von KI, insbesondere von LLMs, im Bereich der medizinischen Diagnostik. Die Fähigkeit des LLM, bei der Schätzung diagnostischer Wahrscheinlichkeiten oft mit der menschlichen Leistung mitzuhalten oder diese sogar zu übertreffen, verdeutlicht die Fortschritte in der KI-Technologie und ihre Anwendbarkeit im Gesundheitswesen. Die unterschiedliche Leistung in verschiedenen Fällen zeigt jedoch auch die Notwendigkeit einer weiteren Verfeinerung und eines Verständnisses der Rolle und Grenzen von KI bei komplexen medizinischen Entscheidungen.