KI und Medizin
Doktor Frankenstein verwirrte die Künstliche Intelligenz

KI-Tools wären angesichts eines neuen Virus wie Sars-CoV-2 extrem hilfreich gewesen. Sie wurden auch entwickelt, aber versagten im Kampf gegen Covid-19 auf der ganzen Linie. Aber die Gründe dafür liegen mehr in einer schlampigen Datenerhebung als im Grundsätzlichen.

Christoph Bopp
Drucken
Bei der Analyse von Röntgenbildern sind KI-Tools mittlerweile meistens besser als Menschen. Es kommt aber stark darauf an, wie die Programme trainiert worden sind. Bei Covid-19 haben die KI-Tools versagt.

Bei der Analyse von Röntgenbildern sind KI-Tools mittlerweile meistens besser als Menschen. Es kommt aber stark darauf an, wie die Programme trainiert worden sind. Bei Covid-19 haben die KI-Tools versagt.

Urs Flüeler

Wann denn, wenn nicht jetzt? Wann hätte die Medizin dringenderen Bedarf gehabt nach leistungsfähigen Programmen mit künstlicher Intelligenz als in Zeiten der Covid-Pandemie?

Dies war jedenfalls die Meinung von Laure Wynants, einer Epidemiologin an der Univer­sität von Maastricht in den ­Niederlanden.

Laure Wynants.

Laure Wynants.

twitter

Ihr Spezialgebiet sind Vorhersageprogramme. Schliesslich gab es bereits Daten aus China, denn die Epidemie war dort bereits ein paar Monate am Laufen, bevor sie hier die Kontrolle übernahm. Diese Daten könnte man brauchen, um damit KI-Modelle zu trainieren, um den vom neuartigen ­Virus und dessen Krankheitsbild überforderten Ärzten zur Seite zu stehen.

Nicht, dass man es nicht versucht hätte. KI-Spezialisten überall machten sich ans Werk und programmierten ihre Tools. Aber der Erfolg war bescheiden. Kaum eines war hilfreich, einige verursachten sogar Schäden.

Wynants selbst war Autorin bei einer Übersichtsstudie, publiziert im British Medical Journal, die 169 Studien mit 232 Algorithmen begutachtete. Bestenfalls zwei von ihnen hätten allenfalls etwas versprochen, lautet das Verdikt.

Zu einem ähnlichen Schluss war im Juni das Turing Institute, Englands Center für Data ­Science und künstliche Intelligenz, gekommen. KI-Programme hätte nur einen winzigen, wenn überhaupt irgendwelchen Einfluss im Kampf gegen ­Covid-19 gehabt.

Die Programme scheiterten dort, wo sie sonst gut sind

Was hätten die Programme leisten sollen? Wynants unterschied bei ihren 232 Modellen 7 Tools, welche Risikopersonen in der Population identifizieren sollten, 118 Diagnose-Modelle (75 von ihnen analysierten Röntgenaufnahmen, ein Gebiet, in dem KI-Programme sonst – bei Krebs zum Beispiel – ziemlich gut sind) und 107 Programme, die das Mortalitätsrisiko und das Risiko für einen schweren Verlauf vorhersagen sollten.

Derek Driggs, der an der Universität Cambridge über Machine Learning forscht, hatte mit seinem Team 415 Algo­rithmen angeschaut, welche Lungen-Röntgenbilder und CT-Aufnahmen des Oberkörpers analysierten. Sie fanden, keines sei für den klinischen Einsatz gut genug gewesen. «Diese Pandemie war ein grosser Test für den Einsatz von KI in der Medizin», sagte Driggs, «und ich glaube, wir bestanden ihn nicht.»

Derek Driggs.

Derek Driggs.

cam.univ

Aus lausigen Daten keine brauchbaren Vorhersagen

Wynants und Driggs glaubten immer noch an den Nutzen von KI-gestützten Tools in der Medizin, schreibt Will Douglas Heaven in der MIT Technology Review. Offenbar war es die schlechte Datenqualität, die für das Training der Programme verwendet wurden, welche die Programme auf eine falsche Spur führten.

Das ist nicht Doktor Frankenstein, sondern das Monster, das Doktor Frankenstein aus Leichenteilen zusammenbastelte.

Das ist nicht Doktor Frankenstein, sondern das Monster, das Doktor Frankenstein aus Leichenteilen zusammenbastelte.

Gefürchtet waren die sogenannten «Frankenstein-Datasets», Datensätze, die aus verschiedenen Quellen zusammengestoppelt wurden. Oft wurden auch Programme mit den gleichen Daten getestet, mit welchen sie trainiert wurden. Als Kontrollgruppe (ohne Covid) wurden oft Kinder verwendet, das führte dazu, dass die Programme Kinder erkannten. Schwere Fälle wurden mehrheitlich in liegendem Zustand dokumentiert, leichtere stehend, die Programme verwendeten das als Kriterium.

Dinge, die nicht passieren sollten. Aber auch nicht unbedingt etwas, was sich in Zukunft nicht besser machen liesse.