Auf dem Weg zu
vertrauenswürdiger KI in der Medizin
Ganzheitliche Qualitätssicherung von der Entwicklung bis zur Prüfung
Im Rahmen der Entwicklung des MISSION KI Qualitätsstandards hat das DFKI als Projektpartner wichtige Grundlagen für den langfristig sicheren und vertrauenswürdigen Einsatz von Künstlicher Intelligenz (KI) in Hochrisiko-Bereichen wie der Medizin erforscht.
Für den sicheren Einsatz von KI in Hochrisiko-Bereichen wie der Medizin ist Vertrauen unabdingbar. Die Erfüllung regulatorischer Vorgaben wie des EU AI Acts bildet dabei das Fundament. Ein langfristiger, sicherer Einsatz vertrauenswürdiger KI-Systeme erfordert allerdings technisch exzellente Lösungen über alle Phasen des KI-Lebenszyklus hinweg – von der Entwicklung bis zur Prüfung.
Die ständig wachsende Komplexität moderner KI-Systeme und die Vielzahl potenzieller Einsatzszenarien erschweren jedoch die skalierbare und eindeutige Umsetzung und Prüfung dieser Anforderungen erheblich. Der technisch fundierte Nachweis verschiedener Dimensionen der Vertrauenswürdigkeit ist komplex: Bewertungen sind kontextabhängig, Schwellwerte müssen sinnvoll definiert werden und unvorhersehbare Nutzungsarten von KI in der echten Welt führen zu einem hohen Aufwand bei der Prüfung.
Ergänzend zum MISSION KI Qualitätsstandard hat das Deutsche Forschungszentrum für Künstliche Intelligenz (DFKI) im Rahmen der Säule 2 diverse Beiträge geleistet, um den Weg zu vertrauenswürdiger medizinischer KI zu bereiten und deren Prüfung zu vereinfachen. Das Projekt hat konzeptionelle Grundlagen für zwei zentrale Plattformen zur Herstellung und Überprüfung der Vertrauenswürdigkeit von KI-Systemen erarbeitet – die Qualitätsplattform und die Testplattform.
Beide Plattformen ergänzen den Qualitätsstandard hinsichtlich der Unterstützung von Hochrisikoanwendungen und der teilweisen Automatisierung der Risikobewertung und des KI-Debugging. Die Entwicklung und Erprobung erfolgt anhand realer Use Cases aus medizinischen Bereichen wie der Dermatologie, Onkologie und Psychotherapie und adressiert die praktischen Herausforderungen beim Aufbau vertrauenswürdiger KI-Systeme in hochregulierten Umgebungen.
Seitenübersicht
Qualitätsplattform
Operationalisierung von Anforderungen und Risiken von KI-Systemen
Eine große Diskrepanz zwischen regulatorischen Anforderungen und deren technischer Umsetzbarkeit kann die Entwicklung vertrauenswürdiger KI-Systeme enorm behindern. Die Übersetzung unklar definierter, sich schnell ändernder KI-Vorschriften in konkrete Engineering- und Testschritte stellt Praktiker:innen vor erhebliche Herausforderungen. Eine gemeinsame, für Menschen lesbare und für Maschinen interpretierbare Wissensbasis ist erforderlich.
Das DFKI begegnet diesen Herausforderungen mit der Definition einer einheitlichen Terminologie, welche Anforderungen an die Qualität und Vertrauenswürdigkeit von KI-Systemen mit bekannten Risiken, Prüfwerkzeugen und Maßnahmen zur Risikominderung verknüpft. Eine kontinuierlich wachsende Wissensdatenbank bildet die Grundlage für den Prototypen einer Qualitätsplattform, welche Entwickler:innen dabei unterstützen wird, Risiken frühzeitig zu erkennen und geeignete Maßnahmen zur Risikominderung zu ergreifen.
Wie soll die Qualitätsplattform funktionieren?
In vier Schritten soll die Qualitätsplattform Entwickler:innen und Fachexpert:innen dabei unterstützen, abstrakte Anforderungen in konkrete Maßnahmen zur Risikominimierung zu überführen:
1. Anforderungen strukturieren
Die strukturierte Wissensdatenbank ermöglicht das Einpflegen individueller Anforderungen aus Normen, Standards, Gesetzen und der Praxis.
2. Kontext abbilden
Die Plattform ermöglicht die Zuordnung von Projektkontexten zu relevanten Qualitätsanforderungen und die Identifikation passender Testressourcen.
3. Risiken analysieren
Zu erwartende Risiken werden automatisiert abgeleitet. Komplexe und kritische Fälle können an Fachexperten zur Überprüfung weitergeleitet werden. Das System schlägt gleichzeitig geeignete Maßnahmen zur Risikominderung vor.
4. Kontinuierliche Verbesserung
Durch die Dokumentation von Nutzerfeedback, Testergebnissen und Bewertungen werden die Fähigkeiten der Wissensdatenbank fortlaufend erweitert.
Der KI-Debugger
Werkzeug zur Unterstützung der Entwicklung vertrauenswürdiger KI
Der KI-Debugger soll Entwickler:innen dabei unterstützen, Datensätze, Modelle und Pipelines relevanten Risiken zuzuordnen. Zusätzlich werden kontextbezogene Maßnahmen zur Risikominderung vorgeschlagen und implementiert. Die Implementierung erfolgt wahlweise vollautomatisiert oder mit menschlicher Aufsicht zur Freigabe durch den Benutzer. Der KI-Debugger arbeitet nicht mit fest kodierten Vorgaben, sondern nutzt die Wissensdatenbank der Qualitätsplattform für eine effektive Entwicklung vertrauenswürdiger und regelkonformer KI.
Zentrale Merkmale der Qualitätsplattform
Eine einheitliche Qualitätsplattform reduziert den Compliance-Aufwand und stärkt das Vertrauen in die eingesetzte KI. Der KI-Debugger beschleunigt die Entwicklung vertrauenswürdiger KI und hilft gleichzeitig beim Aufbau wertvollen Wissens.
Einheitliche Terminologie
Eine einheitliche Terminologie, die rechtliche, produktbezogene und technische Perspektiven zusammenführt.
Operationalisierung abstrakter Anforderungen
Abstrakte Vorgaben werden in konkrete, testbare Artefakte mit durchgängiger Rückverfolgbarkeit und Nachweisbarkeit überführt.
Wissen wiederverwenden statt neu erfinden
Risiken und Lösungsansätze werden einmal zentral erfasst und können über Projekte und Domänen hinweg genutzt werden.
Menschliche Aufsicht
Neues Wissen wird immer zunächst durch Menschen geprüft, bevor es in den Korpus der Wissensbasis aufgenommen wird – für höchste Qualität und Vertrauenswürdigkeit.
Testplattform
Auf dem Weg zur vollautomatisierten Prüfung von KI-Systemen
Das DFKI hat ein Konzept für eine Testplattform entwickelt, die in Zukunft teilautomatisierte, reproduzierbare und skalierbare technische Prüfungen von KI-Systemen ermöglichen soll. Dabei wurden insbesondere Prüfwerkzeuge für die Dimensionen Transparenz, Nicht-Diskriminierung, Verlässlichkeit und KI-spezifische Cybersicherheit konsolidiert und weiterentwickelt.
Prüfwerkzeuge
Von Abstrakten Anforderungen zu messbaren Größen
Vertrauenswürdige KI-Systeme müssen in der Lage sein, ihre Entscheidungen nachvollziehbar darzulegen, robust gegenüber Angriffen und Störungen zu sein, den Datenschutz zu gewährleisten und faire Ergebnisse für alle Nutzergruppen zu liefern. Die Testplattform adressiert die Quantifizierung und den Nachweis dieser Anforderungen durch die Entwicklung und Integration spezialisierter Module für jede dieser Dimensionen.
Transparenz - Erklärbarkeit
KI-Systeme sollten nicht einfach nur Erklärungen für ihre Entscheidungen liefern - der Nutzen und Wahrheitsgehalt dieser Erklärungen muss auch nachweisbar sein. Das vXAI Framework strukturiert die Evaluation von Erklärbarkeitsmethoden, indem es Anforderungen an gute Erklärungen definiert und ein klares Kategorisierungsschema für Metriken bereitstellt. So können anwendbare Prüfmethoden für die Erklärbarkeit von KI schnell und automatisiert ausgewählt und Lücken in der Evaluierbarkeit von Erklärungen identifiziert werden. Zusätzlich wurde eine neue Metrik entwickelt, die mit höherer Effizienz komplementäre Perspektiven für die Evaluation der Wahrheitstreue von attributions-basierten Erklärungen ermöglicht.
Mehr Informationen hierzu finden Sie auf der Webseite des VXAI Frameworks und in der dazugehörigen Veröffentlichung.
Nicht-Diskriminierung - Fairness
Je breiter KI-Systeme in kritischen Entscheidungsprozessen eingesetzt werden, desto gravierender sind die Auswirkungen unfairer Verzerrungen: Systematische Diskriminierung skaliert mit der Technologie und kann zur strukturellen Benachteiligung ganzer Bevölkerungsgruppen führen. Kontinuierliche und systematische Fairness-Tests sind daher unverzichtbar, um sicherzustellen, dass KI-Entscheidungen gerecht bleiben und das Vertrauen in diese Systeme gerechtfertigt ist. Ein Konzept für eine Fairness-Testing-Pipeline stellt einen ersten Ansatz zur automatisierten Evalution der Fairness von KI-Systemen dar, unter vollständiger Berücksichtigung des Anwendungskontexts. So deckt die automatisierte Testung verschiedene Fairness-Definitionen ab und ermöglicht differenzierte Analysen von Quellen unfairer Verzerrung.
Verlässlichkeit - Robustheit
KI-Systeme müssen robust gegenüber Veränderungen in der Systemumgebung, den Daten und anderweitigen Störungen sein, um in sicherheitskritischen Anwendungen zuverlässig zu funktionieren. Eine prototypisch entwickelte Robustheits-Toolbox ermöglicht systematische Tests gegen gezielte Störangriffe, Datenperturbationen und Out-of-Distribution-Szenarien. So können Schwachstellen frühzeitig erkannt und behoben werden, bevor sie im realen Einsatz zu Problemen führen.
KI-spezifische Cybersicherheit - Privacy
Der Schutz personenbezogener Daten ist von entscheidender Bedeutung, insbesondere in Bereichen wie dem Gesundheitswesen, in denen besonders sensible Informationen verarbeitet werden. Eine prototypisch entwickelte Privacy-Toolbox stellt eine Sammlung von Tests zur Quantifizierung von Datenschutzrisiken wie Membership Inference und Model Inversion Attacks zur Verfügung. Dadurch wird sichergestellt, dass KI-Systeme den geltenden Datenschutzbestimmungen entsprechen und die Privatsphäre der Nutzer gewahrt bleibt.
MedGenAI
Synthetische Daten zur Unterstützung der Testraumabdeckung
Parallel zu den Prüfdimensionen wurden Methoden der generativen KI – insbesondere Bildsynthese – untersucht und weiterentwickelt, um das Testen verschiedener Aspekte der Vertrauenswürdigkeit bei schwieriger Datenabdeckung zu verbessern. Ein erstes Ergebnis ist der Prototyp einer Toolbox, die fehlende oder unterrepräsentierte Daten künstlich erzeugt, um das Testen von Aspekten der Fairness und Robustheit von KI-Systemen zu erleichtern.
Die Testplattform
Von der Modellbeschreibung zu automatisierten Tests
KI-Systeme sind komplex – das Konzept für eine Testplattform soll KI-Anwendungen daher in einzelne Komponenten und Schnittstellen zerlegen, die gezielt und systematisch getestet werden können. Sie besteht aus drei zentralen Bausteinen:
Application Card
Angelehnt an bestehende Methoden zur Dokumentation von KI-Systemen wie FactSheets beschreibt die Application Card KI-Systeme so, dass technische Schnittstellen transparent werden und gleichzeitig der Anwendungskontext präzise erfasst ist. Die technisch fundierte Evaluation vertrauenswürdiger KI hängt maßgeblich vom Nutzungskontext des Systems ab.
Test Registry
Die Ergebnisse der Application Card werden teilautomatisiert durch die Test Registry verarbeitet, um relevante und ausführbare Tests aus dem verfügbaren Portfolio zu identifizieren. Dabei dokumentiert die Test Registry nicht nur die Anwendbarkeit und Voraussetzungen der Tests, sondern stellt auch Interpretationshilfen für die Ergebnisse bereit.
Execution Engine
Die Execution Engine eliminiert manuelle Checklisten und vermeidet vergessene Testfälle. Sie übernimmt schlussendlich die Durchführung – effizient, reproduzierbar und dokumentiert.
Erprobung anhand realer medizinischer Anwendungsfälle
Um einen zeitnahen Einsatz vertrauenswürdiger KI-Systeme zu gewährleisten, wurden die entwickelten Methoden und Werkzeuge anhand realer medizinischer Anwendungsfälle erprobt. Diese wurden so ausgewählt, dass sie unterschiedliche Herausforderungen und Anforderungen an vertrauenswürdige KI repräsentieren. Neben den bereits im Vorfeld am DFKI entwickelten Systemen ExAID, SkinDoc und KITTU wurden drei weitere Use Cases aus den Bereichen Psychotherapie, Anästhesie und Resourcenoptimierung in enger Zusammenarbeit mit unseren Projektpartnern realisiert.
ExAID & SkinDoc - KI-gestützte Hautkrebserkennung
Mit ExAID und SkinDoc wurden zwei KI-Systeme zur Unterstützung der dermatologischen Diagnostik entwickelt, die hohe Anforderungen an Erklärbarkeit, Robustheit und Fairness erfüllen müssen, um in der klinischen Praxis eingesetzt werden zu können. ExAID analysiert dermatoskopische Bilder von Hautläsionen und liefert erklärbare Diagnosen für verschiedene Hautkrankheiten, während SkinDoc als mobile Anwendung für die Früherkennung von Hautkrebs durch Laien konzipiert ist.
KITTU - KI-unterstützte Therapiebegleitung in der urologischen Onkologie
Das KITTU System unterstützt urologische Onkologen durch Therapieempfehlungen für Urothel-, Nieren- und Prostatakrebs. Es verwendet klinische Informationen, um präzise Vorhersagen zu treffen und zeichnet sich insbesondere dadurch aus, dass es externe Informationen zur Entscheidungserklärung heranziehen kann.
PsyRAI - Psychological Rater AI für automatisiertes Feedback in der Ausbildung von Psychotherapeut:innen
In Zusammenarbeit mit dem Fachbereich der Psychologie der Universität Trier hat das DFKI ein multiagentenbasiertes KI-System mit transparenter inter-agenten Kommunikation zur automatisierten Unterstützung von Evaluationsverfahren in der Ausbildung angehender Therapeut:innen erarbeitet. Das System ist dabei in der Lage, anhand der Audioaufnahmen aus Videosequenzen von Therapiesituationen automatische Auswertungen von sprachlichen Therapeutenreaktionen zu generieren.
XAIrway - Intelligente Komplikationsvorhersage im OP
Intubtationen führen in wenigen Fällen zu Komplikationen. Diese können dann aber tödlich enden. Zusammen mit dem Universitätsklinikum des Saarlandes (UKS) wurde ein KI-basiertes System entwickelt, welches auf Basis von Endoskopievideos vor der Operation Intubationsrisiken vorhersagt. Das System erzielte in der internen Validierung eine Genauigkeit von >90%. Außerdem wurden Mechanismen zur konzeptbasierten Erklärbarkeit implementiert, um bisher unbekannte Risikofaktoren zu identifizieren.
DRK RESPOND - Lösung zur Ressourcenschätzung und -simulation für betriebliche Anforderungen und Disposition
In Zusammenarbeit mit dem Deutschen Roten Kreuz (DRK) wurde untersucht, wie KI unterstützend eine intelligentere Planung im Rettungsdienst ermöglichen kann. Das konzipierte System nutzt räumlich-zeitliche Daten und den operativen Kontext, um vorherzusagen, wo und wann Rettungsdienste voraussichtlich benötigt werden. Es unterstützt auch die datengestützte Planung, indem es vorhersagt, wann die im Einsatz befindlichen Rettungswagen für den nächsten Einsatz bereit sein werden. Durch die Simulation von Einsatzszenarien unter realen Bedingungen ermöglicht RESPOND das einfache Vergleichen und Validieren verschiedener Szenarien.
Nächste Schritte auf dem Weg zu vertrauenswürdiger KI in der Medizin
Die Arbeit des DFKI an vertrauenswürdiger KI ist ein fortlaufendes Engagement. Die Beiträge im Rahmen der MISSION KI sind ein wichtiger Schritt auf diesem Weg, aber keineswegs das Ende. Wir planen, unsere Forschung und Entwicklung kontinuierlich voranzutreiben und die Plattformen weiter auszubauen. Kontaktieren Sie uns gerne für Pilotprojekte, technische Fragen oder Beiträge zur Weiterentwicklung.
IQZ Community Summit am 11.12.2025
Für tiefere Einblicke in unsere Arbeit und die Möglichkeit zum direkten Austausch laden wir Sie herzlich zu unserem IQZ Community Summit am 11. Dezember 2025 ein. Erfahren Sie mehr über die neuesten Entwicklungen, diskutieren Sie mit Expert:innen und werden Sie Teil unserer wachsenden Community. Weitere Informationen und die Anmeldung finden Sie auf unserer Webseite .