Bessere Vernetzung des Datenökosystems: MISSION KI entwickelt neuartige Datensatz-Suchmaschine
Künstliche Intelligenz benötigt für effektives Training und präzise Vorhersagen vor allem qualitativ hochwertige Daten. Obwohl täglich enorme Datenmengen entstehen, liegt nur ein Teil davon in verwertbarer, kuratierter Form vor. Eine zentrale Herausforderung besteht darin, dass bisher keine Suchfunktion existiert, die über verschiedene Datenräume und -portale hinweg gezielt nach Datensätzen suchen kann. Zudem liegen Daten häufig ohne Qualitätsbeschreibungen, sogenannte Datensteckbriefe, vor.
MISSION KI adressiert diese Themen und entwickelt mit der sogenannten Landing Page eine neuartige Suchmaschine, die eine übergreifende Suche von Datensätzen in öffentlichen und privaten Datenportalen und -räumen ermöglicht und dabei zugleich die Datenqualität analysiert. Ein erster Demonstrator der Landing Page wird heute im Rahmen der Konferenz „Datenmärkte 2024“ des Bundesministeriums für Digitales und Verkehr (BMDV) in Berlin vorgestellt und ist unter folgendem Link zu finden: Daseen - Large Dataset Search Engine
Darüber hinaus entwickelt MISSION KI mit den Start-ups beebucket, nexyo, eXXcellent solutions und deltaDAO einen dezentralen Service zur automatischen Katalogisierung der Datenqualität. Dieser “Extended Dataset Profile Service“ (EDPS) basiert auf einer Open-Source Software-Lösung und ist zentral verfügbar. Datenanbieter erhalten mit dem neuen Service die Möglichkeit, ihre Daten aus unterschiedlichen Quellen automatisch zu katalogisieren, zu kuratieren und anhand standardisierter Meta-Informationen auffindbar und bewertbar zu machen. Die Qualität der Daten wird dabei durch industrierelevante Standards transparent gemessen. Sind die Daten auf diese Weise katalogisiert und mit entsprechenden Datensteckbriefen versehen, können Datennutzer diese manuell oder maschinell über Datenräume und Datenportale hinweg anhand der standardisierten Meta-Informationen finden – ohne Zugriff auf die Daten selbst. Die Datennutzer können somit gezielt die benötigten und geeigneten Daten auswählen.
Manfred Rauhmeier, Vorsitzender der acatech Stiftung und Sekretär des acatech Koordinationskomitees:
„Die neue Landing Page in Kombination mit den Datensatz-Steckbriefen ist ein bedeutender Schritt, um den Zugang zu verschiedenen Datenräumen zu verbessern und valide Daten für das Training von KI-Modellen noch effektiver zu nutzen. Sie schafft das nötige Vertrauen für sicheres Datenteilen zwischen Organisationen und ermöglicht so einen echten Datenmarkt. Mit dieser erweiterten Datenbasis eröffnen sich deutschen und europäischen Unternehmen neue innovative Geschäftsmodelle."
Florian Mauer-Endler, geschäftsführender Gesellschafter beebucket:
„Vertrauenswürdige KI benötigt qualitativ hochwertige und passgenaue Daten. Mit der Entwicklung der beiden Dienste schaffen wir eine effiziente Basis für ein föderales und rechtssicheres Datenökosystem, das sich nahtlos in die bestehende Datenportal- und Datenraumlandschaft integriert und diese ergänzt. Gleichzeitig vereinfachen wir die Prozesse der Kuratierung, Katalogisierung und Freigabe von Daten für den Datenanbieter sowie die Suche und Beschaffung passgenauer Daten für den Datennutzer.“
Von den Software-Lösungen werden datenanbietende und datennutzende Unternehmen gleichermaßen profitieren ebenso wie Betreiber von Datenräumen, Datenportalen und sonstigen Datenökosystemen. Datenanbieter können durch die Datensatz-Steckbriefe eine bessere Auffindbarkeit ihrer Daten gewährleisten und hierdurch Kunden gewinnen. Datennutzer haben den Vorteil, dass sie datenraumübergreifend gezielt nach Datensätzen suchen können, um diese für das Training von KI-Modellen zu verwenden. Betreiber von Datenräumen und Datenportalen schließlich profitieren von einer höheren Sichtbarkeit und mehr Reichweite, da neue Kundengruppen angesprochen und auf ihre Plattformen geleitet werden.