FAIR Data Publisher
Standardisierter Datenaustausch
mit FAIR Digital Objects
Der FAIR Data Publisher war eines der zentralen Entwicklungsprojekte der Säule 1 „Verbesserung der Datenbasis für KI“ im Rahmen von MISSION KI – Nationale Initiative für Künstliche Intelligenz und Datenökonomie.
Sein Ziel: eine offene, interoperable und rechtskonforme Lösung zu schaffen, mit der Daten über Sektoren- und Ländergrenzen hinweg auffindbar, teilbar und wiederverwendbar werden.
In Zusammenarbeit mit 18 Partnern unter Leitung der Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen (GWDG) entstand eine modulare Servicearchitektur auf Basis der FAIR Digital Objects (FDOs). Sie verbindet technische, rechtliche und ökonomische Perspektiven zu einem ganzheitlichen Ansatz für den Datenaustausch in föderierten Datenräumen.
Der Abschlussbericht dokumentiert zwei Jahre Entwicklungsarbeit und Validierung in verschiedenen Anwendungskontexten – von digitaler Medizin über industrielle Fertigung bis hin zu Robotik und Quantencomputing.
Er zeigt, wie FDOs den Zugang zu bislang ungenutzten Datenbeständen (Dark Data) erleichtern, Interoperabilität und Nachvollziehbarkeit erhöhen und die Einhaltung regulatorischer Vorgaben wie DSGVO, EU Data Act und Data Governance Act unterstützen.
Damit leistet der FAIR Data Publisher einen zentralen Beitrag zur Entwicklung einer souveränen europäischen Datenökonomie – als offenes, praxisnahes Werkzeug für Forschung, Wirtschaft und Verwaltung.
Seitenübersicht
Die Herausforderung
Dateninseln in einer vernetzten Welt
81%
der Unternehmen teilen keine Daten unternehmensübergreifend – ein enormes ungenutztes Potenzial
(IW-Trends, 2024)
76%
der deutschen Unternehmen sehen Datensilos als Haupthindernis für Datenaustausch
(XSphere Industriestudie, 2023)
über 100
konkurrierende Metadatenstandards verhindern effektive Datenintegration
(data.europa.eu (2017), The size and trends of the EU data economy)
FAIR Digital Objects
Standardisierte Container für nahtlosen Datenaustausch
FDOs gehen über einfache Metadaten hinaus, indem sie sich durch dauerhafte Identifikatoren, reichhaltige Metadaten und maschinenlesbare Strukturen auszeichnen. Durch diese Integration entstehen sichere, automatisierbar verarbeitbare digitale Objekte, die eine FAIR-konforme Datennutzung ermöglichen: Sie machen Daten auffindbar, zugänglich, interoperabel und wiederverwendbar.
Im Folgenden die Struktur eines FAIR Digital Objects (Beispiel eines FDO-Records gemäß Konfigurationstyp 141), das als standardisierter Container für den Datenaustausch dient.
Daten
Verknüpft mit den eigentlichen Daten-Bitsequenzen – kann sowohl direkte Inhalte als auch Referenzen auf externe Speicherorte enthalten – und stellt die eigentliche Nutzlast des digitalen Objekts dar.
Metadaten
Bündelt quellspezifische Beschreibungsdaten – dokumentiert Inhalt, Herkunft und Kontext des digitalen Objekts – und macht Daten dadurch auffindbar, interpretierbar und wissenschaftlich nachvollziehbar. FDO Metadaten können domänenspezifische Standards wie DataCite, Dublin Core oder DCAT integrieren und unterstützen so die semantische Interoperabilität zwischen Fachbereichen. Die strukturierte, maschinenlesbare Form ermöglicht automatisierte Suchvorgänge und intelligente Datendienste, während die Unterstützung verschiedener Metadatenformate die Einbindung in bestehende Datenökosysteme erleichtert.
Typ
Spezifiziert die möglichen Operationen auf das Objekt – wie "delete_fdo" oder andere Funktionen – wodurch die maschinelle Verarbeitung und Automatisierung von Abläufen ermöglicht wird.
Persistente Identifikatoren (PIDs)
Eindeutige, dauerhafte Kennungen – ähnlich ISBN-Nummern bei Büchern – machen Daten global auffindbar und referenzierbar, unabhängig vom Speicherort. Beispiel: 21.T11967/1a7708f65582256a4538
Profil
Definiert die erlaubten Attribute in einem FDO-Datensatz – ähnlich einem Schema oder Datenmodell – und stellt sicher, dass FDOs derselben Familie strukturell konsistent und interoperabel bleiben.
Rechte
Enthält strukturierte Verweise auf Rechte-Spezifikationen – regelt Zugriffs- und Nutzungsbedingungen sowie Lizenzinformationen – und bildet damit die rechtliche Grundlage für die zulässige Datennutzung. Diese maschinenlesbaren Rechteangaben unterstützen die automatisierte Einhaltung regulatorischer Vorgaben und ermöglichen differenzierte Zugriffskontrolle auf Datenebene.
Status
Dokumentiert den aktuellen Zustand des Objekts – etwa "deleted" oder andere Statusinformationen – und unterstützt damit Versionierungskonzepte, Archivierungsstrategien und Lebenszyklus-Management.
Der FAIR Data Publisher
Mit dem FAIR Data Publisher setzen wir das FDO-Konzept in eine anwenderfreundliche Softwarelösung um. Unser Java-basiertes, MIT-lizenziertes Software-Bundle ermöglicht es Nutzenden, FAIR Digital Objects unkompliziert aus unterschiedlichen Quellen zu generieren, zu veröffentlichen und abzurufen.
Das Software-Bundle umfasst folgende Komponenten:
Manager Service:
Eine intuitive Web-Oberfläche, mit der FAIR Digital Objects komfortabel verwaltet und überwacht werden können.
EDC-/AAS-Adapter:
Automatische Erstellung und Abruf von FDOs aus souveränen Datenräumen sowie Asset Administration Shell (AAS)-Repositories – ideal, um komplexe Datenlandschaften zu verbinden und heterogene Standards zu integrieren.
Resolver Service:
Direkter Zugriff auf FAIR Digital Objects über deren persistente Identifikatoren (PIDs). Das gewährleistet langfristige Auffindbarkeit und stabile Nutzung der Datenobjekte.
Distributed FDO Registry:
Ein verteiltes Registrierungsnetzwerk (z.B. Handle.net), das dafür sorgt, dass FAIR Digital Objects global auffindbar, zugänglich und dauerhaft nutzbar bleiben.
Weitere Informationen sind hier aufbereitet: https://fdo-one.org/
Anwendungsfall
Predictive Maintenance mit FDOs
Um die praktischen Vorteile des FAIR Data Publishers zu veranschaulichen, betrachten wir ein konkretes Beispiel aus dem Bereich Predictive Maintenance.
Das fiktive Startup easyFix entwickelt KI-basierte Lösungen für vorausschauende Wartung. Eine zentrale Herausforderung: Ohne qualitativ hochwertige Trainingsdaten zu Motor- und Batteriebelastungen kann das KI-Modell keine zuverlässigen Vorhersagen treffen. Der FAIR Data Publisher ermöglicht hier einen optimierten Datenfluss:
FDO-Anfrage:
easyFix sendet eine Anfrage nach FDOs aus dem EDC-Angebot an den Manager Service
PID-Auflösung:
Der Manager Service löst die Persistenten Identifikatoren (PIDs) auf und erhält die Handle-Records
Metadaten-Austausch:
Es erfolgt ein Austausch von Metadaten zwischen den beteiligten Systemen
Datenabruf:
Die eigentlichen Datensätze werden angefordert und bereitgestellt
ML-Nutzung:
easyFix kann die Daten direkt für das Machine Learning verwenden
Wer profitiert von dieser Lösung?
Der FAIR Data Publisher adressiert die Bedürfnisse verschiedener datenorientierter Nutzer:
Datenraumoperatoren:
Einfach zu implementierende, skalierbare Software
Erhöhte Sichtbarkeit der Datenangebote
Datenraumnutzende:
Erleichterter Datenzugriff
Standardisierte Austauschmethoden
KMUs und Großunternehmen:
Zugang zu einer breiten Palette von Daten über Organisationsgrenzen hinweg
KI-Forscher und Data Scientists:
Zugang zu hochwertig dokumentierten, vorverarbeiteten und maschinenlesbaren Daten
Politische Entscheidungsträger:
Umsetzung interoperabler Datenbeschreibung
Sicherer, rechtskonformer Austauschmethoden
"Durch die Verwendung von FDOs können neue Potenziale in einem global integrierten Datenraum erschlossen werden – beispielsweise durch den automatisierten Austausch von Forschungsdaten, plattformübergreifende Produktionsoptimierung oder die nahtlose Bereitstellung von Trainingsdaten für KI-Anwendungen."
Dr. Sven Bingert
Projektmanager bei der GWDG - Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen
FDO's im Vergleich
Klare Vorteile gegenüber alternativen Datenstandards
Roadmap
Die nächsten Schritte
Aufbauend auf unserem erfolgreichen Proof of Concept planen wir, die Benutzerfreundlichkeit und Funktionalität unserer Produkte weiter zu verbessern:
Erweiterte Skalierbarkeit
Ausbau des Handle.net-Netzwerks zu einem weit verbreiteten FDO-Register mit erweiterter Suchfunktionalität
Automatisierung
Entwicklung eines Softwaretools, das automatisch FDOs aus unstrukturierten Daten generiert
Autonome FDOs
Prototyp autonomer FDOs, die Selbstverwaltung und Interaktion zwischen FDOs ermöglichen
Nutzer-Feedback
Tests unserer Produkte mit ausgewählten Datenräumen, um wertvolles Feedback zu sammeln
Werden Sie Teil des Ökosystems
Die Zeit für isolierte Datensilos ist vorbei. Werden Sie Teil der wachsenden FDO-Community. Testen Sie unsere Software, treten Sie dem FDO Forum bei und engagieren Sie sich in Arbeitsgruppen:
FAQ
1. Was ist der FAIR Data Publisher?
Eine Open-Source-Software (MIT-Lizenz), die standardisierte Datenübergaben über System- und Organisationsgrenzen ermöglicht. Basis bilden FAIR Digital Objects (FDOs) – selbstbeschreibende Container für Daten und Metadaten.
Die Software beseitigt technische Schulden durch heterogene Schnittstellen. Sie etabliert klare Übergabepunkte, ohne dass Organisationen ihre Systeme komplett migrieren müssen.
2. Was sind FAIR Digital Objects (FDOs)?
FDOs sind standardisierte Container für Daten und Metadaten. Jedes FDO vereint mehrere Komponenten zu einem selbstbeschreibenden, maschinenlesbaren Objekt:
Die eigentlichen Daten oder Referenzen darauf
Strukturierte Metadaten zur Beschreibung
Persistente Identifikatoren (PIDs) für dauerhafte Auffindbarkeit
Domänenspezifische Profile für fachliche Anforderungen
Rechteverwaltung für Nutzungsbedingungen
Status-Informationen für Versionierung und Provenienz
Diese Struktur macht FDOs automatisiert verarbeitbar und setzt die FAIR-Prinzipien praktisch um: Findable (auffindbar), Accessible (zugänglich), Interoperable (interoperabel), Reusable (wiederverwendbar).
3. Welches Kernproblem lösen FDOs?
Datensilos und heterogene Metadaten erschweren den Austausch und die Wiederverwendung von Daten. Echte Wertschöpfung aus Datenbeständen bleibt ungenutzt, solange sie nicht über Grenzen hinweg kombinierbar sind.
FDOs schaffen einheitliche Container, die Interoperabilität zwischen verschiedenen Datenquellen und Datenräumen ermöglichen – ohne Re-Platforming und neue Punkt-zu-Punkt-Schnittstellen.
Der Nutzen: Standardisierte Übergaben ermöglichen es, Daten aus verschiedenen Domänen, Organisationen und Systemen gemeinsam zu nutzen. Dies steigert den wissenschaftlichen Erkenntnisgewinn, beschleunigt wirtschaftliche Innovation und erhöht den gesellschaftlichen Nutzen von Datenbeständen.
4. Wie funktioniert der FAIR Data Publisher?
Der Publisher erzeugt und veröffentlicht FDOs in mehreren Schritten:
Anbindung: Verschiedene Datenquellen werden über Adapter an das System angebunden.
Anreicherung: Metadaten und domänenspezifische Profile werden automatisch angewendet, um die Daten zu beschreiben.
Registrierung: Die erzeugten FDOs werden registriert und über persistente Identifikatoren (PIDs) dauerhaft auffindbar gemacht.
Abruf: Verbraucher können die Informationen über PIDs auffinden und abrufen.
Kernprinzip: Der Publisher standardisiert Beschreibungen und Referenzen. Die eigentliche Datenübertragung läuft über angebundene Systeme.
5. Welche Komponenten gehören zum Software-Bundle?
Das System besteht aus Core-Komponenten und Microservices.
Core-Komponenten:
FDO Manager Service: Orchestriert alle Komponenten und bindet Datenquellen an
EDC- und AAS-Adapter: Integrieren das System in Datenräume und Industrie-Assets
Resolver Service: Löst PIDs auf
Distributed FDO Registry: Ermöglicht verteilte Registrierung und Auffindbarkeit
DOIP Server: Implementiert das Digital Object Interface Protocol für FDO-Operationen
Microservices erweitern das System um intelligente Datenverarbeitung:
Structure Extractor: Nutzt Large Language Models zur Extraktion strukturierter Daten aus unstrukturierten Dokumenten
Schema Generator: Bewertet und wählt automatisch passende FDO-Profile für Dokumente aus
Parser Microservice: Konvertiert verschiedene Dateiformate zu strukturierten Textformaten
Microservices SDK: Java-Library zur Integration der Services in den FDO Manager
6. Welche Rolle spielen PIDs (Persistente Identifikatoren)?
PIDs (beispielsweise Handle-Records) machen Objekte dauerhaft referenzierbar.
Das Pointer-Prinzip: Inhalte können sich ändern oder verschoben werden. Der PID bleibt stabil und verweist immer auf die aktuelle, gültige Beschreibung des Objekts.
Nutzen: Teams finden Daten langfristig, ohne bei Infrastrukturänderungen manuell nachzubessern.
7. Wie integriert sich der FAIR Data Publisher in bestehende Architekturen, welche Schnittstellen gibt es?
Die Anbindung erfolgt über spezialisierte Adapter:
EDC-Adapter: Integriert Eclipse Data Connector in Datenräumen
AAS-Adapter: Verbindet Asset Administration Shell in Industrie 4.0-Umgebungen
Der Publisher ist damit anschlussfähig an bestehende Architekturen und Kataloge.
Schnittstellen:
REST APIs: FDO-Verwaltung
DOIP (Digital Object Interface Protocol): FDO-Operationen
EDC-Schnittstellen: Integration von Datenräumen
AAS-Schnittstellen: Verbindung zu Industrie 4.0-Systemen
FDOs ergänzen bestehende Kataloge und Datenpipelines, statt sie zu ersetzen.
8. Bewegt der FAIR Data Publisher Daten oder nur Beschreibungen?
Beides ist möglich. Das Kernprinzip ist jedoch die Standardisierung von Beschreibungen, Rechten und Referenzen durch FDOs.
Die eigentliche Datenübertragung erfolgt über die angeschlossenen Systeme und Connectoren. Es geht nicht um eine generelle Datenmigration. Das Ziel sind standardisierte Übergaben.
9. Wie unterstützt der FAIR Data Publisher EU-Regulierung (Data Act / DGA)?
Der Publisher erstellt standardisierte Metadaten. Klare Rechte- und Policy-Referenzen werden definiert. Datenportabilität wird gewährleistet. Datentransfers werden dokumentiert.
Sichere Weitergabe über Organisationsgrenzen entspricht dem Data Governance Act.
Hinweis: Diese Informationen ersetzen keine Rechtsberatung.
10. Wie werden Rechte, Versionierung und Provenienz abgebildet?
Das FDO-Feld "Rechte" führt Nutzungsbedingungen und Policy-Verweise. Die Durchsetzung erfolgt in der Regel im angebundenen System wie Datenraum oder IAM. Der FDO trägt die maschinenlesbare Referenz.
Der Publisher unterstützt Versionierung über Status-Felder, Zeitstempel und Herkunftsangaben (Provenienz). Eine detaillierte Versionierungsstrategie kann projektspezifisch definiert werden. Diese wird in den Metadaten geführt.
11. Wie handhabt der FAIR Data Publisher unterschiedliche Metadatenstandards?
Die Lösung nutzt Profile für Metadiversität. Domänenspezifische Schemata und Constraints können als Profil referenziert werden. Branchenspezifische Felder lassen sich einheitlich abbilden und validieren.
Die Implementation unterstützt verschiedene Profile für unterschiedliche Use Cases.
12. Wie unterscheidet sich der FAIR Data Publisher von ETL und Data Lakes?
Das Ziel ist nicht die großflächige Migration in ein zentrales System. Interoperable Übergaben über standardisierte FDO-Container stehen im Vordergrund.
Bestehende ETL-Prozesse und Data Lakes bleiben nutzbar. FDOs ergänzen diese Systeme, ohne sie zu ersetzen.
13. Welche Betriebs- und Skalierungsmodelle unterstützt die Software?
Betriebsmodelle:
On-Premises: Installation in eigener Infrastruktur
Cloud-Deployment: In Cloud-Umgebungen wie AWS oder Azure
Hybrid-Betrieb: Kombiniert lokale und Cloud-Komponenten
Container-basierte Deployments: Nutzen Docker oder Kubernetes
Skalierbarkeit: Die Distributed FDO Registry ermöglicht verteilte Registrierung. Registrierung und Datenbereitstellung sind getrennt. Horizontale Skalierung ist möglich für mehr FDOs, mehr Quellen und mehr Verbraucher. Die Microservice-Architektur ermöglicht flexible Skalierung einzelner Komponenten.
14. Wie sieht ein typischer Ablauf aus (Beispiel Predictive Maintenance)?
Eine Anfrage wird mit PID gestellt. Die PID-Auflösung erfolgt über Handle-Records. Metadaten werden ausgetauscht. Datenabruf erfolgt über angebundene Systeme. ML-Verarbeitung der Daten findet statt.
Der FDO macht dabei Quelle, Rechte und Referenzen transparent.
Konkretes Beispiel: Ein KI-Unternehmen entwickelt Lösungen für vorausschauende Wartung und benötigt Trainingsdaten zu Motorbelastungen. Der FAIR Data Publisher ermöglicht den standardisierten Zugriff mit transparenter Provenienz und klaren Nutzungsrechten.
15. Welche Akteure profitieren – und wie?
Datenraum-Operatoren: Erhalten sichtbare Angebote und Skalierbarkeit
Unternehmen und KMUs: Bekommen einheitlichen Datenzugriff
Datenraumnutzende: Erhalten standardisierte Übergaben
KI-Forschung und Data Science: Bekommen hochwertig dokumentierte, maschinenlesbare Daten
Verwaltung und Forschung: Erhalten interoperable Beschreibungen und rechtskonforme Übergaben
FDOs vereinen Identifier, Metadaten, Rechte und Status in einem maschinenlesbaren Objekt. Sie sind automatisierbar und portabel. Das geht über reine Katalogbeschreibungen hinaus. FDOs ermöglichen aktive, selbstbeschreibende Datenobjekte.
16. Welche Sicherheits- und Datenschutzaspekte werden berücksichtigt?
Datenminimierung wird umgesetzt, da FDOs nur notwendige Angaben und Referenzen führen. Klare Rechteverweise definieren explizite Nutzungsbedingungen. Provenienz macht Datenherkunft nachvollziehbar. Audit-Logs führen Status und Logs für Compliance-Prüfungen. Zugriffskontrolle verbleibt in angeschlossenen Systemen.
17. Was steht auf der Roadmap?
Erweiterte Skalierbarkeit durch Handle.net und FDO-Register Integration ist geplant. Tools zur FDO-Generierung aus unstrukturierten Daten werden automatisiert. Autonome FDOs mit Selbstverwaltung und Interaktion werden entwickelt. Kontinuierliche Verbesserung durch Feedback aus Datenräumen wird umgesetzt.
Projektpartner