Dataset Search Engine
Verteilte Daten sichtbar und nutzbar machen
Die Dataset Search Engine ist eine Open-Source-Plattform, mit der Sie verteilte Datensätze auffindbar, bewertbar und interoperabel machen – ganz ohne Datenmigration. Das modulare System eignet sich für verschiedene Datenräume und Branchen und lässt sich gezielt an Ihre Anforderungen anpassen.
Seitenübersicht
Die Dataset Search Engine ermöglicht souveränen Datenaustausch
Die Dataset Search Engine schafft die technologische Grundlage, um Daten sichtbar, vergleichbar und anschlussfähig zu machen – unabhängig von Branche, Infrastruktur oder Systemlandschaft. Die modulare Softwarelösung besteht aus zwei zentralen Komponenten, die nahtlos zusammenarbeiten, um verteilte Daten sichtbar und nutzbar zu machen:
Der Extended Dataset Profile Service (EDPS)
Erstellt automatisiert standardisierte Datensatz-Steckbriefe mit umfassenden Qualitätsmetriken – direkt an der Quelle, ohne dass Originaldaten ihre Umgebung verlassen müssen. Das Verfahren folgt dem Compute-to-Data-Prinzip.
Die dezentrale Suchmaschine
Ermöglicht die präzise Suche nach Datensätzen über verschiedene Datenräume und -portale hinweg – auf Basis der EDPS-Profile. Die Daten bleiben dabei stets im Hoheitsbereich der Anbieter.
Die Funktionsweise im Überblick
Profilgenerierung:
Datenanbieter erstellen mit dem EDPS standardisierte Datensatzprofile – ohne die Daten selbst zu teilen.
Veröffentlichung:
Die Profile werden über die föderierte Infrastruktur öffentlich zugänglich gemacht.
Suche & Bewertung:
Nutzende durchsuchen verschiedene Datenräume und vergleichen Profile anhand einheitlicher Qualitätskriterien.
Zugriffsanfrage:
Nach Auswahl eines passenden Profils erfolgt eine formelle Anfrage beim jeweiligen Datenraum.
Beispiel für ein strukturiertes Datensatzprofil
Die strukturierten Qualitätsmerkmale ermöglichen es potenziellen Datennutzern, die Eignung von Datensätzen präzise zu bewerten, vollständig automatisiert und ohne Zugriff auf Originaldaten.
Strukturell
• Attribute & Datentypen (Prüfung der Datentypkonsistenz)
• Attributkonsistenz (Vollständigkeit von Werten in Zeilen und Spalten)
Analytisch
• Signifikante Varianz (Untersuchung auf unterschiedliche Verteilungen)
• Numerische Analyse
• Text-/Stringanalyse
Temporal
• Zeitattribute (zeitliche Abdeckung von/bis)
• Temporale Frequenz (Regelmäßigkeit der Datenpunkte und Lückenanalyse)
Zugriff & Datenschutz
• Open oder Closed Access
• Personenbezogene Daten mit Verlinkung zu Auftragsdatenvereinbarungen
Verarbeitungszustand
• Original Data (unveränderte Originaldaten)
• Processed Data (bereinigte/transformierte Daten mit Änderungsprotokoll)
• Refined Data (optimierte KI-Trainingsdatensätze)
• AI/ML Result Data (durch Algorithmen erzeugte Daten mit Referenzierung der Trainingsdaten)
Speziell
• Geolokalisation (Erkennung geografischer Informationen)
• EDP Quick-View (Zugriff auf zusammenfassende Data-Science-Informationen)
Metadaten automatisch und domänenspezifisch
Der EDPS erzeugt automatisch Metadaten – und lässt sich gezielt an Ihre Fachdomäne anpassen. Fachanwender:innen können eigene Analysemethoden integrieren, um relevante Qualitätsmerkmale sichtbar zu machen.
Allgemeine Datentypen
• Strukturierte Daten
• Dokumente (PDF, Word, Excel)
• Graph-Daten
• Videos & Bilder
• Audio-Daten
Domänenspezifische Formate
• Medizinische Bilddaten
• Geo-JSON
• Wissenschaftliche Formate
• IoT-Sensordaten
Die Dataset Search Engine im Einsatz
DASEEN (Beta) ist die erste Anwendung der Dataset Search Engine – eine föderierte Suchmaschine für Datensätze aus verschiedenen Datenräumen. Sie macht verteilte Datenquellen sicher, transparent und vergleichbar durchsuchbar. Aktuell stehen über 70.000 kuratierte Datensätze von 31 Anbietern aus öffentlichen und privaten Portalen zur Verfügung (Stand: September 2025; Ausbau laufend). DASEEN ist öffentlich und ohne Registrierung nutzbar.
Eingebundene Quellen sind u.a. GovData, die Mobilithek, die BASt, die Autobahn GmbH, Toll Collect und die Stadt Konstanz; zusätzlich ist Pontus-X integriert, was die Anbindung neuer Datenräume beschleunigt, die Interoperabilität sichert und das durchsuchbare Angebot erweitert.
Gemeinsam entwickelt mit Beebucket
Die Dataset Search Engine wurde in Zusammenarbeit mit der Beebucket GmbH entwickelt, einem deutschen Technologieunternehmen mit Schwerpunkt auf KI-Lösungen und Datendienste. beebucket bringt Erfahrung in der Entwicklung ressourcenschonender Anwendungen für Datenanalyse und Automatisierung ein und hat im Projekt die technische Umsetzung maßgeblich begleitet.
„Wir freuen uns, dass die Umsetzung des Projektes so gut gelungen ist – und das mit einer Technologie, die es in der Form bisher nicht gab. Spannend werden auch die nächsten Schritte, denn die entwickelte Lösung hat eine Relevanz für sämtliche Datendienste in der europäischen Union. Das Wissen über die Metadaten ist Voraussetzung für die Entwicklung nachhaltig digitaler Dienste und erlaubt überhaupt erst einen rechtssicheren Betrieb.“
Florian Mauer-Endler,
geschäftsführender Gesellschafter bei der beebucket GmbH
Für wen ist die Dataset Search Engine relevant?
Die Dataset Search Engine ist breit einsetzbar – er unterstützt datengetriebene Sektoren wie Industrie 4.0, Mobilität, Energie, Gesundheit, Lebensmittelwirtschaft, Smart Cities, maritime Wirtschaft, Finanzen, Kultur, Bauwesen und KI-gestützte Geschäftsmodelle.
In ganz Europa entstehen derzeit zahlreiche Datenräume und -portale, die sicheren und interoperablen Datenaustausch ermöglichen sollen. Die Dataset Search Engine lässt sich nahtlos in diese Strukturen integrieren – auch in moderne Plattformen wie die Mobilithek und andere Open-Data-Portale.
Überall dort, wo Daten vorhanden, aber schwer zugänglich sind, schafft die Dataset Search Engine Transparenz, Vertrauen und Anschlussfähigkeit – und macht Daten über Sektorgrenzen hinweg nutzbar.
Die Dataset Search Engine ist als Open-Source-Komponente unter MIT-Lizenz frei nutzbar und integrierbar. Damit steht er Datenraum-Betreibern, öffentlichen Institutionen, Unternehmen und der Forschung als nachhaltiges, weiterentwickelbares Werkzeug zur Verfügung - ohne Lizenzbarrieren oder proprietäre Abhängigkeiten.
Sie haben Fragen?
Sprechen Sie uns an!
Wir zeigen Ihnen, wie Sie mit der Dataset Search Engine Ihre Daten sichtbar, bewertbar und anschlussfähig machen können.
Projektpartner
Neuigkeiten
FAQ
Gibt es eine Lizenzgebühr?
Nein. Daseen ist Open Source (MIT-Lizenz). Es entstehen lediglich Betriebs-, Integrations- und ggf. Anpassungskosten.
Welche Daten werden sichtbar – und wie werden sie geschützt?
Es werden keine Originaldaten angezeigt, sondern automatisch erzeugte Steckbriefe und Metadaten. Der Zugriff auf Originaldaten erfolgt ausschließlich über den jeweiligen Datenraum/Anbieter. Der Extended Dataset Profile Service (EDPS) kann lokal betrieben werden („compute to data“), sodass sensible Inhalte Ihre Umgebung nicht verlassen. Steckbriefe enthalten zudem Herkunft, Verarbeitungszustände, Zeitstempel und Änderungsprotokolle – hilfreich für interne Audits und Compliance-Nachweise (keine Rechtsberatung).
Können die Datensatz-Steckbriefe gefiltert werden?
Ja. Die Suche unterstützt spezifische Filter, z. B. nach Zeitabdeckung, Geodaten oder weiteren erfassten Qualitätsmerkmalen.
Müssen Daten exportiert werden?
Nein, ein Export ist nicht zwingend erforderlich. Der EDPS kann direkt vor Ort beim Datenanbieter laufen („compute to data“) und die Steckbriefe dort erzeugen. Auch private Indizes und rein interne Nutzungen sind möglich.
Welche Datenformate und Qualitätsmetriken werden unterstützt?
Standardmäßig: strukturierte Daten, Dokumente (PDF/Word/Excel), Graphdaten, Bilder/Videos sowie Audio. Zusätzlich lassen sich domänenspezifische Formate integrieren, z. B. medizinische Bilddaten, GeoJSON, wissenschaftliche Spezialformate oder IoT-Sensordaten. Der EDPS ist modular aufgebaut – eigene Qualitätsmetriken können unkompliziert als Plugins ergänzt werden.
Wie oft werden Steckbriefe aktualisiert?
Die Aktualisierung von Steckbriefen liegt in der Verantwortung der jeweiligen Datenanbieter; Daseen unterstützt jedoch die Abfrage neuer oder geänderter Steckbriefe.
Ist das System skalierbar?
Das System ist skalierbar: mehrere Tausend Steckbriefe können verarbeitet werden, auch von mehreren EDPS-Instanzen gleichzeitig. Index- und Suchkomponenten lassen sich horizontal erweitern, EDPS-Jobs parallelisieren. Dubletten sind über Identifier und Heuristiken eindeutig identifizierbar.
Werden personenbezogene Daten geteilt?
Nein, nur Metadaten/Metriken. Falls vorhanden, wird dies im Steckbrief angezeigt.
Wie schützt „Compute-to-Data“ die angebotenen Daten?
Analysen laufen lokal; nur abgeleitete Qualitätskennzahlen verlassen die Umgebung.
Unterstützt die DSE Compliance-Anforderungen (z. B. Audit)?
Ja. Steckbriefe enthalten Herkunft, Verarbeitungszustände, Zeitstempel, Änderungsprotokolle.
Was brauche ich als Datenanbieter für den Einstieg?
Mindestens eine Umgebung, in der der EDPS gegen Ihre Datenquellen laufen kann (z. B. als Container-Deployment). Empfehlenswert ist ein Zielkatalog, um Steckbriefe zu veröffentlichen. Für ein Pilot-Setup werden typischerweise 1–2 Datenquellen mit dem EDPS verbunden und relevante Metriken für die Qualitätsmessung definiert. Der EDPS wird von Ihnen an der Quelle betrieben; Indizes und Suche können zentral (ökosystemweit) oder dezentral (föderiert) organisiert werden.
Wie erfolgt die Integration in bestehende Systeme?
Über standardisierte Schnittstellen und Adapter. DSE stellt APIs (HTTP-basiert) für den Import und die Veröffentlichung von Steckbriefen sowie für Suche, Filterung und Verwaltung bereit. Weitere Protokolle können über Adapter ergänzt werden.
Unterstützt Daseen EU-Rahmenwerke (z. B. Data/AI Act)?
Ja. Daseen stellt Transparenz, Nachvollziehbarkeit, Qualitätsnachweise und Datenherkunft strukturiert bereit. Damit erleichtert es die Dokumentation im Rahmen von Data Act oder AI Act, ersetzt jedoch keine eigenständige Compliance-Prüfung.
Wie bleibt das interoperabel zwischen Datenräumen und Katalogen?
Daseen nutzt einheitliche Steckbrief-Strukturen, offene Schnittstellen und Adapter, um Silos zu überbrücken. Bestehende Metadatenkataloge können ergänzt oder synchronisiert werden und so „qualitätsfähig“ werden.
Worin unterscheidet sich DSE von klassischen ETL-/Data-Lake-Projekten?
Daseen migriert keine Daten. Stattdessen macht es verteilte Daten über einheitliche Steckbriefe sichtbar und vergleichbar. Vorhandene ETL-Prozesse oder Datenhaltungslösungen bleiben unberührt.
Ist Daseen ein Datenmarktplatz?
Nein. Daseen ermöglicht die Suche und Bewertung von Datensätzen anhand standardisierter Steckbriefe. Transaktionen und Verträge erfolgen weiterhin ausschließlich über den jeweiligen Datenraum oder Anbieter.
Wer unterstützt bei Einführung & Weiterentwicklung?
Einführung und Betrieb: das Daseen-Team bei acatech sowie Umsetzungspartner (inkl. Unterstützung bei technischer Skalierung und Schnittstellen-Erweiterung). Weiterentwicklung: Beiträge über GitHub (Pull Requests, Issues, Plugins, Adapter) sind ausdrücklich erwünscht; Roadmap-Vorschläge willkommen.