Ein Puzzle mit mehr als 1000 Teilen:
Wie Forschungsdaten zum Gesamtbild werden
York Sure-Vetter, NFDI im Gespräch mit Milena Milivojevic, IM+io
(Titelbild: © Adobe Stock | 890472119 | killykoon )
Kurz und Bündig
Die Nationale Forschungsdateninfrastruktur (NFDI) vernetzt mehr als 320 Mit-gliedseinrichtungen aus Wissenschaft und Forschung in Deutschland, darunter Universitäten, Helmholtz-Zentren und die Fraunhofer-Gesellschaft. In 26 fachlichen Konsortien und sechs Sektionen werden Metadatenstandards, Wissensgraphen und digitale Dienste entwickelt, um Forschungsdaten besser auffindbar, zugänglich und wiederverwendbar zu machen. Ein zentrales Ziel ist die Interoperabilität über Fachgrenzen hinweg – von Chemie bis Kulturwissenschaften.
Ein paar Klicks reichen heute oft aus, um Antworten zu bekommen, Informationen zu finden oder Entscheidungen zu treffen. Diese digitale Selbstverständlichkeit prägt auch die Erwartungen an Wissenschaft und Forschung. Aber dort sind Daten nicht einfach nur schnell verfügbar; sie müssen sicher erhoben, sauber beschrieben und verantwortungsvoll nutzbar gemacht werden. Gerade wenn persönliche Informationen, KI und unterschiedliche Fachdisziplinen zusammenkommen, wird aus Bequemlichkeit schnell eine komplexe Aufgabe. Wie gelingt es, daraus ein System zu schaffen, das Forschung wirklich voranbringt?
IM+io: Stellen Sie sich und Ihre Arbeit in der Nationalen Forschungsdateninfrastruktur (NFDI) bitte kurz vor.
YSV: Mein Name ist York Sure-Vetter. Ich bin Professor am Karlsruher Institut für Technologie und Direktor der Nationalen Forschungsdateninfrastruktur. In dieser Rolle koordiniere ich die Aktivitäten beim Aufbau der NFDI, insbesondere die inhaltliche Gestaltung, damit das Forschungsdatenmanagement in Deutschland vorangebracht wird. Gemeinsam mit der kaufmännischen Leitung des NFDI-Vereins bilde ich den Vorstand. Zusammen mit dem Team der Geschäftsstelle koordinieren wir die fünf Organe des Vereins, darunter die Mitgliederversammlung, den Wissenschaftlichen Senat und die Konsortialversammlung. Insgesamt gibt es 26 fachlich und methodisch ausgerichtete Konsortien als Vereinsabteilungen. Ein Beispiel ist NFDI4Chem für Chemie. Sechs weitere Abteilungen, sogenannte Sektionen, arbeiten zu Querschnittsthemen, beispielsweise die Sektion (Meta)daten, Terminologien, Provenienz. Dort werden Metadatenschemata für Forschungsdaten erarbeitet. Metadaten beschreiben den Inhalt von Daten und sorgen dafür, dass diese gemäß den FAIR-Prinzipien besser auffindbar, zugänglich, interoperabel und wiederverwendbar werden.
IM+io: Wie funktioniert die Zusammenarbeit zwischen den verschiedenen Bereichen der NFDI in der Praxis?
YSV: Die Abteilungen sind in der sogenannten Konsortialversammlung organisiert. Dort kommen die Sprecher:innen der jeweiligen Konsortien zusammen, also gewählte Sprechpersonen aus jedem Bereich. Wichtig ist vor allem, die Zusammenarbeit zwischen den Fächern zu organisieren. Wenn beispielsweise in der Chemie Metadaten standardisiert werden, passiert Ähnliches auch in der Biologie. Da es zwischen beiden Bereichen viele Überschneidungen gibt, ist der Austausch besonders wichtig. Wenn sich beide gegenseitig abstimmen, können Forschungsdaten auch über Fachgrenzen hinweg besser interoperabel genutzt werden. Genau das ist das Ziel: Wissenschaftsbereiche von den Sozial- und Geisteswissenschaften bis zu den Naturwissenschaften stärker zu vernetzen. Es geht darum, Synergien zu erkennen, Prozesse zu vereinfachen, Standards gemeinsam weiterzuentwickeln und Lösungen aus einem Bereich auf andere zu übertragen. In der Konsortialversammlung wird dieser Austausch organisiert, damit alle gemeinsam schneller vorankommen.
IM+io: Gibt es ein konkretes Beispiel dafür, wie diese Zusammenarbeit fachübergreifend aussieht?
YSV: Ein gutes Beispiel ist ein Use Case, der beim EOSC-Symposium vorgestellt wurde. Dabei ging es um den sogenannten Galaxy-Server, eine wissenschaftliche Infrastruktur für Datenanalyse-Pipelines. Forschungsdaten werden dort in vielen aufeinanderfolgenden Schritten analysiert, ähnlich wie in einem technischen Workflow. Galaxy stammt ursprünglich aus den Lebenswissenschaften und wurde mit der Biomedizin entwickelt, wird heute aber weltweit von zehntausenden Nutzer:innen verwendet. Für diesen Use Case wurde geprüft, welche anderen Fachbereiche ähnliche Workflows nutzen, aber mit ganz anderen Forschungsdaten arbeiten. Identifiziert wurden unter anderem Astronomie und Biologie. Entscheidend war, dass die Daten interoperabel waren und den FAIR-Prinzipien entsprachen. So konnten dieselben Analyseverfahren auf unterschiedliche Forschungsdaten angewendet werden. Technisch war das ein eher kleiner Schritt. Der größere Teil war, die verschiedenen Communities zusammenzubringen. Sie mussten sich darauf verständigen, wie sie ihre Daten beschreiben. Diese Sprache wurde angeglichen, die technische Interoperabilität hergestellt, und dadurch konnte derselbe Workflow fachübergreifend genutzt werden.
IM+io: Wie läuft Standardisierung in der Praxis ab, wenn es darum geht, sich auf gemeinsame Metadaten zu einigen?
YSV: Wichtig ist zunächst die Unterscheidung zwischen Daten und Metadaten. Die NFDI beschäftigt sich vor allem mit der Standardisierung von Metadaten. Diese beschreiben den Inhalt von Daten auf einem abstrakteren Niveau. Für solche Metadatenschemata gibt es bereits viele Ansätze – noch nicht genug und nicht immer die richtigen, aber eine wichtige Grundlage ist vorhanden. Manchmal entstehen Standards relativ schnell, etwa durch Bottom-up-Ansätze, wenn gemeinsam modelliert und anschließend ein Standardisierungsprozess angestoßen wird. Solche Verfahren dauern dann oft ein bis zwei Jahre oder länger, weil viele Akteur:innen beteiligt sind, etwa bei DIN oder dem World Wide Web Consortium. Ziel ist es, einerseits übergreifende Standards zu schaffen, die für alle gelten, und andererseits domänenspezifische Standards für einzelne Fachbereiche wie Chemie, Biologie oder Kulturwissenschaften. Diese werden häufig in sogenannten Wissensgraphen abgebildet. Es geht also nicht um einen einzigen Standard für alles, sondern darum, sinnvolle Ebenen miteinander zu verbinden.
IM+io: Wie breit ist die NFDI aufgestellt, und wie gelingt es, so viele unterschiedliche Einrichtungen und Disziplinen einzubinden?
YSV: Das Netzwerk besteht aus mehr als 320 organisationalen Mitgliedseinrichtungen in Deutschland. Dazu gehören große Partner wie Helmholtz-Zentren, die Fraunhofer-Gesellschaft, viele Leibniz-Institute, die Max-Planck-Gesellschaft sowie zahlreiche Universitäten. Damit bildet die NFDI die deutsche Wissenschaftslandschaft sehr breit ab. In den Abteilungen organisieren sich diese Einrichtungen in Konsortien oder Sektionen. Dort engagieren sich über 1500 Personen. Ein Konsortium besteht meist aus 15 bis 80 Partnern. Ein großes Beispiel ist NFDI4Culture für die Kulturwissenschaften. Dort wurden viele unterschiedliche Disziplinen aus Kunst und Kultur zusammengebracht. Neben Universitäten sind auch Fachgesellschaften, Archive und weitere Einrichtungen beteiligt. Rund 80 Organisationen arbeiten dort gemeinsam daran, Wissensgraphen zu modellieren, zu formalisieren und zu standardisieren. Zusätzlich werden Dienste aufgebaut, mit denen Forschungsdaten gefunden, analysiert, archiviert und langfristig verfügbar gemacht werden können.
IM+io: Wie ist der Umgang mit Datenmanagementplänen, Datenschutz und dem Zugang zu sensiblen Daten im Forschungsalltag?
YSV: Ein wichtiger Punkt ist die Zusammenarbeit mit der Deutschen Forschungsgemeinschaft. Wenn in einem Forschungsprojekt Daten erhoben werden, werden inzwischen Datenmanagementpläne verlangt. Darin wird früh beschrieben, wie Forschungsdaten erhoben, verfügbar gemacht und langfristig archiviert werden sollen. Das schafft ein Bewusstsein dafür, was mit den Daten passiert, und sorgt dafür, dass mit öffentlichen Geldern finanzierte Daten der Wissenschaft wieder zur Verfügung stehen – häufig als Open Data. Es gibt jedoch Ausnahmen, etwa in den Sozial- und Geisteswissenschaften oder in der Medizin, wo oft personenbezogene Daten erhoben werden. Diese unterliegen der DSGVO und können nicht einfach frei veröffentlicht werden. Hier braucht es besondere Zugangswege, Anonymisierung, Pseudonymisierung und sichere Verfahren. Dafür gibt es beispielsweise Safe Data Center mit geregeltem Zugang. Die NFDI arbeitet mit Partnern zusammen, die genau diese sichere Nutzung sensibler Daten für die Forschung ermöglichen.
IM+io: Wo liegt der Unterschied zwischen Open Data und geschützten Forschungsdaten, und warum ist diese Abgrenzung so wichtig?
YSV: Der entscheidende Unterschied liegt nicht nur in der Zugänglichkeit, sondern vor allem in der Verantwortung im Umgang mit den Daten. Open Data bedeutet, dass Forschungsdaten offen bereitgestellt und von anderen weiter genutzt werden können. Bei geschützten Forschungsdaten funktioniert das bewusst anders: Hier muss genau geregelt sein, wer Zugriff bekommt, zu welchem Zweck und unter welchen Bedingungen. Gerade bei personenbezogenen Informationen reicht Offenheit allein nicht aus, weil wissenschaftlicher Nutzen und Datenschutz gleichzeitig gewährleistet werden müssen. Beispielsweise werden beim Safe Data Center sensible Daten nicht einfach frei veröffentlicht, sondern Forschende erhalten nur unter klar geregelten Bedingungen Zugang. So kann mit medizinischen oder sozialwissenschaftlichen Daten gearbeitet werden, ohne dass persönliche Informationen in unberechtigte Hände geraten.
Ein wichtiges Thema ist in diesem Zusammenhang auch das geplante Forschungsdatengesetz, das den Zugang zu Forschungsdaten verbessern soll. Die NFDI bringt hier ihre Expertise ein, damit eine gute Balance zwischen Datenschutz und den berechtigten Interessen der Forschung entsteht. Die DSGVO ist wichtig und personenbezogene Daten müssen geschützt werden, gleichzeitig braucht Forschung in manchen Fällen Zugang zu sensiblen Daten, um neue Erkenntnisse zu gewinnen. Das zeigt sich besonders bei seltenen Krankheiten, bei denen viele kleine Fallzahlen zusammengeführt werden müssen, um Forschung überhaupt möglich zu machen und Erkrankten zu helfen. Dafür müssen Betroffene identifiziert und mit ihrer Einwilligung einbezogen werden. Es geht also nicht um ein Entweder-oder, sondern darum, Forschung zu ermöglichen und gleichzeitig Vertrauen zu schützen.
IM+io: Wie wird mit den schnellen Entwicklungen rund um Künstliche Intelligenz und sich verändernde Rahmenbedingungen umgegangen?
YSV: Das Entwickeln und Umsetzen von Metadatenstandards ist nie abgeschlossen, sondern ein kontinuierlicher Prozess. Durch KI beschleunigt sich diese Entwicklung zusätzlich. Es gibt bereits erste vollständig KI-gesteuerte Workflows, etwa in der Klimaforschung. Künftig wird es stärker darum gehen, diese Systeme zu verstehen, transparent zu gestalten und auch zu prüfen, ob die Ergebnisse verlässlich sind. Ein funktionierendes Forschungsdatenmanagement und qualitativ hochwertige Metadaten sind dabei ein wesentlicher Erfolgsfaktor für KI-gestützte Forschung.
Gleichzeitig verändern sich auch die Anforderungen an wissenschaftliche Infrastrukturen. Daten müssen nicht nur technisch interoperabel, sondern auch maschinenlesbar, dokumentiert und nachvollziehbar sein, damit KI-Systeme sinnvoll damit arbeiten können. Deshalb gewinnen Standards, Datenqualität und Governance weiter an Bedeutung. Entscheidend wird sein, technologische Innovation mit wissenschaftlicher Nachvollziehbarkeit und Vertrauen zu verbinden.
IM+io: Welche Bedeutung hat Künstliche Intelligenz konkret für das Forschungsdatenmanagement der NFDI?
YSV: Künstliche Intelligenz spielt inzwischen in fast jeder Fachabteilung eine Rolle. Besonders intensiv beschäftigen sich damit NFDI4DataScience und NFDIxCS (Computer Science). Dort geht es darum, wie Künstliche Intelligenz das Forschungsdatenmanagement verbessern kann, zum Beispiel durch die automatische Annotation von Forschungsdaten mit Metadaten oder durch die stärkere Automatisierung von Prozessen. Gleichzeitig ist auch die andere Richtung wichtig: Wie kann Forschungsdatenmanagement dazu beitragen, Daten besser für Künstliche Intelligenz bereitzustellen? Für das Training großer Sprachmodelle braucht es große Datenmengen und vor allem hohe Datenqualität. Genau hier liegt eine zentrale Aufgabe der NFDI. Es geht darum, Daten in hoher Qualität bereitzustellen – nicht nur Texte, sondern auch Bild-, Audio- und weitere Datenformate. Damit wird die NFDI zu einem wichtigen Enabler für Künstliche-Intelligenz-Verfahren.
IM+io: Warum sind Metadaten und Wissensgraphen für Datenqualität und für das Zusammenspiel von Menschen und Maschinen so zentral?
YSV: Ein wichtiger Aspekt von Datenqualität ist, dass zu jedem Datensatz ein passender Metadatensatz vorhanden ist. Nur so wird klar, was eigentlich in den Daten steckt. In vielen Datenbanken gibt es oft kryptische Spaltennamen, die nur die entwickelnde Person versteht. Metadaten nutzen dagegen verständliche Bezeichnungen, die auch für andere Menschen nachvollziehbar sind. Deshalb spricht man hier oft von Wissensgraphen. Sie beschreiben Beziehungen so, dass sowohl Menschen als auch Maschinen sie verstehen können – zum Beispiel, dass eine Person bei einer Organisation arbeitet. Genau hier entstehen die wichtigen Schnittstellen: Menschen können die Daten besser verstehen, und auch Verfahren der Künstlichen Intelligenz können damit arbeiten. Das ist die Grundlage für das gemeinsame Arbeiten von Menschen und Maschinen und damit ein zentraler Bestandteil der NFDI.
IM+io: Besteht bei so viel Standardisierung und Zusammenführung von Daten auch die Gefahr, dass bestimmte Perspektiven oder Fachbereiche übersehen werden – also Blind Spots entstehen?
YSV: Mit Sicherheit werden wir solche Blind Spots entdecken, deshalb ist es wichtig, dass wir uns eine gewisse Agilität bewahren. Wir arbeiten bereits mit einer großen fachlichen Breite, aber längst noch nicht mit allen Wissenschaftsbereichen. Eine unserer Aufgaben ist es, im kontinuierlichen Dialog mit der Wissenschaft genau diese Lücken zu erkennen und zu prüfen, wo weitere Bereiche integriert werden können. Manche Fachrichtungen haben bereits Anträge gestellt, sind aber heute noch nicht vertreten, weil sie sich noch nicht durchsetzen konnten oder noch nicht so weit waren. Solche Bereiche kann man durchaus als Blind Spots bezeichnen. Gleichzeitig ist die Integration innerhalb Deutschlands und auf europäischer Ebene bereits eine sehr große Aufgabe. Deshalb geht es Schritt für Schritt darum, bestehende Strukturen weiter auszubauen und neue Partner einzubinden, sobald dafür auch die passenden Fördermöglichkeiten vorhanden sind.
IM+io: Wo liegen aktuell die größten Hürden – auch mit Blick auf Bequemlichkeit, Datenerhebung und die nächsten Entwicklungsschritte?
YSV: Mit Blick auf den Preis der Bequemlichkeit zeigt sich eine wichtige Herausforderung: Viele Menschen sind einfache Such-Apps und Chatbots gewohnt und geben dafür oft persönliche Daten preis. Diese Einfachheit erwarten sie auch in der Forschung. Dort ist das jedoch deutlich schwieriger, weil Forschung weder dieselben finanziellen Mittel noch ein Geschäftsmodell hat, das auf Datennutzung basiert. Gerade in Bereichen wie der Medizin braucht es Aufklärung, Einwilligung und oft persönliche Beratung, bevor Daten genutzt werden können. Das macht die Datenerhebung deutlich aufwendiger. Gleichzeitig steht die NFDI nach den ersten fünf Jahren Aufbauphase vor der Aufgabe, aus vielen einzelnen Lösungen ein großes Ganzes zu machen – aus diesem Puzzle soll ein vollständiges Bild entstehen. Die Dienste und Standards der verschiedenen Fachbereiche sollen besser zusammenpassen und interoperabel werden. Dafür müssen die einzelnen Puzzleteile zusammengesetzt, Standards weiterentwickelt und übergreifende Lösungen geschaffen werden. Eben auch mögliche Blind Spots spielen dabei eine Rolle, deshalb bleibt Agilität ein wichtiger Faktor.
IM+io: Welche Bedeutung hat Interdisziplinarität für die Zukunft der NFDI und der Forschung insgesamt?
YSV: Interdisziplinarität ist der Schlüssel zur Zukunft. Die NFDI ist von Anfang an interdisziplinär aufgestellt. Zunächst ging es darum, in den Fachabteilungen Wissenschaft und Wissenschaftsinfrastruktur zusammenzubringen, später dann auch 26 verschiedene Wissenschaftsbereiche miteinander zu vernetzen. Die Aufgabe des Vereins ist es, interdisziplinäres Forschen kontinuierlich zu verbessern. Gerade große Herausforderungen wie die globale Erderwärmung, gesellschaftliche Krisen oder medizinische Fragen lassen sich nur mit interdisziplinären Ansätzen bewältigen. Die NFDI leistet dazu einen wichtigen Beitrag, indem hochqualitative Forschungsdaten für verschiedene Forschungsbereiche interoperabel bereitgestellt werden. Dabei wird auch deutlich, dass Fachwissen und Infrastrukturwissen nicht getrennt gedacht werden können – genau in dieser Verbindung liegt die eigentliche Stärke des Ansatzes.