Prof. Dr. Birgitta König-Ries (l.) und Felicitas Löffler.

Der Schatz im Datensee

Wissenschaftliches Arbeiten produziert eine Fülle von Daten. Um diese auch für künftige Forschungsfragen nutzbar zu halten, richten Forschende einen »Data Lake« ein.
Prof. Dr. Birgitta König-Ries (l.) und Felicitas Löffler.
Foto: Jens Meyer (Universität Jena)

Ob im neu startenden Wasser-Innovationscluster »ThWIC« oder in bereits erfolgreich etablierten Forschungsverbünden – wissenschaftliches Arbeiten produziert eine Fülle von Daten. Messwerte, Texte, Bilder, digitalisierte historische Artefakte oder Computersimulationen werden gesammelt, dokumentiert und gespeichert. Doch was passiert mit den Informationen, wenn das jeweilige Forschungsvorhaben beendet ist und die Ergebnisse publiziert wurden? Um einmal erhobene Daten auch für künftige Forschungsfragen nutzbar zu halten, richten Forschende einen »Data Lake« ein.

Text: Ute Schönfelder


Der »Data Lake« – der Datensee – ist eine Cloudinfrastruktur, die im Universitätsrechenzentrum in einem Teilprojekt des Wasserclusters mit dem Titel »ThWICData« aufgebaut wird. Neben dem Rechenzentrum sind das »Kompetenzzentrum Digitale Forschung« der Uni Jena sowie ein externer Wirtschaftspartner beteiligt. Ziel ist es, Daten und Informationen aus sämtlichen der 22 Projekte des »ThWIC« zentral zu bündeln, zu speichern, zu bearbeiten und für die langfristige Nutzung zu archivieren. Die Universität Jena übernimmt dabei die Rolle des Cloud-Providers. In automatisierten »Pipelines« sollen die Daten von jedem Einzelprojekt des Clusters – von gestreamten Sensordaten aus Abwasserleitungen über Informationen aus soziologischen Interviews bis zu Bild-, Ton- und Textdaten – in den Datensee »fließen«. »Dafür wird eine zentrale Zugangsstruktur geschaffen, über die zunächst die beteiligten Projektpartner Zugang haben. Langfristig wollen wir aber auch Daten für die Öffentlichkeit zugänglich machen«, sagt Felicitas Löffler vom Institut für Informatik, die den Bereich Datenwissenschaft im Wassercluster koordiniert hat.

Doch welchen Vorteil hat es, eine riesige Cloud aufzubauen und Daten zentral zu bündeln, statt sie dezentral an den Orten zu speichern, wo sie erhoben werden? »Der liegt vor allem in der nachhaltigen Sicherung von Forschungsdaten«, erläutert Prof. Dr. Birgitta König-Ries. Die Inhaberin der Heinz-Nixdorf-Professur für verteilte Informationssysteme verweist darauf, dass eine nachhaltige Datenverfügbarkeit seit einigen Jahren immer stärker ins Bewusstsein gekommen ist – nicht nur in der Forschung. So hat die Bundesregierung 2014 den Rat für Informationsinfrastrukturen eingerichtet und 2020 die Initiative Nationale Forschungsdateninfrastruktur gestartet, an der König-Ries in einem Projekt zum Management von Daten aus der Biodiversitätsforschung beteiligt ist. »Um die Forschungsdaten nachhaltig, disziplinen- und länderübergreifend nutzbar zu machen, werden sie nach den sogenannten FAIR-Prinzipien gespeichert«, so König-Ries. FAIR steht für Findable, Accessible, Interoperable und Reusable.

Offene Formate und präzise Metadaten

Nachhaltiges Forschungsdatenmanagement umfasst deutlich mehr als langfristige Speicherung. Daten über Jahre aufzubewahren, gehörte bereits länger zu den Regeln guter wissenschaftlicher Praxis. »Oft bedeutete das allerdings, dass Daten einfach irgendwo abgelegt und nicht für andere nutzbar waren, weil sie weder gefunden noch verstanden wurden«, so König-Ries. Entscheidend sei es daher, die Daten möglichst präzise zu beschreiben. Solche Metadaten enthalten Zusatzinformationen, die es auch Personen ermöglichen, die die Daten nicht selbst erhoben haben, diese zuordnen und verstehen zu können: etwa Angaben darüber, mit welchen Methoden und mit welcher wissenschaftlichen Fragestellung sie erfasst wurden. »Ebenso wichtig ist es, dass die Metadaten in offenen Formaten abgelegt 
werden, die universell verständlich sind.«

Im Wassercluster arbeiten Birgitta König-Ries und Felicitas Löffler im Projekt »ThWICSonar«: Darin geht es darum, Textdokumente automatisch zu erfassen und zu verschlagworten. »Wir wollen ein Informationssystem aufbauen, mit dem Dokumente automatisch überwacht, thematisch klassifiziert und beschrieben werden.« Dafür arbeiten sie mit Künstlicher Intelligenz. »Zunächst müssen wir Dokumente manuell verschlagworten, um im Anschluss Algorithmen trainieren zu können. Das entstehende Sprachmodell ermöglicht anschließend eine automatische Verschlagwortung.« Diese aufbereiteten Dokumente werden dann verschiedenen Benutzergruppen im Cluster proaktiv empfohlen.

Bei ihrer Arbeit für »ThWIC« bauen die Forschenden auf bereits bestehende Erfahrungen auf. So wird in der Initiative Nationale Forschungsdateninfrastruktur seit 2020 an der Uni Jena und der Technischen Informationsbibliothek in Hannover ein »electronic lab notebook« (ELN) für das Forschungsdatenmanagement in der Chemie entwickelt. Der Projektkoordinator Prof. Dr. Christoph Steinbeck ist ebenfalls im Wassercluster aktiv. »Das ELN ist eine elektronische Variante des klassischen Laborbuchs, bietet darüber hinaus aber hinsichtlich der nachhaltigen Datennutzung viele Vorteile«, betont Felicitas Löffler. Werden die Daten etwa mit anderen Forschenden geteilt und in einer Cloud abgelegt, sind sie weltweit verfügbar und können mit anderen Quellen verknüpft werden. »Dadurch wird es möglich, sie auch standortübergreifend zu nutzen und größere Zusammenhänge festzustellen und zu verstehen.