Dem Datenschatz auf der Spur

Die Menge an wissenschaftlichen Daten wächst täglich enorm. Diese Daten sind sehr groß und heterogen, was ihre Auf­find­bar­keit, ihr Management und ihre Aus­wertung erschwert. Mit dem Projekt Big-Data-Plattform gibt das Deutsche Zentrum für Luft- und Raum­fahrt (DLR) eine kraft­volle Antwort auf diese Heraus­forderungen.

Zwei Menschen sehen auf ihre Handys
© DLR/Steffen Walther

Schon die Zahlen sind beeindruckend: 21 Institute des DLR aus den Forschungs­bereichen Raum­fahrt, Luft­fahrt, Verkehr, Energie und Sicher­heit bündeln ihre Kompetenzen im Projekt Big-Data-Plattform. Es läuft über vier Jahre und hat ein Finanz­volumen von über 21 Millionen Euro. Zum Projekt­start im Juli kamen rund 50 Expertinnen und Experten aus den teil­nehmenden Instituten in der DLR-Forschungs­ein­richtung :envihab in Köln zusammen. Sie werden in fach­über­greifenden Teams Methoden entwickeln, um große Daten­sätze und -mengen zu analysieren. Die Forschungs­ergebnisse könnten unter anderem in der Erd­beobachtung oder im Verkehrs­management eingesetzt werden.

„Viele wissenschaftliche Teams arbeiten heut­zutage bereits mit enormen Daten­mengen und erkennen zunehmend, dass man die Daten entsprechend auf­bereiten muss, um sie effizient verwert­bar zu machen”, erklärt Dr. Marcus Paradies, Gruppen­leiter Daten­management im 2017 gegründeten Institut für Daten­wissen­schaften in Jena, das an der Big-Data-Plattform mit­arbeitet. Zu seinem Team gehören Informatikerinnen und Informatiker, die ein breites Domänen­wissen mitbringen, zum Beispiel zur Erd­beobachtung. Das ist für die Daten­organisation unerlässlich. „Die zentrale Frage ist für uns schließlich, was für Daten wir vor uns haben und wie sie genutzt werden sollen”, erklärt der 31-jährige Informatiker. Seine Arbeits­gruppe entwickelt Verarbeitungs­strategien für große, heterogene, mehr­dimensionale Daten­bestände in verteilten IT-Infra­strukturen. Dabei gehen die Wissen­schaftler von realen Anwendungs­fällen aus der Verwaltung und Lang­zeit­archivierung von Fern­erkundungs­daten aus.

DLR Logo

Schwachstellen in Klima­modellen aufdecken

Beim Auftaktworkshop zur Big-Data-Plattform haben neben Marcus Paradies auch seine Instituts­kollegen Dr. Friederike Klan und Dr. Jakob Runge erste Projekt­ideen diskutiert. Jakob Runge leitet die Gruppe Klima­informatik des Instituts, mit der er große Daten­mengen für ein besseres Verständnis von Klima­mechanismen auswertet. Methodische Schwer­punkte sind dabei Deep Learning und das Aufdecken von Kausal­beziehungen. „Es gibt statistische Korrelationen zwischen unter­schiedlichen Klima­phänomenen”, erklärt der promovierte Physiker. „Wir analysieren mit Data Science Algorithmen, ob diese Phänomene nur auf eine gemeinsame Ursache zurück­gehen, oder ob es tatsächlich Kausal­beziehungen zwischen ihnen gibt.” Jakob Runge versteht sich als Brücken­bauer. Er bringt zwei Welten zusammen, die bisher nicht zusammen­gehörten: Maschinelles Lernen und Klima­forschung.

Alle Modelle zur künftigen Entwicklung von Klima­systemen, etwa zur Ermittlung des Temperatur­anstiegs durch Treib­haus­gase oder zur Erklärung von Extrem­wetter­ereignissen, simulieren physikalische Gleichungen. Sie kommen aber zu unter­schiedlichen Vorher­sagen, weil sie Unsicher­heiten haben. Die möchte Jakob Runge verkleinern. Er wertet Satelliten­daten und die Erhebungen von lokalen Mess­stationen aus, um zu filtern, welche Modelle genauere Vorhersagen liefern.

Alles, außer Routine

Im Big Data Projekt geht es auch darum, neue Forschungs­felder zu erschließen und Synergien zu nutzen. Das Institut für Daten­wissen­schaften kann hier wert­vollen Input liefern: Es baut auf eine ausgeprägte interne Vernetzung mit anderen DLR-Instituten auf und kooperiert eng mit regionalen Forschungs- und Industrie­partnern. Zu den wissen­schaftlichen Partnern gehören unter anderem das Deutsche Fern­erkundungs­daten­zentrum in Oberpfaffenhofen, die Technische Universität Ilmenau und die Friedrich-Schiller-Universität Jena. Neben der Erd­beobachtung, die derzeit im Fokus steht, kommen auch Bürger­wissen­schaften als Anwendungs­feld für neue Methoden der Daten­erhebung und -analyse in Frage. Dabei liefern interessierte Bürgerinnen und Bürger unter anderem ergänzende Daten für wissen­schaftliche Projekte. „Sie könnten in ihrem lokalen Umfeld etwa Daten zur Boden­feuchte oder zum Zustand der Vegetation erheben, mit denen satelliten­gestützte Erd­beobachtungs­daten kalibriert werden können”, erklärt Friederike Klan, die auf dem Gebiet der Bürger­wissen­schaften forscht und die gleich­namige Arbeits­gruppe im Institut für Daten­wissen­schaften leitet. Sie entwickeln auch Methoden zur Extraktion von Informationen aus frei zugänglichen Daten, die ursprünglich über­haupt nicht für die Wissen­schaft bestimmt waren – beispiels­weise aus sozialen Medien. Das Team steht daher vor der Aufgabe, Daten völlig unter­schiedlicher Herkunft zusammen­zuführen, auf­find­bar und nutz­bar zu machen. Neben Techniken des maschinellen Lernens, welche sie bei Daten aus sozialen Medien einsetzen, entwickeln sie auch semantische Daten­beschreibungen. Im Kern geht es darum, die inhaltliche Bedeutung der Daten computer­verständlich zu machen. Auf dieser Basis können beispiels­weise von Forschern und Bürgern erhobene Beobachtungs­daten durch­such­bar gemacht werden.

Zwei Menschen diskutieren
© DLR/Steffen Walther

Wie ihre Institutskollegen entwickelt die promovierte Informatikerin Software­lösungen für grund­sätzliche Probleme, die auf andere Anwendungs­bereiche über­trag­bar sind. Für die kommenden Jahre und die Arbeit an der Big-Data-Plattform haben die drei sich viel vor­genommen: Sie wollen das DLR als hervor­ragende Adresse für Informatik und Daten­wissen­schaften inter­national etablieren und durch exzellente wissen­schaftliche Qualität hoch­spezialisierte Kolleginnen und Kollegen gewinnen. Dafür ist freilich viel Auf­bau­arbeit zu leisten, aber das hat durch­aus seinen Reiz. Das Institut ist noch kein Jahr alt, eingefahrene Routinen gibt es nicht. Dr. Robert Axmann, Luft- und Raum­fahrt­ingenieur und Gründungs­direktor des DLR-Instituts für Daten­wissen­schaften, merkt an: „Wer bei uns einsteigt, sollte eine gesunde Portion Pionier­geist und Idealismus mit­bringen, darf umgekehrt aber auch großen kreativen Spiel­raum und spannende Anwendungs­bereiche erwarten.”

Sie finden das Institut für Datenwissenschaften hier: www.dlr.de/dw
Alle Informationen und Einstiegsmöglichkeiten im DLR unter www.dlr.de/dlr/jobs

X

Sie verwenden einen sehr alten Browser.

Um diese Website in vollem Umfang nutzen zu können, installieren Sie bitte einen aktuellen Browser.
Aktuelle Browser finden Sie hier