Ayshah Chan

Methodik der Fernerkundung

Wissensdestillation aus großen Verwaltungsdaten (KnowDisBAD)

Die datengesteuerte Modellierung durch Deep-Learning-Techniken hat sich in den letzten Jahren in verschiedenen Forschungsbereichen als äußerst erfolgreich erwiesen. Zum Trainieren solcher Modelle benötigen wir jedoch große Mengen an hochwertigen Datenannotationen. In der Regel sind solche Daten sehr knapp und teuer, was die Übertragung von Konzepten des maschinellen Lernens auf Anwendungsbereiche, die davon profitieren wollen, einschränkt.

Andererseits gibt es riesige Bestände an Informationen, die von Verwaltungs- und Regierungsstellen erfasst werden, um öffentliche Dienstleistungen und Prozesse zu ermöglichen. Es kann davon ausgegangen werden, dass solche Verwaltungs- oder Regierungsdaten nach hochwertigen Standards und zeitnah erfasst werden. Sie sind in der Regel in tabellarischer Form organisiert, was einer automatisierten Verarbeitung förderlich ist. Dennoch halten sich die Verwaltungsstellen in der Regel nicht an vereinbarte Protokolle, so dass diese fragmentierten Datenbestände nur schwer miteinander in Einklang zu bringen sind.

Das Projekt EuroCrops am Lehrstuhl für Methodik der Fernerkundung versucht am Beispiel der Selbsterklärungen von Landwirten im Zusammenhang mit der Zuteilung von Agrarsubventionen, solche Datenquellen zu harmonisieren und ihr Potenzial aufzuzeigen. Dieser Versuch hat gezeigt, dass manuelle Harmonisierungsverfahren ein erhebliches Fachwissen und viele Iterationen zur Verbesserung erfordern. Solche Kompetenzen und Ressourcen sind oft nicht verfügbar, insbesondere nicht in formalisierter Form. Daher werden automatisierte Methoden für den Datenabgleich und die Harmonisierung benötigt, und die jüngsten Entwicklungen aus der Forschungsgemeinschaft des maschinellen Lernens, insbesondere im Bereich der Verarbeitung natürlicher Sprache (NLP), können für diesen Zweck hilfreich sein. Neuere große Sprachmodelle (LLMs), wie die Reihe der Generative Pre-trained Transformer (GPT)-Modelle und davon abgeleitete Anwendungen wie ChatGPT, extrahieren erfolgreich Informationen aus riesigen und vielfältigen Datenquellen und fassen sie thematisch zusammen.

Gleichzeitig sind solche Systeme mit Problemen konfrontiert, da sie aufgrund der ungleichmäßigen und verzerrten Verteilung der Trainingsdaten und der schieren Komplexität der trainierten Modelle Gefahr laufen, ein falsches oder irreführendes Informationsverständnis zu liefern und dabei übermäßig selbstbewusst aufzutreten. Daher müssen solche Datenaggregations- und -verarbeitungssysteme Fairness- und Datenschutzstandards erfüllen, während die Erklärbarkeit und Transparenz der trainierten Modelle gewährleistet sein muss.

Mein Projekt zielt darauf ab, die oben genannten Herausforderungen anzugehen und Antworten auf die folgenden Forschungsfragen zu finden:

  1. Kann der langwierige Prozess der Datenharmonisierung automatisiert werden, und wie verhält sich dies im Vergleich zu manuell erstellten Harmonisierungsschemata, z. B. der hierarchischen Taxonomie für Pflanzen und Landwirtschaft (HCAT) von EuroCrops?
  2. Können relevante Informationen in harmonisierten Datensätzen oder direkt aus den Rohdatenquellen identifiziert werden?
  3. Können diese Prozesse im Laufe der Zeit angepasst werden, wenn neue Datenquellen berücksichtigt werden?
  4. Wie können die Belange des Datenschutzes und der Fairness während des gesamten Arbeitsablaufs berücksichtigt werden?