ScienceWednesday: Adaptive Information Preparation from Heterogenous Sources (AIPHES)
Informationen sind der Schlüssel zu allem: Prof. Dr. Mieskes erläutert den Stand der Forschung zur automatisierten Aufbereitung von unstrukturierten Daten.
Ein Beitrag von Christoph Rüppel
Freitag, 30. Oktober 2015
Mediencampus der Hochschule Darmstadt
Bei der Vortragsreihe ScienceWednesday berichten WissenschaftlerInnen über Forschungsideen oder den aktuellen Stand von Forschungsprojekten. Den ersten Lunchtalk des Wintersemesters 2015/16 widmete Prof. Dr. Margot Mieskes dem Forschungs- und Qualifizierungsprogramm für Doktoranden und Doktorandinnen AIPHES. Das Akronym steht für “Adaptive Information Preparation from Heterogenous Sources”.
Unumstritten ist, dass Informationen der Schlüssel zu allem sind. Der Bedarf nach ihnen wird immer größer. Und gleichzeitig wächst die Menge der vorhandenen Daten: Wissenschaftliche Fachartikel, Blogbeiträge, Inhalte von Sozialen Netzwerken … Es ist schwierig, einen Überblick über die schier unvorstellbare Masse der heterogenen Daten zu behalten. Der größte Aufwand ist deshalb nach wie vor, Zugang zu gewünschten Informationen zu finden. AIPHES hat sich aus diesem Grund Folgendes zum Ziel gesetzt: aus verschiedenen heterogenen Quellen eine Zusammenfassung der Informationen in Textform zu extrahieren. Um das zu erreichen, bedarf es der effektiven und automatisierten Aufbereitung von unstrukturierten Daten.
Damit in der Informationsflut die passenden Daten ausfindig gemacht werden können, muss zwischen den Tonalitäten der Quellen differenziert werden: Ein Wikipedia-Eintrag gibt reine Fakten wieder, während ein Zeitungsbericht zum gleichen Thema eher Wert auf die Hintergrundstory legt. Daraus resultierend werden die Quellen in Genres unterteilt. Als zweiter Faktor kommt der Benutzer ins Spiel: Ein Lehrer möchte Fakten auf einem anderen Niveau wiedergegeben haben als beispielsweise die Schüler, die er unterrichtet.
Dementsprechend können Fakten nicht eins zu eins vermittelt, sondern müssen an die Zielgruppe und das Ausgabemedium angepasst beziehungsweise adaptiert werden. Die Forscher und Forscherinnen arbeiten eng mit Personengruppen zusammen, die potenziell mit adaptiven Methoden arbeiten – wie zum Beispiel Onlinejournalisten. Diese recherchieren und schreiben unter hohem Zeitdruck und profitieren von automatisch aufbereiteten Informationen zu einem bestimmten Thema.
Insbesondere zielt die AIPHES darauf ab, den Forschungsadressaten deutschsprachige Ergebnisse zu liefern, da das Forschungsfeld momentan eher im englischen Sprachraum dominiert. Generell gestaltet sich die automatische Zusammenfassung von Informationen sehr schwierig. Es gibt keinerlei Definitionen, wie eine gute Zusammenfassung aussehen sollte. Eine Evaluation der gelieferten Ergebnisse durch den Nutzer ist unumgänglich.
Gleiche Informationen, die in verschiedenen Quellen auftauchen, werden zu Clustern zusammengefasst und anschließend die verlässlichsten Quellen ausgewählt. Dabei wird stets auf die Neutralität und Objektivität der Informationen geachtet. Die gewonnen Satzfetzen werden in neue Sätze gefasst, woraus eine finale Zusammenfassung entsteht. Diese Arbeit muss jedoch momentan noch manuell getätigt werden. Innerhalb der nächsten Jahre möchte die Forschungsgruppe AIPHES möglichst viel der manuellen Arbeit abschaffen und mithilfe bestimmter Methoden automatisch erledigen lassen. Ein Werkzeug wird entwickelt, das in der Zusammenfassung unterstützt und den Rückgriff auf den Ursprungstext zulässt. Dadurch kann in Zukunft auch korrektes wissenschaftliches Arbeiten gewährleistet werden.
Die maschinelle Zusammenfassung unterstützt die Journalisten und Journalistinnen dabei, Texte schneller zu verfassen. Die ausgegebenen Texte sind allerdings lediglich als erste Vorschläge zu sehen. Diese sind sicherlich schon einmal gut, werden aber nicht endgültig in der Zeitung abgedruckt. Sie müssen eher als Empfehlung gewertet werden.
AIPHES sucht aktuell nach studentischen Hilfskräften, die bei der Datenverarbeitung zur Hand gehen. Interessierte Studierende können sich an Prof. Mieskes wenden.