Text: Ute Schönfelder
Virtuelle Spaziergänge durch die Altstadt von Dresden und seine Stadtgeschichte ermöglicht die Webanwendung »4D-Browser«, die ein Team um Juniorprofessor Dr. Sander Münster im Rahmen eines vom Bundesministerium für Bildung und Forschung geförderten Projekts entwickelt hat. Dabei handelt es sich um eine interaktive Plattform, in der ein 3D-Stadtmodell, kombiniert mit historischen Bildern und Texten zu Gebäuden und Architektur, durchsucht werden kann.
»Das Besondere daran: Die historischen Fotos in dem Modell werden an ihrem jeweiligen Aufnahmestandort und aus der spezifischen Kameraposition angezeigt«, sagt Sander Münster. »Daraus wird zum Beispiel ersichtlich, aus welcher Richtung Gebäude besonders häufig fotografiert wurden, mit welchem Blick also die Fotografinnen und Fotografen der Vergangenheit die Stadt wahrgenommen haben oder wie ein Stadtgebiet inszeniert wurde.« Dank einer Zeitleiste lassen sich die fotografisch dokumentierten Veränderungen an Gebäuden oder Gebieten über die Zeit verfolgen. Die 3D-Modelle und Fotos sind zudem mit Textquellen verknüpft.
KI ermittelt den exakten Kamerastandpunkt
Die Daten im »4D-Browser« werden ständig erweitert, hinzukommende Bilder automatisch verortet und Bildinhalte mit Texten verknüpft. Dabei erfolgten die Auswahl der Fotos und ihre Zuordnung zu bestimmten Objekten in der Vergangenheit vorwiegend anhand von Metadaten. Da diese allerdings oft fehlerhaft oder unvollständig sind, nutzen die Forschenden für diesen Prozess inzwischen vielfältige KI-Werkzeuge: So werden Bildähnlichkeiten mit Hilfe von ML-Modellen analysiert. Um die Bildverortung am Kamerastandpunkt zu ermitteln, setzt das Team auf künstliche neuronale Netze, die mit Merkmalsdetektion und Matchingverfahren arbeiten. Techniken der Computer Vision helfen bei der Feinjustierung der Verortung und verwenden dafür KI-basierte Kantendetektion und Feature Matching.
Auch bei der Verknüpfung der verschiedenen Bild-, Text- und 3D-Daten sowie für die Verarbeitung der Texte kommen KI-Techniken zum Einsatz, etwa zur automatischen Annotation von Eigennamen von Personen und Orten in den Textquellen sowie für semantische Textannotationen aufgrund von Wortähnlichkeiten. In einer Graphdatenbank werden die Annotationen in Bild, Text und 3D analysiert und verglichen (Berechnung von Graph Embeddings), um ähnliche Inhalte einander zuzuordnen. Zu den Bildern können auch passende Bildunterschriften automatisch erstellt werden. Dies geschieht aktuell regelbasiert, soll aber künftig durch KI verfeinert werden.
Begrenzte Datenmenge schränkt Leistungsfähigkeit der KI ein
»Dabei ist keine der von uns genutzten KI-Techniken neu oder wurde für dieses Projekt entwickelt«, betont Münster. »Allerdings adaptieren wir vorhandene Ansätze oder kombinieren sie mit anderen Verfahren, um eine bessere Genauigkeit und Zuverlässigkeit zu erhalten.«
Die Arbeit mit historischen Quellen berge jedoch noch etliche Herausforderungen. So handele es sich bei den historischen Fotos um Digitalisate, die in der Regel keine Informationen zu Kameraparametern enthalten. Das limitiere den Einsatz von Technologien, die diese Informationen benötigen, um den Kamerastandpunkt von Fotos zu rekonstruieren.
Und ein grundlegendes Problem lasse sich mit Blick auf die Nutzung von KI in den Geschichtswissenschaften auch noch nicht lösen: Die Mengen an verfügbaren historischen Daten, um die Modelle zu trainieren, ist eher gering, was die Leistungsfähigkeit der KI-Modelle begrenzt. Das mache sich etwa bei Fragestellungen zur Architektur bemerkbar. Während KI-Modelle zwar bereits gut automatisch Dächer und Fenster erkennen können, lassen sich andere Fassadenelemente wie Pilaster und Architraven bisher aber noch nicht automatisch identifizieren.