Illustration eines Tensors höherer Ordnung.

Im Maschinenraum

Informatik-Team optimiert den »Denkprozess« von KI.
Illustration eines Tensors höherer Ordnung.
Illustration: Midjourney

Die beeindruckende Welt der KI-Anwendungen funktioniert nur, weil sie von einer breiten technologischen Basis getragen wird. Forschung in diesem Bereich ist zwar weitaus abstrakter, aber dafür umso wichtiger. Wissenschaftlerinnen und Wissenschaftler am Institut für Informatik optimieren nichts weniger als den »Denkprozess« der Künstlichen Intelligenz.

Text: Sebastian Hollstein

Prof. Joachim Giesen (l.) und Prof. Alexander Breuer (r.) forschen im Graduiertenkolleg »Interactive Inference«.
Prof. Joachim Giesen (l.) und Prof. Alexander Breuer (r.) forschen im Graduiertenkolleg »Interactive Inference«.
Foto: Anne Günther (Universität Jena)

Wenn über Künstliche Intelligenz gesprochen wird, dann geht es meist um die faszinierenden Möglichkeiten für scheinbar unzählige Anwendungen. Doch ihr praktischer Nutzen ist nur die Spitze eines technologischen Eisbergs. Unter der Oberfläche verbergen sich ungleich größere Schichten an Infrastruktur – von grundlegenden KI-Modellen über Software bis hin zu Hardware.

Das von der Carl-Zeiss- Stiftung geförderte Graduiertenkolleg »Interactive Inference« am Institut für Informatik bildet den Nachwuchs für diesen »KI-Maschinenraum« aus, in dem es massiv an Fachkräften mangelt.

»Die technologische Basis für KI findet viel zu wenig Beachtung in der öffentlichen Diskussion, obwohl gerade hier die größte Wertschöpfung steckt«, sagt Prof. Dr. Joachim Giesen, einer der Leiter des Kollegs. »Sowohl die grundlegenden KI-Modelle als auch die Software und Hardware stammen meist nicht mehr aus Europa.« Deshalb sei es wichtig, dass junge Informatikerinnen und Informatiker hierzulande KI-Infrastruktur verstehen, mathematisch analysieren und selbst entwickeln können.

Die Jenaer Forschenden konzentrieren sich besonders auf den, vereinfacht gesagt, »Denkprozess« der KI: die Inferenz. Stellen Nutzende beispielsweise eine Anfrage an ChatGPT, dann generiert eine Software die gewünschte Antwort – in diesem Fall einen Text. Diese Inferenzsoftware wurde in einem Prozess, den man Trainieren nennt, auf einer riesigen Datenbasis gelernt.

Ähnlich wie beim Menschen kann der Lernprozess – also das Trainieren der KI – lange dauern, im Fall von großen KI-Modellen durchaus mehrere Monate. Antworten auf eine Inferenzanfrage sollten jedoch weitaus schneller vorliegen – im Idealfall in wenigen Millisekunden. Um Anfragen von Millionen von Nutzende in dieser Geschwindigkeit beantworten zu können, ist erhebliche Rechenleistung nötig, die viel Energie verbraucht und dementsprechend hohe Kosten und CO2-Emissionen verursacht.

Eine vielversprechende Methode, um Inferenz effizienter zu gestalten, sehen die Jenaer Forschenden darin, sogenannte Tensorberechnungen zu optimieren, auf die sich viele Probleme abbilden lassen und die in der KI-Infrastruktur deshalb häufig verwendet werden. »Ein Tensor ist ein mathematisches Konzept, mit dem sich komplexe Daten organisiert darstellen lassen«, erklärt Prof. Dr. Alexander Breuer vom Graduiertenkolleg.

»Besteht ein Datenpunkt aus mehreren Zahlen – zum Beispiel eine Windrichtung –, dann nennt man diesen Datenpunkt einen Vektor. Benötigt man für das Speichern von Daten mehrere Vektoren, erhält man eine Matrix, also ein zweidimensionales Gitter. Finden schließlich mehrere Matrizen Verwendung, dann spricht man von einem Tensor höherer Ordnung, der mehr als zwei Dimensionen umfasst.«

Diese strukturierte Darstellung von Daten biete viele Möglichkeiten zur Beschleunigung von Rechenprozessen. »Wenn beispielsweise viele Zahlen innerhalb der Tensoren Nullen sind, dann ergeben auch viele Rechnungen auf den Tensoren null – das lässt sich bereits im Vorfeld berücksichtigen, um unnötige Berechnungen zu vermeiden«, ergänzt Joachim Giesen.

Effizientes Berechnen von Wahrscheinlichkeiten

Solche und andere Methoden zur Effizienzsteigerung erforschen die Jenaer Expertinnen und Experten zur Beschleunigung von Inferenzanfragen, zum Beispiel für probabilistische KI-Modelle – also Modelle, bei denen Wahrscheinlichkeiten eine große Rolle spielen. Diese kommen unter anderem in der Logistik zum Einsatz.

Eine KI kann beispielsweise berechnen, wie hoch die Wahrscheinlichkeit ist, dass zu einem bestimmten Zeitpunkt an einem bestimmten Ort Passagiere eine Mitfahrgelegenheit benötigen und dabei das regelmäßige Verkehrsaufkommen oder potenzielle Straßenbaustellen berücksichtigen. »Wir gehen davon aus, dass solche Anwendungen in Zukunft an Bedeutung gewinnen werden und konzentrieren uns deshalb darauf, die zugrundeliegende KI-Infrastruktur zu entwickeln«, sagt Joachim Giesen.

KI wird in den kommenden Jahren aus fast keinem Bereich wegzudenken sein. Umso wichtiger ist es, dass infrastrukturelle Fragen eine größere Aufmerksamkeit erhalten. »Der Rechenaufwand sowohl beim Trainieren von KI-Modellen als auch bei der Inferenz ist jetzt schon massiv und wird weiter zunehmen«, sagt Alexander Breuer. »Die Leistungsfähigkeit der Hardware steigt zwar ebenfalls, aber sie lässt sich nicht mehr so einfach programmieren.« Eine sehr gute Ausbildung des wissenschaftlichen Nachwuchses sei deshalb unerlässlich.