Der Stoffwechsel eines jeden Organismus – von der einzelligen Mikrobe bis zum komplexen System Mensch – bringt tausende chemische Verbindungen hervor. Diese Moleküle sind Ausgangs-, Zwischen- und Endprodukte chemischer Prozesse und können so Auskunft geben über den physiologischen Zustand von Lebewesen, ihren Organen, Geweben und Zellen. Vorausgesetzt, diese Moleküle – die Metaboliten – lassen sich auch nachweisen. Bislang sind solche Analysen extrem aufwendig, denn nur die Metaboliten, deren Strukturen bereits bekannt sind, lassen sich auch eindeutig identifizieren. Bioinformatiker der Universität Jena nutzen jetzt Methoden der künstlichen Intelligenz, um sämtliche – auch bislang unbekannte – Metabolite in einer Probe zu erfassen.
Text: Sebastian Hollstein
Alles, was lebt, produziert Metabolite. Metabolite können als »chemische Marker« genutzt werden, um beispielsweise Krankheiten zu erkennen oder in der Umwelttechnologie Trinkwasserproben zu untersuchen. Doch die Diversität dieser chemischen Verbindungen macht ihre Analyse schwierig. Bisher sind nur vergleichsweise wenige Moleküle in ihrer Struktur bekannt und definiert. Wird eine Probe im Labor analysiert, kann deshalb bislang nur ein relativ kleiner Teil davon identifiziert werden – der Großteil an Molekülen bleibt unbekannt.
Die Jenaer Bioinformatiker haben nun gemeinsam mit Kollegen aus Finnland und den USA eine weltweit einmalige Methode entwickelt, bei der alle Metabolite in einer Probe gleichzeitig berücksichtigt werden können und sich somit der Erkenntnisgewinn bei der Untersuchung solcher Moleküle erheblich vergrößert. Über seinen Erfolg berichtet das Team im renommierten Fachjournal »Nature Biotechnology«.
»Bei der Massenspektrometrie, eine der meistgenutzten experimentellen Methoden zur Analyse von Metaboliten, werden nur die Moleküle identifiziert, die durch den Abgleich mit einer Datenbank eindeutig zugeordnet werden können. Alle anderen, bisher unbekannten Moleküle, die in der Probe enthalten sind, liefern keine Informationen«, erklärt Prof. Dr. Sebastian Böcker von der Universität Jena. »Mit unserem neu entwickelten Verfahren namens CANOPUS entlocken wir allerdings auch den unidentifizierten Metaboliten in einer Probe wertvolle Informationen, da wir sie bereits bekannten Stoffklassen zuordnen können.«
CANOPUS funktioniert in zwei Phasen: Zunächst erzeugt das Verfahren, aus dem mittels Massenspektrometrie gemessenen Fragmentierungsspektrum, einen sogenannten molekularen Fingerabdruck. Dieser beinhaltet Informationen über die Struktureigenschaften des gemessenen Moleküls. In einem zweiten Schritt ordnet das System den Metaboliten mithilfe des Fingerabdrucks einer bestimmten Stoffklasse zu, ohne diesen dafür identifizieren zu müssen.
Zweistufiges Lernverfahren vereinfacht den Analyseprozess
»Maschinelle Lernverfahren benötigen in der Regel große Datenmengen, um trainiert zu werden. Unser zweistufiges Verfahren hingegen ermöglicht es, im ersten Schritt auf einer vergleichsweise kleinen Datenmenge von zehntausenden Fragmentierungsspektren zu trainieren, um dann im zweiten Schritt aus Millionen von Strukturen die charakteristischen Struktureigenschaften zu bestimmen, die für eine Stoffklasse signifikant sind«, erklärt Dr. Kai Dührkop von der Universität Jena.
Das System detektiert also diese Struktureigenschaften bei einem unbekannten Molekül innerhalb einer Probe und ordnet es dann einer bestimmten Stoffklasse zu. »Allein diese Information reicht bereits aus, um viele wichtige Fragestellungen zu beantworten«, betont Böcker. »Die eindeutige Identifikation eines Metabolits wäre weitaus aufwendiger und ist häufig überhaupt nicht notwendig.« Insgesamt liege dem CANOPUS-Verfahren ein tiefes neuronales Netz für die rund 2 500 Stoffklassen zugrunde.
Mit ihrer Methode haben die Jenaer Bioinformatiker beispielsweise die Darmflora von Mäusen verglichen, bei denen eine Versuchsgruppe mit Antibiotika behandelt worden war. Die Untersuchungen geben Hinweise darauf, welche Stoffklassen von der Maus selbst und welche von ihrer Darmflora produziert werden. Solche Forschungsergebnisse können wichtige Erkenntnisse über das menschliche Verdauungs- und Stoffwechselsystem ermöglichen. Durch zwei weitere Anwendungsbeispiele, die sie in ihrer Studie ausführen, zeigen die Wissenschaftler die Funktionalität und Aussagekraft des Verfahrens.
Jenaer Molekül-Suchmaschine millionenfach genutzt
Mit der neuen Methode erweitern die Bioinformatiker die Möglichkeiten der Suchmaschine für molekulare Strukturen „CSI:FingerID“, die sie der internationalen Forschungsgemeinschaft seit rund fünf Jahren zur Verfügung stellen. Weltweit nutzen Forscher dieses Angebot inzwischen tausende Male täglich, um ein Massenspektrum aus einer Probe mit verschiedenen Online-Datenbanken abzugleichen und so einen Metaboliten genauer bestimmen zu können. Mittlerweile sind mehr als hundert Millionen Anfragen eingegangen.
Das neue Verfahren stärkt die Metabolomik, also die Erforschung dieser omnipräsenten Moleküle, und fördert ihr Potenzial in vielen Bereichen, etwa in der Pharmazie. Viele Arzneiwirkstoffe sind Metabolite – weitere könnten mit ihrer Hilfe entwickelt werden.
Original-Publikation:
Systematic classification of unknown metabolites using high-resolution fragmentation mass spectra, Nature Biotechnology (2020), DOI: 10.1038/s41587-020-0740-8Externer Link