Interview: Wie KI Enzym-Entwicklung beeinflusst
KI beeinflusst bereits viele Bereiche der Wirtschaft. Doch welche Rolle spielt die KI aktuell in Wissenschaft und Forschung?
Dazu befragten wir Dr. Sebastian Bartsch, Head of Bioinformatics bei c-LEcta. Er erläutert uns, wie genau künstliche Intelligenz beim Enzyme Engineering unterstützt. Zusammen mit seinen Kollegen entwickelt er die ASSET-DB (Analysis SyStem and Engineering Tool & DataBase) als Teil der proprietären Technologieplattform ENESYZ.
Wo genau kommt bei c-LEcta Bio-Informatik zum Einsatz?
Am Anfang eines jeden Enzym Entwicklungsprojektes steht die Frage, was soll das Enzym genau leisten und welche Eigenschaften benötigt es dafür. Schon bei diesem ersten Schritt setzt c-LEcta’s ENESYZ-Technologie Plattform mit unserer MDM-Analyse an. MDM steht dabei für "Multi-Dimensional-Mutagenesis". Diese analysiert zahlreiche Eigenschaften der infrage kommenden Enzyme und berechnet mit unterschiedlichen bioinformatischen Methoden, welche Variante eines Enzyms auf verbesserte Eigenschaften getestet werden sollte. Erst dann beginnt die Arbeit im Labor. Die Plattform unterstützt die Wissenschaftler bei der Erstellung, Durchführung und Auswertung der Experimente und reduziert die Menge an durchzuführenden Laborarbeiten.
Um bereits von Beginn an die passenden Enzyme zu identifizieren, benutzen wir unter anderem moleküldynamische Simulationen, um Eigenschaften vorherzusagen, die uns noch gar nicht bekannt sind. Dadurch können wir beispielsweise vorhersagen, ob ein spezielles Substrat gebunden werden kann. Oder, an welcher Stelle wir Änderungen vornehmen müssten, um eine solche Bindung zu ermöglichen.
Ist das schon Künstliche Intelligenz?
Gewisse, erfahrungs- und wissensbasierte Auswahlverfahren für Varianten sind bereits in der MDM-Analyse implementiert. Die künstliche Intelligenz benötigt allerdings viele Messwerte und Sequenzinformationen, um daraus zu lernen. Die dafür verwendeten Methoden werden daher auch maschinelles Lernen (machine learning, ML) genannt. Diese Daten erheben wir experimentell im Labor und fließen von dort automatisch zurück in die Datenbank der ASSET-DB Bioinformatik Plattform. Diese vereint alle Daten und Analysen unter einem Dach und hilft uns bei der Analyse und dem Vergleich einzelner Varianten. Gewonnene Daten bieten dabei die Möglichkeit zur Erkenntnis, wie und welche Mutationen einen bestimmten Einfluss auf das jeweilige Enzym nehmen. Hier kann das maschinelle Lernen beginnen, denn die Zusammenhänge zwischen Sequenz und Funktion eines Enzymes sind sehr komplex. Wir nutzen und optimieren zurzeit Techniken, die diese komplexen Zusammenhänge verstehen und für die Vorhersage von verbesserten Enzymen anwenden können.
Ein Beispiel für den Einsatz des maschinellen Lernens ist das Studium der Rekombination von unterschiedlichen Varianten. Die zufällige Kombination mehrerer Mutationen, die einzeln zu besseren Enzymeigenschaften führen, verschlechtern in den meisten Fällen das Enzym. Die Mutationen arbeiten oft gegeneinander anstatt miteinander. Mithilfe unserer Informationen aus der Datenbank, zusätzlichen bioinformatischen Analysen und dem maschinellen Lernen können wir die Interaktionen der verschiedenen Mutationen vorhersagen. Die vorteilhafteste Kombination lässt sich so hervorsagen und es ist nicht notwendig Millionen von Kombinationen mit großem Aufwand im Labor zu durchmustern.
Allerdings haben wir auch die Erfahrung gemacht, dass man sich bei dem aktuellen Wissensstand nicht ausschließlich auf KI und maschinelles Lernen verlassen sollte. Es gibt zur Zeit noch genügend Fragestellungen, bei denen nicht ausreichend viele Daten mit hoher Qualität erfasst werden können oder die Modelle des ML noch nicht ausreichend präzise sind. Dann sind klassische bioinformatische Ansätze und die wissenschaftliche Intuition erfahrener Mitarbeiter gefragt.
Was ist der Unterschied zu herkömmlichen Methoden? Was macht den c-LEcta Ansatz erfolgreicher?
Beim Enzym-Engineering verfolgen wir bei c-LEcta einen wissensbasierten Ansatz, der Datenbanken, Informatik-Tools wie auch Machine-Learning mit der Laborarbeit und akkuraten Analyseverfahren kombiniert. Dem gegenüber steht das Hochdurchsatz-Screening, wo mit Hilfe von Maschinen Millionen von Varianten durchmustert werden, was einen hohen maschinellen und technischen Aufwand bedeutet. Zudem haben die Daten oft keine hohe Aussagekraft, da Kompromisse zwischen Problemstellung und Durchsatz meist zugunsten des Durchsatzes entschieden werden. Aus unserer Sicht ist es aber wichtig, die Varianten unter möglichst prozessähnlichen Bedingungen zu analysieren und verschiedene, relevante Eigenschaften der Enzymvarianten parallel und akkurat zu bestimmen. Deshalb fokussieren wir uns hier auf Qualität anstatt Quantität, d.h. lieber weniger Varianten durchmustern, dafür aber Daten mit einer hohen Aussagekraft generieren.
Durch einen sehr effizienten, strukturierten, wissensbasierten Ansatz, konzentrieren wir uns auf wenige Varianten (meist <1000), wodurch die im Labor gewonnenen Informationen viel schneller für eine weitere Runde wieder verwendet, werden können. Auch benötigen wir meist nur sehr wenige Runden bis die Enzyme die gewünschten Eigenschaften erreichen. Dadurch erhöht sich unsere Entwicklungsgeschwindigkeit enorm und die Entwicklungskosten werden reduziert.
Dr. Sebastian Bartsch ist Biochemiker und seit mehr als 10 Jahren bei c-LEcta.
Nach einem Karrierestart als Projektleiter hat er immer intensiver die Themen Strukturanalyse von Enzymen und Bioinformatik vorangetrieben.
Neben den Labormitarbeitern verstärkte 2015 ein Bioinformatiker und 2020 ein Softwareentwickler sein Team. Seit Januar 2022 ist er Leiter der Abteilung Bioinformatik bei c-LEcta. Herr Bartsch versteht sich als Vermittler zwischen den Welten der angewandten Biochemie und der theoretischen Informatik. So hilft er, die Daten aus dem Labor zu interpretieren und baut mit seinen Mitarbeitern Tools, um den Bereich der Enzymentwicklung zu unterstützen.