Die AI-Revolution, die kürzlich mit der Veröffentlichung von GPT-4 ihren Höhepunkt erreichte, hat nicht nur die Arbeitsweise der Computerlinguistik grundlegend beeinflusst, sondern auch alle anderen Disziplinen die mit sequentielle Daten arbeiten. Da sich dieselben Prinzipien auch auf die Bioinformatik übertragen lassen, hat sich dadurch auch die Art und Weise wie wir heute Proteinsequenzen verarbeiten grundlegend verändert.
Indem man großen Sprachmodellen auf Aminosäuresequenzen trainiert, konnten diese Modelle lernen, Proteinsequenzen zu analysieren und bis zu einem gewissen Maß zu verstehen. Daraus konnten Forscher modernste Vorhersagemodelle entwickeln, die den Effekt von Mutationen, die subzelluläre Lokalisierung von Proteinen oder ihre Bindungsstellen vorhersagen. Zusätzlich konnten dieselben Methoden dazu genutzt werden um neue Proteinvarianten zu generieren. Obwohl gezeigt wurde, dass diese Protein-Sprachmodelle (pLMs) ein rudimentäres Verständnis der 3D-Struktur eines Proteins allein aus 1D-Sequenzen erlernen, stellt sich angesichts der Fülle hochwertiger 3D-Strukturen seit der Veröffentlichung von AlphaFold2 die Frage, ob diese 3D-Informationen direkt während des pLM-Trainings genutzt werden können. Zu diesem Zweck haben wir 3D-Strukturen mithilfe von Foldseek auf 1D-Strings abgebildet, wobei eine erlernte Zuordnung von 3D-Koordinaten zu einem 1D-String verwendet wird. Es wurde gezeigt, dass das resultierende 3Di-Alphabet strukturelle Informationen gut genug erfasst, um extrem entfernte Homologe zu erkennen, die auf andere Weisen wie Sequenzvergleiche nicht erkannt werden konnten.
Hier bewerten wir, ob wir im Vergleich zu pLMs, die ausschließlich auf Aminosäuren trainiert sind, aussagekräftigere Proteinrepräsentationen erhalten können, indem wir mehrere pLMs entweder ausschließlich auf Aminosäuren (Basislinie) oder auf 3Di-Sequenzen (Gewinn aus der Struktur) oder einer Kombination von beiden (das Beste aus beiden Welten) trainieren. Dazu vergleichen wir ihre Performance auf verschiedenen nachgelagerten Aufgaben. Um einen sinnvollen Vergleich herzustellen, haben wir umfangreiche Hyperparameter-Optimierungen an unserem Modell durchgeführt und das Training auf UniRef50 - einer großen Datenbank für Proteinsequenzen - skaliert.
Unsere Ergebnisse zeigen, dass 3Di-Sequenzen gut geeignet sind, um strukturbezogene Informationen vorherzusagen, aber nicht für chemiebasierte Aufgaben. Stattdessen scheint die Kombination beider Arten von Informationen der vielversprechendste Weg zu sein.
«
Die AI-Revolution, die kürzlich mit der Veröffentlichung von GPT-4 ihren Höhepunkt erreichte, hat nicht nur die Arbeitsweise der Computerlinguistik grundlegend beeinflusst, sondern auch alle anderen Disziplinen die mit sequentielle Daten arbeiten. Da sich dieselben Prinzipien auch auf die Bioinformatik übertragen lassen, hat sich dadurch auch die Art und Weise wie wir heute Proteinsequenzen verarbeiten grundlegend verändert.
Indem man großen Sprachmodellen auf Aminosäuresequenzen trainiert, kon...
»