TUM School of Computation, Information and Technology
Advisor:
Rost, Burkhard (Prof. Dr.)
Referee:
Rost, Burkhard (Prof. Dr.); Steinegger, Martin (Prof. Dr.)
Language:
en
Subject group:
DAT Datenverarbeitung, Informatik
Keywords:
Representation Learning, Protein Prediction, Transfer Learning, Transformer, Natural Language Processing
Translated keywords:
Representation Learning, Protein Prediction, Transfer Learning, Transformer, Natural Language Processing
TUM classification:
BIO 110
Abstract:
Predicting protein function and structure from sequence is one important challenge for computational biology. For nearly 3 decades, most approaches that took up on this challenge combined machine learning and evolutionary information (EI). Here, I introduced novel concepts from representation learning to protein sequences to bypass some of the limitations inherent to EI. The proposed solution rivals EI-based methods in their predictive performance while relying only on single protein sequences.
Translated abstract:
Die Vorhersage von Proteinfunktion und -struktur ist eine der wichtigsten Herausforderungen für Bioinformatik. Seit 3 Jahrzehnten wird diese Aufgabe mit einer Kombination aus Machine Learning und Evolutionary Information (EI) gelöst. In dieser Dissertation übertrage ich Ideen von Representation Learning auf Proteinsequenzen. Dabei erreichen die vorgestellte Lösungen vergleichbare Performance benötigen dafür aber nur einzelne Proteinsequenzen wodurch inhärente Probleme von EI gelöst werden.