TUM School of Computation, Information and Technology
Betreuer:
Rost, Burkhard (Prof. Dr.)
Gutachter:
Rost, Burkhard (Prof. Dr.); Steinegger, Martin (Prof. Dr.)
Sprache:
en
Fachgebiet:
DAT Datenverarbeitung, Informatik
Stichworte:
Representation Learning, Protein Prediction, Transfer Learning, Transformer, Natural Language Processing
Übersetzte Stichworte:
Representation Learning, Protein Prediction, Transfer Learning, Transformer, Natural Language Processing
TU-Systematik:
BIO 110
Kurzfassung:
Predicting protein function and structure from sequence is one important challenge for computational biology. For nearly 3 decades, most approaches that took up on this challenge combined machine learning and evolutionary information (EI). Here, I introduced novel concepts from representation learning to protein sequences to bypass some of the limitations inherent to EI. The proposed solution rivals EI-based methods in their predictive performance while relying only on single protein sequences.
Übersetzte Kurzfassung:
Die Vorhersage von Proteinfunktion und -struktur ist eine der wichtigsten Herausforderungen für Bioinformatik. Seit 3 Jahrzehnten wird diese Aufgabe mit einer Kombination aus Machine Learning und Evolutionary Information (EI) gelöst. In dieser Dissertation übertrage ich Ideen von Representation Learning auf Proteinsequenzen. Dabei erreichen die vorgestellte Lösungen vergleichbare Performance benötigen dafür aber nur einzelne Proteinsequenzen wodurch inhärente Probleme von EI gelöst werden.