protein design, protein landscape prediction, protein representation learning
TUM classification:
BIO 110
Abstract:
Annotations of protein function and structure are available for far fewer protein sequences than those reported in protein sequence databases. Using little data to extrapolate blanket interpretations of biology is a delicate practice that could be tipped towards unfavorable outcomes by selecting information. This thesis is an attempt to review the state and origin of biases in protein bioinformatics.
Translated abstract:
Anmerkungen zu Funktion und Struktur von Proteinen sind für weit weniger Proteinsequenzen verfügbar als in den Proteinsequenzdatenbanken angegeben. Die Verwendung von wenigen Daten, um pauschale Interpretationen der Biologie zu extrapolieren, ist eine heikle Praxis, die durch die Auswahl von Informationen zu ungünstigen Ergebnissen geführt werden könnte. Diese Arbeit ist ein Versuch, den Stand und den Ursprung von Verzerrungen in der Protein-Bioinformatik zu überprüfen.