Metagenomische studien sind eine reiche Quelle für genetische Vielfalt. Terabyte von Sequenzierungsdaten sind öffentlich verfügbar und wachsen stetig. Dies kommt von der exponentiellen Abnahme der Kosten und der Erhöhung des Durchsatzes von Sequenzierern. Die technische Entwicklung der Sequenzierung hat das Mooresche Gesetz in den letzten zehn Jahren um ein Zweifaches übertroffen. Aktuell ist nicht mehr die Erzeugung, sondern die Datenanalyse der größte Zeit- und Kostenfaktor. Entscheidend für die Datenanalyse sind das Clustern und die Homologiesuchen von Sequenzen.
Clustering-Proteinsequenzen kann Redundanz in Sequenzdaten reduzieren und somit die Kosten der nachgeschalteten Analyse und Speicherung erheblich reduzieren. Durch das Clustering auf niedrige Sequenzidentitäten können wir auch Proteinfamilien definieren. In dieser Arbeit stellen wir zwei Clustering-Methoden vor: (1) MMseqs, eine schnelle und sensitive Clustering-Methode, und (2) Linclust, der erste Sequenzclustering Algorithmus, dessen Laufzeit linear mit der Anzahl der Sequenzen und unabhängig von der Anzahl der Cluster wächst.
MMseqs ist ein sehr sensitiver Clustering-Algorithmus der auf einer Alle-Gegen-Alle Suche basiert, welche Proteinsequenzen bis auf 30\% Sequenzidentität clustern kann. Die Methode ist empfindlicher und schneller als andere aktuelle Methoden. MMseqs berechnet erst einen Ähnlichkeitsgraph durch Selbstvergleiche der Proteinsequenzen und verwendet dann einen Greedy-Set-Cover-Algorithmus, um den Graphen zu clustern. Dieser Ansatz reduziert die Anzahl der Cluster im weiter als andere moderne Methoden.
Sequenzsuchen werden verwendet um neue Sequenzen durch Homologieinferenz durch schon bekannten Sequenzen zu annotieren. Schnelle moderne Sequenzsuchmethoden tauschen Empfindlichkeit für Geschwindigkeit. Mit MMseqs2, dem Nachfolger von MMseqs haben wir eine Methode entwickelt die Sequenzsuchen so empfindlich wie BLAST- und Profilsuchen so empfindlicher wie PSI-BLAST, jedoch zwei bis drei Größenordnungen schneller, durchführen kann. MMseqs2 unterstützt auch schnelle Umgedrehte-Profil-Suchen, mit denen wir 1,1 Milliarden metagenomische Proteinsequenzen in 8,3 Stunden auf einem einzigen 28 Kern Computer annotieren. Die Geschwindigkeit und Empfindlichkeit von MMseqs2 sollte es zu einem leistungsfähigen Werkzeug machen, um metagenomische Proteinsequenz zu annotieren.
Aktuelle Sequenz-Clustering Methoden skalieren fast quadratisch O(NK), wobei N die Anzahl der Eingabesequenzen und K die Anzahl der Cluster sind. Linclust ist der erste Algorithmus, der die Abhängigkeit von K überwindet und in linearer Zeit O(N) läuft. Linclust kann Proteinsequenzen bis zu 50% der Sequenzidentität drei bis vier Größenordnungen schneller als andere Methoden clustern. Wir haben 1,6 Milliarden Proteinsequenzen von etwa 2200 Metagenom- und Metatranscriptom- Assemblierungen mit Linclust auf 50% Sequenzidentität geclustert, was 14 Stunden auf einem einzelnen Server mit 28 Kernen gedauert hat.
«
Metagenomische studien sind eine reiche Quelle für genetische Vielfalt. Terabyte von Sequenzierungsdaten sind öffentlich verfügbar und wachsen stetig. Dies kommt von der exponentiellen Abnahme der Kosten und der Erhöhung des Durchsatzes von Sequenzierern. Die technische Entwicklung der Sequenzierung hat das Mooresche Gesetz in den letzten zehn Jahren um ein Zweifaches übertroffen. Aktuell ist nicht mehr die Erzeugung, sondern die Datenanalyse der größte Zeit- und Kostenfaktor. Entscheidend für d...
»