RIBOseq-based discovery of non-annotated genes in Escherichia coli O157:H7 Sakai and their functional characterization
Translated title:
RIBOseq-basierte Detektion nicht annotierter Gene in Escherichia coli O157:H7 Sakai und deren funktionale Charakterisierung
Author:
Hücker, Sarah Maria Margret
Year:
2018
Document type:
Dissertation
Faculty/School:
Fakultät Wissenschaftszentrum Weihenstephan
Advisor:
Scherer, Siegfried (Prof. Dr.)
Referee:
Scherer, Siegfried (Prof. Dr.); Liebl, Wolfgang (Prof. Dr.); Schloter, Michael (Prof. Dr.)
Language:
en
Subject group:
BIO Biowissenschaften
TUM classification:
OEK 100d; LEB 050d
Abstract:
The food-borne pathogen Escherichia coli O157:H7 strain Sakai (EHEC) is the causative agent of hemorrhagic colitis and hemolytic-uremic syndrome. The genome of EHEC Sakai was sequenced in 2001 and it contains 5,358 annotated genes. However, intergenic regions might harbor additional (small) protein-coding genes. Due to the DNA triplet code, it is also possible that the sequences of two genes overlap at a given locus. This study focuses on the detection of non-trivial, antiparallel overlapping genes (OLGs).
The transcriptome and the translatome of EHEC were determined using the high-throughput next generation sequencing methods RNAseq and RIBOseq. Three different growth conditions were tested, representing two optimal conditions (growth in LB and BHI medium), and one severe stress condition combining long-term cold and osmotic stress. The sequencing results show excellent reproducibility. The RIBOseq data of the annotated genes correlates to previously published proteome data. About one third of the annotated genes are differentially expressed at the transcriptional and/or translational level comparing either the two optimal conditions, or the stress condition to the optimal BHI condition. Riboswitches and the ncRNA DsrA were found to be involved in regulating gene expression after adaptation to cold and osmotic stress.
In addition, translation of non-annotated intergenic and antiparallel overlapping open reading frames (ORFs) was investigated. Amazingly, 465 intergenic ORFs and 380 OLGs show evidence of translation. The translatability was found to be similar to annotated genes, which supports the hypothesis these translated ORFs represent novel protein-coding genes. Further evidence for this claim includes the discovery of annotated homologs, differential regulation between growth conditions, presence of a reading frame in the sum signal of RIBOseq reads, and predicted regulatory elements (such as σ70 promoter, ρ-independent terminator, and a Shine-Dalgarno sequence).
Three of the novel OLG pairs discovered, namely anoG/ECs2385, laoB/ECs5115, and slyC/slyA, were functionally characterized. The transcription initiation sites were determined, and promoter activity of sequences upstream was detected. Presence of a protein was confirmed by expressing a C-terminally EGFP-fusion. Most importantly, a phenotype was observed in competitive growth experiments using EHEC wild type against a strand-specific, translationally arrested mutant of the respective gene. Conditions with high promoter activity or those causing a phenotype provide evidence for potential functions of the novel OLGs. Phylostratigraphic analyses of the annotated mother genes and the overlapping embedded genes indicate that the OLG originated de novo by overprinting in all three cases. Characterization of another four OLG candidates provides some evidence that they might be novel functional protein-coding genes as well. Interestingly, the first potential antiparallel overlapping operon consisting of three ORFs was discovered, which is encoded antisense to ECs0535.
All-in-all, this study shows that the genome of EHEC Sakai, and probably also other bacterial genomes, are under-annotated due to the systematical omission of small genes. Furthermore, genes encoded antiparallel to annotated genes seem to occur more frequently than previously presumed. The origin, evolution, and functions of these OLGs are interesting topics for future research.
Translated abstract:
Das Lebensmittelpathogen Escherichia coli O157:H7 Stamm Sakai (EHEC) verursacht hämorrhagische Kolitis und das hämolytisch-urämische Syndrom. Das EHEC Sakai Genom wurde 2001 sequenziert und enthält 5.358 annotierte Gene. Jedoch könnten intergenische Bereiche weitere (kleine) protein-kodierende Gene beherbergen. Aufgrund der Triplet-Periodizität des genetischen Kodes ist es auch möglich, dass die Sequenzen zweier Gene überlappen. Der Schwerpunkt dieser Arbeit ist die Detektion nicht-trivialer, antiparallel überlappender Gene (OLGs).
Das Transkriptom und das Translatom von EHEC wurden mittels der Hochdurchsatz next generation sequencing Methoden RNAseq und RIBOseq ermittelt. Insgesamt wurden drei verschiedene Wachstumsbedingungen untersucht: Zwei optimale Bedingungen (Wachstum in LB und BHI Medium) und eine starke Stressbedingung, die Kälte- und osmotischen Stress kombiniert. Die Sequenzierergebnisse zeigen eine sehr gute Reproduzierbarkeit. Die RIBOseq Ergebnisse der annotierten Gene korrelieren mit bereits publizierten Proteom Daten. Bei einem Vergleich der optimalen Wachstumsbedingungen oder der Stressbedingung mit der optimalen BHI-Bedingung zeigt etwa ein Drittel der annotierten Gene differenzielle Regulation auf transkriptioneller und/oder translationaler Ebene. Riboswitches und die nicht-kodierende RNS DsrA sind an der Regulation der Genexpression nach Anpassung an Kälte- und osmotischen Stress beteiligt.
Außerdem wurde die Translation nicht-annotierter, intergenischer und antiparallel überlappender offener Leserahmen (ORFs) untersucht. Erstaunlicherweise zeigten 465 intergenische ORFs und 380 OLGs Hinweise auf Translation. Diese hatten eine vergleichbare Translationseffizienz wie annotierte Gene, was die Erkenntnis unterstützt, dass es sich bei diesen translatierten ORFs um protein-kodierende Gene handelt. Weitere Beweise dieser Hypothese sind die Entdeckung annotierter Homologe, die differenzielle Regulation zwischen den Wachstumsbedingungen, das Vorliegen eines Leserahmens im Summensignal der RIBOseq Daten und die Prädiktion regulatorischer Elemente (z.B. σ70 Promotoren, ρ-unabhängige Terminatoren und einer Shine-Dalgarno Sequenz).
Drei der entdeckten neuen OLG-Paare, nämlich anoG/ECs2385, laoB/ECs5115 und slyC/slyA, wurden funktional charakterisiert. Der Transkriptionsstart wurde bestimmt und es wurde Promotoraktivität der vor diesem liegenden Sequenz nachgewiesen. Die Expression eines C-terminalen EGFP-Fusionsproteins bestätigte das Vorhandensein eines Proteins. Das wichtigste Ergebnis bestand darin, dass Phänotypen in kompetitiven Wachstumsversuchen mit dem EHEC Wildtyp gegen eine strangspezifische, translational arretierte Mutante des jeweiligen Gens beobachtet wurden. Bedingungen, unter denen hohe Promotoraktivität und ein Phänotyp auftraten, geben Hinweise auf die möglichen Funktionen des neuen OLGs. Phylostratigrafische Analysen der annotierten und überlappenden Gene deuten darauf hin, dass das OLG in allen drei Fällen de novo durch overprinting entstanden ist. Die Charakterisierung von vier weiteren OLG Kandidaten liefert Hinweise, dass es sich ebenfalls um neue, funktionale, protein-kodierende Gene handeln könnte. Interessanterweise wurde das erste antiparallel überlappende Operon entdeckt, welches aus drei ORFs besteht und auf dem Gegenstrang von ECs0535 kodiert ist.
Zusammenfassend zeigt diese Arbeit, dass das Genom von EHEC Sakai und vermutlich auch andere bakterielle Genome unterannotiert sind, weil kleine Gene systematisch ausgeschlossen werden. Weiterhin scheinen Gene, die antiparallel zu annotierten Genen kodiert sind, häufiger aufzutreten als bisher angenommen. Die Entstehung, Evolution und Funktionen dieser OLGs sind spannende Fragen für zukünftige Untersuchungen.