Towards a reconstruction of the microsporidian last common ancestor gene set

  • Microsporidia are a group of parasites that infect a wide range of species, many of which play important roles in agriculture and human disease. At least 14 microsporidian species have been confirmed to cause potentially lifethreatening infectious diseases in both immunocompromised and immunocompetent humans. Approximately 1,400 species of microsporidia have been described. Depending on their host and habitat they are classified into three groups, the aquasporidia, the terresporidia and the marinosporidia. Microsporidia were originally classified as fungi by Naegeli (1857). However, their lack of typical eukaryotic components – such as mitochondria, Golgi bodies or peroxisomes – suggested to place the microsporidia together with other amitochondriate protists within the Archezoa kingdom. This "microsporidia-early" hypothesis was further supported by molecular phylogenies inferred from individual genes. Despite this evidence, the placement of microsporidia as an early branching eukaryote remained a topic for debate. The phylogeny of microsporidia is prone to suffer from biases in their reconstruction. The high evolutionary rate of microsporidian proteins tends to place these proteins together with other fast evolving lineages, a phenomenon known as long-branch attraction. In 1996, the first molecular phylogenetic studies placed the microsporidia inside the fungi. Subsequently, several further studies located the microsporidia at different positions inside the fungal clade. Since then, microsporidia have been considered as members of the Ascomycota, Zygomycota, Cryptomycota, or as a sister group to the Ascomycota and Basidiomycota, or even as the sister group of all fungi. The difficulties in determining the evolutionary origin of microsporidia are not only caused by their lack of several cellular components but also by their reduced genomes and metabolism. Being obligate intracellular parasites, microsporidia successfully reduced their genome sizes, down to the range of bacteria. As the smallest eukaryotic genome described so far, the genome of Encephalitozoon intestinalis is just 2.3 Mbp, about half the size of the one of Escherichia coli. Due to their low number of protein coding genes (less than 4,000), microsporidia are thought to retain only genes essential for their survival and development. Furthermore, several key metabolic pathways are missing in the microsporidia, such as the citric acid cycle, oxidative phosphorylation, or the de novo biosynthesis of nucleotides. As a result they are in an obligatory dependence on many primary metabolites from the hosts. However, the presence of hsp70 protein suggests a more complex genome of the microsporidian ancestor. Consequently, the small microsporidian genomes and the reduced metabolism would be consequences of a secondary loss process that molded the contemporary microsporidia from a functionally more complex ancestral species. However, it remains unclear whether the last common ancestor (LCA) of the microsporidia was already reduced, or whether the genome compaction was lineage-specific and started from a more complex LCA. We investigated the evolutionary history of the contemporary microsporidia through the reconstruction and analysis of their LCA. As a first step in our analysis, we have developed and implemented a software facilitating an intuitive data analysis of the large presence absence-patterns resulting from the tracing of microsporidian proteins in gene sets of many different species. These so called phylogenetic profiles can now be dynamically visualized and explored with PhyloProfile. The software allows the integration of other additional information layers into the phylogenetic profile, such as the similarity of feature architecture (FAS) between the protein under study and its orthologs. The FAS score can be displayed along the presence-absence pattern, which can help to identify orthologs that have likely diverged in function. PhyloProfile closes the methodological gap that existed between tools to generate large phylogenetic profiles to delineate the evolutionary history and the contemporary distribution of large – and ultimately complete – gene sets, and the more function-oriented analysis of individual protein. In the next step we tackled the problem of how to transfer functional annotation from one protein to another. We have developed HamFAS that integrates a targeted ortholog search based on the HaMStR algorithm with a weighted assessment of feature architecture similarities (FAS) between orthologs. In brief, for a seed protein we identify orthologs in reference species in which proteins have been functionally annotated based on manually curated assignments to KEGG Ortholog (KO) groups. The FAS scores between the orthologs and seed proteins are calculated. Subsequently, we compute pairwise FAS scores for all reference proteins within a KO group. A group's mean FAS score serves then as cutoff that must be exceeded to warrant transfer of its KO identifier to the seed. A benchmark using a manually curated yeast protein set showed that HamFAS yields the best precision (98.5%) when compared with two state-of-the-art annotation tools, KAAS and BlastKOALA. Furthermore, HamFAS achieves a higher sensitivity. On average HamFAS annotates almost 50% more proteins than KAAS or BlastKOALA. With this extended bioinformatics toolbox at hand, we aimed at reconstructing the evolutionary history of the microsporidia. We generated a robust phylogeny of microsporidia using a phylogenomics approach. As a data basis, we identified a set of microsporidian proteins encoded by 80 core genes with one-to-one orthologs. A maximum likelihood analysis of this data with 48 fungi and additionally in 13 species from more distantly related such as animals and plants combined in a supermatrix strongly supported the hypothesis that microsporidia form the sister group of the fungi. We confirmed that the data explains this microsporidia-fungi relationship significantly better than any other of the previously proposed phylogenetic hypotheses. On the basis of this phylogeny, and of the phylogenetic profiles of microsporidian proteins, we then focused on reconstructing the dynamics microsporidian genome evolution. Between 2% of the proteins in the compact microsporidia Encephalitozoon intestinalis and up to 49% of the proteins of Edhazardia aedis are private for individual microsporidian species. A comparison of the sequence characteristics of these proteins to that of proteins with orthologs in other microsporidian species revealed individual differences. Yet, without further evidences it remains unclear whether these private genes are indeed lineage-specific innovations contributing to the adaptation of each microsporidium to its host, or whether these are artifacts introduced in the process of gene annotation. A total of 14,410 microsporidian proteins could then be grouped into 1605 orthologous groups that can be traced back to the last common ancestor of the microsporidia (LCA set). We found that 94% of the microsporidian LCA proteins could be tracked back to the last eukaryotic common ancestor. The high evolutionary age of these proteins, together with the resistance against gene loss in the microsporidia suggests that the corresponding functions are essential for eukaryotic life. Further 3% of the LCA proteins could be dated to the common ancestor microsporidia share with the fungi. Only 3% of the LCA proteins appear as microsporidia specific inventions. These proteins are potentially of importance for the evolutionary of the obligate parasitic lifestyle nowadays shared by all microsporidia. The functional annotation and metabolic pathway analysis of the microsporidian LCA protein set gave us more insight into the adaptation of the microsporidia to their parasitic lifestyle and the origin of the microsporidian genome reduction. The presence of E1 and E3 components of the pyruvate dehydrogenase complex and the mitochondrial hsp70 protein support an ancestral presence of mitochondria in the ancestral microsporidia. In addition, several ancient proteins that complement gapped metabolic pathways were found in the microsporidian LCA. They suggested a more complex genome and metabolism in the LCA. However, our reconstruction of the metabolic network of the microsporidian LCA still lacks many main pathways. For example, the TCA cycle for effective energy production, and key enzymes that are required for in vivo synthesis of critical metabolites like purines and pyrimidines appear absent. We therefore find that the parasitic lifestyle and the genome reduction already occurred in the microsporidian LCA. This ancestral state was followed by further losses and gains during the evolution of each individual microsporidian lineage.
  • Mikrosporidien sind sporenbildende Parasiten, die verschiedene Organismen infizieren. Die Mikrosporidiose beeinträchtigt nicht nur die Agrarökonomie, sondern führt auch zu humanmedizinischen Krankheitsbildern. Es sind mindestens 14 Mikrosporidien bekannt, welche potenziell lebensbedrohliche infektiöse Krankheiten sowohl bei immunkompromittierten als auch bei immunkompetenten Menschen verursachen. Etwa 1.400 Mikrosporidien wurden bislang beschrieben. Nach ihren Wirten und Habitaten können sie in drei Gruppen eingeteilt werden, die Aquasporidien, Terresporidien und Marinosporidien. Mikrosporidien wurden erstmals 1857 von Naegeli als Pilz klassifiziert. Wegen ihres Mangels vieler typischen eukaryotischen Komponenten – wie Mitochondrien, Golgi-Apparat oder Peroxisomen – wurden die Mikrosporidien später allerdings zusammen mit anderen amitochondrischen Protisten innerhalb des Archezoa-Reiches gruppiert. Diese "Microsporidiaearly" Hypothese wurde darüber hinaus durch einzelgenbasierte molekulare Phylogenien unterstützt. Trotz dieser Evidenzen wurde die phylogenetische Platzierung der Mikrosporidien in Frage gestellt. Die Phylogenie von Mikrosporidien werden durch die Rekonstruktionsartefakte verzerrt. Durch die hohe Evolutionsrate der mikrosporidischen Proteine gruppieren sie häufig zusammen mit anderen schnell evolvierenden Proteinen (long-branchattraction). Im Jahr 1996 wurde die Verwandtschaft zwischen Pilzen und Mikrosporidien erstmals durch molekulare phylogenetische Studien unterstützt. Verschiedene Studien, basierend auf einzelnen und mehreren Genen, positionieren die Mikrosporidien unterschiedlich in dem Stammbaum der Pilze. Dabei werden die Mikrosporidien entweder innerhalb der Ascomycota, Zygomycota oder Crytomycota positioniert, oder als Schwestergruppe der Ascomycota und Basidiomycota, oder auch aller Pilze. So bleibt die exakte Position der Mikrosporidien im Speziesbaum der Pilze immer noch ungelöst. Dabei wird die Bestimmung des Ursprungs der Mikrosporidien durch deren reduzierten Genome weiter erschwert. Als obligate intrazelluläre Parasiten verminderten die Mikrosporidien ihre Genome soweit das deren Größe im Bereich bakterieller Genome liegt. Das kleinste beschriebene eukaryotische Genom von Encephalitozoon intestinalis ist mit 2,3 Mbp etwa halb so groß wie das von Escherichia coli. Die geringe Anzahl von protein-kodierenden Genen (weniger als 4.000) deutet darauf hin, dass die Genome der Mikrosporidien nur Gene enthalten, die für ihr Überleben und ihre Entwicklung essentiell sind. Darüber hinaus fehlen den Mikrosporidien mehrere Stoffwechselwege, wie der Zitronensäurezyklus, die oxidative Phosphorylierung oder die de novo Biosynthese von Nukleotiden. Dies führt zu einer obligaten Abhängigkeit vom Wirt für viele primäre Metabolite. Das Vorhandensein des hsp70-Proteins setzt jedoch ein komplexeres Genom des mikrosporidischen Vorfahren voraus. Folglich wären die kleinen mikrosporidischen Genome und der reduzierte Metabolismus die Konsequenzen eines sekundären Verlustprozesses, der die heutigen Mikrosporidien aus einer funktionell komplexeren angestammten Spezies geformt hat. Es bleibt jedoch unklar, ob der mikrosporidische letzte gemeinsame Vorfahr (LCA) bereits reduziert wurde oder ob die Genomkomprimierung linienspezifisch war und von einem komplexeren LCA ausging. Wir untersuchten daher die Entwicklungsgeschichte der heutigen Mikrosporidien durch die Rekonstruktion und Untersuchung ihres LCAs. Im ersten Schritt unserer Analyse haben wir ein Programm für eine intuitive Datenanalyse eines großen An- und Abwesenheitsmusters entwickelt. Das Muster ist das Ergebnis einer evolutionären Zurückverfolgung von mikrosporidischen Proteinen in Gensets verschiedener Spezies. Mit PhyloProfile können diese sogenannten phylogenetischen Profile nun dynamisch visualisiert und untersucht werden. Außerdem erlaubt das Programm die Einbindung von zusätzlichen Informationsebenen zum Profil, wie beispielsweise der Feature Architektur Ähnlichkeit (FAS) zwischen dem untersuchten Protein und seinen Orthologen. Der FAS Wert kann neben dem An- und Abwesenheitsmuster angezeigt werden, was dabei helfen kann Orthologe zu identifizieren, deren Funktion wahrscheinlich divergiert ist. PhyloProfile schließt damit eine methodologische Lücke um die evolutionäre Geschichte und die gegenwärtige Verteilung großer – auch vollständiger – Gensets und die funktionalere Analyse einzelner Proteine zu beschreiben. Im nächsten Schritt haben wir uns mit dem Problem befasst, wie man eine funktionale Annotation von einem Protein zum anderen übertragen kann. Dafür entwickelten wir HamFAS, einen neuen Ansatz der eine gezielte Orthologensuche basierend auf dem HaMStR-Algorithmus mit einer gewichteten Bewertung von Feature Architektur Ähnlichkeiten (FAS) zwischen Orthologen integriert. Für ein Seed-Protein identifizieren wir Orthologe in Referenzspezies, deren Proteine bereits durch eine manuelle Annotation in KEGG-Ortholog (KO)-Gruppen eingeordnet wurden. Zwischen den Orthologen und den Seed-Proteinen werden die FAS-Werte berechnet. Anschließend berechnen wir paarweise FAS-Werte für alle Referenzproteine innerhalb einer KO-Gruppe. Der mittlere FAS-Wert einer Gruppe dient dann als Cutoff, der überschritten werden muss, um die Übertragung seines KO-Identifikation an den Seed zu rechtfertigen. Wir benchmarkten die Performance von HamFAS mit einem manuell kuratierten, KO-annotierten, Hefeprotein-Set. HamFAS erzielte die beste Genauigkeit (98,5%) im Vergleich zu zwei State-of-the-Art Annotationsprogrammen KAAS und BlastKOALA. Darüber hinaus zeigte HamFAS eine höhere Sensitivität. Hier annotierte HamFAS fast 50% mehr Proteine als KAAS oder BlastKOALA. Mit diesen beiden Programmen haben wir die Entwicklungsgeschichte der Mikrosporidien rekonstruiert. Wir identifizierten ein evolutionär konserviertes mikrosporidisches Genset, welches aus 80 eins-zu-einsOrthologen Gruppen besteht. Anschließend erstellten wir eine robuste Phylogenie der Mikrosporidien aus dem Genset zusammen mit den Daten von 48 Pilzen und 13 zusätzlich Spezies von weiter entfernten Verwandten, wie Tieren und Pflanzen. Diese Maximum-Likelihood-Analyse, die in einer Supermatrix kombiniert ist, unterstützte die Hypothese, dass Mikrosporidien die Schwestergruppe der Pilze bilden. Die analysierten Daten erklärten diese Mikrosporidien-Pilz-Verwandtschaft signifikant besser als alle anderen Hypothesen. Auf der Grundlage dieser Phylogenie und der phylogenetischen Profile mikrosporidischer Proteine rekonstruierten wir die Dynamik der Genomentwicklung. Je nach Mikrosporidium finden wir das zwischen 2% der Proteine in der kompakten Mikrosporidie Encephalitozoon intestinalis bis hin zu 49% der Proteine im Fall von Edhazardia adis nur in einer Art gefunden werden. Ein Vergleich der Sequenzeigenschaften zwischen diesen Proteinen und den Proteinen, die Orthologe in anderen Spezies haben, zeigte individuelle Unterschiede. Dennoch bleibt es ohne weitere Hinweise ungewiss, ob diese exklusiven Gene tatsächlich abstammungslinienspezifische Gene zur Wirtsanpassung sind oder ob sie Artefakte des Genannotationsprozesses sind. Insgesamt konnten 14,410 mikrosporidische Proteine zu 1605 orthologen Gruppen zusammengefasst werden, die zum LCA der Mikrosporidia (LCA Set) zurückverfolgt werden konnten. Wir finden, dass 94% der Proteinen des mikrosporidischen LCAs auf den letzten gemeinsamen Vorfahren aller Eukaryoten zurückverfolgt. Das hohe evolutionäre Alter dieser Proteine zusammen mit der Resistenz gegen Genverlust in den Mikrosporidien weist darauf hin, dass die entsprechenden Funktionen essentiell für eukaryotisches Leben sind. Nur 3% LCA-Proteine sind spezifisch für Mikrosporidien. Diese Proteine sind potentiell wichtig für die Evolution der mikrosporidischen parasitischen Lebensweise, die von allen Mikrosporidien geteilt wird. Die funktionelle Annotation und die Analyse der Stoffwechselwege des mikrosporidischen LCAs ermöglichte ein besseres Verständnis der Anpassung von Mikrosporidien an ihre parasitäre Lebensweise und den Ursprung ihrer Genom-Reduktion. Die Anwesenheit von E1-, E3Komponenten des Pyruvat-Dehydrogenase-Komplexes und des mitochondrialen hsp70-Proteins deuten darauf hin, dass die anzestralen Mikrosporidien Mitochondrien besaßen. Zusätzlich wurden mehrere alte Proteine im mikrosporidischen LCA gefunden, die einige Lücken Stoffwechselwege schließen können. Dies deutet auf ein komplexeres Genom und einen aufwändigeren Metabolismus im LCA hin als bislang vermutet. Dem mikrosporidischen LCA fehlen jedoch weiterhin viele primäre Stoffwechselwege, wie der Citratzyklus, oder Schlüsselenzyme, die für die in vivo Synthese von kritischen Metaboliten wie Purinen und Pyrimidinen benötigt werden. Deshalb nehmen wir an, dass die parasitische Lebensweise bereits in der mikrosporidischen LCA vorkam. Die reduzierten Genome sind damit der anzestrale Zustand für die Mikrosporidien, welchem weitere Genverluste und Genzuwächse auf einzelnen mikrosporidischen Linien folgte.

Download full text files

  • tran_dissertation_09102018.pdf

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Author:Ngoc Vinh Tran
Referee:Ingo Ebersbeger, Enrico SchleiffORCiDGND
Document Type:Doctoral Thesis
Date of Publication (online):2018/12/21
Year of first Publication:2018
Publishing Institution:Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:Johann Wolfgang Goethe-Universität
Date of final exam:2018/10/09
Release Date:2018/12/21
Page Number:195
Diese Dissertation steht außerhalb der Universitätsbibliothek leider (aus urheberrechtlichen Gründen) nicht im Volltext zur Verfügung, die CD-ROM kann (auch über Fernleihe) bei der UB Frankfurt am Main ausgeliehen werden.
Dewey Decimal Classification:5 Naturwissenschaften und Mathematik / 57 Biowissenschaften; Biologie / 570 Biowissenschaften; Biologie
Licence (German):License LogoArchivex. zur Lesesaalplatznutzung § 52b UrhG