Computational approaches for the analysis of epigenome and transcriptome characterisation in Paramecium tetraurelia

  • In the last two decades, our understanding of human gene regulation has improved tremendously. There are plentiful computational methods which focus on integrative data analysis of humans, and model organisms, like mouse and drosophila. However, these tools are not directly employable by researchers working on non-model organisms to answer fundamental biological, and evolutionary questions. We aimed to develop new tools, and adapt existing software for the analysis of transcriptomic and epigenomic data of one such non-model organism, Paramecium tetraurelia, an unicellular eukaryote. Paramecium contains two diploid (2n) germline micronuclei (MIC) and a polyploid (800n) somatic macronuclei (MAC). The transcriptomic and epigenomic regulatory landscape of the MAC genome, which has 80% protein-coding genes and short intergenic regions, is poorly understood. We developed a generic automated eukaryotic short interfering RNA (siRNA) analysis tool, called RAPID. Our tool captures diverse siRNA characteristics from small RNA sequencing data and provides easily navigable visualisations. We also introduced a normalisation technique to facilitate comparison of multiple siRNA-based gene knockdown studies. Further, we developed a pipeline to characterise novel genome-wide endogenous short interfering RNAs (endo-siRNAs). In contrary to many organisms, we found that the endo-siRNAs are not acting in cis, to silence their parent mRNA. We also predicted phasing of siRNAs, which are regulated by the RNA interference (RNAi) pathway. Further, using RAPID, we investigated the aberrations of endo-siRNAs, and their respective transcriptomic alterations caused by an RNAi pathway triggered by feeding small RNAs against a target gene. We find that the small RNA transcriptome is altered, even if a gene unrelated to RNAi pathway is targeted. This is important in the context of investigations of genetically modified organisms (GMOs). We suggest that future studies need to distinguish transcriptomic changes caused by RNAi inducing techniques and actual regulatory changes. Subsequently, we adapted existing epigenomics analysis tools to conduct the first comprehensive epigenomic characterisation of nucleosome positioning and histone modifications of the Paramecium MAC. We identified well positioned nucleosomes shifted downstream of the transcription start site. GC content seems to dictate, in cis, the positioning of nucleosomes, histone marks (H3K4me3, H3K9ac, and H3K27me3), and Pol II in the AT-rich Paramecium genome. We employed a chromatin state segmentation approach, on nucleosomes and histone marks, which revealed genes with active, repressive, and bivalent chromatin states. Further, we constructed a regulatory association network of all the aforementioned data, using the sparse partial correlation network technique. Our analysis revealed subsets of genes, whose expression is positively associated with H3K27me3, different to the otherwise reported negative association with gene expression in many other organisms. Further, we developed a Random Forests classifier to predict gene expression using genic (gene length, intron frequency, etc.) and epigenetic features. Our model has a test performance (PR-AUC) of 0.83. Upon evaluating different feature sets, we found that genic features are as predictive, of gene expression, as the epigenetic features. We used Shapley local feature explanation values, to suggest that high H3K4me3, high intron frequency, low gene length, high sRNA, and high GC content are the most important elements for determining gene expression status. In this thesis, we developed novel tools, and employed several bioinformatics and machine learning methods to characterise the regulatory landscape of the Paramecium’s (epi)genome.
  • In den letzten zwei Jahrzehnten hat sich unser Verständnis der menschlichen Genregulation enorm verbessert. Es gibt eine Fülle von computergestützten Methoden, die sich auf die integrative Datenanalyse von Menschen und Modellorganismen wie Maus und Drosophila konzentrieren. Diese Werkzeuge können jedoch nicht direkt von Forschern eingesetzt werden, die an Nicht-Modellorganismen arbeiten, um grundlegende biologische und evolutionäre Fragen zu beantworten. Unser Ziel war es, neue Werkzeuge zu entwickeln und bestehende Software für die Analyse von transkriptomischen und epigenomischen Daten eines solchen Nicht-Modellorganismus, Paramecium tetraurelia, einem einzelligen Eukaryoten, anzupassen. Paramecium enthält zwei diploide (2n) Keimbahn-Mikrokerne (MIC) und einen polyploiden (800n) somatischen Makronukleus (MAC). Die transkriptomische und epigenomische Regulationsmechanismen des MAC-Genoms, das 80% proteinkodierende Gene und kurze intergene Regionen aufweist, ist bisher nur wenig verstanden. Wir haben ein generisches, automatisiertes Analyse-Tool für kurze interferierende RNAs (siRNAs) in Eukaryoten entwickelt, genannt RAPID. Unser Tool erfasst diverse siRNA-Charakteristika aus kleinen RNA (sRNA) Sequenzierungsdaten und bietet leicht navigierbare Visualisierungen. Wir haben auch eine Normalisierungstechnik eingeführt, um den Vergleich von mehreren siRNAbasierten Gen-Knockdown-Studien zu erleichtern. Darüber hinaus haben wir eine Pipeline zur Charakterisierung neuartiger genomweiter endogener kurzer interferierender RNAs (endo-siRNAs) entwickelt. Im Gegensatz zu vielen anderen Organismen fanden wir heraus, dass die endo-siRNAs in Paramecium nicht in cis wirken, um ihre Eltern-mRNA zu inhibieren. Wir haben auch die Phasenlage der siRNAs vorhergesagt, die durch den RNA-Interferenz (RNAi) Signalweg reguliert wird. Weiterhin untersuchten wir mit Hilfe von RAPID die Aberrationen von endo-siRNAs und ihre jeweiligen transkriptomischen Veränderungen, die durch einen RNAi-Signalweg verursacht werden, der durch die Zuführung kleiner RNAs gegen ein Zielgen ausgelöst wird. Wir fanden heraus, dass das Transkriptom der kleinen RNAs verändert wird, auch wenn ein Gen, das nicht mit dem RNAi-Signalweg in Verbindung steht, als Ziel gewählt wird. Dies ist wichtig im Zusammenhang mit Untersuchungen von gentechnisch veränderten Organismen (GVOs). Wir schlagen vor, dass zukünftige Studien transkriptomische Veränderungen, die durch RNAi-induzierende Techniken verursacht werden, von tatsächlichen regulatorischen Veränderungen unterschieden werden müssen. Anschließend adaptierten wir bestehende Epigenomik-Analysetools, um die erste umfassende epigenomische Charakterisierung der Nukleosomenpositionierung und Histonmodifikationen des Paramecium MAC durchzuführen. Wir identifizierten präzise positionierte Nukleosomen, die in 3’-Richtung von der Transkriptionsstartstelle verschoben sind. Der GC-Gehalt scheint in cis die Positionierung von Nukleosomen, Histonmarkierungen (H3K4me3, H3K9ac und H3K27me3) und Pol II in dem AT-reichen Paramecium-Genom vorzugeben. Wir verwendeten eine Technik zur Segmentierung des Chromatinzustands mittels der Position von Nukleosomen und Histonmarkierungen, deren Ergebnis Gene mit aktiven, repressiven und bivalenten Chromatinzuständen aufzeigte. Außerdem konstruierten wir ein regulatorisches Assoziationsnetzwerk aus allen oben genannten Daten, indem wir die sogenannte Sparse Partial Correlation Network Methode verwendeten. Mit unserer Analyse fanden wir Gene, deren Expression positiv mit H3K27me3 assoziiert ist, wohingegen diese Histonmarkierung in anderen Organismen üblicherweise mit einer negativen Genexpression in Verbindung gebracht wird. Weiterhin entwickelten wir einen Random forests Klassifikator zur Vorhersage der Genexpression unter Verwendung von genetischen (Genlänge, Intron-Frequenz, etc.) und epigenetischen Merkmalen. Unser Modell hat eine Testgenauigkeit (PR-AUC) von 0,83. Bei der Evaluierung verschiedener Gruppen von Merkmalen haben wir festgestellt, dass genetische Merkmale genauso viel zu der Vorhersage der Genexpression beigetragen haben wie die epigenetischen. Wir benutzten die sogenannten Shapley local feature explanation values, die nahelegen, dass hohe H3K4me3, hohe Intron-Frequenz, geringe Genlänge, hohe sRNA und hoher GC-Gehalt die wichtigsten Elemente für die Bestimmung des Genexpressionsstatus sind. In dieser Arbeit haben wir neuartige Werkzeuge entwickelt und verschiedene bioinformatische und maschinelle Lernmethoden eingesetzt, um die regulatorischen Mechanismen des (Epi-)Genoms von Paramecium zu charakterisieren.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Sivarajan KarunanithiORCiDGND
URN:urn:nbn:de:hebis:30:3-644423
DOI:https://doi.org/10.21248/gups.64442
Place of publication:Frankfurt am Main
Referee:Marcel Holger SchulzORCiDGND, Katharina ZarnackORCiDGND
Document Type:Doctoral Thesis
Language:English
Date of Publication (online):2021/10/11
Year of first Publication:2021
Publishing Institution:Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:Johann Wolfgang Goethe-Universität
Date of final exam:2021/10/25
Release Date:2021/11/15
Tag:Paramecium; RNA biology; RNA interference; epigenome; macronucleus; small RNA
Page Number:172
HeBIS-PPN:487720512
Institutes:Informatik und Mathematik / Informatik
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
Sammlungen:Universitätspublikationen
Licence (German):License LogoDeutsches Urheberrecht