Präprozessierungs-Algorithmen für Affymetrix Microarrays

Pre-processing algorithms for Affymetrix microarrays

Zur genomweiten Genexpressionsanalyse werden Microarray-Experimente verwendet. Ziel dieser Arbeit ist es, Methoden zur Präprozessierung von Microarrays der Firma Affymetrix zu evaluieren und die VSN-Methode für Experimen
Zur genomweiten Genexpressionsanalyse werden Microarray-Experimente verwendet. Ziel dieser Arbeit ist es, Methoden zur Präprozessierung von Microarrays der Firma Affymetrix zu evaluieren und die VSN-Methode für Experimente mit weniger als 1000 Zellen zu verbessern. Bei dieser Technologie wird die Expression jedes Gens durch mehrere Probessets gemessen. Jedes Probeset besteht aus einem Perfect-Match (PM) und einem dazugehörigen Mismatch (MM). Der Expressionswert pro Gen wird durch ein vierstufiges Verfahren aus den einzelnen Probe-Werten berechnet: Hintergrundkorrektur, Normalisierung, PM-Adjustierung und Aggregation. Für jeden dieser Schritte existieren mehrere Algorithmen. Dazu dienten die im affy-Paket des Bioconductor implementierten Methoden MAS5, RMA, VSN und die Methode sRMA von Cope et al. [Cope et al., 2006] in Kombination mit der Methode VSN von Huber et al. [Huber et al., 2002]. Den ersten Teil dieser Arbeit bildet die Reanalyse der Datensätze von Küppers et al. [Küppers et al., 2003] und Piccaluga et al. [Piccaluga et al., 2007] mit der VSN-Methode. Dabei konnte gezeigt werden, dass die VSN-Methode gegenüber Klein et al. [Klein et al., 2001] Vorteile zeigt. Bei beiden Datensätzen wurden zusätzliche Gene gefunden, die für die Pathogenese der jeweiligen Tumorarten wichtig sein können. Einige der zusätzlich gefunden Gene wurden durch andere wissenschaftliche Arbeiten bestätigt. Die Gene, die bisher in keinem Zusammenhang mit der untersuchten Tumorart stehen, sind eine Möglichkeit für die weitere Forschung. Vor allem der Zytokine/Zytokine Signalweg wurde bei beiden Reanalysen als überrepräsentiert erkannt. Da für einige Microarray-Experimente die Anzahl der Zellen und damit die Menge an mRNA nur begrenzt zur Verfügung stehen, müssen die Laborarbeit und die statistischen Analysen angepasst werden. Hierzu werden fünf Methoden für die Präprozessierung untersucht, um zu evaluieren, welche Methode geeignet ist, derartige Expressionsdaten zu verrechnen. Auf Basis eines Testdatensatzes der bereits zur Etablierung des Laborprozesses diente werden Expressionswerte durch empirische Verteilung, Gammaverteilung und ein linear gemischtes Modell simuliert. Die Simulation lässt sich in vier Schritte einteilen: Wahl der Verteilung, Simulation der Expressionsmatrix, Simulation der differentiellen Expression, Sortierung der Probes innerhalb des Probesets. Anschließend werden die fünf Präprozessierungsmethoden mit diesen simulierten Expressionsdaten auf ihre Sensitivität und Spezifität untersucht. Während sich bei den empirisch und gammaverteilt simulierten Expressionsdaten kein eindeutiges Ergebnis abzeichnet, hat sVSN bei den Daten aus dem linear gemischten Modell die größte Sensitivität und die größte Spezifität. Der in dieser Arbeit entwickelte sVSN-Algorithmus wurde zum ersten Mal angewendet und bewertet. Abschließend wird ein Teildatensatz von Brune et al. verwendet und hinsichtlich der fünf Präprozessierungsmethoden untersucht. Die Ergebnisse der sVSN-Methode wird im Detail weiter verfolgt. Die zusätzlich gefunden Gene können durch bereits veröffentlichte Arbeiten bestätigt werden. Letztendlich zeigt sich, dass neuere statistische Methoden (wie das im Rahmen dieser Arbeit entwickelte sVSN) bei der Analyse von Affymetrix Microarrays einen Vorteil bringen. Die sVSN und sRMA Methoden zeigen Vorteile, da die Probes nach der Normalisierung gewichtet werden, bevor diese aggregiert werden. Die MAS5-Methode schneidet am schlechtesten ab und sollte bei geringen Zellmengen nicht eingesetzt werden. Für die Analyse mit geringer Menge an mRNA müssen weitere Untersuchungen vorgenommen werden, um eine geeignete statistische Methode für die Analyse der Expressionsdaten zu finden.
show moreshow less
Microarray experiments are used for genome-wide genetic expression analysis. An aim of this work is to evaluate methods of pre-processing Affymetrix microarrays and to improve the VSN method for experiments with less tha
Microarray experiments are used for genome-wide genetic expression analysis. An aim of this work is to evaluate methods of pre-processing Affymetrix microarrays and to improve the VSN method for experiments with less than 1000 cells. This technology measures the expression of genes by several probesets. Every probeset consists of a Perfect-Match (PM) and a corresponding Mismatch (MM). The expression value is calculated by a 4-step procedure from the probeset values: Background correction, normalisation, PM-adjustment and aggregation. For each of these steps several algorithms exist. The pre-processing algorithms MAS5, RMA, VSN and the method sRMA from Cope et al. [Cope et al., in 2006] in combination with the method of VSN from Huber et al. [Huber et al., in 2002] are chosen in further analysis. All of them are implemented in the affy package of the Bioconductor software. The first part of this work reanalyses the records of Küpper et al. [Küpper et al., in 2003] and Piccaluga et al. [Piccaluga et al., in 2007] with the VSN-method. It could be shown that the reanalysis with the VSN method is superior to the method Klein et al. [Klein et al., in 2001] used. Within both datasets additional promising genes were found that could be relevant for the pathogenesis of the respective tumour kinds. Moreover we revealed genes that were already confirmed by other scientific works meanwhile. Genes that are not known in connection with the examined tumour kind yet, might be interesting for further research. Mainly the Cytokine/Cytokine pathway showed up overrepresented in both reanalyses. Since in some microarray experiments the number of the cells and with it the amount of mRNA is limited, the lab work and the statistical analyses must be adapted. Moreover the five pre-processing methods are evaluated with regard to this special kind of expression data. On the basis of a test record - that was already used to establish the lab process – expression values were simulated by an empiric distribution, a gamma distribution and a linear mixed model. The simulation is divided in four steps: Choice of the distribution, simulation of the expression matrix, simulation of differential expression and sorting of the probes within the test set. Afterwards the five pre-processing methods are applied to the simulated expression data and examined for their sensitivity and specificity. Whereas the results for the expression data simulated with gamma-distribution and the empirical distribution are ambiguous, the sVSN method applied to the data from the linear mixed model shows the biggest sensitivity and specificity. The sVSN algorithm - that is introduced in this work - is applied for the first time and evaluated. Finally a partial record of Brune et al. is examined with these five pre-processing methods. The results of the sVSN method are inspected in more detail. Additional genes were found and some of them had already been confirmed by published works. To sum it up it is reasonable to apply more advanced statistical methods - like the sVSN method - in the analysis of Affymetrix microarrays. The sVSN and sRMA methods show advantages because the probes are weighted between the normalisation and aggregation steps. The MAS5-method is inferior compared to the others and should not be applied to expression data from low cell amounts. For the analysis of expression data coming from a small quantity of mRNA more research needs to be carried out to improve suitable statistical methods.
show moreshow less

Export metadata

  • Export Bibtex
  • Export RIS

Additional Services

    Share in Twitter Search Google Scholar
Metadaten
Author:Claudia Döring
URN:urn:nbn:de:hebis:30-77640
Referee:Dirk Metzler
Document Type:Doctoral Thesis
Language:German
Date of Publication (online):2010/05/28
Year of first Publication:2009
Publishing Institution:Univ.-Bibliothek Frankfurt am Main
Granting Institution:Johann Wolfgang Goethe-Univ.
Date of final exam:2010/05/26
Release Date:2010/05/28
Tag:Affymetrix ; Microarray ; Normalisierung ; Präprozessierung
Affymetrix; Bioinformatics ; gene expression ; microarrays ; normalization
SWD-Keyword:Bioinformatik ; Differentielle Genexpression; Genexpression
HeBIS PPN:223667722
Institutes:Informatik
Dewey Decimal Classification:004 Datenverarbeitung; Informatik
Sammlungen:Universitätspublikationen
Licence (German):License Logo Veröffentlichungsvertrag für Publikationen

$Rev: 11761 $