Merkmalsextraktion mitochondrialer Targetingsequenzen in Plasmodium falciparum

  • Der Malaria verursachende Organismus Plasmodium falciparum (P. falciparum) besitzt in seinem Kerngenom für die Mitochondrien bestimmte Proteine, die als Transportsignal ein mitochondriales Transitpeptid enthalten. Durch die kürzlich erfolgte Sequenzierung des Genoms von P. falciparum ist es wünschenswert, Vohersagealgorithmen für verschiedene Proteinlokalisationen zur Verfügung zu haben. Für andere Organismen etablierte Programme zur Vorhersage von mitochondrialen Transitpeptiden, MitoProtII und TargetP, lieferten bei Anwendung auf Sequenzen aus P. falciparum nur unbefriedigende Ergebnisse. MitoProtII erzielte in einer 20-fachen Kreuzvalidierung einen Mathews-Koeffizienten von cc = 0,49, TargetP erzielte in diesem Fall einen Mathews-Koeffizienten von cc = 0,60. TargetP erzielte für die Sequenzen aus P. falciparum nur eine Selektivität von 47%, MitoProtII nur eine Sensitivität von 35%. Dieser Ergebnisse haben die Entwicklung eines speziell auf P. falciparum trainierten Vorhersagemodells wünschenswert gemacht. Kerncodierte mitochondriale Precursorproteine aus P. falciparum wurden mit statistischen Methoden, Hauptkomponentenanalyse, selbstorganisierenden Karten und überwachten neuronalen Netzen analysiert und mit solchen aus anderen Organismen verglichen. Zwei Repräsentationen der Datensätze wurden gewählt, Aminosäurehäufigkeiten und 19 physikochemische Eigenschaften. Ein grundsätzlich unterschiedlicher Aminosäuregebrauch konnte festgestellt werden. Glycin, Alanin, Prolin und Arginin werden in P. falciparum mit weniger als 60% der Häufigkeit in der Swiss-Prot-Datenbank, Version 36, verwendet. Isoleucin, Tyrosin, Asparagin und Lysin werden hingegen mit mehr als 150% der Häufigkeit in der Referenzdatenbank verwendet. Diese Häufigkeitsmuster wurden, mit Variationen, auch in allen Targetingsequenzen beobachtet. In der Datenanalyse mittels Hauptkomponentenanalyse und selbstorganisierenden Karten ließen sich cytoplasmatische Proteine in beiden Repräsentationen klar von der Gruppe mitochondrialer, extrazellulärer und apicoplastischer Proteine trennen. Die Trennung innerhalb der zweiten Gruppe war weniger deutlich. Ein neuronales Netz (PlasMit) zur Vorhersage mitochondrialer Transitpeptide in P. falciparum wurde entwickelt. Basierend auf der relativen Aminosäurehäufigkeitsverteilung innerhalb der ersten 24 N-terminalen Aminosäuren lieferte es einen Mathews- Korrelationskoeffizienten von 0,74 (86% korrekt vorhergesagte Sequenzen) in einer 20fachen Kreuzvalidierung. Dieses Netz sagte 2449 (24%) der 10276 vorhergesagten Open Reading Frames aus dem Genom von P. falciparum als mögliche mitochondrial lokalisierte Proteine voraus. Ein Netz mit identischer Topologie wurde auf eine geringere Anzahl falsch-positiver Vorhersagen trainiert und erzielte einen Mathews-Koeffizienten von 0,51 (84% korrekte Vorhersagen) in einer 10fachen Kreuzvalidierung. Dieses Netz sagte 903 (8,8%) potentielle mitochondriale Precursorproteine unter den 10276 vorhergesagten Open Reading Frames voraus. Sämtliche Trainingsdatensätze, die Open Reading Frames des Genoms von P. falciparum, sowie das Netz, das den höchsten Mathews-Koeffizienten erzielt hat, sind per Web unter http://www.modlab.de, Menüpunkt PlasMit, erreichbar.
  • The malaria causing protozoan Plasmodium falciparum (P. falciparum) contains mitochondrial genes encoded in its nuclear genome. With the recent sequence completion of its genome, it is desirable to have software tools at hand for prediction of subcellular locations for all proteins. Established tools for the prediction of mitochondrial transit peptides like MitoProtII and TargetP were shown to perform poorly when applied to P. falciparum sequences. Therefore, methods specifically designed for this organism had to be developed. Nuclear-encoded mitochondrial protein precursors of P. falciparum were analyzed by statistical methods, principal component analysis, self-organizing maps and supervised neural networks and compared to those of other eukaryotes. Two types of descriptions were used, namely relative amino acid frequencies and 19 physicochemical properties. A general distinct amino acid usage pattern has been found in P. falciparum, compared to that of other organisms. Glycine, Alanine, Proline and Arginine are underrepresented, whereas Isoleucine, Tyrosine, Asparagine and Lysine are overrepresented, compared to the Swiss-Prot database, Version 36. These patterns were, with variations, also observed in all targeting sequences considered. Using Principal Component Analysis and Self-Organizing Maps, cytosolic Nterminal sequences showed considerable differences to mitochondrial, extracellular and apicoplastical targeting sequences, where the latter were difficult to distinguish from each other. A neural network system (PlasMit) for prediction of mitochondrial transit peptides in P. falciparum was developed based on the relative amino acid frequency in the first 24 Nterminal amino acids, yielding a Matthews correlation coefficient of 0.74 (86% correct prediction) in a 20-fold cross-validation study. This system predicted 2449 (24%) mitochondrial genes, based on 10276 predicted open reading frames in the P. falciparum genome. A network with the same topology has been trained to give a lower numer of false positive sequences in the training set. This second, more stringent network achieved a Mathews correlation coefficient of 0.51 (84% correct prediction) in a 10-fold cross-validation study. It predicted 903 (8.8%) mitochondrial genes, based on 10276 predicted open reading frames in the P. falciparum genome.

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Andreas Bender
URN:urn:nbn:de:hebis:30-11929
URL:http://gecco.org.chemie.uni-frankfurt.de/plasmit/references.html
Advisor:Gisbert Schneider
Document Type:diplomthesis
Language:German
Year of Completion:2002
Year of first Publication:2002
Publishing Institution:Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:Johann Wolfgang Goethe-Universität
Release Date:2005/06/30
HeBIS-PPN:185391222
Institutes:Biochemie, Chemie und Pharmazie / Biochemie und Chemie
Dewey Decimal Classification:5 Naturwissenschaften und Mathematik / 54 Chemie / 540 Chemie und zugeordnete Wissenschaften
Licence (German):License LogoDeutsches Urheberrecht