Analysis of machine learning prediction quality for automated subgroups within the MIMIC III dataset

  • The motivation for this master’s thesis is to explore the potential of predictive data analytics in the field of medicine. For this, the MIMIC-III dataset offers an extensive foundation for the construction of prediction models, including Random Forest, XGBOOST, and deep learning networks. These models were implemented to forecast the mortality of 2,655 stroke patients. The first part of the thesis involved conducting a comprehensive data analysis of the filtered MIMIC-III dataset. Subsequently, the effectiveness and fairness of the predictive models were evaluated. Although the performance levels of the developed models did not match those reported in related research, their potential became evident. The results obtained demonstrated promising capabilities and highlighted the effectiveness of the applied methodologies. Moreover, the feature relevance within the XGBOOST model was examined to increase model explainability. Finally, relevant subgroups were identified to perform a comparative analysis of the prediction performance across these subgroups. While this approach can be regarded as a valuable methodology, it was not possible to investigate underlying reasons for potential unfairness across clusters. Inside the test data, not enough instances remained per subgroup for further fairness or feature relevance analysis. In conclusion, the implementation of an alternative use case with a higher patient count is recommended. The code for this analysis is made available via a GitHub repository and includes a frontend to visualize the results.
  • Das Ziel dieser Masterarbeit ist es, das Potenzial prädiktiver Datenanalyse im Bereich der Medizin zu erforschen. Hierzu bietet MIMIC-III Datensatz eine umfangreiche Grundlage für die Erstellung von Vorhersagemodellen, darunter Random Forest, XGBOOST und Deep-Learning-Netzwerke. Diese Modelle wurden eingesetzt, um die Sterblichkeit von 2.655 Schlaganfallpatienten vorherzusagen. Im ersten Teil der Arbeit wurde eine umfassende Datenanalyse des gefilterten MIMIC-III Datensatz durchgeführt. Anschließend wurden die Effektivität und Fairness der entwickelten Vorhersagemodelle bewertet. Obwohl das Leistungsniveau der entwickelten Modelle nicht an die in verwandten Forschungsarbeiten berichteten Werte heranreichte, wurde ihr Potenzial dennoch deutlich. Die erzielten Ergebnisse zeigten vielversprechende Anwendungsmöglichkeiten auf. Zudem wurde der Einfluss der Features auf das XGBOOST Modell untersucht, um die Erklärbarkeit des Vorhersagemodells zu erhöhen. Schließlich wurden relevante Untergruppen identifiziert, um eine vergleichende Analyse der Vorhersageleistung zwischen diesen Untergruppen durchzuführen. Dieser Ansatz kann zwar als nützliche Methode angesehen werden, doch war es nicht möglich, die Gründe für mögliche Unfairness zwischen den Clustern zu untersuchen. Innerhalb der Testdaten blieben nicht genügend Instanzen pro Untergruppe für eine weitere Fairness- oder Merkmalsrelevanzanalyse übrig. Abschließend wird die Implementierung eines alternativen Anwendungsfalls mit einer höheren Patientenzahl empfohlen. Der Code für diese Analyse wird über ein GitHub-Repository zur Verfügung gestellt und enthält ein Frontend zur Visualisierung der Ergebnisse.

Download full text files

Export metadata

Metadaten
Author:Jakob Vanek
URN:urn:nbn:de:hebis:30:3-835744
Place of publication:Frankfurt am Main
Referee:Lena WieseORCiDGND
Document Type:Master's Thesis
Language:English
Date of Publication (online):2024/04/15
Year of first Publication:2023
Publishing Institution:Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:Johann Wolfgang Goethe-Universität
Date of final exam:2023/07/17
Release Date:2024/04/15
Tag:MIMIC-III; data analysis; machine learning; prediction quality; stroke
Page Number:83
HeBIS-PPN:517148625
Institutes:Informatik und Mathematik / Informatik
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
Sammlungen:Universitätspublikationen
Licence (German):License LogoCreative Commons - CC BY - Namensnennung 4.0 International