TY - THES A1 - Vanek, Jakob T1 - Analysis of machine learning prediction quality for automated subgroups within the MIMIC III dataset N2 - The motivation for this master’s thesis is to explore the potential of predictive data analytics in the field of medicine. For this, the MIMIC-III dataset offers an extensive foundation for the construction of prediction models, including Random Forest, XGBOOST, and deep learning networks. These models were implemented to forecast the mortality of 2,655 stroke patients. The first part of the thesis involved conducting a comprehensive data analysis of the filtered MIMIC-III dataset. Subsequently, the effectiveness and fairness of the predictive models were evaluated. Although the performance levels of the developed models did not match those reported in related research, their potential became evident. The results obtained demonstrated promising capabilities and highlighted the effectiveness of the applied methodologies. Moreover, the feature relevance within the XGBOOST model was examined to increase model explainability. Finally, relevant subgroups were identified to perform a comparative analysis of the prediction performance across these subgroups. While this approach can be regarded as a valuable methodology, it was not possible to investigate underlying reasons for potential unfairness across clusters. Inside the test data, not enough instances remained per subgroup for further fairness or feature relevance analysis. In conclusion, the implementation of an alternative use case with a higher patient count is recommended. The code for this analysis is made available via a GitHub repository and includes a frontend to visualize the results. N2 - Das Ziel dieser Masterarbeit ist es, das Potenzial prädiktiver Datenanalyse im Bereich der Medizin zu erforschen. Hierzu bietet MIMIC-III Datensatz eine umfangreiche Grundlage für die Erstellung von Vorhersagemodellen, darunter Random Forest, XGBOOST und Deep-Learning-Netzwerke. Diese Modelle wurden eingesetzt, um die Sterblichkeit von 2.655 Schlaganfallpatienten vorherzusagen. Im ersten Teil der Arbeit wurde eine umfassende Datenanalyse des gefilterten MIMIC-III Datensatz durchgeführt. Anschließend wurden die Effektivität und Fairness der entwickelten Vorhersagemodelle bewertet. Obwohl das Leistungsniveau der entwickelten Modelle nicht an die in verwandten Forschungsarbeiten berichteten Werte heranreichte, wurde ihr Potenzial dennoch deutlich. Die erzielten Ergebnisse zeigten vielversprechende Anwendungsmöglichkeiten auf. Zudem wurde der Einfluss der Features auf das XGBOOST Modell untersucht, um die Erklärbarkeit des Vorhersagemodells zu erhöhen. Schließlich wurden relevante Untergruppen identifiziert, um eine vergleichende Analyse der Vorhersageleistung zwischen diesen Untergruppen durchzuführen. Dieser Ansatz kann zwar als nützliche Methode angesehen werden, doch war es nicht möglich, die Gründe für mögliche Unfairness zwischen den Clustern zu untersuchen. Innerhalb der Testdaten blieben nicht genügend Instanzen pro Untergruppe für eine weitere Fairness- oder Merkmalsrelevanzanalyse übrig. Abschließend wird die Implementierung eines alternativen Anwendungsfalls mit einer höheren Patientenzahl empfohlen. Der Code für diese Analyse wird über ein GitHub-Repository zur Verfügung gestellt und enthält ein Frontend zur Visualisierung der Ergebnisse. KW - data analysis KW - machine learning KW - prediction quality KW - MIMIC-III KW - stroke Y1 - 2024 UR - http://publikationen.ub.uni-frankfurt.de/frontdoor/index/index/docId/83574 UR - https://nbn-resolving.org/urn:nbn:de:hebis:30:3-835744 CY - Frankfurt am Main ER -