Refine
Document Type
- Doctoral Thesis (3)
Language
- German (3)
Has Fulltext
- yes (3)
Is part of the Bibliography
- no (3)
Keywords
Institute
Um den aktuellen Bildungsstand einer Gesellschaft abbilden zu können müssen Resultate von Bildungsprozessen, wie erworbenes Wissen oder ausgebildete Fähigkeiten, modelliert und gemessen werden (Leutner, Klieme, Fleischer & Kuper, 2013). Im Rahmen sogenannter Large-Scale-Assessments (LSAs) werden Kompetenzen in bestimmten Bereichen definiert und erfasst, die generell für die gesellschaftliche Teilhabe benötigen werden (bspw. Fraillon, Schulz & Ainley, 2013). Durch die fortschreitende Digitalisierung aller Lebens- und Arbeitsbereiche ist der kompetente Umgang mit Informations- und Kommunikationstechnologien (ICT) eine wichtige Voraussetzung für die erfolgreiche Teilhabe an unserer modernen Wissensgesellschaft. Die detaillierte Beschreibung solcher, auch als ICT-Skills bezeichneter Kompetenzen, und die Entwicklung von theoriebasierten Instrumenten zu deren Erfassung ist von großer Bedeutung, um mögliche sozial bedingte Disparitäten aufzudecken.
Im Rahmen der vorliegenden Arbeit werden Annahmen, Ergebnisse und Daten aus dem Projekt CavE-ICT, in dem verhaltensnahe simulationsbasierte Items zur Erfassung von ICT-Skills entwickelt wurden, aufgegriffen und weitergenutzt mit dem Ziel eine besonders effiziente und ökonomisch Messung von ICT-Skills im LSA-Kontext und darüber hinaus zu ermöglichen. Ein vielversprechender Ansatz durch den Testzeiten verkürzt und/oder die Messpräzision erhöht werden kann ist das computerisierte adaptive Testen (CAT; bspw. Frey, 2012). Beim adaptiven Testen orientiert sich die Auswahl der Items am Antwortverhalten der untersuchten Person, so dass durch die Berücksichtigung der individuellen Fähigkeit einer Person Items mit möglichst viel diagnostischer Information administriert werden können. Damit auch bei der Vorgabe unterschiedlicher Items in unterschiedlicher Reihenfolge Testleistungen von Personen miteinander verglichen werden können, stellen Modelle der Item-Response-Theorie (IRT; bspw. Hambleton & Swaminathan, 2010) die Basis der Anwendung von CAT dar.
Im Rahmen dieser Arbeit wurde untersucht, wie ICT-Skills auf Basis der Item-Response-Theorie und unter Einsatz computerisierter Messinstrumente erfasst werden können. Dabei setzten die empirischen Studien dieser Arbeit unterschiedliche Testformen um und an unterschiedlichen Punkten im Prozess der Testentwicklung an. Studie I setzt noch vor der Entwicklung von Items zur Messung von ICT-Skills an und zielt darauf ab Hinweise zum Umfang des zu erstellenden ICT-Itempools und zur Testlänge eines adaptiven Messinstruments bereitzustellen. Studie II baut direkt auf Studie I auf und nutzt die im Rahmen des Projekts CavE-ICT entwickelten und kalibrierten Items beziehungsweise ihre ermittelten Itemeigenschaften zur weiteren Erprobung verschiedener CAT-Algorithmen. Es werden Möglichkeiten aufgezeigt, wie multidimensionales adaptives Testen zur Messung von ICT-Skills gewinnbringend eingesetzt werden kann, und zudem eine differenzierte Messung auf Ebene der verschiedenen kognitiven Prozesse von ICT-Skills erlaubt. Dabei werden explizit Möglichkeiten exploriert Items die unterschiedliche kognitive Prozesse von ICT-Skills abbilden sequentiell geordnet und trotzdem adaptiv vorzulegen. Die durch Studie II erarbeiteten Erkenntnisse können insbesondere für die Erfassung von multidimensionalen Konstrukten oder facettierten Merkmalen in LSAs genutzt werden. Durch den Vergleich der Ergebnisse von Studie I und II ergeben sich zudem Implikationen für ein angemessenes Design von Simulationsstudien die insbesondere noch vor der eigentlichen Test- beziehungsweise Itementwicklung ansetzen. In Studie III werden lineare Kurztests zur Messung von ICT-Skills zusammengestellt. Durch die gezielte Auswahl geeigneter ICT-Items soll bei möglichst geringer Testzeit zugleich eine hohe Messgenauigkeit und Zuverlässigkeit realisiert werden. Die in Studie III manuell und automatisiert computerbasiert zusammengestellten Tests werden hinsichtlich des Einsatzes sowohl auf Populationsebene, im Sinne einschlägiger LSAs, als auch darüber hinaus für gruppen- und individualdiagnostische Zwecke evaluiert und Empfehlungen für den Kurztesteinsatz abgeleitet.
Diese Dissertation befasst sich mit Validierungsstrategien von Tests zur Erfassung studentischer Kompetenzen. Kompetenzen von Studierenden werden zu verschiedenen Zwecken erhoben. Dies beginnt beim Eintritt in das Studium durch Zulassungstests und wird im Studium fortgesetzt z.B. durch Tests zur Zertifizierung von Kompetenz (Benotung von Leistung) oder zur Zuteilung auf bestimmte Kurse (Einteilung in Sprachniveaus). Neben diesen internen Tests zur Erfassung studentischer Kompetenzen werden auch externe Tests genutzt um etwa die Lehre zu verbessern (Evaluation von Veranstaltungen). Die mit dem Einsatz von Tests verbundenen Konsequenzen können sowohl für Studierende als auch Lehrpersonen und Entscheidungsträger*innen schwerwiegend sein. Daher sollten Tests wissenschaftlichen Gütekriterien genügen.
Das wichtigste Kriterium für die Beurteilung von wissenschaftlichen Tests ist Validität. In dieser Dissertation wird ein argumentationsbasiertes Validierungsansatz verfolgt. In diesem wird nicht die Validität eines Tests untersucht, sondern die Plausibilität der Interpretation beurteilt, die mit den Testwerten verbunden ist. Bislang fehlt jedoch für viele der wissenschaftlichen Tests für den deutschen Hochschulbereich ein auf die Testwertinterpretation abgestimmtes Validitätskonzept.
In dieser Arbeit wird ein Validierungsschema vorgestellt, in das übliche Testnutzen der Erfassung studentischer Kompetenzen an deutschen Hochschulen eingeordnet werden können. Die Einordnung von Testnutzen in das Schema erlaubt die Ableitung von passenden Validitätsevidenzen. Im Fokus stehen das Verhältnis von Test zu 1) Konstrukt, 2) Lehre und 3) beruflichen Anforderungen.
Das Validierungsschema wird angewandt, um Testwertinterpretationen eines empirischen Forschungsprojektes zur Erfassung von Kompetenz in Nachhaltigkeitsmanagement bei Studierenden zu validieren. Der Schwerpunkt dieser Arbeit liegt auf der Validierung der Interpretation, dass die Testwerte von drei nachhaltigkeitsbezogenen Tests Indikatoren für hochschulisch vermittelte Kompetenz in Nachhaltigkeitsmanagement sind. Die Analysen zur Gewinnung von Validitätsevidenzen konzentrieren sich auf die Grundannahme, dass Lernfortschritte in den nachhaltigkeitsbezogenen Tests vorwiegend hochschulisch vermittelt werden. Dafür wurde ein Messwiederholungsdesign mit zwei Gruppen von Studierenden realisiert. Studierende in der Schwerpunktgruppe besuchten ein Semester lang eine reguläre Lehrveranstaltungen mit Bezug zu Nachhaltigkeitsthemen und Nachhaltigkeitsmanagement, Studierende der Kontrollgruppe besuchten keine solchen Lehrveranstaltung. Die Einteilung in Schwerpunkgruppe und Kontrollgruppe erfolgte über Analyse von Modulhandbüchern und verwendeten Lehrmaterialien. Die Ergebnisse zeigen, dass Studierende aus der Schwerpunktgruppe in zwei der drei Tests höhere Lernfortschritte zeigen als Studierende der Kontrollgruppe. Selbstberichte der Studierenden zu hochschulischen und außerhochschulischen Lerngelegenheiten lassen darauf schließen, dass Studierende der Schwerpunkgruppe auch außerhochschulisch ein höheres Interesse an Nachhaltigkeitsthemen zeigen, dies schlägt sich jedoch nicht in höherem Vorwissen in den verwendeten Tests nieder. Insgesamt wird daher für die zwei Tests mit höheren Lernfortschritten in der Schwerpunktgruppe die Interpretation als plausibel bewertet, dass die Testwerte hochschulisch vermittelte Kompetenz in Nachhaltigkeitsmanagement abbilden.
Im Rahmen der fortschreitenden Digitalisierung der Hochschullehre finden auch verstärkt elektronische Prüfungsformate Eingang in den Alltag von Hochschulen. Insbesondere elektronische Abschlussklausuren (E-Klausuren) bieten hier die Möglichkeit, die Prüfungsbelastung Hochschulehrender durch die Automatisierung weiter Teile der Klausurkonstruktion, -administration und -auswertung zu reduzieren. Die Integration digitaler Technologien in die Prüfungspraxis deutscher Hochschulen ermöglicht dabei nicht nur eine ökonomische Klausurkonstruktion, realitätsnähere Klausuren (z. B. durch die Nutzung fachspezifischer Standardsoftware), und den Einsatz innovativer Testbausteine (z. B. Integration von Multimediadateien in Items), sondern auch die Nutzung aktueller psychometrischer Methoden. Insbesondere die Konstruktion von Hochschulklausuren als kriteriumsorientierte, adaptive Tests (z. B. Spoden & Frey, 2021), hat das Potential Hochschulklausuren individualisierter, messpräzisier und fairer zu machen, sowie die Validität der aus der Klausurbearbeitung abgeleiteten Testwertinterpretationen zu steigern. Um kriteriumsorientierte, adaptive Hochschulklausuren in der Breite nutzbar zu machen, müssen allerdings zuvor einige Herausforderungen gemeistert werden, denen sich diese Arbeit widmet. Die in den vier Einzelarbeiten dieser Dissertation betrachteten Herausforderungen lassen sich auf einer psychometrischen, einer personalen und einer technischen Ebene verorten.
Auf der psychometrischen Ebene ist eine zentrale Herausforderung die ökonomische Kalibrierung des Itempools. Üblicherweise wird bei der Konstruktion adaptiver Tests eine dreistellige Anzahl an Items konstruiert und mittels einer separaten Kalibrierungsstudie im Vorlauf der operationalen Testanwendung mit mehreren hundert Testpersonen kalibriert. Die massierte Konstruktion vieler Items und die Durchführung einer zusätzlichen empirischen Studie lässt sich im Rahmen von Hochschulklausuren nur schwer realisieren. Im ersten Einzelbeitrag wird daher eine neuartige kontinuierliche Kalibrierungsstrategie (KKS) vorgestellt und im Rahmen einer Monte-Carlo-Simulation hinsichtlich ihrer psychometrischen Eigenschaften geprüft. Zusammenfassend ermöglicht die KKS, adaptive Tests während wiederkehrender Testanwendungen bei konstanter Berichtsmetrik, Kontrolle von Itemparameter-Drift und fortlaufender Ergänzung des Itempools zu kalibrieren. Es zeigt sich, dass die KKS selbst für sehr kleine Stichproben eine geeignete Methode darstellt, den Itempool über mehrere Testanwendungen hinweg fortlaufend zu kalibrieren.
Um die Berichtsmetrik dabei über die verschiedenen Testanwendungen hinweg konstant zu halten, und somit Vergleichbarkeit der Ergebnisse verschiedener Testzeitpunkte (z. B. Semester) zu gewährleisten, nutzt die KKS Equating-Methoden (z. B. Kolen & Brennan, 2014) zum Herstellen einer statistischen Verbindung zwischen Klausurdurchläufen. Die Qualität dieser statistischen Verbindung hängt dabei von verschiedenen Parametern ab. Im zweiten Einzelbeitrag werden daher verschiedene Konfigurationen der in die KKS implementierten Equating-Prozedur hinsichtlich ihres Einflusses auf die Qualität der Parameterschätzungen im Rahmen einer Monte-Carlo-Simulation untersucht und auf Basis der Ergebnisse praktische Empfehlungen abgleitet. Hierfür werden unter anderem die Schwierigkeitsverteilung der genutzten Linkitems sowie die verwendete Skalentransformationsmethode variiert. Es zeigt sich, dass die KKS unter verschiedenen Konfigurationen in der Lage ist, die Skala über mehrere Testzyklen hinweg konstant zu halten. Normal- beziehungsweise gleichverteile Schwierigkeitsverteilungen der Linkitems sowie die Stocking-Lord-Skalentransformationsmethode (Stocking & Lord, 1983) erweisen sich hierbei am vorteilhaftesten.
Auf personaler Ebene stellt die Akzeptanz seitens der Hochschullehrenden einen kritischen Erfolgsfaktor für die Implementation neuer E-Learning Systeme in Lehrveranstaltungen dar. Angelehnt an Technologieakzeptanzmodellen (z. B. Technology Acceptance Model; Davis, 1989) wird im dritten Einzelbeitrag ein empirisch prüfbares Modell – das Technology-based Exams Acceptance Model (TEAM) – zur Vorhersage der Intention zur Nutzung von adaptiven und nicht-adaptiven E-Klausursystemen seitens Hochschullehrender vorgeschlagen und anhand der Daten von N = 993 deutschen Hochschullehrenden empirisch geprüft. Das postulierte Modell weist einen guten Modellfit auf. Die Ergebnisse weisen die wahrgenommene Nützlichkeit als Schlüsselprädiktor für die Nutzungsintention aus. Medienbezogene Variablen haben indirekte Effekte auf die wahrgenommene Nützlichkeit, mediiert über vorherige Nutzungserfahrungen mit Bildungstechnologien. Darüber hinaus spielt die subjektive Norm eine wichtige Rolle bei der Erklärung der Akzeptanz von E-Klausuren...