004 Datenverarbeitung; Informatik
Refine
Document Type
- Doctoral Thesis (2) (remove)
Language
- German (2)
Has Fulltext
- yes (2)
Is part of the Bibliography
- no (2)
Institute
- Psychologie und Sportwissenschaften (2) (remove)
Um den aktuellen Bildungsstand einer Gesellschaft abbilden zu können müssen Resultate von Bildungsprozessen, wie erworbenes Wissen oder ausgebildete Fähigkeiten, modelliert und gemessen werden (Leutner, Klieme, Fleischer & Kuper, 2013). Im Rahmen sogenannter Large-Scale-Assessments (LSAs) werden Kompetenzen in bestimmten Bereichen definiert und erfasst, die generell für die gesellschaftliche Teilhabe benötigen werden (bspw. Fraillon, Schulz & Ainley, 2013). Durch die fortschreitende Digitalisierung aller Lebens- und Arbeitsbereiche ist der kompetente Umgang mit Informations- und Kommunikationstechnologien (ICT) eine wichtige Voraussetzung für die erfolgreiche Teilhabe an unserer modernen Wissensgesellschaft. Die detaillierte Beschreibung solcher, auch als ICT-Skills bezeichneter Kompetenzen, und die Entwicklung von theoriebasierten Instrumenten zu deren Erfassung ist von großer Bedeutung, um mögliche sozial bedingte Disparitäten aufzudecken.
Im Rahmen der vorliegenden Arbeit werden Annahmen, Ergebnisse und Daten aus dem Projekt CavE-ICT, in dem verhaltensnahe simulationsbasierte Items zur Erfassung von ICT-Skills entwickelt wurden, aufgegriffen und weitergenutzt mit dem Ziel eine besonders effiziente und ökonomisch Messung von ICT-Skills im LSA-Kontext und darüber hinaus zu ermöglichen. Ein vielversprechender Ansatz durch den Testzeiten verkürzt und/oder die Messpräzision erhöht werden kann ist das computerisierte adaptive Testen (CAT; bspw. Frey, 2012). Beim adaptiven Testen orientiert sich die Auswahl der Items am Antwortverhalten der untersuchten Person, so dass durch die Berücksichtigung der individuellen Fähigkeit einer Person Items mit möglichst viel diagnostischer Information administriert werden können. Damit auch bei der Vorgabe unterschiedlicher Items in unterschiedlicher Reihenfolge Testleistungen von Personen miteinander verglichen werden können, stellen Modelle der Item-Response-Theorie (IRT; bspw. Hambleton & Swaminathan, 2010) die Basis der Anwendung von CAT dar.
Im Rahmen dieser Arbeit wurde untersucht, wie ICT-Skills auf Basis der Item-Response-Theorie und unter Einsatz computerisierter Messinstrumente erfasst werden können. Dabei setzten die empirischen Studien dieser Arbeit unterschiedliche Testformen um und an unterschiedlichen Punkten im Prozess der Testentwicklung an. Studie I setzt noch vor der Entwicklung von Items zur Messung von ICT-Skills an und zielt darauf ab Hinweise zum Umfang des zu erstellenden ICT-Itempools und zur Testlänge eines adaptiven Messinstruments bereitzustellen. Studie II baut direkt auf Studie I auf und nutzt die im Rahmen des Projekts CavE-ICT entwickelten und kalibrierten Items beziehungsweise ihre ermittelten Itemeigenschaften zur weiteren Erprobung verschiedener CAT-Algorithmen. Es werden Möglichkeiten aufgezeigt, wie multidimensionales adaptives Testen zur Messung von ICT-Skills gewinnbringend eingesetzt werden kann, und zudem eine differenzierte Messung auf Ebene der verschiedenen kognitiven Prozesse von ICT-Skills erlaubt. Dabei werden explizit Möglichkeiten exploriert Items die unterschiedliche kognitive Prozesse von ICT-Skills abbilden sequentiell geordnet und trotzdem adaptiv vorzulegen. Die durch Studie II erarbeiteten Erkenntnisse können insbesondere für die Erfassung von multidimensionalen Konstrukten oder facettierten Merkmalen in LSAs genutzt werden. Durch den Vergleich der Ergebnisse von Studie I und II ergeben sich zudem Implikationen für ein angemessenes Design von Simulationsstudien die insbesondere noch vor der eigentlichen Test- beziehungsweise Itementwicklung ansetzen. In Studie III werden lineare Kurztests zur Messung von ICT-Skills zusammengestellt. Durch die gezielte Auswahl geeigneter ICT-Items soll bei möglichst geringer Testzeit zugleich eine hohe Messgenauigkeit und Zuverlässigkeit realisiert werden. Die in Studie III manuell und automatisiert computerbasiert zusammengestellten Tests werden hinsichtlich des Einsatzes sowohl auf Populationsebene, im Sinne einschlägiger LSAs, als auch darüber hinaus für gruppen- und individualdiagnostische Zwecke evaluiert und Empfehlungen für den Kurztesteinsatz abgeleitet.
Die vorliegende Dissertation befasst sich mit dem Umstieg von papierbasiertem (PBA) auf computerbasiertes Assessment (CBA), insbesondere in Large-Scale-Studien. In der Bildungsforschung war Papier lange Zeit das Medium für Assessments, im Zuge des digitalen Zeitalters erhält der Computer aber auch hier Einzug. So sind die großen Bildungsvergleichsstudien, wie PISA (Programme for International Student Assessment) oder PIAAC (Programme for the International Assessment of Adult Competencies), und nationalen Studien über Bildungsverläufe und -entwicklungen im Rahmen des NEPS (Nationales Bildungspanel) bereits umgestiegen oder befinden sich im Prozesses des Umstiegs von PBA auf CBA. Findet innerhalb dieser Studien ein Moduswechsel statt, dann muss die Vergleichbarkeit zwischen den Ergebnissen der unterschiedlichen Administrationsmodi gewährleistet werden. Unterschiede in den Eigenschaften der Modi, wie beispielsweise im Antwortformat, können sich dabei auf die psychometrischen Eigenschaften der Tests auswirken und zu sogenannten Modus Effekten führen. Diese Effekte wiederum können sich in Unterschieden zwischen den Testscores widerspiegeln, sodass diese nicht mehr direkt miteinander vergleichbar sind. Die zentrale Frage dabei ist, ob es durch den Moduswechsel zu einer Veränderung des gemessenen Konstruktes kommt. Ist dies der Fall, so können Testergebnisse aus unterschiedlichen Administrationsmodi nicht miteinander verglichen und die Ergebnisse aus dem computerbasierten Test nicht analog zu den Ergebnissen aus dem papierbasierten Test interpretiert werden. Auch Veränderungen, die aus Messungen zu verschiedenen Zeitpunkten und mit unterschiedlichen Modi resultieren, lassen sich dann nicht mehr beschreiben. Es kann jedoch auch Modus Effekte geben, die zwar nicht das gemessene Konstrukt betreffen, aber sich beispielsweise in der Schwierigkeit der Items niederschlagen. Solange aber das erfasste Konstrukt bei einem Moduswechsel unverändert bleibt, können diese Modus Effekte bei der Berechnung der Testscores berücksichtigt und die Vergleichbarkeit gewährleistet werden. Somit ist, nicht nur im Hinblick auf gültige Trendschätzungen, der Analyse von Modus-Effekten ein hoher Stellenwert beizumessen. Da die bisherige Befundlage in der Literatur zu Modus-Effekten sowohl hinsichtlich der Stärke der gefundenen Effekte, als auch in Bezug auf die verwendeten Methoden sehr heterogen ist, ist das Ziel des ersten Beitrags dieser publikationsbasierten Dissertation, eine Anleitung für eine systematische Durchführung einer Äquivalenzuntersuchung, speziell für Large-Scale Assessments, zu geben. Dabei wird die exemplarisch dargelegte Modus-Effekt-Analyse anhand von zuvor definierten und in ihrer Bedeutsamkeit belegten Kriterien auf der Test- und Item-Ebene illustriert. Zudem wird die Möglichkeit beschrieben, auftretende Effekte anhand von Eigenschaften des Administrationsmodus’, beispielsweise des Antwortformats oder der Navigationsmöglichkeiten innerhalb des Tests, zu erklären. Im zweiten und dritten Beitrag findet sich jeweils eine empirische Anwendung der im ersten Beitrag beschriebenen schematischen Modus-Effekt-Analyse mit unterschiedlicher Schwerpunktsetzung. Dazu wurden die Daten eines Leseverständnistests aus der Nationalen Begleitforschung von PISA 2012 sowie zweier Leseverständnistests im NEPS, die jeweils sowohl papier- als auch computerbasiert administriert wurden, analysiert. Das Kriterium der Konstrukt-Äquivalenz steht dabei als wichtigstes Äquivalenz-Kriterium im Fokus. Zusätzlich wurde Äquivalenz in Bezug auf die Reliabilität und die Item-Parameter (Schwierigkeit und Diskrimination) untersucht. Im zweiten Beitrag wurden darüber hinaus interindividuelle Unterschiede im Modus-Effekt in Bezug zu basalen Computerfähigkeiten und zum Geschlecht gesetzt. Der dritte Beitrag fokussiert die Item-Eigenschaften, die als mögliche Quellen von Modus-Effekten herangezogen werden können und bezieht diese zur Erklärung von Modusunterschieden in die Analyse mit ein. In beiden Studien wurde keine Evidenz gefunden, dass sich das Konstrukt bei einem Wechsel des Administrationsmodus ändert. Lediglich einzelne Items wiesen am Computer im Vergleich zum PBA eine erhöhte Schwierigkeit auf, wobei sich der größte Teil der Items als invariant zwischen den Modi erwies. Für zwei Item-Eigenschaften wurde ein Effekt auf die erhöhte Schwierigkeit der Items am Computer gefunden. Interindividuelle Unterschiede im Modus-Effekt konnten nicht durch basale Computerfähigkeiten oder das Geschlecht erklärt werden.
Diese Dissertation leistet einen wesentlichen Beitrag zur Systematisierung von Äquivalenzuntersuchungen, insbesondere solchen in Large-Scale Assessments, indem sie die wesentlichen Kriterien für die Beurteilung von Äquivalenz herausstellt und diskutiert sowie deren Analyse methodisch aufbereitet. Die Relevanz von Modus-Effekt Studien wird dabei nicht zuletzt durch die Ergebnisse der beiden empirischen Beiträge hervorgehoben. Schließlich wird der Bedeutung des Einbezugs von Item-Eigenschaften hinsichtlich der Beurteilung der Äquivalenz Ausdruck verliehen.