Refine
Document Type
- Doctoral Thesis (5)
Language
- German (5)
Has Fulltext
- yes (5)
Is part of the Bibliography
- no (5)
Keywords
- Hochschulklausuren (1)
- Item Response Theory (1)
- Lehrevaluation (1)
- Validität (1)
- computerisiertes adaptives Teste (1)
- instructional sensitivity (1)
- mathematics (1)
- motivation (1)
- testitem (1)
- validity (1)
Institute
Studentische Lehrevaluationsergebnisse sind ein weit verbreitetes Maß, um die Qualität universitärer Lehre zu erfassen. Diese Ergebnisse werden unter anderem dafür genutzt, Entscheidungen für die Modifikation des Lehrangebots zu treffen oder die Vergabe der Leistungsorientieren Mittelvergabe mitzubestimmen. Aufgrund dieser relevanten Folgen wird in dieser Arbeit der Frage nachgegangen, wie ein angemessener Validierungsprozess bezüglich studentischer Lehrevaluationsergebnisse gestaltet werden könnte.
Bisherige Validierungsstudien zu studentischen Lehrevaluationsinventaren fokussierten sich meist auf die Überprüfung verschiedener Validitätsarten (inhaltsbezogene, kriteriumsbezogene oder faktorielle) und die Erfassung der Messfehlerfreiheit.
Allerdings ist zum einen zu hinterfragen, ob diese Ansätze grundsätzlich für alle Inventare geeignet sind. Weiterhin hat sich das Verständnis von dem verändert, was unter Validität verstanden wird: Von der Annahme von Validität als Testeigenschaft, verschiedener Validitätsarten und binärer Aussagen auf Basis von Einzelbefunden hin zu dem Verständnis von Validität bezogen auf die Testwert-Interpretation und Verwendung, zu einem einheitlichen Validitätskonzept und zu einer Validitäts-Argumentation. Diese Veränderungen werden in den neueren argumentationsbasierten Validitätsansätzen berücksichtigt und bieten einen Rahmen, der auf die jeweilige Intention ausgerichtet ist, einen Test oder Fragebogen einzusetzen.
Auf Grundlage dieser argumentationsbasierten Ansätze wird in dieser Arbeit die Interpretation studentischer Lehrevaluationsergebnisse überprüft, die als das Ausmaß an qualitätsbezogener Zufriedenheit der Teilnehmer mit der Durchführung einer Lehrveranstaltung und der Vermittlung von Lehrinhalten angesehen werden. Der Validierungsprozess wird anhand der Lehrevaluationsdaten des Frankfurter Promotionskollegs am Fachbereich Medizin dargestellt. Dieser Prozess bestätigte weitgehend die beabsichtigte Interpretation, zeigte aber auch eine zumindest teilweise Revision des Inventars und eine weitere Überprüfung an. Eine Validierung bezüglich der Verwendung der Lehrevaluationsergebnisse sowie der auf diesen basierenden beabsichtigten Konsequenzen wird in einer Folgestudie überprüft.
Anhand dieser Arbeit wird Anwendern und Entwicklern von Lehrevaluationsinventaren eine Her- und Anleitung für den Validierungsprozess gegeben und die Vorteile argumentationsbasierter Ansätze aufgezeigt.
Diese Dissertation befasst sich mit Validierungsstrategien von Tests zur Erfassung studentischer Kompetenzen. Kompetenzen von Studierenden werden zu verschiedenen Zwecken erhoben. Dies beginnt beim Eintritt in das Studium durch Zulassungstests und wird im Studium fortgesetzt z.B. durch Tests zur Zertifizierung von Kompetenz (Benotung von Leistung) oder zur Zuteilung auf bestimmte Kurse (Einteilung in Sprachniveaus). Neben diesen internen Tests zur Erfassung studentischer Kompetenzen werden auch externe Tests genutzt um etwa die Lehre zu verbessern (Evaluation von Veranstaltungen). Die mit dem Einsatz von Tests verbundenen Konsequenzen können sowohl für Studierende als auch Lehrpersonen und Entscheidungsträger*innen schwerwiegend sein. Daher sollten Tests wissenschaftlichen Gütekriterien genügen.
Das wichtigste Kriterium für die Beurteilung von wissenschaftlichen Tests ist Validität. In dieser Dissertation wird ein argumentationsbasiertes Validierungsansatz verfolgt. In diesem wird nicht die Validität eines Tests untersucht, sondern die Plausibilität der Interpretation beurteilt, die mit den Testwerten verbunden ist. Bislang fehlt jedoch für viele der wissenschaftlichen Tests für den deutschen Hochschulbereich ein auf die Testwertinterpretation abgestimmtes Validitätskonzept.
In dieser Arbeit wird ein Validierungsschema vorgestellt, in das übliche Testnutzen der Erfassung studentischer Kompetenzen an deutschen Hochschulen eingeordnet werden können. Die Einordnung von Testnutzen in das Schema erlaubt die Ableitung von passenden Validitätsevidenzen. Im Fokus stehen das Verhältnis von Test zu 1) Konstrukt, 2) Lehre und 3) beruflichen Anforderungen.
Das Validierungsschema wird angewandt, um Testwertinterpretationen eines empirischen Forschungsprojektes zur Erfassung von Kompetenz in Nachhaltigkeitsmanagement bei Studierenden zu validieren. Der Schwerpunkt dieser Arbeit liegt auf der Validierung der Interpretation, dass die Testwerte von drei nachhaltigkeitsbezogenen Tests Indikatoren für hochschulisch vermittelte Kompetenz in Nachhaltigkeitsmanagement sind. Die Analysen zur Gewinnung von Validitätsevidenzen konzentrieren sich auf die Grundannahme, dass Lernfortschritte in den nachhaltigkeitsbezogenen Tests vorwiegend hochschulisch vermittelt werden. Dafür wurde ein Messwiederholungsdesign mit zwei Gruppen von Studierenden realisiert. Studierende in der Schwerpunktgruppe besuchten ein Semester lang eine reguläre Lehrveranstaltungen mit Bezug zu Nachhaltigkeitsthemen und Nachhaltigkeitsmanagement, Studierende der Kontrollgruppe besuchten keine solchen Lehrveranstaltung. Die Einteilung in Schwerpunkgruppe und Kontrollgruppe erfolgte über Analyse von Modulhandbüchern und verwendeten Lehrmaterialien. Die Ergebnisse zeigen, dass Studierende aus der Schwerpunktgruppe in zwei der drei Tests höhere Lernfortschritte zeigen als Studierende der Kontrollgruppe. Selbstberichte der Studierenden zu hochschulischen und außerhochschulischen Lerngelegenheiten lassen darauf schließen, dass Studierende der Schwerpunkgruppe auch außerhochschulisch ein höheres Interesse an Nachhaltigkeitsthemen zeigen, dies schlägt sich jedoch nicht in höherem Vorwissen in den verwendeten Tests nieder. Insgesamt wird daher für die zwei Tests mit höheren Lernfortschritten in der Schwerpunktgruppe die Interpretation als plausibel bewertet, dass die Testwerte hochschulisch vermittelte Kompetenz in Nachhaltigkeitsmanagement abbilden.
Die vorliegende Dissertation befasst sich mit dem Umstieg von papierbasiertem (PBA) auf computerbasiertes Assessment (CBA), insbesondere in Large-Scale-Studien. In der Bildungsforschung war Papier lange Zeit das Medium für Assessments, im Zuge des digitalen Zeitalters erhält der Computer aber auch hier Einzug. So sind die großen Bildungsvergleichsstudien, wie PISA (Programme for International Student Assessment) oder PIAAC (Programme for the International Assessment of Adult Competencies), und nationalen Studien über Bildungsverläufe und -entwicklungen im Rahmen des NEPS (Nationales Bildungspanel) bereits umgestiegen oder befinden sich im Prozesses des Umstiegs von PBA auf CBA. Findet innerhalb dieser Studien ein Moduswechsel statt, dann muss die Vergleichbarkeit zwischen den Ergebnissen der unterschiedlichen Administrationsmodi gewährleistet werden. Unterschiede in den Eigenschaften der Modi, wie beispielsweise im Antwortformat, können sich dabei auf die psychometrischen Eigenschaften der Tests auswirken und zu sogenannten Modus Effekten führen. Diese Effekte wiederum können sich in Unterschieden zwischen den Testscores widerspiegeln, sodass diese nicht mehr direkt miteinander vergleichbar sind. Die zentrale Frage dabei ist, ob es durch den Moduswechsel zu einer Veränderung des gemessenen Konstruktes kommt. Ist dies der Fall, so können Testergebnisse aus unterschiedlichen Administrationsmodi nicht miteinander verglichen und die Ergebnisse aus dem computerbasierten Test nicht analog zu den Ergebnissen aus dem papierbasierten Test interpretiert werden. Auch Veränderungen, die aus Messungen zu verschiedenen Zeitpunkten und mit unterschiedlichen Modi resultieren, lassen sich dann nicht mehr beschreiben. Es kann jedoch auch Modus Effekte geben, die zwar nicht das gemessene Konstrukt betreffen, aber sich beispielsweise in der Schwierigkeit der Items niederschlagen. Solange aber das erfasste Konstrukt bei einem Moduswechsel unverändert bleibt, können diese Modus Effekte bei der Berechnung der Testscores berücksichtigt und die Vergleichbarkeit gewährleistet werden. Somit ist, nicht nur im Hinblick auf gültige Trendschätzungen, der Analyse von Modus-Effekten ein hoher Stellenwert beizumessen. Da die bisherige Befundlage in der Literatur zu Modus-Effekten sowohl hinsichtlich der Stärke der gefundenen Effekte, als auch in Bezug auf die verwendeten Methoden sehr heterogen ist, ist das Ziel des ersten Beitrags dieser publikationsbasierten Dissertation, eine Anleitung für eine systematische Durchführung einer Äquivalenzuntersuchung, speziell für Large-Scale Assessments, zu geben. Dabei wird die exemplarisch dargelegte Modus-Effekt-Analyse anhand von zuvor definierten und in ihrer Bedeutsamkeit belegten Kriterien auf der Test- und Item-Ebene illustriert. Zudem wird die Möglichkeit beschrieben, auftretende Effekte anhand von Eigenschaften des Administrationsmodus’, beispielsweise des Antwortformats oder der Navigationsmöglichkeiten innerhalb des Tests, zu erklären. Im zweiten und dritten Beitrag findet sich jeweils eine empirische Anwendung der im ersten Beitrag beschriebenen schematischen Modus-Effekt-Analyse mit unterschiedlicher Schwerpunktsetzung. Dazu wurden die Daten eines Leseverständnistests aus der Nationalen Begleitforschung von PISA 2012 sowie zweier Leseverständnistests im NEPS, die jeweils sowohl papier- als auch computerbasiert administriert wurden, analysiert. Das Kriterium der Konstrukt-Äquivalenz steht dabei als wichtigstes Äquivalenz-Kriterium im Fokus. Zusätzlich wurde Äquivalenz in Bezug auf die Reliabilität und die Item-Parameter (Schwierigkeit und Diskrimination) untersucht. Im zweiten Beitrag wurden darüber hinaus interindividuelle Unterschiede im Modus-Effekt in Bezug zu basalen Computerfähigkeiten und zum Geschlecht gesetzt. Der dritte Beitrag fokussiert die Item-Eigenschaften, die als mögliche Quellen von Modus-Effekten herangezogen werden können und bezieht diese zur Erklärung von Modusunterschieden in die Analyse mit ein. In beiden Studien wurde keine Evidenz gefunden, dass sich das Konstrukt bei einem Wechsel des Administrationsmodus ändert. Lediglich einzelne Items wiesen am Computer im Vergleich zum PBA eine erhöhte Schwierigkeit auf, wobei sich der größte Teil der Items als invariant zwischen den Modi erwies. Für zwei Item-Eigenschaften wurde ein Effekt auf die erhöhte Schwierigkeit der Items am Computer gefunden. Interindividuelle Unterschiede im Modus-Effekt konnten nicht durch basale Computerfähigkeiten oder das Geschlecht erklärt werden.
Diese Dissertation leistet einen wesentlichen Beitrag zur Systematisierung von Äquivalenzuntersuchungen, insbesondere solchen in Large-Scale Assessments, indem sie die wesentlichen Kriterien für die Beurteilung von Äquivalenz herausstellt und diskutiert sowie deren Analyse methodisch aufbereitet. Die Relevanz von Modus-Effekt Studien wird dabei nicht zuletzt durch die Ergebnisse der beiden empirischen Beiträge hervorgehoben. Schließlich wird der Bedeutung des Einbezugs von Item-Eigenschaften hinsichtlich der Beurteilung der Äquivalenz Ausdruck verliehen.
Im Rahmen der fortschreitenden Digitalisierung der Hochschullehre finden auch verstärkt elektronische Prüfungsformate Eingang in den Alltag von Hochschulen. Insbesondere elektronische Abschlussklausuren (E-Klausuren) bieten hier die Möglichkeit, die Prüfungsbelastung Hochschulehrender durch die Automatisierung weiter Teile der Klausurkonstruktion, -administration und -auswertung zu reduzieren. Die Integration digitaler Technologien in die Prüfungspraxis deutscher Hochschulen ermöglicht dabei nicht nur eine ökonomische Klausurkonstruktion, realitätsnähere Klausuren (z. B. durch die Nutzung fachspezifischer Standardsoftware), und den Einsatz innovativer Testbausteine (z. B. Integration von Multimediadateien in Items), sondern auch die Nutzung aktueller psychometrischer Methoden. Insbesondere die Konstruktion von Hochschulklausuren als kriteriumsorientierte, adaptive Tests (z. B. Spoden & Frey, 2021), hat das Potential Hochschulklausuren individualisierter, messpräzisier und fairer zu machen, sowie die Validität der aus der Klausurbearbeitung abgeleiteten Testwertinterpretationen zu steigern. Um kriteriumsorientierte, adaptive Hochschulklausuren in der Breite nutzbar zu machen, müssen allerdings zuvor einige Herausforderungen gemeistert werden, denen sich diese Arbeit widmet. Die in den vier Einzelarbeiten dieser Dissertation betrachteten Herausforderungen lassen sich auf einer psychometrischen, einer personalen und einer technischen Ebene verorten.
Auf der psychometrischen Ebene ist eine zentrale Herausforderung die ökonomische Kalibrierung des Itempools. Üblicherweise wird bei der Konstruktion adaptiver Tests eine dreistellige Anzahl an Items konstruiert und mittels einer separaten Kalibrierungsstudie im Vorlauf der operationalen Testanwendung mit mehreren hundert Testpersonen kalibriert. Die massierte Konstruktion vieler Items und die Durchführung einer zusätzlichen empirischen Studie lässt sich im Rahmen von Hochschulklausuren nur schwer realisieren. Im ersten Einzelbeitrag wird daher eine neuartige kontinuierliche Kalibrierungsstrategie (KKS) vorgestellt und im Rahmen einer Monte-Carlo-Simulation hinsichtlich ihrer psychometrischen Eigenschaften geprüft. Zusammenfassend ermöglicht die KKS, adaptive Tests während wiederkehrender Testanwendungen bei konstanter Berichtsmetrik, Kontrolle von Itemparameter-Drift und fortlaufender Ergänzung des Itempools zu kalibrieren. Es zeigt sich, dass die KKS selbst für sehr kleine Stichproben eine geeignete Methode darstellt, den Itempool über mehrere Testanwendungen hinweg fortlaufend zu kalibrieren.
Um die Berichtsmetrik dabei über die verschiedenen Testanwendungen hinweg konstant zu halten, und somit Vergleichbarkeit der Ergebnisse verschiedener Testzeitpunkte (z. B. Semester) zu gewährleisten, nutzt die KKS Equating-Methoden (z. B. Kolen & Brennan, 2014) zum Herstellen einer statistischen Verbindung zwischen Klausurdurchläufen. Die Qualität dieser statistischen Verbindung hängt dabei von verschiedenen Parametern ab. Im zweiten Einzelbeitrag werden daher verschiedene Konfigurationen der in die KKS implementierten Equating-Prozedur hinsichtlich ihres Einflusses auf die Qualität der Parameterschätzungen im Rahmen einer Monte-Carlo-Simulation untersucht und auf Basis der Ergebnisse praktische Empfehlungen abgleitet. Hierfür werden unter anderem die Schwierigkeitsverteilung der genutzten Linkitems sowie die verwendete Skalentransformationsmethode variiert. Es zeigt sich, dass die KKS unter verschiedenen Konfigurationen in der Lage ist, die Skala über mehrere Testzyklen hinweg konstant zu halten. Normal- beziehungsweise gleichverteile Schwierigkeitsverteilungen der Linkitems sowie die Stocking-Lord-Skalentransformationsmethode (Stocking & Lord, 1983) erweisen sich hierbei am vorteilhaftesten.
Auf personaler Ebene stellt die Akzeptanz seitens der Hochschullehrenden einen kritischen Erfolgsfaktor für die Implementation neuer E-Learning Systeme in Lehrveranstaltungen dar. Angelehnt an Technologieakzeptanzmodellen (z. B. Technology Acceptance Model; Davis, 1989) wird im dritten Einzelbeitrag ein empirisch prüfbares Modell – das Technology-based Exams Acceptance Model (TEAM) – zur Vorhersage der Intention zur Nutzung von adaptiven und nicht-adaptiven E-Klausursystemen seitens Hochschullehrender vorgeschlagen und anhand der Daten von N = 993 deutschen Hochschullehrenden empirisch geprüft. Das postulierte Modell weist einen guten Modellfit auf. Die Ergebnisse weisen die wahrgenommene Nützlichkeit als Schlüsselprädiktor für die Nutzungsintention aus. Medienbezogene Variablen haben indirekte Effekte auf die wahrgenommene Nützlichkeit, mediiert über vorherige Nutzungserfahrungen mit Bildungstechnologien. Darüber hinaus spielt die subjektive Norm eine wichtige Rolle bei der Erklärung der Akzeptanz von E-Klausuren...
Die vorliegende Dissertation hat die Evaluation der Instruktionssensitivität von Testitems unter Berücksichtigung individueller Lernvoraussetzungen von Schülerinnen und Schülern zum Thema. Die Instruktionssensitivität von Items bzw. Testaufgaben erfasst, ob diese in der Lage sind, Effekte von Unterricht auf die Leistungen der Schülerinnen und Schüler abzubilden. Der Begriff der individuellen Lernvoraussetzungen wird im Rahmen dieser Arbeit sehr breit gefasst und subsumiert unter anderem kognitive, metakognitive, motivationale und volitionale Merkmale (Brühwiler, 2014; Brühwiler et al., 2017). Ausgehend von den Lernvoraussetzungen, welche im Zusammenhang von Angebots-Nutzungs-Modellen (u.a. Brühwiler, 2014; Fend, 1981) konzeptionell aufgegriffen werden, wird in den daran anschließenden quantitativen Analysen ein besonderer Fokus auf die Qualität der Lernmotivation (Ryan & Deci, 2000) gelegt. Das empirische Ziel der Arbeit besteht in der exemplarischen Überprüfung, inwiefern Indikatoren der Instruktionssensitivität von Testitems durch die Qualität der Lernmotivation der Schülerinnen und Schüler beeinflusst werden.
Vor dem Hintergrund dieses Erkenntnisinteresses werden Parameterschätzungen aus längsschnittlichen Mehrebenen-Item-Response-Modellen mit unterschiedlichen Modellspezifikationen gegenübergestellt. Analysiert werden Daten von 832 Fünftklässlerinnen und Fünftklässlern aus dem Schweizer Kanton St. Gallen, die wiederholt an Schulleistungstests im Fach Mathematik teilgenommen haben. Unterscheiden sich die Parameterschätzungen zwischen den Spezifikationen, spricht dies dafür, dass die Qualität der Lernmotivation einen Einfluss auf die Schätzung der Instruktionssensitivität der Mathematikitems nimmt. Als Indikatoren der Instruktionssensitivität werden die differenzielle (Naumann et al., 2016) und die spezifische Sensitivität herangezogen. Angenommen wird, dass die Einbeziehung der Qualität der Lernmotivation als Kovariate die Schätzung dieser beiden Indikatoren beeinflusst.
Das Ergebnis der Analysen ist eindeutig: Keine der aufgestellten Hypothesen kann angenommen werden. Die Resultate sprechen dafür, dass die Parameterschätzungen zur Evaluation der Instruktionssensitivität von der Qualität der Lernmotivation nicht wesentlich beeinflusst werden. Diese Befundlage überrascht, da zahlreiche Studien darauf hindeuten, dass motivationale Merkmale von Schülerinnen und Schülern einen Einfluss auf deren schulische Leistungen nehmen (u.a. Kriegbaum et al., 2015; Taylor et al., 2014) und für die Schätzung der Indikatoren der Instruktionssensitivität auf Daten von Schulleistungstests zurückgegriffen wurde. Die Ergebnisse werden aus inhaltlicher und methodischer Perspektive diskutiert.