Measuring teaching cross-culturally - the issue of measurement invariance and sources of bias

Fischer, Jessica

doi:10.21248/gups.68908

Im Kontext der Globalisierung nimmt das Interesse daran, Unterricht vergleichend zwischen Bildungssystemen der ganzen Welt zu untersuchen, kontinuierlich zu (Paine et al., 2016). Unterricht ist einer der stärksten Prädiktoren für Lernergebnisse von Schülerinnen und Schülern (Hattie, 2009). Folglich bieten internationale Vergleiche die einmalige Möglichkeit von besonders erfolgreichen Bildungssystemen zu lernen und geben Auskunft über die Generalisierbarkeit beziehungsweise über die kulturellen Variationen von Unterricht und dessen Wirksamkeit. Gleichzeitig sind sie richtungsweisend für bildungspolitische Entscheidungen (Klieme, 2020). Zur Erfassung von Unterrichtsmerkmalen aus der Perspektive der beteiligten Lehrkräfte und Schülerinnen und Schüler werden häufig Fragebögen in internationalen Schulleistungsstudien eingesetzt. Erste empirische Befunde weisen jedoch daraufhin, dass die Fragebogenskalen oftmals nicht messinvariant sind (z.B. Desa, 2014; He & Kubacka, 2015; Nilsen & Gustafsson, 2016). Das bedeutet, dass Unterschiede in den Messwerten zwischen Bildungssystemen nicht automatisch genuine Unterschiede im gemessenen Konstrukt, wie beispielsweise Unterschiede in der Klassenführung, reflektieren. Stattdessen entstehen diese teilweise durch nicht intendierte kulturelle Variationen im Antwortprozess (Bias), beispielsweise durch kulturelle Unterschiede in der Bedeutung der Items zur Messung von Klassenführung oder durch kulturspezifische Antworttendenzen (van de Vijver & Leung, 1997). Eine fehlende Messinvarianz hat folgenreiche Konsequenzen, da valide (Mittelwerts-)Vergleiche von Unterrichtsmerkmalen zwischen Bildungssystemen nicht möglich sind und somit die umfangreichen Datensätze internationaler Studien nicht ausgeschöpft werden können (Davidov et al., 2018a). Dennoch mangelt es in der international vergleichenden Bildungsforschung bisher an empirischen Studien, die mit fortgeschrittenen Analysemethoden die Messinvarianz von Unterrichtsmerkmalen prüfen, sowie an empirisch-fundierten Erkenntnissen zu den Ursachen der oftmals fehlenden Invarianz. Mit einer Kombination aus quantitativen und qualitativen Methoden widmet sich die vorliegende Dissertation in drei Beiträgen der Aufarbeitung dieser Forschungslücke. Sie konzentriert sich auf Fragebogenskalen zur Messung von zwei generischen Unterrichtsmerkmalen aus der Perspektive von Schülerinnen und Schülern, der Unterrichtsqualität mit den Dimensionen Klassenführung, konstruktive Unterstützung und kognitive Aktivierung und den Unterrichtsmethoden mit den Dimensionen lehrerzentrierte und schülerzentrierte Methoden und Methoden des Assessments. Beitrag I prüft die Messinvarianz von PISA Skalen zur Erfassung der drei Basisdimensionen der Unterrichtsqualität zwischen 15 Bildungssystemen. Zusätzlich wird untersucht, ob die kulturelle Ähnlichkeit (operationalisiert als ähnliche oder identische Sprache) der Bildungssysteme einen Einfluss auf das Ausmaß der Messinvarianz besitzt. Da die Modellannahmen der häufig eingesetzten konfirmatorischen Faktorenanalyse zunehmend als zu strikt für Messinvarianzprüfungen im interkulturellen Kontext kritisiert werden (Rutkowski & Svetina, 2014), wird mit Alignment (Asparouhov & Muthén, 2014) eine flexiblere und angemessenere Methode verwendet. Dennoch erreichen die drei Basisdimensionen nur metrische (identische Faktorenladungen) und nicht skalare Invarianz (identische Intercepts) zwischen den 15 Bildungssystemen. Folglich sind valide Vergleiche von Mittelwertsunterschieden in der Unterrichtsqualität zwischen den 15 Bildungssystemen nicht möglich. Innerhalb der fünf Cluster, bestehend aus jeweils drei Bildungssystemen mit ähnlicher oder identischer Sprache, wird im Gegensatz dazu skalare Invarianz bestätigt. Die Ergebnisse aus Beitrag I legen nahe, dass die untersuchten Fragebogenskalen zur Messung von Unterrichtsqualität unterschiedlich zwischen Bildungssystemen funktionieren. Eine höhere Vergleichbarkeit scheint jedoch mit einer kulturellen und sprachlichen Ähnlichkeit der Befragten einherzugehen. Wird diese Ähnlichkeit bei der Analyse berücksichtigt, sind valide Vergleiche von Mittelwertsunterschieden für eine Teilmenge an Bildungssystemen mit invarianter Messung möglich. Beitrag II knüpft an Ergebnisse aus Beitrag I an und untersucht potenzielle Ursachen der fehlenden Invarianz. Der Fokus liegt auf kulturellen Variationen im Antwortprozess, die zu einer eingeschränkten Datenvergleichbarkeit führen können (z.B. Schwarz et al., 2010). Beitrag II konzentriert sich auf die erste und zweite Stufe des Antwortprozesses, der Item-Interpretation und der Assoziation des Item-Inhaltes mit persönlichen Erfahrungen (Tourangeau, 1984). Mit Hilfe von kognitiven Interviews wird untersucht, wie Schülerinnen und Schüler aus China (Shanghai) und Deutschland PISA Items zur Messung konstruktiver Unterstützung interpretieren und welche Unterrichtserfahrungen sie mit den Items assoziieren. Die Ergebnisse der strukturierenden qualitativen Inhaltanalyse nach Kuckartz (2018) zeigen zwar, dass sowohl chinesische als auch deutsche Schülerinnen und Schüler die Items mehrheitlich mit Unterrichtsmethoden assoziieren, die zur Kompetenzunterstützung beitragen (beispielsweise Methoden zur Beseitigung von Verständnisproblemen). Es zeigen sich jedoch auch deutliche interpretative Variationen, sowohl für statistisch nicht messinvariante (nicht vergleichbare) Items als auch für messinvariante (vergleichbare) Items. Diese können zum einen auf Eigenschaften der Messung zurückgeführt werden. Hierzu zählt eine unterschiedliche Übersetzung des Terms Lernen (in Deutschland Lernfortschritt in China Lernstand). Zudem finden sich Hinweise, dass komplexe und uneindeutige Itemformulierungen mehr Spielraum für kulturspezifische Interpretationen zulassen. Die zweite Ursache der interpretativen Variationen ist ein unterschiedliches Verständnis von konstruktiver Unterstützung, das durch kulturelle Unterschiede in der Unterrichtsgestaltung und -zielsetzung erklärt werden kann (Leung, 2001). Neben der Kompetenzunterstützung assoziieren die deutschen Schülerinnen und Schüler die Items mehrheitlich mit Methoden zur Unterstützung ihrer Autonomie und ihres sozial-emotionalen Erlebens im Unterricht, wohingegen die chinesischen Schülerinnen und Schüler die Items mehrheitlich mit Methoden zur Unterstützung ihrer akademischen Produktivität (z.B. ihrer Aufmerksamkeit) assoziieren. Die Ergebnisse aus Beitrag II legen nahe, dass die Interpretation von Fragebogenitems variieren kann, je nach dem in welchem kulturellen Kontext die Frage gestellt wird. Sie betonen zudem, dass quantitative und qualitative Methoden miteinander kombiniert werden sollten, um verlässliche Information über die interkulturelle Vergleichbarkeit von Fragebogenitems zu erhalten ...

Author:	Jessica Fischer GND
URN:	urn:nbn:de:hebis:30:3-689082
DOI:	https://doi.org/10.21248/gups.68908
Place of publication:	Frankfurt am Main
Referee:	Eckhard Klieme ORCiD GND, Miriam Hansen GND
Document Type:	Doctoral Thesis
Language:	English
Date of Publication (online):	2022/11/25
Year of first Publication:	2021
Publishing Institution:	Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:	Johann Wolfgang Goethe-Universität
Date of final exam:	2022/07/07
Release Date:	2022/11/25
Tag:	Alignment; Cognitive Interviews; Cross-cultural Comparability; Measurement Invariance; Teaching Quality
Page Number:	139
Note:	Kumulative Dissertation - enthält die Verlagsversionen (Versions of Record) der folgenden Artikel: Fischer, Jessica; Praetorius, Anna-Katharina; Klieme, Eckhard (2019): The impact of linguistic similarity on cross-cultural comparability of students’ perceptions of teaching quality. Educational Assessment, Evaluation and Accountability 31:201–220; ISSN 1874-8600, DOI: https://doi.org/10.1007/s11092-019-09295-7 Fischer, Jessica; He, Jia; Klieme, Eckhard (2020): The structure of teaching practices across countries: a combination of factor analysis and network analysis. Studies in Educational Evaluation, 65, ISSN 1879-2529, DOI: https://doi.org/10.1016/j.stueduc.2020.100861 sowie die eingereichte Manuskriptversion (Author Submitted Manuscripts) von: Fischer, Jessica; Klieme, Eckhard; Praetorius, Anna-Katharina; Jinjie, Xu: Understanding lack of equivalence in cross-cultural measurements of teaching quality: students’ interpretations of student support items in Germany and China. Submitted to Teaching and Teacher Education.
HeBIS-PPN:	502085991
Institutes:	Psychologie und Sportwissenschaften
Dewey Decimal Classification:	1 Philosophie und Psychologie / 15 Psychologie / 150 Psychologie
	3 Sozialwissenschaften / 30 Sozialwissenschaften, Soziologie / 300 Sozialwissenschaften
	3 Sozialwissenschaften / 37 Bildung und Erziehung / 370 Bildung und Erziehung
Sammlungen:	Universitätspublikationen
Licence (German):	Deutsches Urheberrecht

Open Access

Measuring teaching cross-culturally - the issue of measurement invariance and sources of bias

Download full text files

Export metadata

Additional Services