Refine
Year of publication
Document Type
- Doctoral Thesis (34) (remove)
Has Fulltext
- yes (34) (remove)
Is part of the Bibliography
- no (34)
Keywords
- Achtsamkeit (1)
- Alignment (1)
- Anerkennung (1)
- Antizipation (1)
- Autonomy (1)
- BDNF (1)
- Bildungsarbeit (1)
- Blutflussrestriktion (1)
- Cognitive Interviews (1)
- Cross-cultural Comparability (1)
Institute
- Psychologie und Sportwissenschaften (34) (remove)
Übergewicht und Adipositas im Kindesalter werden als gesellschaftliches Problem diskutiert. Dem Sportunterricht kommt im Umgang mit den Betroffenen eine besondere Bedeutung und Verantwortung zu. In der vorliegenden Forschungsarbeit wird die Annahme vertreten, dass der Sportunterricht seinem Auftrag nur dann gerecht werden kann, wenn es gelingt, dass auch die übergewichtigen und adipösen Kinder positive Anerkennungserfahrungen im Feld von Bewegung, Spiel und Sport sammeln können. Das Konstrukt der Anerkennung impliziert zwei Ebenen, die sich gegenseitig beeinflussen: Auf personaler Ebene bezieht sich das Streben nach Anerkennung auf den Selbstwert (sozialpsychologische Perspektive) und auf sozialer Ebene auf den Wunsch nach Anerkennung durch die Mitglieder der Gruppen, denen man angehört (soziologische Perspektive). Die vorliegende Untersuchung befasst sich mit den Anerkennungserfahrungen übergewichtiger (n = 105) und adipöser Kinder (n = 48) im Vergleich zu ihren normalgewichtigen Mitschülerinnen und Mitschülern (n = 447) als wesentlicher Indikator für freudvolle Teilnahme im schulischen Sportunterricht. Operationalisiert werden die Anerkennungsverhältnisse auf sozialer Ebene über das Maß der erhaltenen sozio-emotionalen Anerkennung der Betroffenen mit Hilfe soziometrischer Verfahren und auf personaler Ebene über die sportliche Selbstwahrnehmung mit Hilfe eines konzipierten und validierten Körperkonzept-Fragebogens. Zur Berechnung der Ergebnisse wird ein verteilungsfreies Verfahren – der Kruskal-Wallis-Test – eingesetzt. Die Ergebnisse legen insgesamt einige Unterschiede der Anerkennungsverhältnisse in Abhängigkeit vom Körpergewichtsstatus dar: Die soziometrische Analyse zeigt, dass das Ausmaß des Körpergewichts für die Wahl der Spielgefährten im Sportunterricht eine Rolle spielt (p = .002). Während normal- und übergewichtige Schülerinnen und Schüler sich in den erhaltenen Wahlen nicht statistisch relevant unterscheiden, sind die adipösen signifikant weniger anerkannt. Als besondere Risikogruppe stellen sich adipöse Mädchen mit Migrationshintergrund heraus (p = .010). Hinsichtlich des Körperkonzepts zeigen sich signifikante Unterschiede in der „Selbsteinschätzung der allgemeinen Sportlichkeit“ zugunsten der normalgewichtigen Kinder (p = .000). Im Faktor „Selbsteinschätzung der konditionellen Fähigkeit Kraft“ schätzen sich die Kinder mit dem höchsten Körpergewichtsstatus am positivsten ein (p = .004). Keinen Unterschied in Abhängigkeit vom Körpergewichtsstatus zeigt sich in der „Selbstakzeptanz der äußeren Erscheinung“ (p = .751).
Es bleibt festzuhalten, dass die übergewichtigen Kinder weitgehend diskriminierungsfrei am Sportunterricht teilnehmen, ihre Sportlichkeit realistisch einschätzen und mit ihrem Äußeren zufrieden sind. Eine ähnliche Selbsteinschätzung weisen die adipösen Kinder vor, jedoch ergibt sich auf dem extrem erhöhten Körpergewichtsstatus ein soziales Problem, dem aus pädagogischer Sicht entgegen zu wirken ist.
Bindung bildet in der Erforschung langfristiger psychosozialer Entwicklung ein zentrales Konstrukt. In Bezug auf die Phase der mittleren Kindheit liegt dabei jedoch oft eine eingeschränkte Forschungsperspektive vor: dem Konzept der Monotropie folgend, wird trotz des wachsenden sozialen Umfelds allein Eltern eine besondere Aufmerksamkeit in ihrer Rolle als Bindungsfiguren zugeordnet. Zudem fehlen Studien jenseits westlich-europäischer Entwicklungsverläufe. Ziel der vorliegenden Arbeit ist die explorative Erforschung der transkulturellen Spannbreite und der kontextspezifischen Adaptivität in der Auswahl und Funktionalität von Bindungsfiguren der mittleren Kindheit. Dazu werden Daten in zwei ökokulturell gegensätzlichen Settings erhoben, um kontextspezifische und globale Trends betrachten zu können.
Zunächst erfolgt eine ethnologische Annäherung an die frühste Kindheit im kamerunischen Setting der Nseh entlang des Tragetuchs als zentralem Care-Objekt. Diese offenbart eine symbiotische Beziehungsgestaltung, aber auch strenge Regeln des Aufbaus und der Abgrenzung im geteilten Care-System.
Anschließend wird eine methodische Strategie zur Erforschung der mittleren Kindheit entwickelt, die eine Netzwerkperspektive beinhaltet und der kindlichen Wahrnehmung folgt. Dabei werden teilnehmende Beobachtungen mit Photo Elicitation Interviews verbunden, um das vollständige Kollektiv der Bindungsfiguren zu identifizieren und in ihren soziostrukturellen und funktionellen Eigenschaften zu charakterisieren. Indem das Setting zum inhärenten Teil der Datenerhebung wird, werden dabei adaptive Prozesse zugänglich.
In Umsetzungen dieser kontextualisierend explorativen Strategie bei den kamerunischen Nseh und im deutschen Bad Nauheim werden die Bindungsnetzwerke der mittleren Kindheit erfasst und in ihrer Adaptivität diskutiert. Der Kontrastvergleich offenbart, dass die Kinder der Nseh im Vergleich zu den Kindern aus Bad Nauheim in der Altersstruktur vielfältigere, räumlich enger begrenzte und zeitlich stabilere Netzwerke beschreiben. In beiden Settings identifizieren die Kinder eine Aufteilung der inhaltlich-funktionelle Verantwortlichkeiten, die bei den Nseh gemäß den Altersgruppen verläuft.
Insgesamt zeichnet sich für die mittlere Kindheit ein komplexes Bindungsumfeld ab. Dabei verbinden sich settingspezifische Kindheitsbedingungen mit globalen Entwicklungsthemen. Das mehrdimensionale kindliche Sicherheitsgefühl kann auf die Wirkung eines Kollektivs an Bindungsfiguren zurückgeführt werden, zu dem kontextunabhängig in einem bedeutsamen Ausmaß auch Peers gehören.
Die vorliegende Arbeit verfolgt das Ziel, zu einem vertieften und zusammenhängenden Verständnis von Taijiquan beizutragen, in der praktischen Rezeption in der westlichen Moderne. Ausgehend von der zunehmenden Popularität ostasiatischer Formen der Leibesübungen lässt sich die Frage formulieren, was allgemein von diesen Praktiken zu erwarten sein kann, welche Potentiale und Grenzen mit diesen verbunden sein können, für die individuelle Lebensführung, die soziale Praxis sowie spezifische Anwendungsfelder wie z.B. Schule, Sport oder Arbeit.
Im Zentrum der Arbeit steht eine qualitative empirische Studie, für die folgende forschungsleitende Fragen formuliert wurden:
1. Effekte und Erfahrungen: Welche Wirkungen bzw. Effekte verbinden Langzeitpraktizierende mit Taijiquan auf Basis ihrer Erfahrungen?
2. Hermeneutik: Welche Bedeutung, welchen Sinn schreiben Langzeitpraktizierende im Taijiquan ihrer Taijiquan-Praxis zu?
In zwei Erhebungsregionen wurden insgesamt 20 qualitative Interviews mit einer Dauer von je ca. 50 bis 100 Minuten geführt. Zentrales Rekrutierungskriterium war die individuelle Dauer der Taijiquan-Praxis (mindestens 3 Jahre).
Das Datenmaterial wurde in einem dreistufigen Verfahren analysiert:
1. zusammenfassende strukturierende inhaltsanalytische Auswertung mit Kategorienbildung,
2. hermeneutisch orientierte Analyse auf Basis einer multi-disziplinären Heuristik aus anthropologisch-philosophischen Konzepten, Ansätzen der Selbstkultivierung / Lebenskunst, leibphänomenologischen und körpersoziologischen Konzepten sowie Positionen der Sport- / Bewegungspädagogik,
3. phänomenologisch orientierte Analyse spezifischer Erfahrungsbereiche.
Die Befunde weisen darauf hin, dass Taijiquan vor allem in langjährigen Übungsbiographien (≥ 10 Jahre) als eine „leibhafte Lebenskunst“ verstanden werden kann: Die leiblich-transformatorischen Effekte und die Inkorporierung philosophischer Vorstellungen durchdringen Selbst und Lebenspraxis. Die Befragten erfahren in der Regel leibliche Zustandsveränderungen, die mit einem Wandel von Haltungs-, Wahrnehmungs- und Verhaltensmustern in Lebensvollzügen einhergehen.
Aus der Perspektive der westlichen Moderne erscheinen vor allem die empirischen Hinweise auf die Ausbildung eines selbstbewahrenden bzw. selbstökologischen Verhaltens, einer leiblichen Intelligenz sowie veränderter sozialer Interaktionsweisen relevant, weil hierin Potentiale zu sehen sind, die Aufgabe des Leibseins in modernen Gesellschaften zu unterstützen.
Gleichwohl bedürfen die Befunde einer vertieften kritischen Reflexion aus soziologischer, pädagogischer und ethischer Perspektive.
Zudem besteht weiterer Forschungsbedarf, u.a. um (a) die Ergebnisse kurzfristiger bzw. weniger intensiver Praxen zu evaluieren, (b) weiterführende Vergleiche mit anderen Leibespraktiken sowie zum Sport bzw. westlich orientierten Bewegungskonzepten zu ermöglichen und (c) geeignete Programme zu identifizieren, die die Ausbildung von Selbstökologie und leiblicher Intelligenz in unterschiedlichen Handlungsfeldern unterstützen.
Die vorliegende Arbeit beschreibt die Entwicklung eines interaktionalen Simulationsmodells zum späteren Einsatz in der VR-Simulation Clasivir 2.0 (Classroom Simulator in Virtual Reality), welche in der Lehrkräftebildung eingesetzt werden soll. Das Clasivir-Simulationsmodell wurde im Rahmen eines Prototyps implementiert und zwei anderen Simulationsmodellen in einem Fragebogen entgegengestellt. Ein Simulationsmodell beschreibt im Kontext einer digitalen Schulunterrichtssimulation, wie sich SuS in der Simulation verhalten.
Die drei Simulationsmodelle wurden über zwei unterschiedliche Typen von Video-Visualisierungen, genannt Mockup-Videos, dargestellt: Zum einen über eine 2D-Darstellung aus Vogelperspektive, zum anderen über eine 3D-Darstellung, in welcher 3D-Modelle von SuS animiert wurden. Bei dem realen Simulationsmodell handelt es sich um eine Übertragung einer authentischen Videoaufzeichnung von Unterricht einer hessischen Realschule in 2D/3D-Visualisierungen. Im randomisierten Simulationsmodell führen SuS ihre Verhalten zufällig aus. Alle Modelle basieren auf zweisekündigen Intervallen. Im Falle des realen Simulationsmodells wurde dies durch Analyse aller beobachtbaren einundzwanzig SuS gewonnen, im Falle des Clasivir-Simulationsmodells wurden die Vorhersagen des Simulationsmodells übertragen. Das Simulationsmodell von Clasivir basiert auf behavior trees, stellt eine Art von künstlicher Intelligenz dar und modelliert das SuS-Verhalten größtenteils in Abhängigkeit von Lehrkrafthandlungen. Die Entwicklung des interaktionalen Simulationsmodells von Clasivir ist eine Kernkomponente dieser Arbeit. Das Simulationsmodell basiert auf empirischen Ergebnissen aus den Bereichen der Psychometrie, der pädagogischen Psychologie, der Pädagogik und Ergebnissen der Simulations-/KI-Forschung. Ziel war die Entwicklung eines Modells, das nicht nur auf normativen Vorhersagen basiert, sondern empirisch und theoretisch valide ist. Nur wenige Simulationsmodelle in Unterrichtssimulationen werden mit dieser Art von Transparenz beschrieben, was eines der Alleinstellungsmerkmale dieser Arbeit ist. Es wurden Anstrengungen unternommen die vorliegenden empirischen Ergebnisse in einen kausalen Zusammenhang zu bringen, der mathematisch modelliert wurde. Im Zentrum steht die Konzentration von SuS, welche Ein uss auf Stör-, Melde- und Antwortverhalten hat. Diese Variable wird durch andere situative und personenbezogene Variablen (im Sinne von traits) ergänzt. Wo keine direkten empirischen Ergebnisse vorlagen wurde versucht plausibles Verhalten anhand der Übertragung von Konzeptionsmodellen zu gewinnen.
Da die bisherige Verwendung der angrenzenden Begriffe rund um die Simulationsentwicklung bislang sehr inkonsistent war, wurde es notwendig diese Termini zu definieren. Hervorzuheben ist die Entwicklung einer Taxonomie digitaler Unterrichtssimulationen, die so bislang nicht existierte. Anhand dieser Taxonomie und der erarbeiteten Fachtermini wurden Simulationen in der Lehrkräftebildung auf ihre Modellierung des Simulationsmodells hin untersucht. Die Untersuchung der Simulationen simSchool und VCS war, da sie einen verwandten Ansatz zu Clasvir verfolgen, besonders ergiebig.
Nach der Generierung der Mockup-Videos wurden N=105 Studierende, N=102 davon Lehramtsstudierende, aufgefordert, in einem Online-Fragebogen zwei der Simulationsmodelle miteinander zu vergleichen. Lehramtsstudierende wurden ausgewählt, da sie die Zielgruppe der Simulation sind. Welche Modelle die Partizipantinnen verglichen, war abhängig von der Gruppe der sie zugeteilt wurden. Hierbei wurde neben den Simulationsmodellen auch die visuelle Darstellung variiert. Insbesondere wurden die Partizipantinnen darum gebeten, den Fidelitätsgrad des Simulationsmodells, also den Maßstab, wie realistisch die Partizipantinnen das Verhalten der SuS in der Simulation fanden, zu bewerten. Inferenzstatistisch bestätigte sich, dass Partizipantinnen keinen Unterschied zwischen dem realen Simulationsmodell und dem Clasivir-Simulationsmodell erkennen konnten (t=1.463, df=178.9, p=.1452), aber das randomisierte Simulationsmodell mit einer moderaten Effektstärke von d=.634 als signifikant schlechter einschätzten (t=-2.5231, df=33.581, p=.008271). Die Art der Darbietung (2D oder 3D) hatte keinen statistisch signifikanten Einfluss auf die wahrgenommene Schwierigkeit der Bewertung (z=1.2426, p=.107). Damit kann festgestellt werden, dass eine komplexe und zeitintensive 3D-Visualisierung eines Simulationsmodells bei noch nicht vorliegender Simulation nicht erforderlich ist. Das Clasivir-Simulationsmodell wird als realistisch wahrgenommen. Es kann damit empfohlen werden, es in der VR-Simulation zu verwenden.
Im Ausblick werden bereits während des Schreibens der Arbeit gemachte Entwicklungen beschrieben und Konzepte zum weiteren Einsatz der Ergebnisse entwickelt. Es wird darauf verwiesen, dass eine erste Version eines VR-Simulators entwickelt wurde (Clasivir 1.0), der jedoch rein deterministisch funktioniert und noch nicht das in dieser Arbeit entwickelte Simulationsmodell inkludiert.
Die vorliegende Dissertation befasst sich mit dem Umstieg von papierbasiertem (PBA) auf computerbasiertes Assessment (CBA), insbesondere in Large-Scale-Studien. In der Bildungsforschung war Papier lange Zeit das Medium für Assessments, im Zuge des digitalen Zeitalters erhält der Computer aber auch hier Einzug. So sind die großen Bildungsvergleichsstudien, wie PISA (Programme for International Student Assessment) oder PIAAC (Programme for the International Assessment of Adult Competencies), und nationalen Studien über Bildungsverläufe und -entwicklungen im Rahmen des NEPS (Nationales Bildungspanel) bereits umgestiegen oder befinden sich im Prozesses des Umstiegs von PBA auf CBA. Findet innerhalb dieser Studien ein Moduswechsel statt, dann muss die Vergleichbarkeit zwischen den Ergebnissen der unterschiedlichen Administrationsmodi gewährleistet werden. Unterschiede in den Eigenschaften der Modi, wie beispielsweise im Antwortformat, können sich dabei auf die psychometrischen Eigenschaften der Tests auswirken und zu sogenannten Modus Effekten führen. Diese Effekte wiederum können sich in Unterschieden zwischen den Testscores widerspiegeln, sodass diese nicht mehr direkt miteinander vergleichbar sind. Die zentrale Frage dabei ist, ob es durch den Moduswechsel zu einer Veränderung des gemessenen Konstruktes kommt. Ist dies der Fall, so können Testergebnisse aus unterschiedlichen Administrationsmodi nicht miteinander verglichen und die Ergebnisse aus dem computerbasierten Test nicht analog zu den Ergebnissen aus dem papierbasierten Test interpretiert werden. Auch Veränderungen, die aus Messungen zu verschiedenen Zeitpunkten und mit unterschiedlichen Modi resultieren, lassen sich dann nicht mehr beschreiben. Es kann jedoch auch Modus Effekte geben, die zwar nicht das gemessene Konstrukt betreffen, aber sich beispielsweise in der Schwierigkeit der Items niederschlagen. Solange aber das erfasste Konstrukt bei einem Moduswechsel unverändert bleibt, können diese Modus Effekte bei der Berechnung der Testscores berücksichtigt und die Vergleichbarkeit gewährleistet werden. Somit ist, nicht nur im Hinblick auf gültige Trendschätzungen, der Analyse von Modus-Effekten ein hoher Stellenwert beizumessen. Da die bisherige Befundlage in der Literatur zu Modus-Effekten sowohl hinsichtlich der Stärke der gefundenen Effekte, als auch in Bezug auf die verwendeten Methoden sehr heterogen ist, ist das Ziel des ersten Beitrags dieser publikationsbasierten Dissertation, eine Anleitung für eine systematische Durchführung einer Äquivalenzuntersuchung, speziell für Large-Scale Assessments, zu geben. Dabei wird die exemplarisch dargelegte Modus-Effekt-Analyse anhand von zuvor definierten und in ihrer Bedeutsamkeit belegten Kriterien auf der Test- und Item-Ebene illustriert. Zudem wird die Möglichkeit beschrieben, auftretende Effekte anhand von Eigenschaften des Administrationsmodus’, beispielsweise des Antwortformats oder der Navigationsmöglichkeiten innerhalb des Tests, zu erklären. Im zweiten und dritten Beitrag findet sich jeweils eine empirische Anwendung der im ersten Beitrag beschriebenen schematischen Modus-Effekt-Analyse mit unterschiedlicher Schwerpunktsetzung. Dazu wurden die Daten eines Leseverständnistests aus der Nationalen Begleitforschung von PISA 2012 sowie zweier Leseverständnistests im NEPS, die jeweils sowohl papier- als auch computerbasiert administriert wurden, analysiert. Das Kriterium der Konstrukt-Äquivalenz steht dabei als wichtigstes Äquivalenz-Kriterium im Fokus. Zusätzlich wurde Äquivalenz in Bezug auf die Reliabilität und die Item-Parameter (Schwierigkeit und Diskrimination) untersucht. Im zweiten Beitrag wurden darüber hinaus interindividuelle Unterschiede im Modus-Effekt in Bezug zu basalen Computerfähigkeiten und zum Geschlecht gesetzt. Der dritte Beitrag fokussiert die Item-Eigenschaften, die als mögliche Quellen von Modus-Effekten herangezogen werden können und bezieht diese zur Erklärung von Modusunterschieden in die Analyse mit ein. In beiden Studien wurde keine Evidenz gefunden, dass sich das Konstrukt bei einem Wechsel des Administrationsmodus ändert. Lediglich einzelne Items wiesen am Computer im Vergleich zum PBA eine erhöhte Schwierigkeit auf, wobei sich der größte Teil der Items als invariant zwischen den Modi erwies. Für zwei Item-Eigenschaften wurde ein Effekt auf die erhöhte Schwierigkeit der Items am Computer gefunden. Interindividuelle Unterschiede im Modus-Effekt konnten nicht durch basale Computerfähigkeiten oder das Geschlecht erklärt werden.
Diese Dissertation leistet einen wesentlichen Beitrag zur Systematisierung von Äquivalenzuntersuchungen, insbesondere solchen in Large-Scale Assessments, indem sie die wesentlichen Kriterien für die Beurteilung von Äquivalenz herausstellt und diskutiert sowie deren Analyse methodisch aufbereitet. Die Relevanz von Modus-Effekt Studien wird dabei nicht zuletzt durch die Ergebnisse der beiden empirischen Beiträge hervorgehoben. Schließlich wird der Bedeutung des Einbezugs von Item-Eigenschaften hinsichtlich der Beurteilung der Äquivalenz Ausdruck verliehen.
Das Ziel der vorliegenden Arbeit ist die Identifikation von leistungsrelevanten kognitiven Prozessen beim komplexen Problemlösen (KPL). Außerdem soll untersucht werden, ob sich Leistungsunterschiede beim KPL zwischen soziodemografischen Gruppen durch Prozessmaße erklären lassen. Dazu wurden in den drei Einzelarbeiten, auf denen diese Arbeit basiert, verschiedene Prozesse und ihr Zusammenhang mit der Leistung beim KPL untersucht. Darüber hinaus schafft die vorliegende Arbeit einen theoretischen Rahmen, in den sich die drei Einzelarbeiten einordnen lassen. Die Fähigkeit komplexe Probleme lösen zu können, ist eine grundlegende Kompetenz in Bildung und Alltag und ermöglicht eine aktive Teilhabe an der Gesellschaft.
KPL kann daher auch als Schlüsselkompetenz in der Wissensgesellschaft des 21. Jahrhunderts verstanden werden (Binkley et al., 2012; Trilling & Fadel, 2009). Komplexe Probleme begegnen jedem Menschen im beruflichen und privaten Umfeld sowie auf gesellschaftlicher Ebene. Daher ist es wichtig zu verstehen, welche Prozesse für effektives KPL relevant sind. Darüber hinaus wurden wiederholt Leistungsunterschiede beim KPL in Abhängigkeit vom Geschlecht und vom Migrationshintergrund der Personen festgestellt (OECD, 2014a; Sonnleitner, Brunner, Keller & Martin, 2014; Wüstenberg, Greiff, Molnár & Funke, 2014).
In der ersten Arbeit wird der Zusammenhang verschiedener Aspekte von Planung mit der Leistung beim KPL untersucht. Die betrachteten Planungsaspekte sind die Dauer des längsten Planungsintervalls, der Zeitpunkt zu dem Planung erfolgt und die Variation der Dauer von Planungsintervallen im Problemlöseprozess. Zudem wird untersucht, ob die Effekte bei verschiedenen Aufgaben unterschiedlich ausgeprägt sind und ob es Interaktionseffekte der drei Planungsaspekte gibt. Die Ergebnisse zeigen, dass Planung grundsätzlich zu einem möglichst frühen Zeitpunkt stattfinden sollte. Die beiden anderen Planungsaspekte wiesen hingegen aufgabenabhängige Effekte auf. Außerdem gab es Interaktionseffekte. Insgesamt wurde bei leichten KPL-Aufgaben festgestellt, dass ähnlich wie beim analytischen Problemlösen Planung zu einem frühen Zeitpunkt einen positiven Einfluss auf die Leistung hat (Unterrainer & Owen, 2006). Auch der Einfluss der Variation der Planungsdauer hing mit der Aufgabenschwierigkeit zusammen, wobei bei leichten Aufgaben ein gleichmäßiges und bei schweren Aufgaben ein ungleichmäßigeres Vorgehen vorteilhaft war. Der Effekt der Planungsdauer war ebenfalls aufgabenabhängig, jedoch nur schwach mit der Aufgabenschwierigkeit korreliert. Somit scheinen andere Aufgabeneigenschaften für diesen Zusammenhang ursächlich zu sein.
In der zweiten Arbeit werden Leistungsunterschiede beim KPL in Abhängigkeit vom Geschlecht und vom Migrationshintergrund der Schülerinnen und Schüler untersucht.
Das Ziel dieser Arbeit ist es, Leistungsunterschiede zwischen diesen Gruppen durch Prozessmaße zu erklären. Da es Evidenz für einen Zusammenhang der Häufigkeit von Interaktion beziehungsweise Exploration mit der Leistung beim KPL gibt, werden diese als Prozessmaße verwendet (Bell & Kozlowski, 2008; Dormann & Frese, 1994; Naumann, Goldhammer, Rölke & Stelter, 2014). Erwartungskonform wurden Leistungsunterschiede beim KPL zugunsten von Jungen gegenüber Mädchen und zugunsten von Schülerinnen und Schülern ohne Migrationshintergrund gegenüber Schülerinnen und Schülern mit Migrationshintergrund festgestellt. Außerdem zeigte sich, dass beide Prozessmaße positiv mit der KPL-Leistung korrelierten. Der Leistungsunterschied zwischen Jungen und Mädchen konnte durch die Interaktionshäufigkeit teilweise und durch die Explorationshäufigkeit vollständig aufgeklärt werden. Der Leistungsunterschied in Abhängigkeit des Migrationshintergrundes konnte hingegen durch keines der beiden Maße erklärt werden.
Die dritte Arbeit hat zum einen das Ziel, die Rolle von Explorationsverhalten beim KPL genauer zu klären. Zum anderen werden mit einem explorativen Ansatz komplexe Verhaltensmuster untersucht. Dazu wurde eine weitere Differenzierung von Exploration in lösungsrelevante und lösungsunabhängige Exploration vorgenommen. Es konnte gezeigt werden, dass im Gegensatz zu den Ergebnissen aus der zweiten Arbeit lösungsunabhängige Exploration vermehrt bei erfolgloser Aufgabenbearbeitung auftritt. Lediglich lösungsrelevante Exploration scheint also zu einer höheren KPL-Leistung beizutragen.
Zudem wurden verschiedene Verhaltensmuster identifiziert, die auf konkrete Stärken und Schwächen im komplexen Problemlöseprozess von Schülerinnen und Schülern hinweisen. Die vorliegende Arbeit erweitert die theoretische Basis für KPL, indem sie kognitive Prozesse ordnet und im Sinne einer Intention interpretierbar macht. Weiterhin werden durch die empirischen Arbeiten Erkenntnisse über die Relevanz der untersuchten Prozesse für die Leistung beim KPL und für die Erklärung von Leistungsunterschieden gewonnen. Damit erleichtert diese Arbeit die Erklärung der Rolle kognitiver Prozesse beim KPL, um so das Verständnis dieses Konstruktes zu verbessern. Dies ist wiederum die Basis, um Schülerinnen und Schüler beim Erwerb der Kompetenz zum Lösen komplexer Probleme zu unterstützen und sie so auf die Herausforderungen des 21. Jahrhunderts vorzubereiten.
Das Ziel der vorliegenden publikationsbasierten Dissertation liegt darin, ein Erhebungskonzept zu entwickeln, das es erlaubt, ICT-Skills – das heißt Fertigkeiten für das Lösen von Aufgaben in einer Informations- und Kommunikationstechnologie-Umgebung – theoretisch fundiert zu erheben sowie die Validität der intendierten Testwerteinterpretation empirisch zu untersuchen. Die Testwerte sollen als ICT-spezifische Fertigkeiten höherer Ordnung interpretiert werden.
Für die Erfassung von ICT-Skills kann auf keine lange Forschungstradition zurückgegriffen werden. Daher ist es das Ziel der ersten Arbeit, eine Rahmenkonzeption zur Messung von ICT-Skills zu erstellen. Dabei werden drei Ziele verfolgt: Erstens soll für die Itementwicklung spezifiziert werden, auf welchen generischen und ICT spezifischen Fertigkeiten ICT-Skills basieren. Mithilfe etablierter psychologischer Theorien aus den relevanten Fertigkeitsbereichen werden kognitive Schwierigkeiten bei der Bewältigung von ICT-Aufgaben beschrieben, die als Grundlage für die Entwicklung der Items dienen. Zweitens werden für die Implementierung der Items Rationale für deren Erstellung in einer simulationsbasierten Umgebung formuliert, die es erlauben sollen, die intendierten kognitiven Prozesse realitätsnah in den Items abzubilden. Obgleich diese Arbeit einen konzeptionellen Fokus hat, besteht das dritte Ziel darin, die Rahmenkonzeption empirisch zu erproben, um zu beurteilen, ob die Rahmenkonzeption zur Itementwicklung und -implementierung geeignet war.
Aus der Rahmenkonzeption, die ein breites Spektrum relevanter ICT-Aufgaben für die Erfassung sowie eine simulationsbasierte Erhebung vorsieht, resultieren sehr heterogene Items. Deshalb unterscheiden sich ICT-Skills-Items von eher homogenen Itempools, wie sie typischerweise zur Erfassung von Konstrukten der psychologischen Leistungsdiagnostik, etwa zur Intelligenzdiagnostik, verwendet werden. Aus diesem Grund ist für die Konstruktvalidierung der Testwerteinterpretation, die das Ziel der zweiten und dritten Arbeit darstellt, zunächst konzeptionelle Forschungsarbeit nötig, um angemessene Validierungsstrategien für heterogene Items zu entwickeln. Diese in der zweiten und dritten Arbeit erforderlichen konzeptionellen Beiträge bedingen die Struktur dieses Rahmentextes, in dem zunächst die konzeptionellen Beiträge aller drei Arbeiten vorgestellt und anschließend alle empirischen Ergebnisse berichtet werden. Die konzeptionellen Entwicklungen für die Validierung der intendierten Interpretation der Testwerte orientieren sich an Vorgehensweisen der psychologischen Leistungsdiagnostik, der nomothetischen Spanne und der Konstruktrepräsentation (vgl. Embretson, 1983). Mit diesen wird untersucht, inwiefern sich die zentralen Annahmen der Rahmenkonzeption aus der ersten Arbeit, nämlich die bei der Aufgabenlösung involvierten Fertigkeiten und kognitiven Prozesse, in den Testwerten widerspiegeln.
Das Ziel der zweiten Arbeit besteht darin, die nomothetische Spanne von ICT-Skills zu untersuchen und den postulierten Zusammenhang mit generischen und ICT-spezifischen Fertigkeiten empirisch zu untersuchen. Neben dem klassischen Ansatz, der Zusammenhänge über alle Items hinweg betrachtet, wird das Zusammenspiel verschiedener Fertigkeiten auch auf Itemebene analysiert. Darüber hinaus sollen potentielle Variationen in den Zusammenhängen über die sehr heterogenen Items durch Merkmale erklärt werden, welche für diese Heterogenität bezeichnend sind. Die empirischen Ergebnisse dienen – basierend auf den in der Rahmenkonzeption definierten Fertigkeiten – als Evidenzen für die Validität der Testwerteinterpretation.
Das Ziel der dritten Arbeit ist es, die Konstruktrepräsentation zu untersuchen, indem Evidenzen für die intendierten kognitiven Prozesse in der Itembearbeitung gesammelt werden. Klassischerweise werden in homogenen Itempools Itemmerkmale zwischen Items verglichen und wenn möglich quantifiziert, um die Schwierigkeit in Items zu beschreiben. Da die Items sehr heterogen sind, wurden zwei experimentelle Ansätze entwickelt, die diese kognitiven Prozesse in Itemvarianten verändern oder eliminieren. Die Auswirkungen dieser Manipulationen werden in Bezug auf die Itemschwierigkeit und den Zusammenhang mit anderen Konstrukten untersucht. Verändert werden die in der Rahmenkonzeption abgeleiteten schwierigkeitsdeterminierenden Merkmale, um zu untermauern, dass die ICT Skills Items ICT-spezifische Fertigkeiten erfordern. Eliminiert werden alle Merkmale die Fertigkeiten höherer Ordnung erfordern sollten. Mit diesen experimentellen Strategien können die zentralen Punkte der intendierten Testwerteinterpretation untersucht werden.
Neben den empirischen Ergebnissen zur Untermauerung der intendierten Testwerteinterpretation für den entwickelten ICT-Skills-Test ist der Erkenntnisgewinn dieser Arbeit auch in den konzeptionellen Beiträgen zu sehen. Mit diesen wurde exemplarisch gezeigt, wie ein Konstrukt wie ICT-Skills erfasst werden kann, indem man sich an den Vorgehensweisen der psychologischen Leistungsdiagnostik orientiert und dabei auf Annahmen kognitiver Prozesse zurückgreift.
Die vorliegende Dissertation beschäftigt sich mit der moderierenden Rolle der Elaboriertheit des sportbezogenen Selbstaspekts auf die Verarbeitung selbstrelevanter Informationen im Sport.
Im ersten Kapitel werden aus einer übergeordneten Perspektive heraus zunächst die beiden im Mittelpunkt der Dissertation stehenden Konstrukte Selbst und Identität in einen historischen Kontext gesetzt und begrifflich umrissen. Im Anschluss werden verschiedene Modelle des Selbst vorgestellt. Dabei wird aufgezeigt, dass insbesondere in der sportpsychologischen Forschung bislang eher Inhalte und weniger Strukturen und Prozesse des Selbstkonzepts im Mittelpunkt standen. In der vorliegenden Dissertation wird das Selbst bzw. die Identität als komplexes, dynamisches System aufgefasst, das sowohl die Informationsverarbeitung beeinflusst als auch durch Prozesse der Informationsverarbeitung beeinflusst wird. Im Anschluss stehen Theorien der Selbstwerterhöhung und der Selbstkonsistenz im Mittelpunkt, deren Vertreter unterschiedliche Vorhersagen für die Verarbeitung konsistenter und von der eigenen Selbsteinschätzung positiv abweichender Rückmeldungen postulieren: Während Selbstwerterhöhungstheorien eine Präferenz für positives Feedback vorhersagen, bevorzugen Personen laut Selbstkonsistenztheorien solches Feedback, das mit ihrer eigenen Selbsteinschätzung übereinstimmt. Anschließend werden mit der Art der Reaktion (affektiv vs. kognitiv) und der Elaboriertheit des betroffenen Selbstaspekts zwei Variablen vorgestellt, die moderieren, ob die Informationsverarbeitung eher konsistenztheoretischen (kognitive Reaktion, hohe Elaboriertheit) oder selbstwerterhöhenden (affektive Reaktion, geringe Elaboriertheit) Vorhersagen folgt.
Ausführlicher werden dann mit dem Exercise Self-Schema und der Exercise Identity zwei sportbezogene Konstrukte vorgestellt, die zur Operationalisierung der Elaboriertheit des entsprechenden Selbstaspekts genutzt werden können. Hierbei wird sowohl auf die Messung als auch auf den empirischen Forschungsstand eingegangen und es wird dargestellt, dass die beiden Konstrukte zwar unterschiedlichen theoretischen Denklinien entstammen, auf operationaler Ebene aber weitgehend austauschbar sind.
Das zweite Kapitel enthält einen Überblick über die drei durchgeführten quantitativen empirischen Studien. Studie 1 (N = 530) beschreibt die Übersetzung und Validierung der Exercise Identity Scale ins Deutsche. Dabei wird neben den beiden in der Literatur diskutierten Ein- und Zwei-Faktor-Modellen auch ein Bifaktor-Modell als mögliche Alternative geprüft. Zusätzlich wird die Invarianz der Skala über die Zeit (Abstand: 14 Tage) mit einer Teilstichprobe, die Invarianz zwischen Männern und Frauen mit der Gesamtstichprobe sowie die konvergente Validität über Korrelationen mit verwandten Konstrukten getestet.
Die Studien 2 und 3 widmen sich der eigentlichen Forschungsfrage nach der moderierenden Wirkung der Elaboriertheit auf die Verarbeitung von sportbezogenem selbstrelevantem Feedback. In Studie 2 (Onlinestudie) wird die Elaboriertheit über das Exercise Self-Schema operationalisiert (N = 472). In dieser Studie zeigt sich, dass Personen – unabhängig davon, ob sie ein Selbstschema im Bereich sportlichen Trainings aufweisen oder nicht – Feedback, das von ihrer eigenen Selbsteinschätzung positiv abweicht, gegenüber mit ihrer Selbsteinschätzung übereinstimmendem (konsistentem) Feedback vorziehen. In Studie 3 (Laborstudie, N = 215) werden einige Limitationen der Onlinestudie adressiert, indem u. a. das fingierte Feedback nach einem objektiveren (physiologischen) Test gegeben und die Elaboriertheit mithilfe der kontinuierlichen Exercise Identity Scale gemessen wird. Auch hier zeigt sich die vermutete moderierende Wirkung der Exercise Identity nicht: Bei der affektiven Reaktion dominiert das Selbstwerterhöhungsmotiv; bei der kognitiven zeigt sich zwar ein kleiner Effekt, der allerdings erwartungswidrig ausfällt (Personen mit geringerer Exercise Identity bevorzugten konsistentes gegenüber positivem Feedback). In beiden Studien zeigt sich darüber hinaus ein moderierender Effekt der Elaboriertheit des sportbezogenen Selbstaspekts hinsichtlich des zur Kontrolle mit in das Versuchsdesign einbezogenen negativen Feedbacks.
Im dritten Kapitel wird eine Gesamtdiskussion der Ergebnisse aus einer übergeordneten Perspektive vorgenommen. Die Befunde werden in den bisherigen empirischen Forschungsstand eingeordnet und es werden Grenzen der durchgeführten Studien diskutiert. Implikationen für zukünftige Forschung werden u. a. im Hinblick auf eine Verbindung zwischen der grundlagenorientierten kognitiv-motivationalen Perspektive der vorliegenden Arbeit und einer eher anwendungsorientierten Perspektive im Sinne der Förderung einer Bindung an sportliche Aktivität diskutiert.
Im Rahmen der fortschreitenden Digitalisierung der Hochschullehre finden auch verstärkt elektronische Prüfungsformate Eingang in den Alltag von Hochschulen. Insbesondere elektronische Abschlussklausuren (E-Klausuren) bieten hier die Möglichkeit, die Prüfungsbelastung Hochschulehrender durch die Automatisierung weiter Teile der Klausurkonstruktion, -administration und -auswertung zu reduzieren. Die Integration digitaler Technologien in die Prüfungspraxis deutscher Hochschulen ermöglicht dabei nicht nur eine ökonomische Klausurkonstruktion, realitätsnähere Klausuren (z. B. durch die Nutzung fachspezifischer Standardsoftware), und den Einsatz innovativer Testbausteine (z. B. Integration von Multimediadateien in Items), sondern auch die Nutzung aktueller psychometrischer Methoden. Insbesondere die Konstruktion von Hochschulklausuren als kriteriumsorientierte, adaptive Tests (z. B. Spoden & Frey, 2021), hat das Potential Hochschulklausuren individualisierter, messpräzisier und fairer zu machen, sowie die Validität der aus der Klausurbearbeitung abgeleiteten Testwertinterpretationen zu steigern. Um kriteriumsorientierte, adaptive Hochschulklausuren in der Breite nutzbar zu machen, müssen allerdings zuvor einige Herausforderungen gemeistert werden, denen sich diese Arbeit widmet. Die in den vier Einzelarbeiten dieser Dissertation betrachteten Herausforderungen lassen sich auf einer psychometrischen, einer personalen und einer technischen Ebene verorten.
Auf der psychometrischen Ebene ist eine zentrale Herausforderung die ökonomische Kalibrierung des Itempools. Üblicherweise wird bei der Konstruktion adaptiver Tests eine dreistellige Anzahl an Items konstruiert und mittels einer separaten Kalibrierungsstudie im Vorlauf der operationalen Testanwendung mit mehreren hundert Testpersonen kalibriert. Die massierte Konstruktion vieler Items und die Durchführung einer zusätzlichen empirischen Studie lässt sich im Rahmen von Hochschulklausuren nur schwer realisieren. Im ersten Einzelbeitrag wird daher eine neuartige kontinuierliche Kalibrierungsstrategie (KKS) vorgestellt und im Rahmen einer Monte-Carlo-Simulation hinsichtlich ihrer psychometrischen Eigenschaften geprüft. Zusammenfassend ermöglicht die KKS, adaptive Tests während wiederkehrender Testanwendungen bei konstanter Berichtsmetrik, Kontrolle von Itemparameter-Drift und fortlaufender Ergänzung des Itempools zu kalibrieren. Es zeigt sich, dass die KKS selbst für sehr kleine Stichproben eine geeignete Methode darstellt, den Itempool über mehrere Testanwendungen hinweg fortlaufend zu kalibrieren.
Um die Berichtsmetrik dabei über die verschiedenen Testanwendungen hinweg konstant zu halten, und somit Vergleichbarkeit der Ergebnisse verschiedener Testzeitpunkte (z. B. Semester) zu gewährleisten, nutzt die KKS Equating-Methoden (z. B. Kolen & Brennan, 2014) zum Herstellen einer statistischen Verbindung zwischen Klausurdurchläufen. Die Qualität dieser statistischen Verbindung hängt dabei von verschiedenen Parametern ab. Im zweiten Einzelbeitrag werden daher verschiedene Konfigurationen der in die KKS implementierten Equating-Prozedur hinsichtlich ihres Einflusses auf die Qualität der Parameterschätzungen im Rahmen einer Monte-Carlo-Simulation untersucht und auf Basis der Ergebnisse praktische Empfehlungen abgleitet. Hierfür werden unter anderem die Schwierigkeitsverteilung der genutzten Linkitems sowie die verwendete Skalentransformationsmethode variiert. Es zeigt sich, dass die KKS unter verschiedenen Konfigurationen in der Lage ist, die Skala über mehrere Testzyklen hinweg konstant zu halten. Normal- beziehungsweise gleichverteile Schwierigkeitsverteilungen der Linkitems sowie die Stocking-Lord-Skalentransformationsmethode (Stocking & Lord, 1983) erweisen sich hierbei am vorteilhaftesten.
Auf personaler Ebene stellt die Akzeptanz seitens der Hochschullehrenden einen kritischen Erfolgsfaktor für die Implementation neuer E-Learning Systeme in Lehrveranstaltungen dar. Angelehnt an Technologieakzeptanzmodellen (z. B. Technology Acceptance Model; Davis, 1989) wird im dritten Einzelbeitrag ein empirisch prüfbares Modell – das Technology-based Exams Acceptance Model (TEAM) – zur Vorhersage der Intention zur Nutzung von adaptiven und nicht-adaptiven E-Klausursystemen seitens Hochschullehrender vorgeschlagen und anhand der Daten von N = 993 deutschen Hochschullehrenden empirisch geprüft. Das postulierte Modell weist einen guten Modellfit auf. Die Ergebnisse weisen die wahrgenommene Nützlichkeit als Schlüsselprädiktor für die Nutzungsintention aus. Medienbezogene Variablen haben indirekte Effekte auf die wahrgenommene Nützlichkeit, mediiert über vorherige Nutzungserfahrungen mit Bildungstechnologien. Darüber hinaus spielt die subjektive Norm eine wichtige Rolle bei der Erklärung der Akzeptanz von E-Klausuren...
Measuring teaching cross-culturally - the issue of measurement invariance and sources of bias
(2021)
Im Kontext der Globalisierung nimmt das Interesse daran, Unterricht vergleichend zwischen Bildungssystemen der ganzen Welt zu untersuchen, kontinuierlich zu (Paine et al., 2016). Unterricht ist einer der stärksten Prädiktoren für Lernergebnisse von Schülerinnen und Schülern (Hattie, 2009). Folglich bieten internationale Vergleiche die einmalige Möglichkeit von besonders erfolgreichen Bildungssystemen zu lernen und geben Auskunft über die Generalisierbarkeit beziehungsweise über die kulturellen Variationen von Unterricht und dessen Wirksamkeit. Gleichzeitig sind sie richtungsweisend für bildungspolitische Entscheidungen (Klieme, 2020). Zur Erfassung von Unterrichtsmerkmalen aus der Perspektive der beteiligten Lehrkräfte und Schülerinnen und Schüler werden häufig Fragebögen in internationalen Schulleistungsstudien eingesetzt. Erste empirische Befunde weisen jedoch daraufhin, dass die Fragebogenskalen oftmals nicht messinvariant sind (z.B. Desa, 2014; He & Kubacka, 2015; Nilsen & Gustafsson, 2016). Das bedeutet, dass Unterschiede in den Messwerten zwischen Bildungssystemen nicht automatisch genuine Unterschiede im gemessenen Konstrukt, wie beispielsweise Unterschiede in der Klassenführung, reflektieren. Stattdessen entstehen diese teilweise durch nicht intendierte kulturelle Variationen im Antwortprozess (Bias), beispielsweise durch kulturelle Unterschiede in der Bedeutung der Items zur Messung von Klassenführung oder durch kulturspezifische Antworttendenzen (van de Vijver & Leung, 1997). Eine fehlende Messinvarianz hat folgenreiche Konsequenzen, da valide (Mittelwerts-)Vergleiche von Unterrichtsmerkmalen zwischen Bildungssystemen nicht möglich sind und somit die umfangreichen Datensätze internationaler Studien nicht ausgeschöpft werden können (Davidov et al., 2018a). Dennoch mangelt es in der international vergleichenden Bildungsforschung bisher an empirischen Studien, die mit fortgeschrittenen Analysemethoden die Messinvarianz von Unterrichtsmerkmalen prüfen, sowie an empirisch-fundierten Erkenntnissen zu den Ursachen der oftmals fehlenden Invarianz. Mit einer Kombination aus quantitativen und qualitativen Methoden widmet sich die vorliegende Dissertation in drei Beiträgen der Aufarbeitung dieser Forschungslücke. Sie konzentriert sich auf Fragebogenskalen zur Messung von zwei generischen Unterrichtsmerkmalen aus der Perspektive von Schülerinnen und Schülern, der Unterrichtsqualität mit den Dimensionen Klassenführung, konstruktive Unterstützung und kognitive Aktivierung und den Unterrichtsmethoden mit den Dimensionen lehrerzentrierte und schülerzentrierte Methoden und Methoden des Assessments.
Beitrag I prüft die Messinvarianz von PISA Skalen zur Erfassung der drei Basisdimensionen der Unterrichtsqualität zwischen 15 Bildungssystemen. Zusätzlich wird untersucht, ob die kulturelle Ähnlichkeit (operationalisiert als ähnliche oder identische Sprache) der Bildungssysteme einen Einfluss auf das Ausmaß der Messinvarianz besitzt. Da die Modellannahmen der häufig eingesetzten konfirmatorischen Faktorenanalyse zunehmend als zu strikt für Messinvarianzprüfungen im interkulturellen Kontext kritisiert werden (Rutkowski & Svetina, 2014), wird mit Alignment (Asparouhov & Muthén, 2014) eine flexiblere und angemessenere Methode verwendet. Dennoch erreichen die drei Basisdimensionen nur metrische (identische Faktorenladungen) und nicht skalare Invarianz (identische Intercepts) zwischen den 15 Bildungssystemen. Folglich sind valide Vergleiche von Mittelwertsunterschieden in der Unterrichtsqualität zwischen den 15 Bildungssystemen nicht möglich. Innerhalb der fünf Cluster, bestehend aus jeweils drei Bildungssystemen mit ähnlicher oder identischer Sprache, wird im Gegensatz dazu skalare Invarianz bestätigt. Die Ergebnisse aus Beitrag I legen nahe, dass die untersuchten Fragebogenskalen zur Messung von Unterrichtsqualität unterschiedlich zwischen Bildungssystemen funktionieren. Eine höhere Vergleichbarkeit scheint jedoch mit einer kulturellen und sprachlichen Ähnlichkeit der Befragten einherzugehen. Wird diese Ähnlichkeit bei der Analyse berücksichtigt, sind valide Vergleiche von Mittelwertsunterschieden für eine Teilmenge an Bildungssystemen mit invarianter Messung möglich.
Beitrag II knüpft an Ergebnisse aus Beitrag I an und untersucht potenzielle Ursachen der fehlenden Invarianz. Der Fokus liegt auf kulturellen Variationen im Antwortprozess, die zu einer eingeschränkten Datenvergleichbarkeit führen können (z.B. Schwarz et al., 2010). Beitrag II konzentriert sich auf die erste und zweite Stufe des Antwortprozesses, der Item-Interpretation und der Assoziation des Item-Inhaltes mit persönlichen Erfahrungen (Tourangeau, 1984). Mit Hilfe von kognitiven Interviews wird untersucht, wie Schülerinnen und Schüler aus China (Shanghai) und Deutschland PISA Items zur Messung konstruktiver Unterstützung interpretieren und welche Unterrichtserfahrungen sie mit den Items assoziieren. Die Ergebnisse der strukturierenden qualitativen Inhaltanalyse nach Kuckartz (2018) zeigen zwar, dass sowohl chinesische als auch deutsche Schülerinnen und Schüler die Items mehrheitlich mit Unterrichtsmethoden assoziieren, die zur Kompetenzunterstützung beitragen (beispielsweise Methoden zur Beseitigung von Verständnisproblemen). Es zeigen sich jedoch auch deutliche interpretative Variationen, sowohl für statistisch nicht messinvariante (nicht vergleichbare) Items als auch für messinvariante (vergleichbare) Items. Diese können zum einen auf Eigenschaften der Messung zurückgeführt werden. Hierzu zählt eine unterschiedliche Übersetzung des Terms Lernen (in Deutschland Lernfortschritt in China Lernstand). Zudem finden sich Hinweise, dass komplexe und uneindeutige Itemformulierungen mehr Spielraum für kulturspezifische Interpretationen zulassen. Die zweite Ursache der interpretativen Variationen ist ein unterschiedliches Verständnis von konstruktiver Unterstützung, das durch kulturelle Unterschiede in der Unterrichtsgestaltung und -zielsetzung erklärt werden kann (Leung, 2001). Neben der Kompetenzunterstützung assoziieren die deutschen Schülerinnen und Schüler die Items mehrheitlich mit Methoden zur Unterstützung ihrer Autonomie und ihres sozial-emotionalen Erlebens im Unterricht, wohingegen die chinesischen Schülerinnen und Schüler die Items mehrheitlich mit Methoden zur Unterstützung ihrer akademischen Produktivität (z.B. ihrer Aufmerksamkeit) assoziieren. Die Ergebnisse aus Beitrag II legen nahe, dass die Interpretation von Fragebogenitems variieren kann, je nach dem in welchem kulturellen Kontext die Frage gestellt wird. Sie betonen zudem, dass quantitative und qualitative Methoden miteinander kombiniert werden sollten, um verlässliche Information über die interkulturelle Vergleichbarkeit von Fragebogenitems zu erhalten ...