Refine
Document Type
- Article (3)
- Doctoral Thesis (2)
Has Fulltext
- yes (5)
Is part of the Bibliography
- no (5)
Keywords
- Validität (5) (remove)
Institute
- Medizin (2)
- Psychologie (1)
- Psychologie und Sportwissenschaften (1)
Multiple choice (MC)-Klausuren sind im deutschen Medizinstudium trotz weitgehend fehlender Daten zur Validität dieser Prüfungsform zur Regelprüfung geworden. Darüber hinaus ist unklar, in welchem Ausmaß die Studierenden - auch solche mit guten Prüfungsergebnissen - den geprüften Lernstoff tatsächlich beherrschen. Am Fachbereich Medizin der Johann-Wolfgang-Goethe-Universität Frankfurt wurde am Ende des SS 2003 im Fach Mikrobiologie für die Studierenden des 2. klinischen Semesters eine MC-basierte Abschlussprüfung geschrieben. Die Studierenden des 1. klinischen Semesters hatten - bedingt durch Umstellungen des Curriculums - eine identische Ausbildung. Diese wurde durch eine inhaltlich weitgehend identische, im Format aber andere Klausur abgeschlossen, in der sowohl offene Fragen enthalten waren als auch Fragen, bei denen die Studierenden jede Aussage einzeln auf Korrektheit bewerten mussten. Der Vergleich der Ergebnisse für inhaltlich gleiche Fragen zeigt, dass die Studierenden im MC-Format eine hohe Quote richtiger Antworten erzielen, diese jedoch durch ein geändertes Fragenformat stark reduziert wird. So erreichten nur 20 - 30% der Studierenden ein vollständig richtiges Ergebnis, wenn jede Aussage einzeln bewertet werden musste, während die inhaltlich gleiche Frage im MC-Format 80 - 90% richtige Ergebnisse erzielte. In freien Fragen konnten nur 30 - 40% der Studierenden die richtige Antwort aktiv niederschreiben, während 90 -99% der Studierenden die richtige Lösung passiv erkannten. Wir interpretieren diese Ergebnisse dahin, dass der Entscheidungszwang in MC-basierten Fragen einen starken Einfluss auf die Quote richtiger Antworten hat, und die Prüfungsergebnisse damit wesentlich durch das Format beeinflusst werden, das Wissen dagegen nicht beherrscht wird. Die Ergebnisse dieser Studie legen nahe, Sorgfalt bei der Auswahl des Prüfungsverfahrens walten zu lassen und der Steuerung des studentischen Lernverhaltens durch das Prüfungsformat wesentlich mehr Aufmerksamkeit zu widmen als bisher.
Alle Leistungsnachweise des klinischen Studienabschnittes nach neuer Ärztlicher Approbationsordnung müssen benotet werden; hierzu sind in der Regel schriftliche Prüfungen notwendig. Bisher erprobte Methoden beinhalten die Prüfung passiven Wissens (Einfachauswahlfragen, multiple choice-Fragen, progress test-Fragen) und aktiven Wissens (short essay questions, long essay questions). Vor- und Nachteile dieser Verfahren werden diskutiert, sowie die zur Erstellung, Durchführung und Auswertung schriftlicher Prüfungen notwendigen Ressourcen.
Der Fokus der Dissertation liegt auf der Betrachtung von Items zur Messung von fremdsprachlichem Leseverständnis in verschiedenen europäischen Ländern. Insbesondere wird der Einfluss unterschiedlicher Testkulturen auf die internationale Vergleichbarkeit und Validität dieser Items analysiert. Haupthypothese der Arbeit ist, dass sich Differentielle Item Funktionen (DIF, z.B. Holland & Wainer, 1993), eine durch Gruppenzugehörigkeit verursachte Varianz der Itemschwierigkeit, durch unterschiedliche Profile von Stärken und Schwächen von Gruppen im Hinblick auf sprachliche Teilaspekte vorhersagen lassen sollten. Dem liegt die Annahme zugrunde, dass in unterschiedlichen Bildungskulturen unterschiedliche Schwerpunkte bezüglich der unterrichteten sprachlichen Teilaspekte existieren. Ferner wird angenommen, dass sich dies auf den in einem Land konstruierten Testitems abbilden sollte, indem bestimmte schwierigkeitsbestimmende Charakteristika eines Items (z.B. Schwierigkeit von Vokabular/ Grammatik) mehr oder weniger häufig bei der Itemkonstruktion verwendet wurden. Signifikante Unterschiede dahingehend bei in unterschiedlichen Ländern konstruierten Items sollte demzufolge auf unterschiedliche testkulturelle Profile von Ländern hinweisen. Die Hauptfragestellung der Arbeit lautet: „Existiert ein Zusammenhang zwischen Differentiellen Item Funktionen und Indikatoren nationaler Testkulturen bei Aufgaben zur Messung des fremdsprachlichen Leseverständnissen in englischer und deutscher Sprache?“ Die Analysen wurden am Datensatz der europäischen EBAFLS-Studie (European Bank of Anchor Items for Foreign Language Skills; Fandel et al., 2007) durchgeführt. Im Rahmen der Studie wurden Daten an ca. 10.500 Schülern der 9.-11. Klasse in acht europäischen Ländern in den Sprachen Englisch, Deutsch und Französisch erhoben; die verwendeten Testitems stammten aus den verschiedenen Teilnehmerländern. Experten ordneten die Items hinsichtlich der verschiedenen Itemcharakteristika mit Hilfe des Kategorisierungsinstruments „Dutch Grid“ (Alderson et al., 2006) ein. Für diese Dissertation wurden die EBAFLS Items und Datensätze zur Messung des fremdsprachlichen Leseverständnissen für Englisch (Länder: Frankreich, Deutschland, Spanien, Ungarn) und Deutsch (Länder: Frankreich, Niederlande, Ungarn, Schweden) verwendet. In einem ersten Auswertungsschritt wurden zunächst für die Analysen notwendige Voraussetzungen überprüft: die Rasch-Skalierbarkeit der Items innerhalb der Länder, die Anzahl signifikanter DIF-Parameter zwischen den einzelnen Länderpaarungen, sowie das Vorhandensein unterschiedlicher testkultureller Profile der Teilnehmerländer im Sinne unterschiedlich häufig vorkommender Itemcharakteristika bei den in den unterschiedlichen Ländern konstruierten Items. Es zeigte sich, dass diese Voraussetzungen als gegeben angesehen werden konnten. Des Weiteren wurden anhand der unterschiedlichen testkulturellen Profile Hypothesen hinsichtlich der zu erwartenden Stärken und Schwächen der einzelnen Länder im Hinblick auf Items mit bestimmten kognitiv-linguistischen Charakteristika formuliert. Im zweiten Analyseschritt zeigten sich innerhalb aller Länder korrelative Zusammenhänge zwischen den ausgewählten Itemcharakteristika und der Itemschwierigkeit. Somit konnten die Itemcharakteristika auch für weitere Analysen, d.h. zur Erklärung von Unterschieden der Itemschwierigkeiten zwischen den Ländern, verwendet werden. Im dritten Auswertungsschritt wurden zunächst paarweise DIF-Parameter (zw. jeweils 2 Ländern) berechnet. Zur Analyse von Zusammenhängen zwischen DIF und den Itemcharakteristika wurden dann die Itemcharakteristika mit den DIF-Parametern korreliert sowie im Rahmen einer multiplen Regression als Prädiktoren für DIF eingesetzt. Die Korrelationen lagen zwischen r = -.47 und r = .47. Dabei bedeutet eine negativer Zusammenhang, dass dieses Item aus Sicht der Fokusgruppe eine im Vergleich zur Referenzgruppe niedrigere Itemschwierigkeit aufweist, und somit ein Zusammenhang zwischen einem Itemmerkmal und für diese Gruppe vorteilhaften DIF besteht, bzw. umgekehrt. In einem letzten Schritt wurde überprüft, inwieweit die Richtung der gefundenen Zusammenhänge mit den testkulturellen Profilen einhergeht. Kommt ein Itemmerkmal bei den Items der Fokusgruppe signifikant häufiger vor als beiden Items der Referenzgruppe, sollte dies mit einem negativen, d.h. vorteilhaften, Zusammenhang zwischen diesem Itemmerkmal und DIF einhergehen und umgekehrt. Es zeigte sich, dass 23 von 29 (Englisch) bzw. 25 von 34 (Deutsch) signifikanten Korrelationen ihrer Richtung nach den aufgrund der Testkultur aufgestellten Hypothesen entsprachen. Ferner konnte zwischen 21% und 49% der DIF-Varianz anhand von Prädiktoren erklärt werden, die ihrer Richtung nach den aufgrund der testkulturellen Profile gemachten Annahmen entsprachen. Die Hauptannahme, dass ein Zusammenhang zwischen Differentiellen Item Funktionen und Testkulturen existiert, konnte somit insgesamt beibehalten werden.
Studentische Lehrevaluationsergebnisse sind ein weit verbreitetes Maß, um die Qualität universitärer Lehre zu erfassen. Diese Ergebnisse werden unter anderem dafür genutzt, Entscheidungen für die Modifikation des Lehrangebots zu treffen oder die Vergabe der Leistungsorientieren Mittelvergabe mitzubestimmen. Aufgrund dieser relevanten Folgen wird in dieser Arbeit der Frage nachgegangen, wie ein angemessener Validierungsprozess bezüglich studentischer Lehrevaluationsergebnisse gestaltet werden könnte.
Bisherige Validierungsstudien zu studentischen Lehrevaluationsinventaren fokussierten sich meist auf die Überprüfung verschiedener Validitätsarten (inhaltsbezogene, kriteriumsbezogene oder faktorielle) und die Erfassung der Messfehlerfreiheit.
Allerdings ist zum einen zu hinterfragen, ob diese Ansätze grundsätzlich für alle Inventare geeignet sind. Weiterhin hat sich das Verständnis von dem verändert, was unter Validität verstanden wird: Von der Annahme von Validität als Testeigenschaft, verschiedener Validitätsarten und binärer Aussagen auf Basis von Einzelbefunden hin zu dem Verständnis von Validität bezogen auf die Testwert-Interpretation und Verwendung, zu einem einheitlichen Validitätskonzept und zu einer Validitäts-Argumentation. Diese Veränderungen werden in den neueren argumentationsbasierten Validitätsansätzen berücksichtigt und bieten einen Rahmen, der auf die jeweilige Intention ausgerichtet ist, einen Test oder Fragebogen einzusetzen.
Auf Grundlage dieser argumentationsbasierten Ansätze wird in dieser Arbeit die Interpretation studentischer Lehrevaluationsergebnisse überprüft, die als das Ausmaß an qualitätsbezogener Zufriedenheit der Teilnehmer mit der Durchführung einer Lehrveranstaltung und der Vermittlung von Lehrinhalten angesehen werden. Der Validierungsprozess wird anhand der Lehrevaluationsdaten des Frankfurter Promotionskollegs am Fachbereich Medizin dargestellt. Dieser Prozess bestätigte weitgehend die beabsichtigte Interpretation, zeigte aber auch eine zumindest teilweise Revision des Inventars und eine weitere Überprüfung an. Eine Validierung bezüglich der Verwendung der Lehrevaluationsergebnisse sowie der auf diesen basierenden beabsichtigten Konsequenzen wird in einer Folgestudie überprüft.
Anhand dieser Arbeit wird Anwendern und Entwicklern von Lehrevaluationsinventaren eine Her- und Anleitung für den Validierungsprozess gegeben und die Vorteile argumentationsbasierter Ansätze aufgezeigt.
Bu çalışmada, genelde yabancı dil özelde ise Almanca öğretmeni adaylarının dil öğretme öz yeterliklerini belirlemeye yönelik geçerli ve güvenilir bir ölçek geliştirilmesi amaçlanmıştır. Bu amaç kapsamında Dil Öğretme Öz Yeterlik Ölçeği geliştirilmiştir. Veri analizinde PASW Statistics 18 ve LISREL 8.80 programlarında faydalanılmıştır. Ölçeğin geçerlik durumu kapsam ve yapı geçerliği açısından incelenmiştir. Güvenirlik düzeyi ise, tabakalı alfa güvenirlik analizi yöntemi ile belirlenmiştir. Kapsam geçerliği için uzman görüşüne başvurulmuş ve kapsam geçerlik oranına göre uzmanların en az %75 oranında uyuşma gösterdikleri maddeler ölçekte tutulmuştur. Uzman görüşü sonucunda 45 maddeden oluşan 5'li Likert tipindeki Dil Öğretme Öz Yeterlik Ölçeği taslak formu oluşturulmuştur. Uygulamaya, Marmara Üniversitesi Yabancı Diller Eğitimi Almanca, Fransızca ve İngilizce öğretmenliği programlarında okuyan öğretmen adayları katılmıştır. Uygulamaya 150 öğretmen adayı katılmıştır. Elde edilen veriler açımlayıcı ve doğrulayıcı faktör analizi ile incelenmiştir. Faktör analizi sonucunda madde yük değeri .30 sınırı altında kalan ve faktörlere katkısı olmayan maddeler silinmiştir. Açımlayıcı faktör analizi sonucunda üç boyutlu bir yapının olduğu görülmüştür. Açımlayıcı faktör analizi ile önerilen faktör modeli doğrulayıcı faktör analizi ile de test edilmiştir. RMSEA değeri .08, CFI .97 ve GFI ise .90 olarak hesaplanmıştır. Bu değerler modelin uygun uyum değerlerine sahip olduğunu göstermektedir. Çalışma sonucunda 22 maddelik ve üç boyuttan oluşan Dil Öğretme Öz Yeterlik Ölçeği geliştirilmiştir. Boyutlar içeriklerine uygun olarak planlama, uygulama, ölçme ve değerlendirme boyutları olarak adlandırılmıştır. Çalışma neticesinde yabancı dil öğretmeni adaylarının dil öğretme öz yeterliklerini belirlemede kullanılacak geçerli ve güvenilir bir ölçme aracı geliştirilmiştir.