Verlag Julius Klinkhardt: EWR 14 (2015), Nr. 1 (Januar/Februar): Messung von UnterrichtsqualitÃ¤t durch Ratings

EWR 14 (2015), Nr. 1 (Januar/Februar)

Anna-Katharina Praetorius

Messung von UnterrichtsqualitÃ¤t durch Ratings

MÃ¼nster: Waxmann 2014

(324 S.; ISBN 978-3-8309-2980-2; 29,90 EUR)

Messung von UnterrichtsqualitÃ¤t durch Ratings

Anna-Katharina Praetorius hinterfragt in ihrer Dissertation die QualitÃ¤t hoch-inferenter Ratings durch Beobachter, die oftmals zur Messung von UnterrichtsqualitÃ¤t herangezogen werden. Ausgangspunkt der Arbeit ist die Feststellung: â€žTrotz des hÃ¤ufigen Einsatzes von UnterrichtseinschÃ¤tzungen externer Beobachter wurde bislang kaum erforscht, wie zuverlÃ¤ssig und wie valide diese EinschÃ¤tzungen tatsÃ¤chlich fÃ¼r Aussagen Ã¼ber UnterrichtsqualitÃ¤t sindâ€œ (14). Diesem Desiderat folgend geht die Autorin durch Reanalyse empirischer Studien fÃ¼nf Forschungsfragen zur GÃ¼te bzw. Eignung solcher Ratings nach: Sie betreffen die Verzerrung der Ratings durch Rater-Bias, die ReliabilitÃ¤t und ValiditÃ¤t der Ratings von geschulten versus ungeschulten Beobachtern, das AusmaÃŸ der situationellen Beeinflussung der Ratings, mÃ¶gliche Probleme im Urteilsprozess der Rater sowie die zeitliche StabilitÃ¤t der beurteilten Merkmale.

Der theoretische Teil der Arbeit fÃ¼hrt zunÃ¤chst in Grundlagen der Forschung zur UnterrichtsqualitÃ¤t ein (Kapitel zwei) und thematisiert in Kapitel drei GrÃ¼nde fÃ¼r die Messung von UnterrichtsqualitÃ¤t sowie Anforderungen an Messinstrumente, Wege der Datenerhebung und zentrale Datenquellen (LehrkrÃ¤fte, SchÃ¼ler und Beobachter). Definitionen, Arten, AusmaÃŸ und Ursachen von Rater-Biases werden daraufhin in Kapitel vier grundgelegt. In Kapitel fÃ¼nf wird das Anliegen der Arbeit konkretisiert, indem die Forschungsfragen expliziert und in ein eigenes Modell eingeordnet werden.

Kapitel sechs bereitet den empirischen Teil vor, indem die Generalisierbarkeitstheorie (G-Theorie) vorgestellt wird. Dieser sophistizierte Ansatz kritisiert die Axiomatik der klassischen Testtheorie und die Ã¼blichen, direkt daraus ableitbaren Konsequenzen fÃ¼r die Beurteilung der ZuverlÃ¤ssigkeit von Messungen (z. B. die Notwendigkeit unbegrenzter Beobachtungen zu potenziell allen Bedingungen). Diese in der Sozialforschung nicht zu realisierenden Bedingungen werden in der G-Theorie durch das Konzept des universe-score ersetzt. Hier wird die Differenz von Stichprobe und Grundgesamtheit explizit mit aufgenommen â€“ ReliabilitÃ¤t ist dann nicht unabhÃ¤ngig von der Frage nach Generalisierbarkeit zu denken. Es kommen zahlreiche weitere quantitative und auch qualitative Verfahren zum Einsatz.

Nun folgen fÃ¼nf empirische Studien, die jeweils in sich abgeschlossene Reanalysen darstellen. Sie beruhen auf Daten aus der VERA-Studie und der Pythagoras-Studie. Der ersten Studie (Kapitel sieben) zufolge entfallen erhebliche Varianzanteile in den Ratings der KlassenfÃ¼hrung und SchÃ¼lerorientierung auf Beobachtereffekte. Die Eignung der bestehenden Instrumente und des Mediums Video zur Messung von UnterrichtsqualitÃ¤t werden skeptisch beurteilt. Offenbar kÃ¶nnen Videos die VariabilitÃ¤t von UnterrichtsqualitÃ¤t nur bedingt einholen. Die zweite Studie (Kapitel acht) verweist auf die vergleichbare ReliabilitÃ¤t der Ratings von KlassenfÃ¼hrung und SchÃ¼lerorientierung zwischen geschulten und ungeschulten Ratern. Zwar fÃ¤llt der Rater-Bias unter geschulten Beobachtern theoriekonform zumindest teilweise geringer aus, doch lassen die Befunde insgesamt Zweifel an der Effizienz der bislang praktizierten Rater-Schulungen in der UnterrichtsqualitÃ¤tsforschung aufkommen. Mit der dritten Studie (Kapitel neun) lassen sich quantitativ eine hohe zeitliche StabilitÃ¤t und damit ein geringer Einfluss situativer Merkmale auf die Ratings konstatieren. Gleichwohl zeigt sich anhand einer qualitativen Inhaltsanalyse eine Diskrepanz zwischen den zeitlich stabilen Beurteilungen einerseits und deren instabilen BegrÃ¼ndungen andererseits, die unter anderem darauf verweisen kÃ¶nnte, dass die Rater nicht alle fÃ¼r die Urteilsfindung relevanten Aspekte verbalisieren kÃ¶nnen und die implizite Logik der Urteilsfindung daher schwer zugÃ¤nglich ist. Den Urteilsprozessen im Kontext hoch-inferenter Ratings geht die vierte Studie (Kapitel zehn) nach. Unter anderem mittels der Methode des lauten Denkens zeigt sich, dass entlang des gesamten Beurteilungsprozesses Probleme auftreten und es weiterer (experimenteller) Studien bedarf, um deren Relevanz fÃ¼r die Forschung quantifizieren zu kÃ¶nnen. Die fÃ¼nfte Studie (Kapitel elf) zeigt die AbhÃ¤ngigkeit der zeitlichen StabilitÃ¤t der Ratings von den Dimensionen der UnterrichtsqualitÃ¤t. WÃ¤hrend KlassenfÃ¼hrung und SchÃ¼lerorientierung Ã¼ber mehrere Unterrichtsstunden hinweg sehr stabil beurteilt werden kÃ¶nnen, gelingt dies bei der kognitiven Aktivierung nur sehr bedingt.

Die hier stark verkÃ¼rzte Darstellung einiger zentraler Befunde mÃ¼ndet im Text in einer Gesamtdiskussion (Kapitel zwÃ¶lf). Die Eignung externer Beobachter zur Erfassung von UnterrichtsqualitÃ¤t wird aufgrund von Messproblemen, welche die ReliabilitÃ¤t und ValiditÃ¤t der Ratings generell in Frage stellen, kritisch beurteilt. Die GÃ¼te der Ratings hÃ¤ngt nicht nur von unterschiedlichen Beobachterperspektiven, sondern auch von methodischen ErwÃ¤gungen ab. Es seien daher in der Forschung die QualitÃ¤t der Ratings anzugeben und qualifizierte Rater einzusetzen â€“ gute Trainingskonzepte und Rater-Manuale vorausgesetzt.

Implikationen der Arbeit sind weitreichend und unter UmstÃ¤nden folgeschwer fÃ¼r die (videografische) Forschung zur UnterrichtsqualitÃ¤t. So kann die generelle Anfrage an die gegenwÃ¤rtige Forschungspraxis gestellt werden, ob die teuren und offenbar nur begrenzt zuverlÃ¤ssigen hoch-inferenten Ratings eine akzeptable Effizienz aufweisen und ob sie letztlich zu Ergebnissen fÃ¼hren, die ihren Vorzug gegenÃ¼ber alternativen Verfahren wie der Lehrer- und / oder SchÃ¼lerbefragung rechtfertigen. Jedenfalls entmythifiziert die Arbeit die zuweilen als â€žKÃ¶nigswegâ€œ oder â€žstate of the artâ€œ titulierte videografische Forschung.

Der Band mÃ¼ndet in einer vielschichtigen Kritik an der fÃ¼r die Beurteilung der QualitÃ¤t von Ratings insgesamt nicht hinreichenden Bestimmung von ReliabilitÃ¤t. Die Autorin betritt mit ihren Analysen ein weitgehend neues Terrain. Es ist insofern angemessen, den Zustand gegenwÃ¤rtiger Rating-Praxis offenzulegen und die mit hoch-inferenten Ratings verbundenen Limitationen aufzuzeigen, ohne konkrete Hinweise oder gar eine methodische Anleitung fÃ¼r deren Behebung geben zu wollen.

Wenn an abschlieÃŸender Stelle prominent auf die Kontext- und SituationsabhÃ¤ngigkeit unterrichtlicher Prozesse hingewiesen und diese als problematisch fÃ¼r hoch-inferente Ratings exponiert wird, wÃ¤ren allerdings Hinweise auf nicht-quantifizierende ForschungsansÃ¤tze, etwa jene der strukturtheoretisch-rekonstruktiven oder ethnografischen Unterrichtsforschung wÃ¼nschenswert gewesen. Diese verdeutlichen eindrÃ¼cklich die Grenzen der Festlegung unterrichtlichen Handelns auf zu enge Muster und zu eindeutige Interpretationen. Dies gilt mehr fÃ¼r die metatheoretische Einordnung und Abgrenzung der Arbeit â€“ fÃ¼r die konkreten Analysen haben paradigmenfremde Ãœberlegungen naturgemÃ¤ÃŸ keinen nennenswerten Mehrwert. WÃ¼rdigend hervorgehoben werden muss hier auch die BerÃ¼cksichtigung verschiedener qualitativ-inspirierter Methoden, welche die quantitativen Analysen erweitern und teils zu divergierenden Ergebnissen fÃ¼hren.

Der Band ist trotz der umfangreichen statistischen Darlegungen gut lesbar. Eine gewinnbringende LektÃ¼re setzt allerdings ein fortgeschrittenes VerstÃ¤ndnis empirischer Sozialforschung voraus, wenngleich die Ergebnisse, Diskussionen und Zusammenfassungen auch von einem breiteren Fachpublikum erschlossen werden kÃ¶nnen. SchlieÃŸlich sind die knappen, konsistenten und kundigen EinfÃ¼hrungen in die jeweiligen theoretischen Vorarbeiten zu erwÃ¤hnen, deren LektÃ¼re unabhÃ¤ngig von den konkreten Befunden ein Gewinn fÃ¼r alle mit hoch-inferenten Ratings konfrontierten Forschenden sein dÃ¼rfte. Der Band wendet sich insgesamt ausschlieÃŸlich an einen wissenschaftlichen Leserkreis, ein fÃ¼r eine Dissertation angemessener Anspruch.

Colin Cramer (TÃ¼bingen)

Zur Zitierweise der Rezension:
Colin Cramer: Rezension von: Praetorius, Anna-Katharina: Messung von UnterrichtsqualitÃ¤t durch Ratings. MÃ¼nster: Waxmann 2014. In: EWR 14 (2015), Nr. 1 (Veröffentlicht am 06.02.2015), URL: http://klinkhardt.de/ewr/978383092980.html