EWR 14 (2015), Nr. 1 (Januar/Februar)

Anna-Katharina Praetorius
Messung von Unterrichtsqualit├Ąt durch Ratings
M├╝nster: Waxmann 2014
(324 S.; ISBN 978-3-8309-2980-2; 29,90 EUR)
Messung von Unterrichtsqualit├Ąt durch Ratings Anna-Katharina Praetorius hinterfragt in ihrer Dissertation die Qualit├Ąt hoch-inferenter Ratings durch Beobachter, die oftmals zur Messung von Unterrichtsqualit├Ąt herangezogen werden. Ausgangspunkt der Arbeit ist die Feststellung: ÔÇ×Trotz des h├Ąufigen Einsatzes von Unterrichtseinsch├Ątzungen externer Beobachter wurde bislang kaum erforscht, wie zuverl├Ąssig und wie valide diese Einsch├Ątzungen tats├Ąchlich f├╝r Aussagen ├╝ber Unterrichtsqualit├Ąt sindÔÇť (14). Diesem Desiderat folgend geht die Autorin durch Reanalyse empirischer Studien f├╝nf Forschungsfragen zur G├╝te bzw. Eignung solcher Ratings nach: Sie betreffen die Verzerrung der Ratings durch Rater-Bias, die Reliabilit├Ąt und Validit├Ąt der Ratings von geschulten versus ungeschulten Beobachtern, das Ausma├č der situationellen Beeinflussung der Ratings, m├Âgliche Probleme im Urteilsprozess der Rater sowie die zeitliche Stabilit├Ąt der beurteilten Merkmale.

Der theoretische Teil der Arbeit f├╝hrt zun├Ąchst in Grundlagen der Forschung zur Unterrichtsqualit├Ąt ein (Kapitel zwei) und thematisiert in Kapitel drei Gr├╝nde f├╝r die Messung von Unterrichtsqualit├Ąt sowie Anforderungen an Messinstrumente, Wege der Datenerhebung und zentrale Datenquellen (Lehrkr├Ąfte, Sch├╝ler und Beobachter). Definitionen, Arten, Ausma├č und Ursachen von Rater-Biases werden daraufhin in Kapitel vier grundgelegt. In Kapitel f├╝nf wird das Anliegen der Arbeit konkretisiert, indem die Forschungsfragen expliziert und in ein eigenes Modell eingeordnet werden.

Kapitel sechs bereitet den empirischen Teil vor, indem die Generalisierbarkeitstheorie (G-Theorie) vorgestellt wird. Dieser sophistizierte Ansatz kritisiert die Axiomatik der klassischen Testtheorie und die ├╝blichen, direkt daraus ableitbaren Konsequenzen f├╝r die Beurteilung der Zuverl├Ąssigkeit von Messungen (z. B. die Notwendigkeit unbegrenzter Beobachtungen zu potenziell allen Bedingungen). Diese in der Sozialforschung nicht zu realisierenden Bedingungen werden in der G-Theorie durch das Konzept des universe-score ersetzt. Hier wird die Differenz von Stichprobe und Grundgesamtheit explizit mit aufgenommen ÔÇô Reliabilit├Ąt ist dann nicht unabh├Ąngig von der Frage nach Generalisierbarkeit zu denken. Es kommen zahlreiche weitere quantitative und auch qualitative Verfahren zum Einsatz.

Nun folgen f├╝nf empirische Studien, die jeweils in sich abgeschlossene Reanalysen darstellen. Sie beruhen auf Daten aus der VERA-Studie und der Pythagoras-Studie. Der ersten Studie (Kapitel sieben) zufolge entfallen erhebliche Varianzanteile in den Ratings der Klassenf├╝hrung und Sch├╝lerorientierung auf Beobachtereffekte. Die Eignung der bestehenden Instrumente und des Mediums Video zur Messung von Unterrichtsqualit├Ąt werden skeptisch beurteilt. Offenbar k├Ânnen Videos die Variabilit├Ąt von Unterrichtsqualit├Ąt nur bedingt einholen. Die zweite Studie (Kapitel acht) verweist auf die vergleichbare Reliabilit├Ąt der Ratings von Klassenf├╝hrung und Sch├╝lerorientierung zwischen geschulten und ungeschulten Ratern. Zwar f├Ąllt der Rater-Bias unter geschulten Beobachtern theoriekonform zumindest teilweise geringer aus, doch lassen die Befunde insgesamt Zweifel an der Effizienz der bislang praktizierten Rater-Schulungen in der Unterrichtsqualit├Ątsforschung aufkommen. Mit der dritten Studie (Kapitel neun) lassen sich quantitativ eine hohe zeitliche Stabilit├Ąt und damit ein geringer Einfluss situativer Merkmale auf die Ratings konstatieren. Gleichwohl zeigt sich anhand einer qualitativen Inhaltsanalyse eine Diskrepanz zwischen den zeitlich stabilen Beurteilungen einerseits und deren instabilen Begr├╝ndungen andererseits, die unter anderem darauf verweisen k├Ânnte, dass die Rater nicht alle f├╝r die Urteilsfindung relevanten Aspekte verbalisieren k├Ânnen und die implizite Logik der Urteilsfindung daher schwer zug├Ąnglich ist. Den Urteilsprozessen im Kontext hoch-inferenter Ratings geht die vierte Studie (Kapitel zehn) nach. Unter anderem mittels der Methode des lauten Denkens zeigt sich, dass entlang des gesamten Beurteilungsprozesses Probleme auftreten und es weiterer (experimenteller) Studien bedarf, um deren Relevanz f├╝r die Forschung quantifizieren zu k├Ânnen. Die f├╝nfte Studie (Kapitel elf) zeigt die Abh├Ąngigkeit der zeitlichen Stabilit├Ąt der Ratings von den Dimensionen der Unterrichtsqualit├Ąt. W├Ąhrend Klassenf├╝hrung und Sch├╝lerorientierung ├╝ber mehrere Unterrichtsstunden hinweg sehr stabil beurteilt werden k├Ânnen, gelingt dies bei der kognitiven Aktivierung nur sehr bedingt.

Die hier stark verk├╝rzte Darstellung einiger zentraler Befunde m├╝ndet im Text in einer Gesamtdiskussion (Kapitel zw├Âlf). Die Eignung externer Beobachter zur Erfassung von Unterrichtsqualit├Ąt wird aufgrund von Messproblemen, welche die Reliabilit├Ąt und Validit├Ąt der Ratings generell in Frage stellen, kritisch beurteilt. Die G├╝te der Ratings h├Ąngt nicht nur von unterschiedlichen Beobachterperspektiven, sondern auch von methodischen Erw├Ągungen ab. Es seien daher in der Forschung die Qualit├Ąt der Ratings anzugeben und qualifizierte Rater einzusetzen ÔÇô gute Trainingskonzepte und Rater-Manuale vorausgesetzt.

Implikationen der Arbeit sind weitreichend und unter Umst├Ąnden folgeschwer f├╝r die (videografische) Forschung zur Unterrichtsqualit├Ąt. So kann die generelle Anfrage an die gegenw├Ąrtige Forschungspraxis gestellt werden, ob die teuren und offenbar nur begrenzt zuverl├Ąssigen hoch-inferenten Ratings eine akzeptable Effizienz aufweisen und ob sie letztlich zu Ergebnissen f├╝hren, die ihren Vorzug gegen├╝ber alternativen Verfahren wie der Lehrer- und / oder Sch├╝lerbefragung rechtfertigen. Jedenfalls entmythifiziert die Arbeit die zuweilen als ÔÇ×K├ÂnigswegÔÇť oder ÔÇ×state of the artÔÇť titulierte videografische Forschung.

Der Band m├╝ndet in einer vielschichtigen Kritik an der f├╝r die Beurteilung der Qualit├Ąt von Ratings insgesamt nicht hinreichenden Bestimmung von Reliabilit├Ąt. Die Autorin betritt mit ihren Analysen ein weitgehend neues Terrain. Es ist insofern angemessen, den Zustand gegenw├Ąrtiger Rating-Praxis offenzulegen und die mit hoch-inferenten Ratings verbundenen Limitationen aufzuzeigen, ohne konkrete Hinweise oder gar eine methodische Anleitung f├╝r deren Behebung geben zu wollen.

Wenn an abschlie├čender Stelle prominent auf die Kontext- und Situationsabh├Ąngigkeit unterrichtlicher Prozesse hingewiesen und diese als problematisch f├╝r hoch-inferente Ratings exponiert wird, w├Ąren allerdings Hinweise auf nicht-quantifizierende Forschungsans├Ątze, etwa jene der strukturtheoretisch-rekonstruktiven oder ethnografischen Unterrichtsforschung w├╝nschenswert gewesen. Diese verdeutlichen eindr├╝cklich die Grenzen der Festlegung unterrichtlichen Handelns auf zu enge Muster und zu eindeutige Interpretationen. Dies gilt mehr f├╝r die metatheoretische Einordnung und Abgrenzung der Arbeit ÔÇô f├╝r die konkreten Analysen haben paradigmenfremde ├ťberlegungen naturgem├Ą├č keinen nennenswerten Mehrwert. W├╝rdigend hervorgehoben werden muss hier auch die Ber├╝cksichtigung verschiedener qualitativ-inspirierter Methoden, welche die quantitativen Analysen erweitern und teils zu divergierenden Ergebnissen f├╝hren.

Der Band ist trotz der umfangreichen statistischen Darlegungen gut lesbar. Eine gewinnbringende Lekt├╝re setzt allerdings ein fortgeschrittenes Verst├Ąndnis empirischer Sozialforschung voraus, wenngleich die Ergebnisse, Diskussionen und Zusammenfassungen auch von einem breiteren Fachpublikum erschlossen werden k├Ânnen. Schlie├člich sind die knappen, konsistenten und kundigen Einf├╝hrungen in die jeweiligen theoretischen Vorarbeiten zu erw├Ąhnen, deren Lekt├╝re unabh├Ąngig von den konkreten Befunden ein Gewinn f├╝r alle mit hoch-inferenten Ratings konfrontierten Forschenden sein d├╝rfte. Der Band wendet sich insgesamt ausschlie├člich an einen wissenschaftlichen Leserkreis, ein f├╝r eine Dissertation angemessener Anspruch.
Colin Cramer (T├╝bingen)
Zur Zitierweise der Rezension:
Colin Cramer: Rezension von: Praetorius, Anna-Katharina: Messung von Unterrichtsqualit├Ąt durch Ratings. M├╝nster: Waxmann 2014. In: EWR 14 (2015), Nr. 1 (Veröffentlicht am 06.02.2015), URL: http://klinkhardt.de/ewr/978383092980.html