Wie zuverlässig ist das Peer-Review-Verfahren? Eine Untersuchung der Interrater-Reliabilität von Reviewern auf DGPuK-Tagungen

Bevor wissenschaftliche Beiträge in Fachzeitschriften publiziert oder auf Tagungen präsentiert werden, überprüfen Herausgeber*innen bzw. Organisator*innen die Qualität der Einreichungen. Dies geschieht zumeist im Peer-Review-Verfahren, bei dem unabhängige Kolleg*innen aus dem gleichen Forschungsgebiet die Einreichung begutachten. Die vorliegende Studie hinterfragt, wie zuverlässig das Review-Verfahren ist. Dazu untersuchen wir die Bewertungen der Einreichungen von DGPuK-Jahrestagungen und der Tagungen der fünf größten Fachgruppen über einen Zeitraum von fünf Jahren. Basierend auf 3537 Reviews von 23 Tagungen analysieren wir Interrater-Reliabilitäten (Krippendorffs alpha und Brennan und Predigers kappa)und Spannweiten über verschiedene Einzelkriterien (Passung, Originalität, Relevanz, Theorie, Methode und Darstellung) und Gesamturteile; zudem fokussieren wir Ursachen von Dissens bzw. Konsens. Die Studie zeigt, dass unter Gutachter*innen durchaus Uneinigkeit besteht: Dies betrifft sowohl die Gesamtwertung als auch alle Einzelwertungskategorien. Die Bildung von Durchschnitten über mehrere Kriterien hinweg erhöht jedoch die Übereinstimmung der Urteile. Abschließend diskutieren wir Ideen, um Begutachtungsverfahren zukünftig zu verbessern.

Journal editors and conference organizers frequently rely on peer-reviewing to assess the quality of submissions. Peer-reviewing is a technique in which independent colleagues with expertise in the same area of research rate the submission. The present study investigates the reliability of review ratings by different reviewers. To that end we studied the reviews made for the general conference of the German Communication Association (DGPuK) and the annual conferences of its five largest divisions (Fachgruppen) in the past five conferences. Based on 3537 reviews from 23 conferences, we analyze inter-rater reliability (Krippendorff’s α und Brennan und Prediger’s κ) and ranges, regarding both criteriabased scores (fit with conference theme, innovativeness, relevance, theory, method, clarity of presentation) and overall scores. The study shows that there is substantial disagreement between reviewers. This applies to overall scores as well as criteria-based scores. Calculating mean or sum scores across criteria leads to higher agreement between reviewers. We discuss potential modifications to optimize review procedures.

Publisher

Nomos Verlagsgesellschaft

Journal

SCM. Studies in Communication and Media

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 Internasjonal