Ausschreibungen: Qualität beurteilen - aber wie?

Judging quality is not robotically

rational; it is emotional, cognitive,

and social, too.

Lamont, M. (2009). How Professors Think: Inside the Curious World of Academic Judgment (1st ed.). Harvard Univ Pr.

Über 3 Jahrzehnte habe ich nun bereits bei der Begutachtung von Projekteinreichungen mitgeholfen. Meistens waren es hochschuldidaktische Themen, die sich mit der Entwicklung und Umsetzung von eLearning Arrangement beschäftigt haben. In den letzten Jahren hat sich der Fokus stärker auf Unterrichtskonzepte zu Big Data/KI verschoben. Unabhängig von den fachlichen Inhalten sind die formalen Abläufe für viele Ausschreibungen sehr ähnlich.

10 Phasen einer Förderausschreibung

Die Förderstelle (z.B. ein Ministerium) veröffentlich einen Ausschreibungstext. Darin sind die Voraussetzungen und Bedingungen für die Teilnahme enthalten. Ein wesentlicher Teil davon sind die inhaltlichen Zielstellungen, auf die sich die Antragsteller/innen bei der Einreichung fokussieren müssen.
Der Projektträger, der im Auftrag der Förderstelle den gesamten Prozess koordiniert, sucht im Vorlauf zur Deadline für die Einreichfrist fachlich geeignete Gutachter/innen. Das ist nicht ganz einfach, weil viele in Frage kommenden Personen, selbst einreichen wollen. Außerdem weiß der Projektträger zu diesem Zeitpunkt noch nicht, wieviele Anträge eingereicht werden und muss daher die benötigte Anzahl von Gutachter/innen schätzen.
Nominierte Gutachter/innen müssen eine Verpflichtungserklärung unterschreiben. Darin sind ihre Aufgaben, die Höhe einer (eventuellen) Aufwandsentschädigung, Verschwiegenheit, Unbefangenheit etc. erklärt bzw. vorgeschrieben.
Der Projektträger selektiert die eingelangten Projektanträge. Solche Ausscheidungskriterien können z.B. sein:
1. Ist der Projektantrag von einer antragsberechtigten Institution/Person?
2. Entspricht der Inhalt (zumindest im weitesten Sinne) der ausgeschriebenen Förderlinie?
Die übrig gebliebenen Projekte werden nun durch ein Zufallsverfahren den einzelnen Gutachter/innen mit einer Deadline zugewiesen. Das geschieht natürlich in letzter Zeit alles elektronisch über eine Projektplattform. Ein Projekt wird dabei mindestens zwei Gutachter/innen zugewiesen. Jede Gutachterin/jeder Gutachter sieht aber nur ihre/seine zugewiesenen Projekte.
Als erste Tätigkeit prüfen die Gutachter/innen ob sie eventuell bei einigen Projekteinreichungen befangen sind. In dieser Phase kann es auch zu kleineren Verschiebungen der zugewiesenen Projekte kommen. Wenn jemand befangen ist, gibt er den Antrag an den Projektträger zurück und bekommt (vielleicht) ein anderes Projekt, wo ebenfalls jemand befangen ist.
Mit einem online-geführten Formular bewerten die Gutachter/innen nun ihre zugewiesenen Projekte. Es ist dieser Punkt auf den ich noch ausführlich eingehen werde.
Nachdem alle Anträge begutachtet sind, schaltet der Projektträger meistens die Projekte für alle Gutachter/innen frei.
Die Gutachter/innen können nun alle Bewertungen einsehen. Im Idealfall wird damit die Kompetenz aller Expert/innen genutzt. In der Realität (Zeitmangel!) lesen Gutachter/innen bloß die zweite Bewertung „ihrer“ Projektanträge. Zumindest ist damit eine gute Vorbereitung für die Diskussion der „eigenen“ Anträge erreicht.
In einer gemeinsamen Diskussion ringen die Gutachter/innen solange um eine gemeinsame Einschätzung der besten Projekte, bis die zur Verfügung stehende Geldsumme aufgebraucht ist. Wird bei der Bewertung eines Antrages kein Konsens erreicht, muss abgestimmt werden.
Diese Phase erfordert einerseits ein großes Fingerspitzengefühl der Moderator/innen bei der Gesprächsführung. Andererseits ist eine gewisse Selbstbeschränkung der Gutachter/innen angebracht, um negative gruppendynamische Effekte zu vermeiden. (Etwa nach dem Motto: „Du hast mir mein Projekt abgeschossen, jetzt mach ich dasselbe bei einem Projektantrag von Dir.“)
In Zeiten von COVID-19 finden diese Diskussionen natürlich auch alle online statt, was meiner Meinung nach auch Vorteile hat: Zumindest habe ich gewisse gruppendynamischen Effekte, wie Bündnisse oder prinzipielle Gegnerschaft von Gutachter/innen online nicht so stark miterlebt, wie bei manchen persönlichen Zusammenkünften.

Zwei Schafe blöken sich gegenseitig an. — „Du hast mir mein Lieblingsprojekt zerstört, jetzt mache ich Deinen Favoriten kaputt!“ – Solche negativen gruppendynamischen Effekte können aber durch eine gute Moderation eingefangen werden.
(Bild von Susanne Jutzeler, suju-foto auf Pixabay)

Bewertungssysteme

Ich möchte hier zwei Problemfelder der inhaltlichen Begutachtung (Phase 7) herausgreifen.

Die Gutachter/innen bearbeiten online ein Formular, das in verschiedene Abschnitte (Kriterien) gegliedert ist. Dabei bewerten sie die verschiedenen Aspekte des Projekts nach den Vorgaben der ausgeschriebenen Förderlinie und begründen ihre Entscheidung. Grob gesehen gibt es hier zwei Bewertungsschemata:

Vergabe von Punkten oder Prozent-Bewertung

Bei diesem Bewertungssystem werden vom Fördergeber bzw. Projektträger jeder Bewertungsdimension Punkte oder Prozente zugewiesen. Damit wird bereits eine grobe Gewichtungen vorgenommen. Ein erfundenes Beispiel soll dies illustrieren:

Fachliche Qualität des Projektantrags
Innovationsaspekt(e) des Projekts
Nachhaltigkeit
Realistischer und detaillierter Arbeitsplan
Finanzplan und Ressourcen

Problem: Falsche Annahme einer metrischen Skala

Das Ergebnis ist eine scheinbare exakte und stark differenzierte Reihung der Projekte. Doch diese Vorgangsweise hat implizit eine unrealistische – und daher falsche – Annahme zur Grundlage: Sie geht von einer einheitlichen metrischen Skala aus. Dabei ist es gleichgültig, ob der Projektträger alle Kriterien gleich gewichtet (z.B. alle max. 5 Punkte oder 20% ) oder ob er eine unterschiedliche Gewichtung vornimmt (z.B. 30%/20%/20%/15%/15%). Dieses Verfahren zählt letztlich alle Kriterien zu einer einzigen Zahl zusammen (z.B. wenn ein Antrag 20 von 25 Punkten oder 80% erreicht hat).

Ausschnitt eines metrisches Maßbandes — Wenn (Prozent-)Punkte bei der Bewertung vergeben werden, die anschließend zusammen gezählt werden, dann wird fälschlicherweise von einer metrischen Bewertungsskala ausgegangen. Qualitative Bewertungen können nicht addiert werden!
(Bild von José Manuel de Laá auf Pixabay)

Das Problem liegt darin, dass die einzelnen Aspekte auf unterschiedlichen Ebenen angesiedelt sind. So kann ein Projekt in den ersten drei (inhaltlichen) Kriterien außerordentlich gut positioniert sein, aber Mankos im Arbeits- und Finanzplan aufweisen. Umgekehrt könnten mangelnde fachliche Qualität und fehlende Innovation eines Projektes durch andere hoch bewertete Detailaspekte in der Gesamtzahl verborgen sein. Die Qualitäten oder Mängel eines Projektes verschwinden in einer einzigen Zahl. Die Zahl entscheidet dann alleine über das Ranking.

Natürlich – so die Theorie – könnten solche Probleme in der abschließenden Diskussion aufgedeckt und korrigiert werden. Die Situation ist aber wegen zweier Gutachten – die stark differieren können – komplizierter. Außerdem herrscht auch ein enormer Zeitdruck. Meistens steht für das Plenum der Gutachter/innen nur ein Tag zur Verfügung zur Verfügung. Aus meiner Erfahrung ist es daher schwer diese zusammengestellte Zahlenreihe aufzubrechen und in die Details der Begutachtung einzelner Projekte einzusteigen. Zumindest geht das nur bei einigen Projekten. Das sind dann meistens jene Anträge, die am Beginn der gemeinsamen Diskussion behandelt werden.

Dieses Verfahren, wird in der Literatur als „Numerical weight and sum“ (NWS) bezeichnet (siehe: The Logic and Methodology of Checklists (PDF, 51 kB), insbesondere Punkt 6). Es ist schädlich, aber nicht für alle Anträge gleichermaßen. Wenn beide Gutachter/innen ein Projekt extrem positiv oder sehr negativ bewerten, gibt es meistens keine große Diskussionen. Anders jedoch bei Projekten, die in der Zahlenreihe eine mittlere Position einnehmen. Bereits eine geringe Punktezahl kann einen großen Unterschied bei der Platzierung im Ranking bedeuten. Projekte, die sich beispielsweise bloß um 5 Punkte oder 10% unterscheiden, fallen dann z.B. in das obere bzw. untere Drittel der Reihung und erscheinen dann gar nicht mehr in Konkurrenz zueinander.

Mögliche Korrekturen einer Bewertung durch (Prozent-)Punkte

Eine mögliche Abhilfe sind einerseits k.o.-Kriterien und andererseits Auflagen der Gutachter/innen.

Im ersten Fall können z.B. Projekte, die einen gewissen Mindeststandard bei einem Kriterium nicht erfüllen – unabhängig von der Bewertung anderer Aspekte – ausgeschieden werden. Das ist aber wegen häufig fehlender Operationalisierung bei unterschiedlichen Meinungen der Gutachter/innen diskursiv schwer aufzulösen.
Im zweiten Fall entsteht eine Grauzone, wo Antragsteller/innen zeitlich verschoben nachbessern müssen,. Das Gremium der Gutachter/innen löst sich aber nach der gemeinsamen Sitzung auf. Wer beurteilt, ob die Auflagen erfüllt wurden?

Das Problem mit einer Punkte-/Prozentzuteilung lässt sich nicht zufriedenstellend lösen. Es ist prinzipiell falsch qualitative Bewertungen zu addieren. Ich habe darüber bereits 1997 angefangen darüber zu schreiben (PDF, 177kB) und – basierend auf den Arbeiten von Michael Scriven (PDF, 1,5MB) das Verfahren „Qualitative Weight and Sum“ (QWS) vorgeschlagen – und später dann auch für die Evaluierung von Lernmanagement-, Contentmanagement-Systemen und E-Portfolios (PDF, 380kB) praktisch angewendet. Beim QWS-Verfahren werden Projekte nicht mit Zahlen, sondern mit Symbolen bewertet.

Details führen zu weit und sind hier auch nicht relevant. Wegen der relativen Komplexität der Vorgangsweise hat sich QWS nicht durchsetzen können und wurde daher erst bei einigen großen Ausschreibungsverfahren im deutschsprachigen Raum (wie z.B. beim MEDIDA-PRIX 1999-2009) verwendet.

Ortstafel, wo "Plan A" durchgestrichen ist. Darüber ist "Plan B" angebracht. — Statt Punkte zu vergeben, die addiert werden, ist es weit besser jeweils qualitative Bewertungen vorzunehmen, die zu eine Empfehlung (je/nein) zusammengefasst werden.
(Bild von Gerd Altmann auf Pixabay)

Qualitative Bewertung mit zusammenfassender Empfehlung

Es gibt eine einfache pragmatische Möglichkeit, wie das Problem einer einheitlichen metrischen Skala umgangen werden kann. Dabei bewerten die Gutachter/innen – wie beim Punkteverfahren – die verschiedenen Aspekte einzeln. Es werden jedoch keine Punkte vergeben, sondern begründete Einschätzungen z.B. im Rahmen eines Ampel-Beurteilung verlangt:

im vollen Umfang erfüllt
teilweise erfüllt
nicht oder ungenügend erfüllt

Es werden hier also breite qualitative Kategorien vorgegeben. Statt die unterschiedlichen Aspekte (Kriterien), die nicht auf einer gemeinsamen Skala liegen, zusammen zu zählen, fassen Gutachter/innen ihre Bewertung zu einem pauschalen Gesamturteil zusammen. Zum Beispiel:

ist unbedingt zu fördern
ist förderbar
ist nicht zu fördern

Es entsteht häufig trotzdem eine lange Liste von förderbaren Projekten. Anträge – die von beiden Gutachter/innen als nicht förderbar eingestuft werden – können aber schnell ausgeschieden werden. Auch dort wo beide Gutachter/innen zu einem sehr positiven Gesamturteil gekommen sind, ist häufig eine Einigung schnell möglich. Damit verbleibt aber nur mehr ein finanzieller Restbetrag, der bereits deutlich macht, wieviele Projekte ungefähr noch gefördert werden können.

Unterschiedliches Anspruchsniveau der Gutachter/innen

Ein Problem bleibt jedoch selbst bei der Methode der „qualitativen Bewertung mit zusammenfassender Empfehlung“ bestehen: Die Gutachter/innen agieren von einem generell unterschiedlichen – vorab nicht nachvollziehbaren – Anspruchsniveau aus. Einige Gutachter/innen sind systematisch sehr kritisch, anderen differenzieren zwar genauso stimmig, legen jedoch ihrem gesamten Bewertungsschema eine um 1-2 Stufen positivere Skala zugrunde.

Ausschnitt eines Maßbandes mit zwei verschiedenen Meßskalen. — Gutachter/innen sind in ihren Bewertungen häufig intern konsistent, messen aber mitunter mit verschiedenen Maßstäben.
(Bild von José Manuel de Laá auf Pixabay)

Ich erlaube mir hier eine persönliche Bemerkung. Sie stützt sich zwar auf meine eigenen Erfahrungen, hat aber keine mit repräsentative Daten als Grundlage für eine belastbare Aussage:

Ich habe den Eindruck, dass besonders jene Gutachter/innen kritisch sind, die sich in ihrem Gebiet noch nicht profiliert haben. Umgekehrt sind viele Gutachter/innen, die sich in der Sache fachlich nicht sicher fühlen, häufig in ihren Bewertungen recht positiv gestimmt. Erst nachdem alle Bewertungen den Gutachter/innen bekannt sind (also Phase 8 und 9 des Prozesses) werden diese unterschiedlichen Anspruchsniveaus deutlich. Da sind sie allerdings schon sehr schwer zu korrigieren. Der Schwierigkeit unterschiedlicher Anspruchsniveaus entgeht auch nicht das oben beschriebene Punkte- bzw. Prozentverfahren.

Knowing is knowing what you know, and what you don’t know.
Gardner-Medwin (https://tmedwin.net/cbm/selftests/)

Aus meiner Sicht gibt es drei Möglichkeiten auf diese unterschiedlichen Anspruchsniveaus einzugehen:

„Eichung„ der Gutachter/innen: Im Vorlauf des Verfahren bewerten alle Gutachter/innen getrennt ein gemeinsames Projekt. Bei großen Unterschieden diskutieren die Gutachter/innen ihre Wertungen. Mit diesen Erfahrungen im Hinterkopf evaluieren die Expert/innen dann jeweils getrennt voneinander ihre zugewiesenen Projekte.
Dieses Verfahren ist jedoch sehr aufwändig, weil ein zusätzlicher Begutachtungsvorlauf und Termin nötig ist. Außerdem ist die Sonderbehandlung eines Projekts vorausgesetzt, das damit quasi als Referenzprojekt im Guten wie im Bösen gilt. Wenn Gutachter/innen aber überdurchschnittlich lange ein Projekt diskutieren, sinken dessen Chancen ein Top-Position zu erreichen. Irgend jemand findet immer ein Haar in der Suppe.
Confidence/Certainty Based Marking (CBM): Hier wird mit der abschließenden Frage „Wie sicher sind Sie sich bei Ihrer Einschätzung (sehr / mittel/ gering)?“ eine Anleihe bei CBM genommen. Der Neurowissenschafter Gardner-Medwin hat das das Verfahren bereits 1994 entwickelt. Obwohl es inzwischen sogar in in Moodle als Modul implementiert ist, ist es nicht weit verbreitet. Nach dem Motto „Knowing is knowing what you know, and what you don’t know“ verlangt es eine kritische Reflexion und Einschätzung zur Selbstgewissheit der Beurteilung. Gutachter/innen können damit ihre eigenen Bewertungen relativieren und so – ohne Gesichtsverlust – einer späteren modifizierten Einschätzung zustimmen. Andererseits besteht aber auch die Gefahr, dass sich Gutachter/innen bei (schriftlich fixierter) hoher Selbstgewissheit in ihren Positionen eingraben.
Begrenzte Anzahl von Favoriten vorgeben: Eine andere Variante das unterschiedliche Anspruchsniveau auszugleichen ist es, nur zwei Kategorien bei der Schlussbewertung vorzugeben (also z.B. förderbar / nicht förderbar). Zusätzlich sollen die Gutachter/innen (je nach Anzahl der eingereichten Projekte und der vorhandenen Finanzmittel) aus ihren positiv gereihten Projekten jedoch 1,2 oder 3 persönliche „Favoriten“ zu nominieren.
Damit wird einerseits einer breiten Mittelkateogorie („förderbar“) entgegen gewirkt und andererseits haben dann alle Gutachter/innen auf dieser Favoriten-Ebene die gleiche Anzahl von zu fördernden Projekten. Damit wird nicht nur das unterschiedliche Anspruchsniveaus ausgeglichen, sondern das Verfahren auch häufig entscheidend vereinfacht und verkürzt. Es wird dann meistens nurmehr über die relativ geringe Anzahl von Favoriten diskutiert.

Diese drei Gegenmaßnahmen sollen Verzerrungen im Begutachtungsprozess etwas ausgleichen. Projektträger können sie durchaus auch in einem Verfahren miteinander kombinieren.

Zusammenfassung

Idealerweise haben alle Gutachter/innen von Projektausschreibungen den gleichen Informationsstand zu den Gutachten. Sie können dann – ausgehend von ihrer jeweils eigenen fachlichen Expertise – facettenreich zu einer gemeinsamen Würdigung der Projekte beitragen.

Leider ist dieser gewünschte Idealzustand nicht realisierbar. Gutachter/innen können nicht alle (oft weit über hundert) Anträge sorgsam durchlesen und argumentativ untermauert bewerten. Es ist daher immer ein unvorhersehbares Zufallsmoment bei der Entscheidungsfindung des Gutachter/innen-Gremiums vorhanden. Zum Beispiel werden Anträge tendenziell relativ kritischer bewertet, wenn

zufällig beide Gutachter/innen eines Projekts besonders kritisch sind.
wenn Gutachter/innen zufällig sehr viele (relativ) gute Projekte zur Begutachtung zugewiesen bekommen haben. Dann beurteilen Gutachter/innen nämlich stärker differenziert und kritischer, um nicht alle Anträge gleichauf reihen zu müssen.

(Die beiden Beispiele gelten abgewandelt natürlich auch mit umgekehrten Vorzeichen.)

Ich habe zur Überwindung solcher Verzerrungen im Begutachtungsprozess verschiedene Strategien diskutiert. Aus meiner Perspektive gibt es keine ideale Lösung. Es gibt eine große Anzahl subjektiver Faktoren, die sich nicht operationalisieren lassen. Die kombinierte Anwendung von CBM und Favoriten-Selektion auf der Grundlage einer qualitativen Einschätzung mit begründeter Empfehlung wäre aus meiner Sicht jedoch ein wichtiger Schritt zur verbesserten Objektivierung von Begutachtungsprozessen.

Eine Antwort auf „Ausschreibungen: Qualität beurteilen – aber wie?“

[…] habe ich nun bereits bei der Begutachtung von Projekteinreichungen mitgeholfen.“ – Peter Baumgartner schreibt über die Qualität(smaßnahmen) bei Ausschreibungen. Nicht nur bei Ausschreibungen sind Qualitätserwägungen notwendig, auch bei Rankings, Preisen […]

10 Phasen einer Förderausschreibung

Bewertungssysteme

Vergabe von Punkten oder Prozent-Bewertung

Qualitative Bewertung mit zusammenfassender Empfehlung

Unterschiedliches Anspruchsniveau der Gutachter/innen

Zusammenfassung

Teilen mit:

Ähnliche Beiträge

Von Peter Baumgartner

Eine Antwort auf „Ausschreibungen: Qualität beurteilen – aber wie?“

Schreiben Sie einen Kommentar Antworten abbrechen