Går det att mäta forskningsansökningars kvalité på ett tillförlitligt sätt?

Skrivet 2019-03-11 09:00 av Claes Nilholm | 0 kommentarer

De flesta forskare har berättat eller i alla fall hört berättelser av följande typ: ”Vi fick fem poäng på vår forskningsansökan förra året, sedan gjorde vi om den utifrån de synpunkter vi fick och då fick vi en fyra, det är ju jättekonstigt….” Det som åsyftas i den korta berättelsen är den bedömning av kvalité som i regel tilldelas ansökningar av forskningsråd, stiftelser och liknande. Samma forskare brukar dock inte vara lika skeptiska till mätningar när de själva gör bedömningar….

Det är alltså bedömning av forskningsansökningar, som den här bloggen ska handla om och huruvida det går att bedöma ansökningarnas kvalité. Det kan ju tyckas särdeles konstigt att överhuvudtaget ställa frågan. Självklart går det, varför skulle annars sådana bedömningar göras? Och bedömningarna får ju långtgående ekonomiska konsekvenser då det i flera fall handlar om mångmiljonbelopp som delas ut, det är väl självklart att en sådan verksamhet vilar på säker grund?

Ett grundläggande krav på en bedömning är att den ska ha reliabilitet, det vill säga det betyg vi ger ska inte vara godtyckligt utan oberoende experter förväntas bedöma samma ansökan i hög grad på samma sätt. Det betyder att den så kallade interbedömarreliabiliteten ska vara så hög som möjligt. Vad säger då forskningen om forskares förmåga att bedöma ansökningar på ett överensstämmandet sätt?

Reliabilitet i bedömningen av forskningsansökningar

I forskningen möts man av en ovanligt samstämmig bild vad gäller förmågan att nå interbedömarreliabilitet. Efter en stor genomgång av ansökningar till Australiens forskningsråd slår Marsh med flera (2008) fast: ”Peer reviews lacked reliability” (s 160). Intressant nog var utfallet inte bättre för ansökningar inom det naturvetenskapliga fältet än i samhällsvetenskap och humaniora.

I en i tiden mer närliggande undersökning av bedömningen av ansökningar som replikerade den process som används vid ansökningar till National Institute of Health i USA drar författarna följande närmast förödande slutsats:

”We examined 43 individual reviewers' ratings and written critiques of the same group of 25 NIH grant applications. Results showed no agreement among reviewers regarding the quality of the applications in either their qualitative or quantitative evaluations. Although all reviewers received the same instructions on how to rate applications and format their written critiques, we also found no agreement in how reviewers "translated" a given number of strengths and weaknesses into a numeric rating.” (Pier et al, 2018, 2952).

Det är ett genomgående resultat i undersökningar av oberoende bedömningar av forskningsansökningar att interbedömarreliabiliteten är närmast generande låg, inte minst för den som hävdar att det går att bedöma kvalité på detta sätt. Notera att jag endast pratar om reliabiliteten, det vill säga förmågan att göra liknande bedömningar, och inte den mer avancerade frågan om validitet, vilket handlar om det verkligen är kvalité man mäter. Dock är reliabilitet en förutsättning för validitet varför jag håller mig till diskussionen om reliabilitet.

Ett argument för att bemöta det faktum att oberoende bedömningar har låg överensstämmelse är att argumentera för att grupper av experter kommer fram till bättre bedömningar av vetenskapliga ansökningar än enskilda bedömare. Tanken är då att när alla bedömare gemensamt lägger sina perspektiv på en ansökan blir slutbedömningen bättre än om var och en bedömer utifrån sitt eget perspektiv.

Jag har själv känt mig ganska skeptisk till den typen av argumentation som i mina ögon mer låter som en legitimering av en beslutsprocess än som evidens för att den är funktionell. Vi kan förvänta oss en förekomst av sådana legitimeringar eftersom det ligger i mångas intresse att visa att bedömningar görs med en process som är säkerställd. Jag vill dock varna för argumentering som endast bygger på tilltro till processer och som inte är underbyggd med empiriska fakta.

Intressant nog har jag hittat undersökningar (Fogelholma m fl (2012), Pier et al (2017)) där man just undersökt om gruppdiskussioner förbättrar reliabiliteten i bedömningar av forskningsansökningar. I båda undersökningarna är man uitfrån sina resultat kritiska till att gruppdiskussioner förbättrar bedömningarna. Fogelholma et al (2012) drar följande slutsats:

”This indicates that panel discussions per se did not improve the reliability of the evaluation. These quantitative and experimental data support the conclusion by Obrecht et al., who based their ﬁndings on mainly qualitative data.”

Faktum är att Fogelholma och dennes medarbetare rekommenderar att man inte ska ha gruppdiskussioner eftersom dessa är kostsamma utan att bidra till att förstärka reliabiliteten.

Det bör noteras att det verkar som om det finns några kandidater till hur reliabiliteten skulle kunna öka varav den kanske mest lovande för att i alla fall höja reliabiliteten något verkar vara att ha flera oberoende bedömare. Andra förslag är att forskare ska bedöma ansökningar inom områden de verkligen behärskar, vilket inte är fallet inom utbildningsvetenskapen där bedömare möter ansökningar inom områden de har lite kunskap inom.

Sedan är det förmodligen så att om det är många riktigt dåliga ansökningar så stiger reliabiliteten. Dock har det nuvarande finansieringssystemet inneburit att universitet och högskolor ordnar workshops och annat med målet att skriva forskningsansökningar vilket torde leda till antalet undermåliga ansökningar minskar.

Slutsatser

Det förefaller alltså som om forskningen ovanligt entydigt pekar på att oboeroende bedömningar av ansökningar har en mycket låg reliabilitet samtidigt som det förefaller som om gruppdiskussioner inte ökat reliabiliteten när detta undersökts systematiskt. Jag bör kanske påpeka att reliabilitet (och validitet) i forskningsansökningar inte är mitt forskningsområde och det kan hända att det finns någon studie som jag missat. Den läsare som känner till någon sådan får gärna höra av sig till mig. Sedan är det ju alltid så inom forskningen att det kan komma nya studier som sätter saker i nytt ljus.

Men vilka slutsatser kan man då dra om det mönster jag hittat i forskningen stämmer? Den första slutsatsen är att de forskare som blir förvånade av att betygssättningen av en ansökan sänks, trots "förbättringar" såsom i exemplet inledningsvis, kan sluta förvåna sig. Eller mer generellt, de forskare, och de är ganska många, som tror att mätningar av vetenskaplig kvalité har en objektiv karaktär kan släppa den idén. Fakta pekar på ett behov av ett mycket stort inslag av ödmjukhet inför denna fråga.

En andra slutsats handlar om vikten av att frågan om hur forskningsmedel ska fördelas diskuteras. Ofta används ju professionella bedömningar eftersom det inte finns något annat sätt som visat sig bättre. Om det nu visar sig att kejsaren är naken, kan vi inte låtsas om att vi inte ser det och därför bör vi på allvar diskutera hur mycket resurser som ska läggas på peer-reviews av ansökningar.

För det tredje borde kanske inte utfallet vid närmare eftertanke förvåna. Forskare har helt enkelt väldigt olika åsikter om vad som är den mest angelägna forskningen.

För det fjärde är inte forskningsansökningar det enda område där peer-review genomförs. Det finns många skäl att också i andra sammanhang diskutera sådana processers möjligheter och begränsningar.

Fogelholma, M. et al. (2012) Panel discussion does not improve reliability of peer review for medical research grant proposals. Journal of Clinical Epidemiology 65 (2012) 47-52.

Marsh, H., Jayasinghe, U. och Bond, N. (2008) Improving the Peer-Review Process for Grant Applications Reliability, Validity, Bias, and Generalizability. American Psychologist, 63 (3), 160-168.

Pier EL, et al. (2017) ‘Your comments are meaner than your score’: Score calibration talk influences intra- and inter-panel variability during scientific grant peer review. Res Eval 26:1–14.

Pier, E. et al. (2018) Low agreement among reviewers evaluation the same NIH grant proposals. Proceedings of the National Academy of Sciences of the United States of America, 115 (12), 2952-2957.

Tillägg 1/15 2021:

Länk till en konkret illustration till det som diskuteras i bloggen:

https://khrono.no/fekk-botnkarakter-av-forskingsradet-men-prestisjestipend-fra-erc/544790

Tillägg 15/3 2021:

Länk till artikel som redovisar en ny undersökning som

visar på mycket låg överensstämmelse i bedömningar:

https://www.tandfonline.com/doi/full/10.1080/03623319.2020.1728506

0 kommentarer

2333 visningar