Come le classifiche pseudoscientifiche distorcono la ricerca
L’Italia è probabilmente il paese del mondo occidentale dove l’ossessione per le etichette di eccellenza sta plasmando più profondamente le istituzioni e i comportamenti dei ricercatori
di Alberto Bacchini e Giuseppe De Nicolao
L’Italia è probabilmente il paese del mondo occidentale dove l’ossessione per le etichette di eccellenza sta plasmando più profondamente le istituzioni e i comportamenti dei ricercatori. Il sistema accademico italiano si è infatti trasformato in un laboratorio dove si sta svolgendo un esperimento in vivo senza precedenti: governare e controllare la ricerca e l’insegnamento attraverso strumenti bibliometrici automatici. Le “misure oggettive” delle attività scientifiche e dei professori sono utilizzate non solo per gli esercizi di valutazione della ricerca (VQR), ma anche per la abilitazione scientifica nazionale (ASN), per la distribuzione di microfinanziamenti individuali ai ricercatori (finanziamento FFAR) e, infine, localmente, anche per aumenti di stipendio. Il crescente controllo centralizzato è realizzato attraverso dispositivi apparentemente tecnici, la cui giustificazione scientifica dà luogo ad un conflitto tra dimensione politica, scientifica ed etica della ricerca. In particolare in questo post si ripercorre la vicenda della prima Valutazione della Qualità della Ricerca (VQR), mostrando come l’agenzia governativa ANVUR abbia elaborato le sue statistiche e le abbia mascherate da scienza, negando l’accesso ai dati per la loro verifica.
La valutazione della ricerca a tutti i livelli – riviste, singoli ricercatori, dipartimenti e persino università – sembra essere sempre più ossessionata dall’assegnazione di etichette di eccellenza, possibilmente in qualche modo automatizzate. Ne sono esempi le classifiche universitarie internazionali e nazionali, la classificazione delle riviste in base a metriche quali il fattore di impatto, la valutazione automatica dei ricercatori in base al loro indice h o ad altre metriche individuali. Questa “marea di metriche” si ripercuote sulle gerarchie istituzionali e individuali, ma, nel lungo periodo, anche sul nucleo della scienza. Nel mondo tradizionale la verità scientifica è emersa da un campo di battaglia in cui si confrontavano idee conflittuali, nel nuovo mondo la verità sarà garantita dall’etichetta, cioè da una classifica “oggettiva” di scienziati, riviste o università.
L’Italia è probabilmente il Paese del mondo occidentale dove l’ossessione per le etichette di eccellenza sta plasmando più profondamente le istituzioni e i comportamenti dei ricercatori. Il sistema accademico italiano si è infatti trasformato in un laboratorio dove si sta svolgendo un esperimento in vivo senza precedenti: governare e controllare la ricerca e l’insegnamento attraverso strumenti bibliometrici automatici. Le “misure oggettive” delle attività scientifiche e dei professori sono utilizzate non solo per gli esercizi di valutazione della ricerca (VQR), ma anche per la abilitazione scientifica nazionale necessaria per l’accesso ai ruoli universitari (ASN), per la distribuzione di microfinanziamenti individuali ai ricercatori (finanziamento FFAR) e, infine, localmente, anche per aumenti di stipendio. In questo articolo illustriamo come un crescente controllo centralizzato stia emergendo dagli esercizi di valutazione della ricerca, e come sia realizzato attraverso dispositivi apparentemente tecnici, la cui giustificazione scientifica dà luogo ad un conflitto tra dimensione politica, scientifica ed etica della ricerca.
1. Il contesto istituzionale.
Nel 2010 la struttura e la governance delle università italiane sono state profondamente modificate da una serie di leggi etichettate come “riforma di Gelmini”, dal nome del Ministro della Pubblica Istruzione durante il governo Silvio Berlusconi. In Italia, le università statali continuano ad essere considerate organizzazioni autonome e la libertà di insegnamento e di ricerca continua ad essere difesa dalla Costituzione. Ma la riforma Gelmini e le norme emanate dai successivi governi di centrosinistra, hanno introdotto sempre più strumenti di governo e di controllo a distanza per le università ed i docenti.
Il ruolo centrale è stato svolto dall’ANVUR, l’agenzia di valutazione delle università e della ricerca. L’ANVUR non è un’agenzia autonoma né un quango gestito a dovuta distanza dal governo. È invece un’agenzia governativa: il suo consiglio è costituito, infatti, da sette professori nominati direttamente dal ministro. Inoltre, l’ANVUR agisce principalmente realizzando attività direttamente definite con decreti ministeriali, quali la valutazione della ricerca, le procedure di assicurazione della qualità della didattica (AVA), la valutazione dei compiti amministrativi delle università, la qualificazione dei candidati alla ASN. Tra le istituzioni europee simili, come AERES in Francia o ANECA in Spagna, nessuno concentra così tanti poteri e funzioni. Inoltre, in nessun altro paese occidentale è stato sviluppato un analogo controllo governativo delle scienze e delle università. Per trovare caratteristiche simili, dobbiamo tornare all’organizzazione della scienza nelle economie pianificate.
2. La valutazione della ricerca.
In questo quadro istituzionale fortemente centralizzato e politicamente controllato, l’Italia ha adottato anche un sistema di finanziamento della ricerca e dell’università basato sulla performance. Le prestazioni di ricerca delle università sono misurate per mezzo di un esercizio massivo di valutazione della qualità della ricerca (VQR) che si ispira in larga misura alle esperienze britanniche di RAE/REF. La valutazione della ricerca italiana è stata condotta, ovviamente, dall’ANVUR.
L’ANVUR ha adottato per la VQR “un doppio sistema di valutazione” in base al quale ogni lavoro presentato è stato classificato in una classe di merito mediante revisione dei pari informata (informed peer review, IR) o attraverso un algoritmo di punteggio automatico basato su indicatori bibliometrici. L’uso di questo doppio sistema è stato giustificato considerando che per alcuni prodotti della ricerca è possibile solo una valutazione attraverso IR poiché non sono indicizzati da database bibliometrici o perché l’algoritmo automatico di classificazione bibliometrica non fornisce una risposta conclusiva. I punteggi ottenuti con queste due diverse tecniche sono stati poi raccolti e riassunti a livello di settore disciplinare, dipartimento o università per il calcolo di punteggi aggregati e classifiche, riportati nelle migliaia di pagine del rapporto VQR. L’assunto fondamentale alla base di questa metodologia è che IR e bibliometria possono essere utilizzate in modo intercambiabile. Questo disegno di valutazione, già adottato nella prima edizione della VQR (2004-2010), è stato ripetuto anche nella seconda edizione (2011-2014).
3. Il tentativo di trasformare la pseudoscienze in scienza.
Nella prima edizione (di seguito VQR1), al fine di validare il sistema duale di valutazione, l’ANVUR ha condotto un esperimento per verificare, su un ampio campione di articoli, il grado di concordanza tra i punteggi ottenuti con informed peer review (IR) e con la bibliometria. I risultati di questo esperimento sono fondamentali per la coerenza dell’intero esercizio di valutazione della ricerca. Se l’IR e la bibliometria non fossero in accordo, i risultati dell’esercizio sarebbero soggetti a distorsioni strutturali e i punteggi finali (e le classifiche) sarebbero influenzati dalla combinazione specifica di IR e punteggi bibliometrici.
La posto in gioco nell’esperimento (la tenuta dell’intero impianto della VQR) ha spinto ANVUR e collaboratori ad uno sforzo di disseminazione straordinaria.
I risultati inizialmente pubblicati in un’appendice ai rapporti ufficiali dell’ANVUR, sono stati poi ampiamente diffusi in documenti di lavoro e articoli accademici provenienti da o riproducenti parti delle relazioni ANVUR. L’articolo principale, curato da Sergio Benedetto, coordinatore della VQR, è stato pubblicato in Research Evaluation nel 2015. Lo sforzo di disseminazione maggiore è stato quello riferito alla parte dell’esperimento riguardante il GEV di Area 13, economia e statistica. Per Area 13, il rapporto ANVUR originale (in inglese) è diventato un working paper, pubblicato in ben cinque diverse collane di working papers, firmato da soli 6 degli oltre 30 membri del panel che, secondo i documenti ufficiali, avrebbe redatto il rapporto e condotto l’esperimento. È stato infine pubblicato come “articolo originale di ricerca” in una rivista scientifica Research Policy, senza alcuna menzione della natura istituzionale del contenuto e senza alcuna menzione del fatto che quasi tutti i testi e le tabelle sono stati tratti dal rapporto ufficiale. I risultati sono stati diffusi anche in alcuni blog di politica economica (https://voxeu.org/article/research-quality-assessment-tools-lessons-italy https://www.lavoce.info/archives/14280/bibliometria-o-peer-review-per-valutare-la-ricerca/).
3. Un conflitto di interessi senza precedenti.
Perché questo straordinario sforzo di disseminazione è stato prodotto da studiosi che lavorano per l’ANVUR? Probabilmente perché la pubblicazione su riviste scientifiche rappresenta una giustificazione ex-post del doppio sistema di valutazione applicato dall’ANVUR. La metodologia dell’ANVUR non aveva precedenti, così come il conflitto di interessi: la metodologia e i risultati della valutazione della ricerca sono giustificati ex post da documenti redatti da studiosi che hanno sviluppato e applicato la metodologia adottata dal governo italiano. Inoltre, i risultati di questi lavori non possono essere replicati perché i dati non sono messi a disposizione di studiosi diversi da quelli che lavorano per conto di ANVUR.
Per capirci meglio: immaginate un governo che prescriva un nuovo vaccino obbligatorio in conformità con la raccomandazione di un rapporto emesso da un’agenzia come la Food and Drug Administration (FDA). Un paio d’anni dopo l’adozione obbligatoria, alcune riviste accademiche pubblicano articoli, scritti da membri della commissione della FDA che ha redatto il rapporto. Senza che questo sia reso esplicito ai lettori, questi articoli riproducono i contenuti e le conclusioni del rapporto della FDA, fornendo così una giustificazione scientifica de facto – anche se ex post – del rapporto stesso. Quando ricercatori indipendenti richiedono i dati per replicare i risultati, l’agenzia non risponde o, in alternativa, nega i dati perché riservati. Fortunatamente, non è così che di solito si prendono le decisioni in materia di salute. Ma perché in Italia lo si fa in tema di politiche della ricerca?
4. Un esperimento con un protocollo fallimentare.
Dal 2014 gli autori di questo post hanno cercato di replicare l’esperimento ANVUR. In primo luogo, è stato chiesto l’accesso ai dati grezzi, senza ricevere alcuna risposta dall’ANVUR. Data l’indisponibilità di dati grezzi, non abbiamo potuto fare altro che affidarci a un’attenta lettura dei rapporti ufficiali della VQR e a una meta-analisi statistica dei risultati riportati. Questo è ciò che abbiamo potuto accertare:
1. L’esperimento ANVUR non era stato condotto su un campione casuale di articoli, ma su un sottocampione non casuale, ottenuto escludendo dal campione casuale originale tutti gli articoli per i quali la bibliometria aveva prodotto una classificazione incerta; questa selezione non casuale ha indotto distorsioni ignote e incontrollate nei risultati finali dell’esperimento (https://doi.org/10.1093/reseval/rvx013).
2. Il grado di accordo tra peer review e bibliometria è stato misurato da una statistica nota come kappa di Cohen. L’ANVUR ha confuso la nozione di “kappa statisticamente diverso da zero” con quella di rilevanza pratica del valore di kappa. I valori di kappa calcolati da ANVUR sono statisticamente significativi, ma devono essere considerati, secondo le linee guida accettate in letteratura, come indicativi di una concordanza compresa tra “poor” e “fair” (https://doi.org/10.1093/reseval/rvx013). Cioò significa che non c’è evidenza che la valutazione condotta con la bibliometria e con la informed peer review diano risultati simili.
3. L’ANVUR ha rivendicato che nell’esperimento è stato usato un unico “protocollo ” per tutte le aree di ricerca analizzate; abbiamo invece documentato che sono stati adottati molti protocolli diversi, ed eventualmente diversi sistemi di pesi per il calcolo dei kappa di Cohen (https://doi.org/10.1007/s11192-016-1929-y).
4. L’economia (Area 13) è un’eccezione?
I punti da 1 a 3 non si applicano ai risultati della valutazione di Area 13. A differenza che in tutte le altre aree cosiddette bibliometriche, i dati dell’esperimento di Area 13 provegono da un campione (quasi) casuale, ed il grado di concordanza tra la IR e la bibliometria, oltre ad essere statisticamente significativo, indica un buon accordo.
Chi scrive questo post ha mostrato (https://doi.org/10.1007/s11192-016-1929-y) che questo buon grado di concordanza, invece di derivare da una caratteristica specifica dell’Area 13, si spiega con le modifiche specifiche del protocollo sperimentale introdotte solo per l’economia. Queste modifiche non sono state né evidenziate esplicitamente nelle relazioni dell’ANVUR, né divulgate o giustificate nelle pubblicazioni successive. Solo in economia la valutazione bibliometrica è stata condotta sulla base di una classifica di riviste direttamente sviluppata dall’ANVUR. Solo in economia i peer reviewer conoscevano la classifica delle riviste ed erano anche consapevoli di partecipare all’esperimento, due condizioni che non si sono verificate in nessun’altra area di ricerca.
Inoltre, in tutte le altre aree scientifiche, il punteggio finale IR per ogni articolo è stato calcolato automaticamente sulla base dei punteggi assegnati da due revisori indipendenti. Non è stato così per l’economia, dove ben il 55% dei punteggi finali è stato deciso direttamente dagli esperti, ben consapevoli di partecipare all’esperimento. Non sorprende quindi che in economia l’accordo tra la valutazione bibliometrica e la valutazione dei pari sia salito a un livello molto più elevato che in tutte le altre aree di ricerca (https://10.1007/s11192-016-2055-6).
4. Osservazioni conclusive.
Ci sono voluti alcuni anni per portare a termine questo nostro lavoro perché i dati grezzi, anche se accessibili agli scienziati che lavorano per l’ANVUR, non sono disponibili per studiosi indipendenti.
Mettendo insieme tutti i pezzi, è ora possibile concludere che nell’esperimento condotto da ANVUR la peer review e la bibliometria non concordano. Di conseguenza, la coesistenza di due diverse metodologie di valutazione ha introdotto distorsioni non controllabili nei risultati finali della VQR, che sono attualmente utilizzati dal governo per il finanziamento delle università.
Questo è solo uno dei problemi sollevati da questa storia. Un secondo aspetto riguarda lo status della conoscenza scientifica quando si intreccia con questioni di policy. In questo caso, abbiamo una dichiarazione ufficiale: la peer review e la bibliometria concordano; e l’evidenza contraria che “peer review e bibliometric non concordano” o “l’esperimento non è in grado di confermare l’accordo”.
L’ANVUR ha adottato il doppio sistema di valutazione prima che fosse validato scientificamente. Questo non può che creare uno scontro tra i due ruoli svolti dall’ANVUR in questa storia: ideatore di regolamenti e procedure, ma anche fornitore di prove scientifiche ex post a sostegno di quei regolamenti e di quelle procedure.
In relazione alle pratiche di valutazione della università adottate dal governo britannico, molti commentatori hanno evocato “un modello di gestione molto stalinista“. Per l’Italia, ci chiediamo se non sia il caso di fare un parallelo con il lisenkoismo. Trofim Lysenko (1898-1976), direttore dell’Istituto di Genetica dell’Accademia delle Scienze dell’URSS, esercitò il suo potere politico per assicurare che la scienza sovietica respingesse la genetica mendeliana a favore del Lamarckismo. In Italia, un gruppo di docenti selezionati dal governo ha adottato una metodologia auto-sviluppata (lisenkoismo bibliometrico) per valutare la scienza e i ricercatori e infine per decidere quale ricerca valga la pena finanziare.
Una terza questione riguarda la trasparenza dei dati, ed è duplice. C’è un problema di trasparenza con il governo italiano e l’ANVUR che rifiuta di divulgare i dati per la loro riproduzione e controllo (https://doi.org/10.13130/2282-5398/8872). Un rifiuto che si può spiegare con il timore di consentire indagini indipendenti su un presupposto fondamentale su cui si basa l’intero esercizio di valutazione della ricerca. Ma c’è anche una questione di etica editoriale quando riviste scientifiche importanti, come Research Policy e Research Evaluation, accettano di pubblicare articoli basati su dati che non sono disponibili per gli studiosi per la verifica dei contenuti. Quando le politiche pubbliche si basano su articoli scientifici, l’impossibilità di replicare i risultati può avere implicazioni di vasta portata. Un esempio recente e inquietante è quello delle misure di austerità:
“Gli errori di codifica si verificano, ma il problema maggiore della ricerca non è stato quello di permettere ad altri ricercatori di rivedere e replicare i risultati rendendo i dati apertamente disponibili. Se i dati e il codice [di Reinhardt e Rogoff] fossero stati disponibili al momento della pubblicazione già nel 2010, potrebbero non essere stati necessari tre anni per dimostrare che questi risultati non erano corretti – risultati che potrebbero aver influenzato l’orientamento delle politiche pubbliche in tutto il mondo verso misure di austerità più severe. Condivisione dei dati di ricerca significa la possibilità di replicare e discutere, consentendo l’esame dei risultati della ricerca nonché il miglioramento e la convalida dei metodi di ricerca mediante maggiori indagini e dibattiti scientifici”. [Dimitrova]
La valutazione della ricerca può non essere così importante come le misure di austerità, ma ha ancora un grande impatto sulla ricerca di un paese e, in prospettiva, anche sulla qualità degli articoli che in futuro influenzeranno le politiche economiche -e non solo- di un paese.
Articolo pubblicato originariamente in inglese sul blog dell’Institute for New Economic Thinking, New York.