«Okkei paisà!» Ci si può fidare della valutazione preliminare per la VQR?

OkkeiTurista (un po’ ingenuo): «Quanto costa la fontana [di Trevi]?». Totò: «Con dieci milioni te la cavi!». Turista: «Okkei, paisà!» [mentre stringe la mano visibilmente soddisfatto]. I dieci milioni di lire della memorabile vendita della Fontana di Trevi, ai tempi nostri, varrebbero 125.000 Euro. Per fortuna il costo delle valutazioni bibliometriche per la VQR che l’università di Pavia ha commissionato a una ditta esterna è più a buon mercato: solo 30.000 Euro. Ma cosa abbiamo avuto in cambio? Non era facile venire a capo delle astruse regole bibliometriche della VQR, i cui calcoli comparativi richiedono di calcolare i voti VQR per l’intera produzione scientifica mondiale. Ma, nonostante ci venga detto che è stato calcolato “sulla base dei criteri finora pubblicati dall’ANVUR”, il Percentile Medio Pesato (PMP) che abbiamo ricevuto è qualcosa di diverso e molto più a buon mercato: una semplice verifica mostra che per calcolarlo bastano due moltiplicazioni e un’addizione. Operazioni elementari alla portata di tutti e che, sebbene ben remunerate, hanno il difetto di non restituire i veri valori usati dai GEV, ragion per cui non si può mettere la mano sul fuoco sulla correttezza dell’ordine di preferenza dei prodotti che ci è stato suggerito. A Pavia, l’unico a non dire «Okkei, paisà!» era stato quel consigliere di amministrazione che aveva votato contro il contratto di consulenza bibliometrica o – per meglio dire – di consulenza aritmetica.

(ripreso da: http://www.roars.it/online/okkei-paisa-ci-si-puo-fidare-della-valutazione-preliminare-per-la-vqr/)

1. C’è posta per te

Venerdì scorso, nella mia casella di posta elettronica arriva il seguente messaggio firmato dal prorettore alla ricerca Roberto Bottinelli.

Catalogo_ricerca2Il primo istinto è quello di tirare un sospiro di sollievo. Deve trattarsi di quella valutazione automatica che era stata promessa un mese fa in una mail del 23 dicembre

Per facilitare ulteriormente il processo di selezione, entro il 20 Gennaio 2016 sarà fornita a tutti i docenti dell’ateneo una valutazione automatica sulla base dei criteri dei GEV dei prodotti contenuti nella banca dati IRIS.

Da quanto è dato sapere si tratta di una valutazione fornita da una ditta esterna, Research Value, con cui è stato stipulato un contratto per un progetto di valutazione bibliometrica della produzione scientifica dei docenti dell’ateneo. Un progetto sottoposto per la prima volta al Consiglio di Amministrazione nella seduta del 30.06.2015, senza essere però approvato, a causa delle perplessità espresse dai consiglieri. Nella successiva seduta del 24.07.2015 il progetto era stato ripresentato sotto il nome

“Sistema di supporto alla valutazione della ricerca di Ateneo e alla selezione delle migliori pubblicazioni di ciascun strutturato del’Ateneo per la VQR 2011-­‐2014”

Come dice il titolo, nel documento che accompagna la proposta si sottolinea l’utilità di avere un supporto alla selezione dei prodotti per VQR 2011-2014. Un argomento, quello della VQR, che deve essere sembrato decisivo ai consiglieri, dato che al secondo tentativo la spesa di 30.000 Euro viene approvata con un solo voto contrario. Soldi ben spesi? Sarà interessante vederlo.

Continuo a leggere il messaggio

I parametri riportati nel file ed utili per la compilazione delle schede sono:

  • Il “rank” di ogni tuo prodotto rispetto agli altri (fino a 10) (colonna in giallo)
  • l’indice di impatto più favorevole della rivista tra i due ammessi da ANVUR per la banca dati WOS (colonna in azzurro)
  • la “subject category” più favorevole della rivista (colonna in verde)

Non mi resta che aprire l’allegato. Questa è la vista che si presenta ai miei occhi.

Valutazione_preliminare

In effetti, sembra la soluzione a tutti i rompicapi della VQR. Non c’è bisogno di lambiccarsi il cervello per decifrare gli astrusi criteri bibliometrici pubblicati dai GEV. Basta selezionare i due articoli che stanno in testa nella classifica e – voilà – è fatta. Se poi ci sono dei coautori nell’ateneo, basta discutere – amichevomente si spera – su come ripartirsi gli articoli da sottoporre a valutazione: se cedo il primo articolo, posso comunque ripiegare sul secondo e il terzo.

Molto più comodo del diluvio di tabelle appena pubblicate dall’ANVUR: per ogni articolo bisogna cercare in quali tabelle è riportata la rivista in cui è stato pubblicato (una rivista può appartenere a più di una categoria disciplinare, la cosiddetta ASJC) e poi scorrere il file Excel alla ricerca delle soglie citazionali. Un lavoro da certosini. E può persino capitare che la tabella che serve sia mancante:

Per ciascun GEV sono state pubblicate le classificazioni delle ASJC di maggiore pertinenza. Le istituzioni potranno comunque presentare per la valutazione a ciascun GEV anche prodotti che afferiscano ad ASJC non presenti tra quelle indicate nell’elenco allegato. (Documento di accompagnamento alla pubblicazione delle tabelle di valutazione bibliometrica, pag. 3)

Ma torniamo al mio file di valutazione, gentilmente servitomi sul desktop. Noto con piacere un fatto rassicurante: la colonna PMP, che assegna un percentile ai miei articoli mi indica ben 5 articoli sopra il 90-esimo percentile.

Colonna_PMP

Per sicurezza, vado subito a controllare i criteri della VQR:

  • Eccellente (peso 1): la pubblicazione si colloca nel primo 10% della distribuzione della produzione scientifica internazionale dell’area cui appartiene.
  • Elevato (peso 0,7): segmento 10-30%.
  • Discreto (peso 0,4): segmento 30-50%.
  • Accettabile (peso 0,1): segmento 50-80%
  • Limitato (peso 0): segmento 80%-100%
  • Non valutabile (peso 0): la pubblicazione appartiene a tipologie escluse dal presente esercizio, o presenta allegati e/o documentazione inadeguati per la valutazione o è stata pubblicata in anni precedenti o successivi al quadriennio di riferimento. Sono incluse in questa categoria anche le pubblicazioni mancanti rispetto al numero atteso.

Mi viene un tuffo al cuore: in base all’indice PMP, tutti i miei articoli sono tra 74,9 e 98,1, nemmeno uno che riesca a entrare nel segmento 0-10% (Eccellente) e neppure in quello 10-30% (Elevato) o 30-50% (Discreto). Un disastro: prenderò 0,1 + 0,1 punti, una miseria.

Che vergogna non avere neppure un lavoro valutabile come Discreto …

Per fortuna, mi riprendo subito dallo smarrimento. Controllo meglio e verifico che nei criteri della VQR, gli articoli Eccellenti sono quelli nel segmento 0-10%, mentre nella valutazione preliminare che ci è stata inviata, gli articoli migliori sono quelli nel segmento 90-100%.

Fffiuu … tiro un bel sospiro di sollievo.

Pertanto, se PMP avesse a che fare con i percentili del bando, avrei 5 pubblicazioni Eccellenti e 5 Elevate. Niente male, gongolo soddisfatto.

Su Roars ho appena letto il commento di un collega padovano:

il rettore di Padova ci ha comunicato che “la CRUI ha chiesto ed ottenuto l’attivazione di un tavolo tecnico ministeriale sul recupero degli effetti giuridici degli scatti, che elabori soluzioni eque e sostenibili”

Le mozioni #stopVQR dei dipartimenti (ben 11 a Pavia!), le petizioni e tutte le proteste non sono state inutili. Sarebbe il colmo lasciar perdere proprio adesso che qualcosa comincia a muoversi. Ma se il governo del nostro ateneo procede come nulla fosse avrà le sue buone ragioni, penso tra me e me.

E poi, se io vengo valutato eccellente, che mi importa del diritto allo studio negato, dei precari che emigrano perché il turn-over continua ad essere strozzato, dei tagli al finanziamento che faranno chiudere gli atenei del Sud, dell’importanza sempre minore che i colleghi attribuiscono alla didattica?

Mica è affar mio se siamo l’ultima nazione OCSE per percentuale di laureati e penultima per finanziamento in rapporto al PIL. Che ci pensi qualcun altro, il rettore, la CRUI, il ministro , il governo, l’Unione Europea o, se proprio non c’è alternativa, il Padre Eterno. Io faccio il mio dovere tutti i giorni e questo può bastare. Cosa vogliono di più da me?

Per un attimo, mentre metto il pigiama davanti allo specchio, mi vengono in mente 5 anni di scatti persi per sempre, non recuperati nemmeno ai fini giuridici. Una specie di “oro alla Patria” che a fine carriera mi sarà costato diverse decine di migliaia di euro.

Maledizione …

Sempre davanti allo specchio, cerco di rimuovere questo fastidioso pensiero compiacendomi della mia indubbia eccellenza.

Me ne vado a letto fantasticando di selezionare i miei migliori articoli senza fatica, con pochi rapidi clic del mouse. Mi addormento mentre conto le schermate di Iris invece delle proverbiali pecorelle.

2. Il percentile PMP non è il percentile rank della VQR

Come ha scritto qualcuno, i sogni muoiono all’alba. Con il nuovo giorno arrivano anche i primi dubbi sull’affidabilità della valutazione automatica fornita a tutti i docenti “bibliometrici” dell’ateneo. Non appena apro gli occhi, mi rendo conto che il messaggio del prorettore alla ricerca non conteneva nessun avvertimento sui margini di incertezza derivanti: (i) dall’esistenza di un altro database e (ii) dalla natura fluttuante dei dati citazionali. Due questioni serie, che illustro nell’Appendice dell’articolo. Ma il problema più grave è un altro.

La valutazione automatica attribuisce agli articoli selezionati un percentile, il cosiddetto PMP (Percentile Medio Pesato). Se PMP coincidesse con l’indicatore che Anvur usa per decidere la classificazione dei prodotti, avremmo in mano un’informazione decisamente utile. Tanto più che l’indicatore usato da ANVUR non è così facile da ricavare. Infatti, come è spiegato nel documento di accompagnamento alla pubblicazione delle tabelle di valutazione bibliometrica:

I risultati riportati oggi fanno riferimento ai dati Scopus sulla pubblicazione mondiale nelle diverse categorie

In pratica, per ottenere i percentili che decidono le classificazioni (Eccellente, Elevato, etc) bisogna prima dare un voto a ciascuno degli articoli dell’intera produzione mondiale di quell’anno in quella Subject Category. Il numero degli articoli della produzione mondiale può facilmente aggirarsi intorno alle decine di migliaia o anche più, a seconda della Subject Category considerata. Un’operazione che richiede di interrogare il database mondiale estraendo l’elenco di tutte le pubblicazioni, ciascuna corredata di numero di citazioni e sede di pubblicazione. Solo così diventa possibile calcolare i veri percentili. Sarebbe bello ci fosse qualche scorciatoia, ma non c’è.

Chi possiede le tabelle di questi percentili, possiede il Santo Graal della VQR. Infatti, conoscendo il voto di un articolo diventa possibile calcolare il cosiddetto “percentile rank” (un numero compreso tra 0 e 100), da cui seguono subito classificazione (Eccellente, Elevato, Discreto, …) e relativo punteggio (1, 0,7, 0,4, …). A volte si fa confusione tra percentile e percentile rank. Per chiarire la differenza, facciamo un esempio: se in un test di ammissione uno studente si è classificato 50-esimo su 101 concorrenti, il punteggio da lui ottenuto costituisce il 50-esimo percentile (noto anche come mediana) della distribuzione dei punteggi, mentre il percentile rank è pari a 50.

Torniamo alla mia tabella. A scopo esemplificativo, scegliamo il mio sesto articolo della lista, per il quale PMP = 83,4 (come già osservato, nei criteri della VQR, gli articoli Eccellenti sono quelli nel segmeno 0-10%, mentre nella valutazione preliminare che ci è stata inviata si usa una scala rovesciata e gli articoli migliori sono quelli nel segmento 90-100%). Ebbene, se PMP coincidesse con il “percentile rank”, mi basterebbe calcolare 100-83,4 = 16,6 per sapere che l’articolo si colloca nel segmento 10-30%: non ce la fa a entrare nell’empireo dell’eccellenza (segmento 0-10%) ma è comunque Elevato.

Ma i valori nella colonna PMP sono davvero il percentile rank dei miei articoli?

Sorprendentemente, la risposta è: no, non coincidono con il percentile rank su cui si basano i voti della VQR. E, di conseguenza, nella classifica che mi è stata fornita non è detto che l’ordine in cui sono stati messi i miei articoli sia quello giusto.

Ma andiamo per ordine. Prima di tutto, vediamo come è stato calcolato PMP. Come vedremo, è un calcolo che non richiede interrogazioni a tappeto del database della produzione mondiale, ma solo due moltiplicazioni e un’addizione.

Come esempio dimostrativo, prendiamo il primo articolo della mia lista, pubblicato nel 2012.

La formula con cui viene calcolato PMP nel 2012 è

PMP = 0.375 IR + 0.625 IC

Dove IR e IC sono i percentile rank dell’indicatore della rivista (5Y_IF: Impact Factor a 5 anni) e delle citazioni. La formula non è riportata nei criteri dei GEV, ma è facile da ottenere. Basta imporre che la somma dei coefficienti 0.375+0.625 sia pari a uno e che la pendenza, data da 0.375/0.625, sia uguale a 0.6, che è la pendenza assegnata dai criteri GEV per il 2012.

Ma dove posso trovare IR e IC? Anche questo non è difficile: basta andare su Iris nella sezione dedicata alla VQR.

Iris

Prima di procedere, è bene notare che Iris segue le definizioni del bando VQR, ovvero l’eccellenza coincide con il segmento 0-10%, mentre IR e IC usano una scala rovesciata, che associa l’eccellenza al segmento 90-100%. Niente paura: con le formule che abbiamo riportato sulla schermata di Iris ricaviamo subito i valori che ci servono:

  • IR = 100 – 3,69 = 96,31
  • IC = 100 – 0,83 = 99,17

Sono numeri che di fatto coincidono con quelli inviatimi dal prorettore alla ricerca. Anche senza ditte esterne, bastava leggerli su Iris (1).

IC_IR

A questo, punto, basta applicare la formula per il calcolo di PMP:

PMP = 0.375 IR + 0.625 IC = 0.375 x 96,31 + 0.625 x 99,17 = 98,10

Voilà! Il nostro PMP è stato calcolato al costo di due moltiplicazioni e un’addizione. Basta un’occhiata per vedere che concide con quello fornito dal mio prorettore alla ricerca.

PMPMi domando se la procedura di calcolo avrebbe potuto essere un progettino per un laureando triennale di Ingegneria Elettronica e Informatica. Un po’troppo facile, mi viene da pensare, ma chiudendo un occhio ci poteva anche stare.

Naturalmente, questo non è il percentile rank usato dai GEV per classsificare e dare i voti. Manca la parte più onerosa, ovvero il calcolo di PMP per tutta la produzione mondiale e la costruzione della relativa distribuzione statistica.

Ma quali errori comporta aver saltato a piè pari la parte più impegnativa del calcolo dei criteri VQR? Per farci un’idea, vediamo cosa succede su un campione di dati bibliometrici reali, quando PMP viene usato al posto del vero percentile rank per stimare la classificazione dei prodotti. Per comodità, ingrandiamo la zona di confine tra prodotti eccellenti ed elevati.

Effetti_PMP

In questo particolare esempio, l’uso di PMP al posto del vero percentile rank per determinare la linea di confine tra giudizio Elevato ed Eccellente comporta un errore che conduce a classificare erroneamente il 34% dei prodotti Eccellenti, che vengono declassati a Elevati. Se ci si basa su PMP, può anche accadere che prodotti Limitati vengano erroneamente classificati come Accettabili e così via per le altre classi. Difficile però dare ricette di validità generale: l’entità delle sovrastime e delle sottostime dipenderà dall’anno, dalla Scientific Category e dall’indicatore della rivista (5Y_IF oppure Article Influence).

Di conseguenza, l’ordinamento che mi è stato suggerito, basato su PMP, non è detto che rispecchi il vero ordine di preferenza dei miei articoli. E nemmeno posso fidarmi della scelta dell’indicatore bibliometrico e della Subject Category. Se il file Excel suggerisce che per un certo articolo 5Y_IF è più conveniente di AIS (Article Influence), non è detto che sia così. E se il mio articolo appartiene a due diverse Subject Category e mi viene consigliata ENGINEERING, ELECTRICAL & ELECTRONIC piuttosto che AUTOMATION & CONTROL SYSTEMS, di nuovo non è detto che sia la scelta giusta, dato che si sta usando un criterio diverso da quello dei GEV.

3. Quanto costa la fontana?

Tiriamo le somme:

  1. Il CdA dell’Università di Pavia – inizialmente scettico – si è risolto a stanziare 30.000 Euro per le consulenze bibliometriche fornite da una ditta esterna, quando è stata prospettata la loro utilità per il supporto alla selezione dei prodotti VQR.
  2. Nonostante il messaggio del prorettore alla ricerca parli di “una valutazione preliminare sulla base dei criteri pubblicati finora dall’ANVUR”, le valutazioni (e gli ordinamenti) di prodotti che sono stati forniti non seguono i criteri finora pubblicati dall’ANVUR. In particolare, manca il passaggio più oneroso, ovvero la calibrazione delle soglie basata sull’esame dell’intera produzione mondiale, che richiede l’estrazione di tutti i record e la loro elaborazione.
  3. L’indicatore PMP che viene usato per ordinare i prodotti è molto più facile da calcolare rispetto a quello usato dalla VQR. Infatti PMP è ottenuto mediante due moltiplicazioni e un’addizione effettuate su numeri ricavabili da Iris o (nel caso dei percentile rank di AIS) ricavabili da Journal Citation Reports© con manipolazioni elementari. Non sono necessarie competenze bibliometriche avanzate. Basta l’aritmetica.
  4. Non è possibile garantire che l’ordine di preferenza suggerito coincida con quello giusto secondo i criteri Anvur, dato che l’errore che si commette quando si usa PMP al posto del vero indicatore usato dall’ANVUR varia a seconda dell’anno, della disciplina e dell’indicatore della rivista (5Y_IF oppure AIS).

 

(1) Per l’indicatore AIS (Article Influence), Iris non fornisce il percentile, ma il suo calcolo a partire dai dati riportati sul sito Journal Citation Reports© è un’operazione che non richiede il supporto di consulenti bibliometrici, ma solo conoscenze statistiche elementari.

Appendice

Il messaggio del prorettore alla ricerca non conteneva nessun avvertimento sui margini di incertezza delle informazioni ad esso allegate.

Eppure, c’erano due avvertimenti di base che andavano assolutamente dati.

1. I dati bibliometrici e la relativa classifica sono basati sul database Web of Science (WoS) della Thomson-Reuters. Ma la VQR fa uso anche di un secondo database, Scopus della Elsevier. A titolo di esempio, prendiamo i criteri del GEV 09. Ecco cosa c’è scritto:

Nella scheda prodotto all’autore/istituzione sarà chiesto di indicare obbligatoriamente la base di dati preferita (WoS o Scopus).

Ebbene, potrebbe capitare che un prodotto classificato come Elevato in base ai dati WoS sia invece classificato come Eccellente per Scopus. Non è un’ipotesi campata per aria. Se consulto Scopus, il mio sesto articolo, pubblicato sulle IEEE Trans. on Biomedical Eng., ha 58 citazioni che sono sufficienti per classificarlo come Eccellente in base alla tabella

GEV09-scopus-2204-Biomedical Engineering-anno2012-SJR-Article

appena pubblicata da Anvur. Se mi fossi affidato alle sole valutazioni fornite dal prorettore alla ricerca, non avrei saputo che questo prodotto era Eccellente per l’altro database. Piuttosto, in base al percentile PMP, avrei pensato che ricadeva nella categoria dei prodotti Elevati. Nel mio caso poco importa, visto che ho altri articoli presumibilmente “Eccellenti”. Ma, se prescindiamo dal mio caso particolare, sarebbe stato corretto avvisare i colleghi che i loro articoli potrebbero ottenere valutazioni diverse e forse più favorevoli con il secondo database, della cui esistenza non si fa nemmeno cenno.

Di conseguenza, non è detto che la classifica che mi è stata mandata sia l’autentica classifica in ordine di preferenza degli articoli da sottoporre a valutazione. Ricordiamo che il salto di una categoria (che come appena visto è tutt’altro che impossibile quando si cambia database), vale di norma 0,3 punti. Prendendo per oro colato i dati inviati dal prorettore alla ricerca, alcuni colleghi potrebbero ottenere punteggi più bassi di quelli che avrebbero ottenuto considerando anche Scopus.

2. È ben noto che i dati citazionali vengono aggiornati in continuazione, una delle ragioni che ne sconsiglia l’uso per scopi normativi e amministrativi (non che questo abbia scoraggiato l’Anvur). In base ai criteri della VQR può accadere che 6 citazioni bastino per essere catalogati “Eccellenti”. Pertanto, interrogare il database bibliometrico a distanza di un paio di mesi può produrre risultati diversi. Ma su quali dati saranno basate le valutazioni dell’ANVUR? E quanto ci si può fidare delle prevalutazioni? Ecco cosa scrive l’agenzia nel documento di accompagnamento alla pubblicazione delle tabelle di valutazione bibliometrica:

Le informazioni devono essere considerate come un’utile guida, per i singoli addetti e le Istituzioni, ai fini di una autovalutazione della selezione dei prodotti di ricerca da conferire; esse non devono invece in alcun modo essere intese come strumento capace di prefigurare con certezza l’esito finale della valutazione, per i seguenti motivi:

  1. la valutazione finale dei prodotti sarà basata sulle informazioni citazionali aggiornate al 29 febbraio 2016, mentre i calcoli delle griglie pubblicate oggi sono basate sui dati aggiornati al 31 ottobre 2015.
  2. I valori definitivi delle pendenze e delle intercette saranno ricalcolati sui dati aggiornati e saranno pertanto possibili spostamenti delle soglie.

III. Soprattutto, la valutazione finale sarà in ogni caso responsabilità del GEV (e non il frutto dell’applicazione automatica dell’algoritmo bibliometrico). In particolare, il GEV di appartenenza potrà modificare la categoria disciplinare e l’SSD prescelti dall’autore, in base ad un criterio di migliore aderenza dei contenuti del prodotto e potrà inviare i prodotti in peer-review tutte le volte che lo riterrà necessario.

Poche certezze, insomma. Al netto di criteri discutibili e fluttuanti, l’Anvur ha almeno l’onestà di spiegare che né i dati né le griglie sono da ritenersi stabili.

Un avvertimento simile avrebbe dovuto essere contenuto nel messaggio inviato a tutti i docenti “bibliometrici” dell’ateneo. Dal messaggio sembra che l’unica aleatorietà possa derivare da aggiornamenti dei criteri da parte dell’ANVUR:

Una settimana dopo la pubblicazione dei criteri aggiornati distribuiremo le valutazioni definitive.

In realtà, le incertezze su dati e soglie citazionali permarrebbero anche se l’ANVUR confermasse i suoi criteri.

Andava anche precisata la data in cui era stata effettuata l’interrogazione del database WoS. Nel caso di ANVUR, c’è un intervallo di tre mesi tra il 31 otttobre (interrogazione su cui sono basate le tabelle) e il 29 febbraio (valutazione finale), il che suggerisce un’ovvia cautela nell’uso delle informazioni.

 

 

Questa voce è stata pubblicata in Articoli e contrassegnata con , , , , , , , , , , , , , , . Contrassegna il permalink.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.