Alcune osservazioni usando Scholar Search di Gianni Cesareni e Daniele Peluso, e suggerimenti per una versione 2.0
http://160.80.35.6/ScholarSearch/
Di Michele Ciavarella, Politecnico di BARI e Vito Ricci, Università di BARI.
Siccome l’Agenzia ANVUR ha finalmente avviato in Italia una valutazione della ricerca, usando sia strumenti “bibliometrici” che “peer review”, si è scatenato un dibattito in Italia mai visto prima, anche perché l’Anvur assegnerà con la valutazione VQR 2004-2010, circa 700 milioni di euro premiali alle Università “meritevoli”. VQR imita in parte il sistema RAE che in UK è operativo da molti anni, con varie scadenze che hanno affinato via via il metodo di analisi e che ora è basato (REF) tutto sulle citazioni, ma non solo di pubblicazioni, bensì del “valore” del docente nel panorama mondiale, aspirando gli UK ad avere dei “leaders” mondiali del settore.
Noi del gruppo ItalianScientists abbiamo usato con mezzi minimi a disposizione a inizio Aprile 2012 il database Google Scholar attraverso Scholar Search (http://scholarsearch.uniroma2.it/), in cui Gianni Cesareni e Daniele Peluso dell’Università di Roma Tor Vergata hanno recuperato da Google Scholar le pubblicazioni dei ~56000 docenti delle Università Italiane, e le relative citazioni, nel periodo di pertinenza del prossimo VQR (2004-2010). Lo abbiamo fatto per estrarre alcune osservazioni statistiche. Ci sono arrivate tuttavia varie critiche sulla difformità di alcuni dati di singoli individui, oppure sul fatto che interi settori (specie umanistici, aree CUN da 10 a 14, o anche l’area 8 Ing. Civile e Architettura) sono molto poco presenti nella ricerca. Questo in parte è dovuto agli errori in Scholar Search, in parte alla incompletezza di Google Scholar, e infine in parte dovuto al fatto che certe aree sono obiettivamente molto meno presenti nei database (e infine, pubblicano meno). Ha colpito che noi tra virgolette abbiamo parlato di settori “improduttivi” sic et simpliciter.
Dato che l’interesse generato ha rappresentato un test per Scholar Search, scriviamo questa relazione per chiarire alcuni punti, prima di procedere oltre. Peraltro il Prof. Cesareni ha dichiarato di rilasciare a breve una versione 2.0, e stiamo collaborando per suggerire miglioramenti.
1) Non tutti capiscono che si tratta di h index solo relativo alle pubblicazioni del periodo 2004-2010. Ovvio che H-index non corrisponde a quello comunemente usato per il totale della carriera, e questo a volte confonde. Si è voluto usare quello 2004-2010 perché si sta mimando la valutazione VQR dell’Anvur.
2) Non tutti capiscono che esistono due modi di usare Scholar Search. La ricerca individuale, che permette di scegliere i filtri, le aree, il periodo, e che interroga Google Scholar, e la ricerca dal database, in cui filtri sono stati già adottati. Quindi le due interrogazioni producono risultati diversi.
3) Filtri sugli omonimi. Dato il problema dei 60000 docenti ca. 16000 lo stesso cognome, ma che il numero scende a 2600 se prendiamo la stessa Università, e a 1700 se dividiamo per “science” e “humanities” (includendo economy and law), Cesareni ha ritenuto con un filtro di ridurre il problema al 2.8 % degli individui. Tuttavia, cosi’ facendo ha anche creato problemi per chi per es. si è trasferito tra Università, oppure ha pubblicato in settori umanistici (includendo economia e legge) pur essendo in aree scientifiche. Questo problema è particolarmente sentito per l’area di Ingegneria Gestionale (IngInd35), e va assolutamente corretto. Restano questo 3% di omonimi che possono dare problemi di singoli dati
4) Filtri per affiliazione. Per considerare che nelle pubblicazioni a volte l’affiliazione è tradotta, anche in modo bizzarro, Cesareni ha previsto un dizionario, vedasi appendice. Alcuni autori specie di aree umanistiche non dichiarano affiliazione, e questo è un problema. Ovviamente eliminare il filtro di cui sopra tra sciences e umanities porterebbe il problema degli omonimi al 4%, a meno che non si pensi ad un filtro migliore
5) I dati sono naturalmente non confrontati con Scopus e Web of Science perché non è possibile interrogare questi ultimi database per un tale numero di docenti
6) Si potrebbero suggerire altri check a posteriori. Per es. facendo una ricerca per Università, senza nomi, e vedere quanti items vengono, e confrontarli con il numero di items ottenuto per autori.
7) Abbiamo valutato le Univ. Italiane per H medio del docente (nel periodo 2004-2010), grosso modo come riportato anche nel sito di Scholar Search, con piccole varianti. H indice di Hirsch misura il numero di articoli citati piu’ di H volte di un certo docente, e la classifica è qui: http://italianscientists.blogspot.it/2012/04/la-classifica-delle-universita-italiane.html Le prime vengono univ. serie come S. Raffaele e SISSA e SANTANNA di PISA e PADOVA e PISA, intorno a H=10, mentre le ultime sono le telematiche con H=0. Il dato sarà errato di quanto. Siccome molti hanno notato che alcuni settori sono molto più presenti di altri (i medici e i fisici da anni hanno un output internazionale più curato e presente), allora abbiamo voluto tener conto del valore H medio di ogni settore SSD, ottenendo una classifica simile http://italianscientists.blogspot.it/2012/04/la-classifica-delle-univ-per-h-medio.html. In questa le prime sono di nuovo Univ. serie, con qualche spostamento, e il valore per la BOCCONI intorno a 2.6, mentre il San Raffaele è a 1.9. Ciò significa che sono mediamente intorno a 2 volte più alti gli H index a parità di SSD.
8) Un dato che ha molto impressionato è la percentuale di docenti italiani non presenti nel database Google Scholar né in italiano (notare che CEsareni sul sito dice di usare solo il database in inglese, invece usa anche l’italiano) né in inglese (si potrebbe suggerire di usare anche altre lingue, per un piccolo miglioramento nei settori linguistici. Si tratta di 20.461 docenti con 0 prodotti citati (34,6% dei docenti), di cui ben 16.456 (27,9%) sono docenti con 0 prodotti totali. Si può dire quindi che la differenza di circa 4.000 docenti (4,7% dei docenti) sono presenti nel database ma non sono per nulla citati, il che ha un ulteriore significato. Abbiamo tuttavia ottenuto da un ex Rettore inglese un dato interessante da RAE2001 e RAE2008. Ossia che 40% dei docenti non erano stati inseriti nel RAE. Da noi il confronto dei meccanismi è difficile, dato che a tutti viene chiesto di inserire 3 pubblicazioni. Tuttavia, il fatto che ci siano teaching universities in UK, e che di questo 40% di “improduttivi”, si è deciso in UK di cambiare le loro mansioni (a prevalentemente didattiche e di amministrazione), è interessante http://italianscientists.blogspot.it/2012/04/interesting-comment-on-italy-vs-uk-rae.html
9) Come è noto, ANVUR ha deciso di trattare le aree CUN da 1 a 10 con criteri bibliometrici (sarebbe interessante sapere già da ora quante delle 3xN pubblicazioni teoricamente suggeribili sono pervenute davvero), mentre aree CUN da 11 a 14 con peer review. Molto curioso è il caso allora dell’area CUN 8, che abbiamo trovato con caratteristiche border line tra quelle umanistiche e quelle scientifiche.
10) Abbiamo toccato con mano la “resistenza” alla valutazione (Sindrome di Bertoldo), che era già cominciata con l’enorme resistenza all’agenzia ANVUR, ed è toccata anche a noi. Sarebbe interessante capire perché all’esercizio VQR corrisponderanno solo “premi economici” ad alcune Università in termini di finanziamenti (il 20% del FFO, ossia una cifra che teoricamente potrebbe mettere in ginocchio il bilancio di molte Università per pagare gli stipendi, se è vero che il 75% delle Università italiane oggi è sopra la famosa soglia del 90% di AF/FFO, ossia il 90% è speso oggi in stipendi). Perché invece a VQR non corrisponda direttamente agli individui nessun “premio” (questo in parte avviene in UK, dove si “assume” in funzione del prossimo esercizio RAE, e non come in Italia, dove siamo ancora indietro ad assumere i già vincitori di concorso), e nemmeno nessuna “punizione”, diversificando per es. il carico di lavoro (perché il teaching load è uguale per legge?). In UK come in USA è prassi.
11) Insomma, sembra di andare verso alcune proposte di differenziazione che vengono da Perotti, Giavazzi, la Confindustria. Curioso però il dato che LUISS (Università della Confindustria) appaia piuttosto bassa nelle classifiche!
12) Anche la classifica delle Università in ordine di percentuale di “produttivi” lascia le Università di prestigio più o meno al vertice, senza grossi cambiamenti, anche se hanno molte facoltà umanistiche. Viceversa, rimane da indagare perché la classifica sembra differire da quella SCIMAGO che pure è basata su parametri di impatto bibliometrico normalizzato, e vede addirittura il Politecnico di BARI in vetta tra le pubbliche, mentre qua risulta in mezzeria. Salta all'occhio tuttavia la discesa della Bocconi e della Normale di Pisa. Come mai? Hanno molti improduttivi?
13) Se usiamo come “improduttività” la soglia H<3, cercando di "mimare" il fatto che VQR raccoglie 3 lavori per docente e supponendo che almeno 3 lavori esistano, e che siano almeno citati 3 volte l'uno, avremmo ottenuto che ben 52,9% dei docenti italiani sono “assenti” su Google Scholar, anzi, per maggior precisione, su Scholar Search.
14) Molte delle obiezioni riguardano il fatto che per molti settori disciplinari (SSD), Google Scholar è in difetto o perlomeno non è “rappresentativo”, non avendo ancora dati sui prodotti di quei settori. Abbiamo segnalato anche qualche articolo scientifico sul blog http://italianscientists.blogspot.it/2012/04/insufficient-coverage-of-social.html Certe case editrici italiane o grandi biblioteche universitarie, non hanno fatto ancora accordi con Google Scholar (e Google in generale) come invece in USA. Tuttavia questo vuol dire che non vi è molto materiale italiano nelle grandi libraries USA, e quindi il dato mantiene parte dell’interesse. Per esempio, per Umberto Eco, per Giovanni Federico, per Fabio Pammolli si trovano abbondanti citazioni pur essendo umanisti o economisti.
15) Se eliminiamo le aree umanistiche (invece che per aree CUN, abbiamo eliminato i SSD per cui la mediana dell’indice di Hirsch H è nullo (159 per circa 20 mila docenti) per cui l’80% è “assente” , si ottiene quindi una stima della % di docenti davvero improduttivi, che scende a 4.400, ossia 7,4%. La cifra non è troppo alta, anche considerando che i docenti non fanno solo ricerca, ma debbono fare didattica. Tuttavia avere H>0 non pare un grande risultato di per sé!
16) Diagrammando le distribuzioni di probabilità dei docenti raggruppati per aree cun, in un grafico le umanistiche e in un altro le scientifiche (fig.1 e 2), si ha un quadro complessivo molto chiaro. Le aree 2, 3 e 5 tendono ad avere un massimo di densità probabilità, mentre le altre, comprese le umanistiche e la “ibrida” CUN8, sono tutte decrescenti, ossia il massimo è nel punto H=0.
Nessun commento:
Posta un commento