Università e scuola

Università e scuola

Nuove frontiere della ricerca, è questione di dati

11 aprile 2018

La rivista Nature ha recentemente riportato il caso di una ricercatrice svizzera alla quale, dopo aver presentato un progetto di ricerca, è stato chiesto di creare un “data management plan” (DMP). Nella fattispecie la studiosa, non sapendo cosa fosse e come farlo, ha chiesto e poi ricevuto aiuto dai colleghi: non tutti però sono così fortunati. In pratica, un DMP sintetizza il modo in cui i ricercatori terranno sotto controllo nel tempo i loro dati. Non importa che origine abbiano e la loro tipologia: possono infatti provenire da un apparato di risonanza magnetica funzionale oppure da un generatore di particelle e possono contenere testi, grafici, immagini, tabelle e così via. In realtà molti scienziati, come in particolare genetisti e astronomi, utilizzano modalità prossime da molto tempo: i genetisti, per esempio, possono contare su oltre una settantina di ambienti di sistemi informativi per metadati, che possono spaziare dai virus alle immagini oncologiche. Per la maggior parte degli altri si tratta però di una novità con la quale si dovrà d’ora in poi fare i conti.

I DMP sono richiesti per realizzare appieno la cosiddetta Open Science, vale a dire per rendere la ricerca scientifica il più possibile fruibile e rapidamente accessibile. La conservazione di dati permette di riusarli e di confrontarli e di duplicare le ricerche; impedisce anche che alcuni intraprendano strade che, già battute, non hanno portato a risultati concreti. Oltretutto, la possibilità di “pescare” da una grande quantità di dati può permettere all’intelligenza artificiale di comparare le informazioni molto meglio degli umani, soprattutto in campo medico: pensiamo solo a come potrebbero essere validi gli screening eseguiti partendo dall’analisi di milioni di mammogrammi. L’Unione Europea richiede ormai i DMP per ottenere finanziamenti, così come lo European Research Council; poi pretende che sia reso disponibile l’accesso aperto delle pubblicazioni scientifiche con riesame paritario che riportano risultati di ricerca. In pratica, i finanziatori che reclamano i DMP obbligano i ricercatori, ben prima d’iniziare un progetto investigativo, a specificare come produrranno quei dati e tutto l’iter che questi avranno, come saranno conservati e chi potrà accedervi una volta terminata la ricerca. Chi non fornisce l’autorizzazione all’accesso aperto per motivi legati magari alla proprietà intellettuale oppure alla sicurezza, deve fornire adeguate motivazioni.

Il problema sta nel fatto che molti ricercatori non sono informati. Un’indagine, svolta l’anno scorso su oltre 1.200 giovani borsisti e dottorandi di ricerca, mostra che solo un quarto di loro avevano generato un DMP, mentre un altro quarto non sapeva neanche cosa fosse. Molti lamentavano scarso supporto da parte delle istituzioni alle quali afferivano.

Purtroppo ciascuna disciplina scientifica genera qualitativamente e quantitativamente una mole di dati particolari, per cui la varietà dei DMP che possono essere richiesti è molto elevata. Chiaramente, un generatore di particelle procura un’enorme quantità di dati, mentre un antropologo che lavori sul campo ne produce molti di meno. Vi sono poi ricerche di natura concettuale o teorica che non necessitano di nessuna gestione dati: in questi casi è impossibile conservare ciascuna fonte, anche minima, d’informazione. Un passo fondamentale, in ogni caso, riguarda l’indicazione di chi, dopo la ricerca, conserverà i dati. È impensabile che sia una persona, è opportuno che il mantenitore sia una biblioteca. Anche in questo caso, tuttavia, dato che le biblioteche non conservano dati personali (a meno che il personaggio non sia un genio acclarato) è opportuno inserirli in un archivio informatico specialistico. Ogni comunità di ricerca ha comunque i suoi ambienti per la gestione dei metadati (si veda, per esempio: www.re3data.org).

Esiste chiaramente il problema dei dati sensibili, specialmente quelli medici, più che mai vulnerabili in un’epoca di “big data”: sono sorte come funghi agenzie che accumulano i dati personali degli utenti online allo scopo di rivenderli a società, ma anche ad altri soggetti come partiti e movimenti politici, permettendo loro di affinare le loro strategie di marketing oppure propagandistiche. Queste ultime possono basarsi su dati individuali, anagrafici e geografici, oppure – nel caso di quelle denominate psicografiche – anche sui comportamenti, con l’obiettivo di delineare attitudini, soprattutto pescando dati dagli smartphone e dai social networks. Alcune agenzie, nel caso delle elezioni presidenziali americane, sono arrivate addirittura a raccogliere, per ciascun elettore, migliaia di dati, allo scopo di ritagliare su misura la propaganda.

I minatori di un tempo cercavano l’oro, per quelli online i materiali più preziosi sono i dati. Dato che un’azienda è recentemente salita alla ribalta per essersi appropriata di dati sensibili in maniera illegale, si è aperta la ricerca a nuove modalità di controllo in modo tale che queste informazioni possano essere scambiate senza che gli utenti ne perdano il controllo. Nel caso dell’open science si è proposto di adottare protocolli di fiducia che permettano scambi trasparenti basati sulla tecnologia blockchain, già utilizzata per registri contabili che sottostanno alla moneta virtuale Bitcoin. Esistono persino dei progetti che, allo scopo di “allenare” i loro algoritmi, pagano gli utenti che forniscono questo tipo di informazioni. Anche molte università si sono oramai attrezzate in questo senso: a Padova il Sistema Bibliotecario di Ateneo fornisce aiuto sia per la compilazione dei DMP (How to create a DMP Plan, a cura di OpenAIRE), sia nella scelta delle piattaforme dove archiviare i dati finali (come ad esempio Phaidra).

Concludendo, sempre più in futuro dovremo fare i conti con big data, senza però abbandonarci a un timore eccessivo: le informazioni che possiamo raccogliere in questo modo sono utili per le incombenze di tutti i giorni, dalla gestione dei nostri risparmi, a conoscere se ci sono code sul nostro itinerario in auto, a trovare il prezzo più basso di un albergo, fino al controllo delle pubbliche amministrazioni. Oltre che, ovviamente, per favorire il progresso delle nostre conoscenze attraverso la Open science. Naturalmente, anche in quest’ultimo caso, esercitando un controllo: magari a monte, prima che i dati diventino accessibili.  

Franco Viviani