Scienza e ricerca

Scienza e ricerca

La ricerca condivisa: nasce Zenodo, il data repository europeo

24 maggio 2013

Zenodo, da Zenodoto, il primo direttore della antica biblioteca di Alessandria e padre dell’organizzazione delle opere nell’ordine alfabetico, è il nome scelto per il data repository multi-disciplinare europeo, l'archivio digitale per i dati aperti della ricerca. Non si tratta solo di un omaggio a una figura storica importante, lo studioso che curò la prima edizione critica di Iliade e Odissea: Zenodoto riorganizzò la collezione di Alessandria facendone il modello per tutte le biblioteche successive e, grazie all'introduzione dei cartellini con nome dell'autore e descrizione dell'opera legati ai volumi, è considerato il primo bibliotecario ad aver usato metadati per collegare le informazioni sulle opere alle opere stesse.

Il nuovo archivio aperto per dati è frutto della collaborazione tra il Cern e il progetto OpenAire, nell’ambito del settimo programma quadro europeo. Il Cern memorizza attualmente oltre 100 Petabyte di dati concernenti la fisica delle particelle relative al Large Hadron Collider (Lhc), producendo qualcosa come 25 PB di dati grezzi all’anno da quando l'Lhc è in funzione. Uno degli obiettivi del progetto OpenAire è la realizzazione di un’infrastruttura a supporto dei ricercatori europei che fornisca linee guida, buone prassi, modelli e tecnologie per depositare, accedere a e manipolare dati grezzi di ricerca di varie tipologie in combinazione con le pubblicazioni di riferimento. I dati caricati sono forniti da opportuni metadati e le collezioni di dati sono esposte via protocollo standard Oai-Pmh, di modo che i dati stessi siano facilmente individuabili e recuperabili per il libero uso, scambio, riuso e distribuzione da parte di tutti gli studiosi delle comunità scientifiche.

Attraverso i metadati - creati in modo semi-automatizzato – Zenodo comunica con i servizi web 2.0 utilizzati dalle comunità di ricerca come DropBox, il servizio di file hosting gratuito che consente la condivisione e la sincronizzazione centralizzata di file e documenti tra computer, notebook e smartphone. Zenodo accetta depositi di dati da parte di singoli ricercatori o gruppi di ricerca, comunità o istituzioni non dotate di un data repository proprio. I dati sono disponibili gratuitamente e possono essere usati anche da terze parti – aziende, banche dati o altre piattaforme di ricerca – e riportano informazioni relative a progetti correlati, istituzioni e fonti di finanziamento della ricerca in questione. Varie le tipologie di formato accettate, depositabili in file fino a 1 GB, ma è possibile depositare file più pesanti contattando lo staff.

Ad ogni set di dati viene assegnato un Doi, ovvero Digital object identifier: un identificatore standard che consente di individuare persistentemente, all'interno di una rete digitale, qualsiasi oggetto di proprietà intellettuale e di associarvi i relativi dati di riferimento, i metadati appunto, secondo uno schema strutturato ed estensibile. Il Doi è stato definito il codice a barre per la proprietà intellettuale e poiché è uno strumento usato anche dagli editori per gli articoli di riviste digitali, assegnare un Doi ai set di dati risulta particolarmente utile ai fini dello sviluppo di ricerche incrociate, oltre che in riferimento ai possibili vantaggi citazionali che aumentano l’impatto delle ricerca “originaria” connessa ai dati. Zenodo colloquia infatti anche con Mendeley, servizio online recentemente acquisito da Elsevier, che utilizza la tecnologia cloud per la creazione di bibliografie a scopo citazionale, funzionando come sistema di reference manager entro una piattaforma di tipo social network. I nomi degli autori sono connessi con il sistema OrcId (Open researcher and contributor Id), recentemente integrato con il sistema ResearcherId di Web of Science. Questi sistemi di identificazione autore forniscono una valida soluzione al problema dell’ambiguità del nome dell’autore all’interno della comunità di ricerca accademica.

Sebbene Zenodo sia per ora una goccia nell’oceano, è un ottimo punto di partenza considerato che è possibile depositare anche i dati grezzi a qualsiasi stadio di ricerca, proprio per consentire ad altri laboratori di effettuare ricerche e sperimentazioni parallele, partendo da vari stadi della ricerca. Aspetto fondamentale è l’attenzione posta al versioning: i file di dati hanno versione numerata di modo da poter differenziare i vari stadi della ricerca. Il riuso dei dati genera quindi file derivati che vengono depositati a fianco della versione originale che rimane sempre immutata.

Al fine della condivisione e riuso dei dati, Zenodo incoraggia il deposito dei file con licenze di tipo aperto. Le policy del data repository consentono comunque di depositare dati ad accesso ristretto o di ritirare dati dall’accesso pubblico; in tal caso i dati rimangono, ma sono oscurati entro l’archivio, che ha anche il compito di repository di conservazione dei dati per la ricerca.

Il servizio di hosting è curato dal centro dati del Cern di Ginevra dove tutti i dati sono mantenuti in più repliche entro un sistema distribuito il cui back-up è effettuato su nastri nel corso di ogni notte.

Antonella De Robbio