La ricerca agraria nell'epoca dei "Big Data"

di Amedeo Alpi

15 January 2014

Durante la prima Assemblea generale dei Georgofili, tenutasi a Firenze il 17 Dicembre scorso, ho presentato una relazione sull' organizzazione della ricerca agraria, ma qualche riferimento al contenuto della medesima non poteva essere evitato. Infatti, durante l'ultima parte della relazione ho fatto alcuni riferimenti alla ricerca sugli organismi (piante, animali, funghi, microbi) che rappresenta la parte predominante della ricerca agraria, mentre nel contempo si poteva osservare sullo schermo una serie di immagini, quasi ossessive per il loro carattere monotematico, che illustravano l'importanza della gestione delle enormi quantità di dati quotidianamente prodotte dalla ricerca agraria condotta in varie parti del mondo.

La raccolta dei dati, la loro elaborazione, conservazione, trasferimento e condivisione all'interno della comunità scientifica mondiale è sempre stata una preoccupazione degli addetti alla ricerca; quindi, si potrebbe dire, nulla di nuovo. Invece una serie di fatti, accaduti alla fine del secolo scorso, ha innescato un processo di crescita esponenziale durante questi primi anni del terzo millennio, ed ha fatto in modo che la quantità dei dati sperimentali è diventata così enorme da porre il vecchio problema in termini assolutamente nuovi. Quando la quantità cresce in modo smisurato, diviene anche problema qualitativo. I Georgofili non potevano non essere chiamati a riflettere anche su questo aspetto.

In primo luogo dobbiamo prendere atto che la comunità scientifica si è arricchita di larghe schiere di addetti assolutamente non prevedibili durante i primi decenni del dopoguerra quando la ricerca, anche agraria, vedeva sostanzialmente il contributo dei paesi occidentali, nord-europei e nord-americani, con l'aggiunta di Giappone, Australia e poco altro. Questo quadro è cambiato. Per gli ultimi increduli si può fare un esempio ponendoci la seguente domanda: è stato rilevante l'ingresso dei cinesi nella comunità scientifica internazionale? Ebbene, l'Istituto di Genomica di Pechino (BGI; http://www.genomics.cn/en/index) occupa 600 ingegneri bioinformatici ed è uno dei più grandi produttori di dati genomici nel mondo; dotato di 157 strumenti per il sequenziamento del genoma è in grado di lavorare 24 ore su 24 sia in campioni umani che vegetali, animali e microbici. Questo straordinario ingresso dei cinesi nel mondo della ricerca, biologica ma anche agraria, impensabile solo un paio di decenni fa, non è l'unico, perché gli scienziati indiani o brasiliani, senza rammentare quelli di molti altri paesi, rappresentano altre realtà in grande ascesa sul piano della qualità e della quantità della ricerca agraria. Quindi la comunità dei ricercatori si è molto accresciuta e ciò, di per sé, rappresenta un importante elemento che amplifica le informazioni scientifiche a nostra disposizione.

A questo primo elemento occorre aggiungerne un altro: la rapida diffusione delle tecnologie "high-throughput" (elevata analisi ed elaborazione), e quindi degli strumenti adeguati, nei vari laboratori del mondo, ha portato a impostare gli esperimenti prevedendo il ricorso a queste tecnologie. Sono nate le scienze "omiche" che prevedono non più l'ottenimento di un dato, ma di enormi "data set". Si parla pertanto di Big Data. Sempre più nei laboratori si ottengono dati di genomica, trascrittomica, proteomica, metabolomica ecc. Tanto per fare un esempio, con un sequenziatore automatico di genomi un piccolo laboratorio è in grado sia di generare "big data" sia di essere, a sua volta, un fruitore di dati di quei grandi Centri mondiali di raccolta e gestione dei dati che sono divenuti indispensabili e sono rappresentati dall'Istituto Europeo di Bioinformatica (EMBL-EBI; http://www.ebi.ac.uk/) in Hinxton, Regno Unito e dal Centro per le informazioni biotecnologiche di Bethesda (NCBI;http://www.ncbi.nlm.nih.gov/) in Maryland, Stati Uniti, senza dimenticare il sopra ricordato BGI di Pechino. In altre parole i ricercatori del settore "scienze della vita", al quale appartiene buona parte della ricerca agraria, dopo l'avvento della genomica high-throughput si sono ormai aggiunti al club dei Big Data, insieme agli astronomi e ai fisici; anche nella biologia agraria i "data set" sono misurabili in terabyte (10¹² byte); ricordiamo che un intero genoma di una pianta può occupare meno di 1 gigabyte (10⁹ byte). Nel solo EBI sono conservati oltre 20 petabyte (10¹⁵byte) di dati su geni, proteine e piccole molecole; è circa un decimo di quanto conservato al CERN di Ginevra. E', di fatto, una rivoluzione.

Questa rivoluzione è priva di problemi? Può essere tranquillamente assimilata solo programmando adeguati esperimenti e raccogliendo enormi quantità di dati? La risposta ovvia è che invece si è inaugurato un nuovo periodo ricco di grandi sfide. La gigantesca quantità di dati derivati dagli studi sugli organismi è anche più complicata dei dati comunemente prodotti dalla ricerca dei fisici; il dato biologico infatti cambia di continuo con l'evolversi inarrestabile delle tecnologie e, siccome non esiste ricercatore che possa elaborare da solo questa grande quantità di dati, ci si deve inevitabilmente rifare a metodi di "data management" che al momento non sono disponibili in Internet nonostante molteplici tentativi. La conclusione è che siamo in grado di ottenere grandi quantità di dati (i big data appunto) ma ci è difficile la loro interpretazione; i sistemi esistenti sono tutti approssimati (incluso il cosiddetto "cloud computing", disponibile in rete) e quindi la comunità dei ricercatori, in questo preciso settore delle scienze della vita, dovrà fare uno sforzo autonomo per trovare la soluzione. Concludendo: dobbiamo prima capire cosa abbiamo imparato dai dati accumulati sino ad ora; successivamente potremo intraprendere nuove ricerche, di base e applicative, generate dalle giuste interpretazioni dei "Big Data" già ottenuti.

(L’articolo è tratto da una relazione svolta all’Assemblea generale dei Georgofili – Firenze, 17 dicembre 2013)