Basato su Cloudera Enterprise con Apache Spark come standard di bioinformatica, GATK 4 è progettato per accelerare la ricerca genomica
Cloudera annuncia la nuova collaborazione con il Broad Institute del MIT e di Harvard, il principale centro di ricerca biomedica e genomica del mondo. Le due organizzazioni stanno lavorando insieme quest’anno per promuovere lo sviluppo del kit di strumenti di analisi del genoma di prossima generazione, denominato GATK4.
Cloudera Enterprise accelera la ricerca nel campo delle scienze bioogiche e la scoperta di nuovi farmaci, offrendo dati in tempo reale a medici, ricercatori e fornitori il cui focus è la personalizzazione dell’esperienza del paziente. Basando la quarta generazione dello di GATK (GATK 4) su Cloudera Enterprise e utilizzando il framework di elaborazione distribuita Spark per accelerare la ricerca, il Broad Institute agevola una migliore comprensione del sequenziamento genomico, ottenendo un’esplorazione più veloce dei dati e, in ultima analisi, migliorando il processo decisionale in ambito clinico.
Da quando il progetto sul genoma umano ha prodotto la prima bozza della sequenza del genoma umano nel 2000, il costo del sequenziamento è sceso in modo esponenziale, da circa 100 milioni di dollari per genoma a circa 1.000 dollari di oggi. Nello stesso periodo abbiamo rilevato una crescita elevata nelle funzionalità di archiviazione ed elaborazione delle tecnologie per i big data come Hadoop.
“Il costo inferiore del sequenziamento del genoma e lo sviluppo delle tecnologie dei big data ci permettono di sequenziare il genoma di pazienti in modo ampio e di produrre serie di dati che non sono mai state disponibili prima”, ha dichiarato Shawn Dolley, industry leader of life sciences di Cloudera. “Creare la nuova generazione di toolkit su Spark accelera notevolmente i calcoli in-memory e facilita il parallelismo. Cloudera Enterprise, infatti, accelera le attività per l’accesso e l’elaborazione per la data discovery, che si traduce in una significativa riduzione del tempo dedicato alla ricerca e sviluppo. E tutto questo avrà una rilevanza scientifica molto significativa”.
Attualmente sono più di 31.000 gli utenti registrati al GATK. Broad Institute sta lavorando con alcuni collaboratori per sviluppare le opzioni di cloud-hosted al fine di estendere l’accesso e facilitare l’utilizzo degli strumenti di analisi del genoma per approfondimenti e un processo decisionale ancora più efficaci. Gli utenti, infatti, potrebbero anche creare più facilmente pipeline di best practice ed evitare la duplicazione delle infrastrutture.
“Utilizzando il framework elaborativo di Spark su Cloudera Enterprise siamo in grado di implementare strumenti che non erano possibili in GATK3 a causa della loro complessità computazionale”, ha affermato Eric Banks, senior director di Data Sciences e Data Engineering presso Broad e creatore del pacchetto software GATK. “Con Cloudera Enterprise ora possiamo eseguire l’analisi dei dati genomici in due ordini di grandezza più velocemente rispetto alle versioni precedenti di GATK, consentendo analisi iterative più veloci al fine di migliorare l’innovazione nella genomica”.