Gemelli Generator Real World Data del Policlinico Gemelli ha realizzato con SAS una Sandbox per valorizzare i dati mettendoli a disposizione sia del personale interno sia di terze parti esterne, nel rispetto della privacy
«Il progetto Gemelli Generator nasce da un’intuizione del prof. Vincenzo Valentini, Direttore del Dipartimento di Diagnostica per Immagini, Radioterapia Oncologica ed Ematologia del Policlinico Gemelli, che da anni ha puntato a raccogliere i dati raccolti durante l’ordinaria pratica clinica, i cosiddetti Real World Data, proprio all’interno del reparto di radioterapia, mettendo dentro matematica, statistica e machine learning, al fine di sviluppare un sistema di Decision Support System per il Dipartimento», racconta Andrea Damiani, Responsabile della Facility Gemelli Generator Real World Data della Fondazione Policlinico Universitario Agostino Gemelli IRCCS. Il prof. Valentini ha posto così le basi per creare, nel 2019, la struttura battezzata “Generator”, che comprende quattro facility: bioinformatica, epidemiologia e biostatistica, raccolta dati e Real World Data.
Oggi “Gemelli Generator Real World Data” è composto da un gruppo di circa 30 persone – medici, tecnici, dottorandi, matematici, ingegneri, data scientist -, che elaborano i dati del datawarehouse dell’ospedale. «In un percorso targato esclusivamente SAS, i dati vengono anonimizzati e messi a disposizione del gruppo stesso, che compie verifiche di qualità e di consistenza per creare dei data mart per specifici problemi», spiega Damiani. Il passo successivo prevede un’attività di machine learning, che ha due approcci, il primo con strumenti open source e il secondo con strumenti SAS. Gli strumenti SAS sono stati utilizzati anche per soluzioni di Natural Language Processing personalizzate. «In ambito Privacy Preserving Data Mining, i filoni sono due: oltre al paradigma Federated Learning, abbiamo ideato, insieme a SAS, un’applicazione Sandbox per la privacy del paziente, che consente l’accesso a terze parti, in un ambiente controllato e sicuro, a dati che non vengono mai rsi visibili o disponibili al di fuori della Fondazione», prosegue Damiani.
Un’idea che nasce dall’esigenza di valorizzare i dati mettendoli a disposizione sia del personale interno sia di terze parti esterne come, per esempio, ricercatori, case farmaceutiche, assicurazioni ecc.. Occorreva però garantire la protezione dei dati e la privacy dei pazienti, in conformità con il GDPR, e proteggere la proprietà intellettuale dei dati. Grazie all’ambiente protetto Sandbox, ricercatori e medici possono ottenere statistiche aggregate e tabelle di dati (senza averne una visione diretta) e possono accedere a una collezione di algoritmi e scegliere quale lanciare su quelle tabelle. Ogni documento è certificato per data e contenuto. Un altro aspetto importante sarà rappresentato dalla certificazione, attualmente in fase di studio, dell’origine del dato, con tracciamento puntuale fino alla creazione del modello in output.
Più di un miliardo di dati atomici
Inaugurato il 10 luglio 1964, nel 2015 il Policlinico Gemelli di Roma ha assunto la forma giuridica di fondazione. Sede della facoltà di Medicina e Chirurgia, è uno dei più grandi ospedali privati d’Europa. Comprende 8 dipartimenti clinici e di ricerca, 113 unità assistenziali, di cui 86 unità operative complesse, 27 aree operative semplici, 1.536 posti letto, 215 trapianti effettuati in un anno, 94.509 dimessi, 83.419 accessi al pronto soccorso. Sono numeri davvero importanti, che aiutano a comprendere la grandezza del progetto Gemelli Generator, che fa parte del “Gemelli Science and Technology Park” (G-STeP), un network di servizi a sostegno di tutte le fasi di sviluppo di un progetto di ricerca scientifica. «Abbiamo superato la soglia del miliardo di dati atomici, senza considerare le immagini. Da un punto di vista ingegneristico non sarebbero ancora Big Data, in sanità invece sono una mole complessa di informazioni», puntualizza Damiani.
Il Policlinico Gemelli attualmente gestisce una cinquantina di progetti di ricerca, alcuni finanziati in ambito Horizon, altri con fondi pubblici.
La passione va coltivata
«Il lavoro del data scientist è diverso da qualunque altro. Si basa infatti sulla passione perché prevede studi approfonditi e aggiornamento continuo, ma è anche molto stimolante», afferma Damiani. Nell’ambito di Gemelli Generator è stato pertanto creato un Master Universitario di Secondo Livello, diretto dal prof. Valentini, che ha lo scopo di formare la figura professionale del Data Scientist in Biomedical Research and Clinical Practice dedicata alla creazione di valore aggiunto in connessione allo sfruttamento di risorse Big Data in ambito clinico. «Parallelamente agli studi universitari in data science, la passione va coltivata sperimentando, anche nel tempo libero», aggiunge Damiani.
Infine, nel 2022, il Centro Generator Real World Data ha dato vita anche alla Società Gemelli Digital Medicine & Health (GDMH), al 100% proprietà di Fondazione, focalizzata su progetti d’industria.