Un modello che può determinare in settimane, invece che anni, i tipi di proteine esistenti e ancora da scoprire
La vita sulla Terra non esisterebbe come la conosciamo, se non fosse per le molecole proteiche che consentono processi critici dalla fotosintesi e dalla degradazione enzimatica alla vista e al nostro sistema immunitario. E come la maggior parte delle sfaccettature del mondo naturale, l’umanità ha appena iniziato a scoprire le moltitudini di tipi di proteine effettivamente esistenti.
I ricercatori di Meta hanno sviluppato un database metagenomico primo nel suo genere, l’ESM Metagenomic Atlas, che potrebbe accelerare lo studio delle proteine esistenti, con processi fino a 60 volte più veloci. La metagenomica è una disciplina scientifica relativamente nuova, ma molto reale, che studia “la struttura e la funzione di intere sequenze nucleotidiche isolate e analizzate da tutti gli organismi (tipicamente microbi) in un campione. Spesso utilizzate per identificare le comunità batteriche che vivono sulla nostra pelle o nel suolo, queste tecniche sono simili in funzione alla gascromatografia, in cui si cerca di identificare ciò che è presente in un dato sistema di campionamento”.
Database simili sono stati lanciati dall’NCBI, dall’Istituto europeo di bioinformatica e dal Joint Genome Institute e hanno già catalogato miliardi di forme proteiche scoperte di recente. Ciò che Meta sta portando nel settore è “un nuovo approccio di ripiegamento delle proteine che sfrutta modelli linguistici di grandi dimensioni per creare la prima visione completa delle strutture delle proteine in un database di metagenomica su scala di centinaia di milioni di proteine”.
Il problema è che, mentre i progressi della genomica hanno rivelato le sequenze per le sequenze di nuove proteine, il solo sapere quali sono quelle sequenze in realtà non ci dice come si adattano insieme in una molecola funzionante e cercare di capirlo sperimentalmente richiede da pochi mesi ad alcuni anni, per ogni molecola.
“L’Atlante metagenomico ESM consentirà agli scienziati di cercare e analizzare le strutture delle proteine metagenomiche su una scala di centinaia di milioni. Questo può aiutare i ricercatori a identificare strutture che non sono state caratterizzate prima, cercare relazioni evolutive lontane e scoprire nuove proteine che possono essere utili in medicina e altre applicazioni” spiega Meta.
Come le lingue, le proteine sono costituite dai loro atomi costituenti (pensiero, parole) che possono essere tutti schiacciati insieme a piacimento ma che formeranno una molecola funzionale (cioè un pensiero coerente) solo se assemblati in un ordine specifico (una frase molecolare). Il sistema di Meta accelera le capacità di scoprire la sintassi e la grammatica della chimica organica. In particolare, l’intelligenza artificiale di modellazione su scala evolutiva di Meta tratta le sequenze geniche utilizzando un apprendimento auto-supervisionato chiamato modellazione del linguaggio mascherato.
Il “modello del linguaggio proteico” risultante viene chiamato ESM-2 e opera su 15 miliardi di parametri, rendendolo il più grande del suo genere fino ad oggi. La “nuova capacità di previsione della struttura ci ha permesso di prevedere le sequenze per gli oltre 600 milioni di proteine metagenomiche in sole due settimane invece che in mesi o anni”.