Skip to content Skip to sidebar Skip to footer

Numero 1 – 2021

UNO STRUMENTO INFORMATICO PER MIGLIORARE L’INTERPRETAZIONE DELLE MUTAZIONI GENOMICHE CHE PREDISPONGONO AI TUMORI

I ricercatori del Dipartimento di Oncologia Sperimentale dello IEO hanno usato tecniche di intelligenza artificiale e machine learning per creare un algoritmo (RENOVO) che consente di interpretare correttamente le mutazioni genomiche ereditarie che espongono i soggetti sani al rischio di sviluppare tumori o malattie cardiache. RENOVO aiuterà i medici ad interpretare correttamente i risultati dei test genetici ed a predisporre i percorsi di prevenzione più appropriati. Lo studio è stato pubblicato sulla massima rivista di settore, The American Journal of Human Genetics.

Nel 10% di tutti i casi di tumore, la malattia si sviluppa come conseguenza di alcune mutazioni genomiche che il paziente eredita da uno dei genitori. La identificazione di una di queste mutazioni in un individuo sano consente di valutare il rischio di quella persona di sviluppare un tumore nel corso della vita, ed iniziare quindi specifici percorsi di prevenzione.

Conosciamo decine di migliaia di varianti genomiche. Alcune sono chiaramente associate al rischio di sviluppare tumori (cosiddette “varianti patogeniche”) altre, invece, sono “benigne”, e non comportano alcun rischio. Per la maggior parte di esse, però, non sappiamo con certezza se si tratta di varianti benigne o patogeniche, e dobbiamo accontentarci di considerarle “di incerto significato” (VUS, Variant of Unknown Significance), o, addirittura “discordanti”, quando due o più laboratori di ricerca hanno fornito interpretazioni opposte (Conflicting Interpretation of Pathogenicity, CIP). Altre, infine, vengono inizialmente interpretate in un modo, per poi essere corrette nel corso degli anni.

Una incertezza o un errore nell’interpretazione delle varianti genomiche ha conseguenze immediate e importanti per il soggetto portatore della variante o per i suoi familiari: se ad esempio una variante benigna viene interpretata come patogenica, verranno proposti programmi di prevenzione, o addirittura interventi chirurgici, senza alcun beneficio; se al contrario una variante patogenica non venisse riconosciuta come tale, il portatore e i suoi familiari rimarrebbero esposti al rischio di sviluppare il tumore senza poter far nulla.

Questa incertezza nell’interpretazione rappresenta già oggi un enorme problema clinico, e lo diventerà sempre di più in futuro. Paradossalmente, infatti, il numero di test genomici per l’identificazione delle mutazioni è in continua crescita, così come lo è il numero di soggetti sottoposti a test, e, inevitabilmente, il numero di mutazioni mai osservate prima e di incerto significato.

Per ovviare a questo problema, ricercatori del dipartimento di Oncologia sperimentale dello IEO hanno sfruttato le potenzialità delle moderne tecniche di intelligenza artificiale e machine learning per sviluppare un algoritmo (RENOVO) capace di interpretare le mutazioni genomiche in maniera più accurata. Lo studio è stato pubblicato sulla massima rivista di questo settore, The American Journal of Human Genetics.

Come in tutti gli studi di machine learning e intelligenza artificiale, il punto cruciale è la selezione della banca dati per “allenare” l’algoritmo (il cosidetto training dell’algoritmo), e di quella che verificherà poi la accuratezza dell’algoritmo (il test). I ricercatori hanno utilizzato un grosso database pubblico (ClinVar, con > 600.000 varianti), che viene periodicamente aggiornato da tutta la comunità scientifica internazionale. Negli ultimi 8 anni, per esempio, circa 20.000 varianti di ClinVar sono state riclassificate da benigne a patogenetiche o viceversa. I ricercatori hanno allenato l’algoritmo con le varianti “stabili” nel tempo (training set), e lo hanno poi sfidato con quelle che poi sono state riclassificate sono state scelte (test).

UNA MACCHINA CAPACE DI CLASSIFICARE IL 99% DELLE VARIANTI

La logica dell’allenamento (il cosiddetto machine learning) è stata quindi di tipo “archeologico”. L’algoritmo ha costruito la sua capacità di riconoscere le mutazioni basandosi sugli errori e sui successi della ricerca scientifica nel corso degli anni, ottenendo risultati straordinari. Alla fine dell’allenamento, la macchina è stata infatti capace di classificare correttamente il 99% delle varianti “stabili” (quelle cioè sulle quale non vi era alcun dubbio scientifico), ed il 95% di quelle riclassificate (quelle cioè che la ricerca scientifica ha chiarito solo successivamente). In altre parole, se avessimo chiesto a RENOVO di interpretare una VUS nel 2018, avrebbe fornito un risultato corretto nel 95% dei casi, comprese quelle varianti che la ricerca scientifica ha chiarito solo nel 2020! L’algoritmo è ora pronto ad interpretare al meglio le migliaia di varianti che la ricerca scientifica individuerà nei prossimi anni. E i risultati della ricerca dei prossimi anni saranno usati per migliorare ulteriormente l’algoritmo, e cosi via.

RENOVO è sviluppato a partire da un algoritmo utilizzato spesso in machine learning detto random forest. Nonostante la matematica sottostante sia complessa, il procedimento è abbastanza intuitivo e si basa sui cosiddetti alberi decisionali, che non sono altro che le procedure che normalmente utilizziamo per prendere qualsiasi decisione anche nella vita comune: abbiamo una serie di parametri a disposizione (in gergo di machine learning, le features), vogliamo decidere qualcosa (in questo caso, vogliamo classificare una variante come patogenica o benigna) e dobbiamo valutare a quale parametro dare maggiore importanza. Per un genetista, le features utili comprendono la frequenza della variante nella popolazione sana (varianti rare hanno una alta possibilità di essere patogeniche), l’impatto della variante sulla funzionalità della proteina risultante (una variante che abolisce completamente l’espressione di una proteina essenziale ha buone probabilità di essere patogenetica), o l’evidenza clinica a supporto dell’interpretazione (se una variante è stata riportata in una famiglia molto larga con molti soggetti affetti). Ovviamente, una variante rarissima, che elimina la funzionalità della proteina ed è presente in tutti i soggetti malati ma non nei sani di una ampia famiglia sarà facilmente classificata come patogenetica, ma come ci comportiamo in casi meno semplici, se ad esempio abbiamo una variante meno rara con un impatto più ambiguo sulla proteina e poche informazioni sulla famiglia? Possiamo scomporre il processo decisionale in tante sotto-decisioni, come in un albero, e cercheremo di capire quale aspetto ha più importanza, caso per caso: per esempio, se è molto rara, l’impatto funzionale potrebbe avere meno importanza, mentre se è più frequente allora è meglio considerare anche gli altri parametri. Ma come decidiamo che importanza dare ad ogni parametro? Il random forest propone una soluzione tutto sommato semplice, a patto di avere un computer abbastanza potente: prova tantissime combinazioni a caso (tanti alberi decisionali), e conta quanti “alberi” suggeriscono sia patogenetica e quante volte invece che sia benigna, come in una sorta di votazione. L’interpretazione che ottiene la maggioranza vince, e possiamo anche misurare quanto sia “solida” l’interpretazione contando quanto sia stato coerente il voto: se il 90% degli alberi testati concordavano nell’interpretazione, questa potrà essere considerata più solida che se la vittoria fosse stata più risicata (es. 55%).

L’algoritmo è stato testato anche in altri contesti clinici. Si conoscono infatti molte mutazioni genomiche che predicono il rischio di altre malattie, oltre ai tumori. RENOVO ha dimostrato una buona accuratezza anche per le mutazioni genomiche associate a patologie cardiache, che sono particolarmente difficili da interpretare.

I ricercatori IEO si sono poi dedicati a produrre un interfaccia user-friendly tra l’algoritmo e le persone che lo vorranno utilizzare. Una interfaccia che aiuterà i medici di prendere le decisioni giuste, senza necessariamente conoscere l’algoritmo che sta alla base.

V.Favalli, G.Tini, E.Bonetti, G.Vozza, A.Guida, S.Gandini, P.G.Pelicci, L.Mazzarella Machine learning-based reclassification of germline variants of unknown significance: The RENOVO algorithm. The American Journal of Human Genetics. Vol.108, Issue 4, 1 April 2021. Pages 682-695

 

Scritto dal Dott. Luca Mazzarella
Direttore del Laboratorio di Oncologia Traslazionale
Medico Oncologo nella Divisione Nuovi Farmaci.
IEO (Istituto Europeo di Oncologia) – Milano

Show CommentsClose Comments

Leave a comment