AGI - Si chiama 'Classix', è un nuovo sistema di Intelligenza artificiale che potrebbe contribuire a identificare le varianti emergenti di Sars-Cov-2 e riconoscere i ceppi più preoccupanti. A svilupparlo gli scienziati dell'Università di Manchester e dell'Università di Oxford, che hanno descritto i propri risultati sulla rivista 'Proceedings of the National Academy of Sciences'. Il team, guidato da Roberto Cahuantzi, ha ideato un approccio innovativo combinando tecniche di intelligenza artificiale per tracciare la diffusione di nuove varianti emergenti di Covid-19. Questo sistema, spiegano gli esperti, potrebbe supportare i metodi tradizionali di monitoraggio dell'evoluzione virale, come l'analisi filogenetica, che attualmente richiedono un'ampia cura manuale. "Con le diverse ondate della pandemia - riporta Cahuantzi - sono emerse molte varianti con caratteristiche diverse, alcune più preoccupanti di altre. La possibilità di individuare facilmente i ceppi più pericolosi potrebbe velocizzare la definizione di strategie di intervento tempestivo". Sars-Cov-2, come altri agenti patogeni simili, è caratterizzato da un tasso di mutazione elevato, con un breve intervallo tra le generazioni. Attualmente sono disponibili quasi 16 milioni di sequenze nel database Gisaid (Global Initiative on Sharing All Influenza Data), che fornisce l'accesso ai dati genomici dei virus influenzali. Questi sforzi sono fondamentali per ottenere una panoramica completa della situazione, ma attualmente la mappatura dell'evoluzione di tutti i genomi conosciuti di Covid-19 richiede grandi quantità di tempo e notevoli capacità di calcolo. Nell'ambito di questo lavoro, il gruppo di ricerca ha elaborato 5,7 milioni di sequenze grazie a un approccio di intelligenza artificiale.
"I dati e le informazioni a nostra disposizione - osserva Thomas House, docente di Scienze matematiche all'Università di Manchester - continuano a crescere in modo esponenziale. Il tempo degli esperti umani è limitato, per cui il nostro approccio potrebbe rappresentare un buon modo per ottimizzare il processo di ricerca e analisi". 'Classix' scompone le sequenze genetiche virali in unità più piccole, 3-mers, e raggruppa le sequenze simili in base ai loro schemi intrinseci.
"L'algoritmo di clustering - riporta Stefan Guttel, collega e coautore di House - è molto meno impegnativo dal punto di vista computazionale rispetto ai metodi tradizionali ed è completamente spiegabile, nel senso che fornisce spiegazioni testuali e visive dei cluster calcolati". "La nostra analisi - conclude Cahuantzi - funge da prova di concetto, dimostrando il potenziale utilizzo dei metodi di apprendimento automatico come strumento per l'individuazione precoce di variabili potenzialmente preoccupanti. La filogenetica rimane il 'gold standard' per comprendere l'ascendenza virale, ma l'apprendimento automatico può tenere conto di sequenze di diversi ordini di grandezza in più rispetto alle opzioni attuali, richiedendo un costo computazionale significativamente inferiore".