AGI - Un gruppo di ricercatori dell'Università di Modena e Reggio Emilia ha sviluppato un sistema di intelligenza artificiale - attualmente il più robusto al mondo - per il riconoscimento dei DeepFake visuali. Grazie a un'architettura di apprendimento contrastivo, CoDE distingue le immagini artificiali da quelle reali con una precisione superiore al 97%. Il progetto, presentato alla ECCV 2024 a Milano, si inserisce all'interno del progetto europeo ELSA, European Lighthouse on Secure and Safe AI. I DeepFake, termine che unisce "Deep Learning" e "Fake", sono immagini, video e suoni generati o manipolati da sistemi di intelligenza artificiale con una precisione tale da renderli difficilmente distinguibili dal reale.
Per le immagini, tecnologie come StableDiffusion, MidJourney, DALL-E e molte altre sono ormai alla portata di tutti e consentono di creare contenuti visivi artificiali, spesso utilizzati con fini industriali, medici, artistici o educativi, ma anche con il rischio di manipolare l'informazione in modo ingannevole. Su questo fronte, l'Università degli Studi di Modena e Reggio Emilia si conferma all'avanguardia grazie alla creazione di CoDE (Contrasting Deepfakes Diffusion via Contrastive Learning), un sistema avanzato di intelligenza artificiale che rappresenta attualmente la tecnologia più accurata al mondo per il riconoscimento dei DeepFake.
CoDE è stato presentato ufficialmente alla European Conference on Computer Vision 2024 a Milano, uno dei più prestigiosi eventi internazionali nel campo della visione artificiale, che ha visto la partecipazione di oltre 5 mila ricercatori da tutto il mondo. Questo sistema è stato sviluppato da due Dottorandi di Unimore, Lorenzo Baraldi e Federico Cocchi, sotto la supervisione di Rita Cucchiara e Lorenzo Baraldi (omonimo) del Dipartimento di Ingegneria "Enzo Ferrari" di Modena e di Marcella Cornia del Dipartimento di Educazione e Scienze Umane di Reggio Emilia.
Il sistema CoDE si basa su un'architettura di apprendimento contrastivo, addestrata non solo a discriminare immagini vere dalle false, ma anche capace di lavorare su parti di immagini o pixel elaborati da tools di imaging, per rendere il riconoscimento anche robusto alle trasformazioni volontarie o involontarie delle immagini stesse, quando vengono compresse, trasmesse, pubblicate. Il cuore del progetto è in realtà l'apprendimento massivo, reso possibile da un lavoro capillare a partire da più di due milioni di fotografie reali con descrizioni testuali associate.
Da queste immagini di partenza, i ricercatori di Leonardo S.p.A. impiegando il loro supercomputer Da Vinci, hanno generato più di 9 milioni di immagini artificiali, per un totale di 3.200 ore di elaborazione GPU, corrispondenti a circa dieci anni di calcolo su una workstation tradizionale. Queste immagini generate da sistemi differenti rappresentano uno zoo di possibili modelli generativi differenti e sono un patrimonio fondamentale per l'addestramento di sistemi di rilevamento capaci di distinguere immagini vere da quelle artificiali. CoDE, grazie a questa base dati, ha raggiunto risultati straordinari: una precisione di identificazione in benchmark superiore al 97%, un valore ben al di sopra di quel 60% che un essere umano potrebbe raggiungere.
Una tecnologia che, per quanto straordinaria, non è ancora esente da limiti: CoDE, infatti, può incontrare difficoltà nel riconoscere immagini che siano state manipolate successivamente, con forti compressioni o rielaborazioni digitali e non si sa ancora quanto è capace di generalizzare su tutti i modelli generativi sviluppati negli ultimi due o tre anni. Inoltre, la continua evoluzione dei generatori di immagini rende necessario un aggiornamento costante del sistema per garantirne l'efficacia anche di fronte a nuove minacce.
Il tema della manipolazione delle immagini non riguarda solo il mondo accademico o scientifico. Il fenomeno dei DeepFake ha conseguenze dirette sulla società, con enormi rischi di disinformazione e falsificazione che interessano sia il pubblico che il privato. Anche per affrontare queste problematiche, dal 2023 è attivo ELSA (European Lighthouse on Security and Safety AI), un progetto strategico europeo che si propone di sviluppare risultati nuovi di ricerca scientifica per la sicurezza nell'era dell'intelligenza artificiale.
Unimore e Leonardo S.p.A. svolgono un ruolo di primo piano all'interno di questo progetto, con l'obiettivo di creare sistemi di AI capaci di identificare contenuti manipolati. Nel quadro del progetto ELSA, Unimore e Leonardo hanno organizzato una competizione internazionale che ha visto la partecipazione di numerosi centri di ricerca di tutto il mondo. Grazie a questa iniziativa, sono state prodotte e analizzate milioni di immagini, che hanno consentito lo sviluppo di algoritmi sempre più raffinati per il riconoscimento delle immagini false.
CoDE, oltre a identificare un'immagine come vera o falsa, fornisce anche una valutazione della percentuale di affidabilità del risultato e una rappresentazione dello spazio in cui l'immagine si colloca. Il sistema mostra infatti una mappa grafica che indica se l'immagine appartiene allo spazio dei contenuti reali o a quello dei DeepFake, fornendo anche indicazioni su quale sistema di AI generativa abbia prodotto il contenuto visivo.