Lo hanno chiamato il fingergate. Dove il finger, il dito, era quello medio, alzato in faccia alla Germania. Soprattutto, era il dito di Yanis Varoufakis. Era il marzo 2015, Grecia e Germania erano nel mezzo di un teso negoziato, quando, in una trasmissione tv tedesca, era sbucato all’improvviso un video vecchio di due anni.
Nella clip, un intervento a una conferenza in Croazia, il nuovo ministro delle finanze greco (che al tempo della registrazione non stava ancora al governo) a un certo punto spiegava che la Grecia nel 2010 avrebbe dovuto fare default, come l’Argentina, nell’eurozona, e mostrare il dito alla Germania e dirle: “Ora risolviti questo problema da sola”. Spiegazione accompagnata da un gesto della mano inequivocabile.
Inizialmente la spiegazione di Varoufakis era che il video fosse “doctored”, “manipolato”, “artefatto”. Clamore, sconcerto, dubbio. I media tedeschi si scannano sulla storia del gestaccio, lo Stinkefinger. Poi però arriva un colpo di scena. Il conduttore del programma satirico Neo Magazin Royale, su una tv rivale, se ne esce dicendo che il video lo avevano manipolato loro. Avevano inserito loro il gesto del dito medio. E mostrano una versione del video di Varoufakis senza Stinkerfinger, in cui viene sollevata l’intera mano.
Ancora sconcerto, clamore e dubbio. Quindi il video col dito è un fake? Nel frattempo però c’è chi raggiunge chi aveva girato quel video del 2013. E l’autore, via video, conferma che la frase e il gestaccio del ministro delle Finanze erano autentici, anche se presi da un discorso molto più lungo e decontestualizzati nella trasmissione tv in cui erano stati mostrati. Anche l’associazione che aveva organizzato l’incontro con Varoufakis, in un post su Facebook, sembra confermare il gesto.
Insomma, al di là delle dichiarazioni contraddittorie dei protagonisti, dove sta la verità? Quale video è quello vero? Di sicuro, si è capito che il secondo video, quello senza dito, con la mano intera, spacciato dal programma satirico per vero, era in realtà un falso. Come scrivono quelli di Storyful, gruppo di giornalisti debunker, specializzati nell’accertare l’autenticità di documenti digitali, dalla sola analisi (senza tenere conto di altri elementi della vicenda) il video appare artefatto, manipolato; mentre non ci sono prove che lo sia quello col dito medio.
Tra l’altro circola anche una terza versione del video, in cui Varoufakis solleva l’indice. Qua si possono vedere le tre versioni.
Avete il mal di testa? Benvenuti nel mondo sempre più sofisticato della manipolazione video. Dove quanto descritto sopra è solo un pallido assaggio del labirinto di specchi in cui potremmo a breve rischiare di finire intrappolati. Perché, grazie ai progressi di alcune tecnologie, in particolare di quelle basate su sistemi di intelligenza artificiale, la mistificazione di immagini e video sta facendo balzi in avanti. E sta anche diventando “democratica”, nel senso, alla portata di chiunque.
Deepfake: video porno con le facce di altri
“Solo le migliori celebrità”, dice il sito. Che prosegue: “Hai trovato lo stesso video in qualità migliore? Sottoponilo qua. Hai trovato un video che avevi creato tu? Contattaci e ti daremo i credits”.
Siamo su una delle piattaforme principale di deepfakes. Questi sono video in cui la faccia di qualcuno è stata inserita al posto di qualcun altro ripreso in un filmato, e ne riproduce anche le espressioni. Su questo sito ci sono quasi solo video porno in cui al posto delle protagoniste originarie gli utenti hanno messo i volti di attrici o star famose. Ovviamente, ed è un dettaglio fondamentale, senza il loro consenso. Jessica Alba, Gal Gadot, Avril Lavigne, Jennifer Lawrence, Kim Kardashian, e Emma Watson, di cui ci sono molteplici video. Il risultato finale è abbastanza credibile, o quanto meno credibile il giusto considerato anche lo scopo delle manipolazioni. L’effetto più generale è decisamente inquietante.
I deep fakes - dove deep sta per deep learning, una branca dell’intelligenza artificiale, e in particolare del machine learning, ispirata al funzionamento delle reti neurali - è un fenomeno esploso a fine 2017, a partire da siti come Reddit. Qui sono apparsi i primi programmi che permettevano a chiunque di fare un face-swap, un cambio di faccia, avendo a disposizione solo un po’ di immagini della persona che si vuole inserire all’interno di un precedente video. Nel caso delle celebrità, la raccolta dati è facile, basta fare razzia di foto su Google, e di video su Youtube. Dopodiché si mettono al lavoro gli algoritmi, li si allena con queste informazioni e con il video (porno, in questi casi) che si intende usare come base, utilizzando preferibilmente una scheda grafica, più che un normale pc. E dopo un po’ di ore di lavoro del software, è tutto pronto per il face-swap. Ed ecco un video credibile di qualcuno che sta facendo qualcosa che non ha mai fatto.
Sono due le principali applicazioni usate per creare deepfakes: FaceApp e facesswap. Per fortuna non tutti le usano per fare video porno senza il consenso delle interessate. Molti sperimentano con intenti solo scientifici e ludici, divertendosi a mettere la faccia di un attore diverso in film celebri. Tra le star maschili predilette da chi fa questo genere di sperimentazioni c’è Nicolas Cage. Su Youtube si trovano varie compilation in cui il volto dell’attore si propaga per le pellicole di Hollywood. Eccone un esempio.
“L’utilizzo di questa app non richiede particolari competenze ma solo la corretta selezione dei video per il training (ad esempio devono essere due attori con lo stesso colore di pelle); poi devi avere più video in diverse pose e combinazioni di illuminazione. La app gira molto lenta, per andare più veloce serve una scheda grafica e per generare un video ci vogliono molte ore. Il tempo serve alla parte di addestramento del modello da una faccia all’altra”, spiega ad AGI Davide Cozzolino, che sta facendo un postdoc in ingegneria dell’informazione all’università di Napoli Federico II sul tema della analisi e rilevazione di contraffazioni in immagini e video. E che, insieme alla ricercatrice Luisa Verdoliva ed altri, fa parte di un progetto della Darpa, l’ente di ricerca della Difesa statunitense, che lavora proprio su questo (e su cui torniamo dopo).
Dopo una prima diffusione dei deepfakes, alcuni siti hanno iniziato a prendere delle contromisure, preoccupati degli aspetti etici e legali. Così Reddit ha messo al bando la sezione (il subreddit) dedicata al cambio di faccia (face swap), che all’epoca contava su 90mila utenti. Ma anche social media come Twitter e Discord hanno iniziato un giro di vite. A febbraio la stessa Pornhub, noto sito di condivisione video porno, ha annunciato un divieto spiegando che i deepfake erano una forma di contenuto “non consensuale”. Proibizioni che non sempre hanno funzionato, e comunque queste produzioni continuano a proliferare su forum e siti appositi come quello descritto prima.
E si sta creando anche un mercato, con tentativi di monetizzazione. AGI ha visitato alcuni account Twitter e canali Telegram che pubblicizzano deepfake già pronti, in vendita; tutorial a pagamento; la possibilità di accedere a un database di centinaia di video (pagando in criptovalute). “Vi manca la sezione Deepfakes su Reddit? Volete un video personale con la vostra attrice/attore preferito o vi piacerebbe comprarne uno già fatto? Siete nel posto giusto. Offriamo anonimato al 100 per cento e un giorno di consegna per un video di 20 minuti”, dice uno dei tweet. Anche se questo gruppo - apparentemente russi, a giudicare dal linguaggio usato nel canale Telegram - sta chiaramente cavalcando l’onda, queste forme di monetizzazione potrebbero aprire in fretta scenari ulteriori. Ovvero, “fammi il deepfake con la persona che ti dico io”. In teoria, è possibile fare un video del genere su chiunque, a patto di avere a disposizione abbastanza immagini e video del soggetto (per cui finora vengono “bene” solo quelli sulle celebrità).
Frontiere della manipolazione video
Le tecnologie di manipolazione dei video stanno migliorando velocemente. Alla conferenza Siggraph 2018 sulla computer grafica, che si terrà a Vancouver ad agosto, verrà presentato un sistema che si chiama Deep Video Portraits, sviluppato da ricercatori della Stanford University, della Technical University di Monaco, dell’università di Bath, dalla multinazionale francese Technicolor e altri.
L’idea è la seguente: si creano delle rianimazioni fotorealistiche di un video che ritrae qualcuno (il target) utilizzando un input video di un’altra persona (la fonte). Le espressioni facciali e i movimenti della fonte sono trasferite sul video originale, sul target. Non solo le espressioni facciali; anche la rotazione della faccia, lo sguardo, il battito di ciglia. Il sistema usa una rete neurale generativa, una tecnologia di intelligenza artificiale, per prendere i dati dal modello e predire frame fotorealistici del target. Eccone un esempio. A sinistra, il ragazzo, è la fonte che trasferisce le proprie espressioni sul video di Obama.
Un approccio che richiede pochi minuti di data per il training per il target, e che può essere applicato anche a filmati su internet, spiegano nel video i ricercatori. “DeepVideoPortraits ha una componente chiave basata sulle reti neurali che possono generare una immagine realistica data una immagine sintetica”, spiega ad AGI Justus Thies, ricercatore della Technical University di Monaco, e uno degli autori della ricerca. “Poiché l’immagine sintetica può essere realizzata nel modo che vogliamo (diverse pose, espressioni ecc), DeepVideoPortraits permette di ricostruire video realistici. È il primo approccio che usa il deep learning per applicare la traslazione di immagini da una sintetica a una reale”.
Ma a cosa serve una simile tecnologia? “Nella nostra ricerca parliamo di vari utilizzi. Il più rilevante è la postproduzione, l’editing di film. Può essere usato per aggiustare il movimento delle labbra nei film doppiati (trasferendo i movimenti del doppiatore sull’attore)”, spiega ancora Thies. “Stiamo anche lavorando nel campo dell’indagine forense sui media digitali. FaceForensics è una ricerca recente che mostra come possiamo usare i nostri metodi di manipolazione per migliorare l’individuazione di falsi”.
Certo, anche chi ha intenti malevoli potrebbe adoperare tecnologie simili. “I metodi di manipolazione miglioreranno in futuro, siamo ancora all’inizio”, prosegue Thies. “Molte delle attuali tecniche utilizzate sono vecchie di anni. Ma con l’aumento del potere computazionale e i progressi del deep learning vedremo dei fake che saranno indistinguibili per gli esseri umani. La domanda è se riusciamo a creare metodi che ci permettano di individuare i fake”.
La lotta contro il fake
Del fatto che a breve i video falsi, manipolati (inclusi i deepfake) diverranno sempre più credibili ne è convinta anche Luisa Verdoliva, ricercatrice all’università di Napoli Federico II, e alla guida del già citato gruppo sull’analisi delle immagini nell’ambito del progetto Darpa, che ha coinvolto lei e altri ricercatori italiani dopo che questi si erano messi in luce in varie competizioni internazionali.
“Quello che è cambiato tanto nell’ultimo periodo è questo: manipolazioni che prima si potevano fare solo con tecnologie avanzate relegate a produzioni di film ora sono a disposizione di tutti”, commenta ad AGI. Lei e gli altri del suo gruppo studiano un’immagine a livello di pixel, cercano artefatti invisibili all’occhio umano creati dalle manipolazioni. “A livello di foto e video le manipolazioni più frequenti che vediamo sono le composizioni: metti un oggetto dove non c’era o ne rimuovi uno che può cambiare il significato. Ora con l’intelligenza artificiale si possono fare con strumenti più avanzati”.
Verdoliva e Cozzolino hanno firmato, insieme a Thies ed altri, un paper su uno strumento – il già citato FaceForensics - per individuare manipolazioni video, un database di filmati modificati con alcune di queste tecnologie che possono essere usati per studiare falsificazioni. Un’altra frontiera su cui stanno lavorando è la creazione di immagini totalmente finte da capo a piedi, cioè generate dal computer, ma perfettamente realistiche. O ancora sulla falsificazione dei paper scientifici (specie quelli medici, che presentano immagini con i risultati degli esperimenti).
“Il punto a livello tecnologico è non basarsi su una sola soluzione per individuare un falso, perché se conosci il mio algoritmo potresti riuscire a distruggere le tracce che cerco. Meglio quindi avere tanti strumenti a disposizione, che è l’approccio su cui sta puntando Darpa”, commenta Verdoliva. Che lavora nel campo da dieci anni ma confessa di stare vedendo progressi e tecniche che non avrebbe mai immaginato. “Non sarà facile fare una app che ci possa dire se qualcosa è vero o falso in tempo reale”, spiega ancora. Anche perché basta che il video sia compresso, come avviene di solito quando viene caricato su piattaforme online, per perdere indicatori preziosi.
Ed è anche per questo che, tornando al video di Varoufakis, non è così facile determinare se sia vero o falso dal punto di vista forense. “Lì la zona che potenzialmente poteva essere contraffatta era piccola, e la compressione cancella le microinformazioni usate dai forensi”, commenta Cozzolino. “In questi casi si cerca di incrociare i dati, e ottenere il contenuto originale”. Insomma, a volte neppure i migliori analisti su piazza possono dire una parola definitiva su un video finito online. Eppure un solo filmato può bastare a indirizzare un’agenda politica o a distruggere qualcuno. E anche per questo la ricerca nel settore sta diventando sempre più bollente. E questa volta il porno non c’entra.