AGI - Gli esseri umani non sono in grado di rilevare oltre un quarto dei campioni di parlato deepfake speech, ovvero riproduzioni vocali generate dall’intelligenza artificiale. Lo dimostra lo studio dell’Università di Londra, pubblicato su PLOS ONE. La ricerca è la prima a valutare la capacità umana di riconoscere il parlato generato artificialmente in una lingua diversa dall’inglese.
I deepfakes sono mezzi di comunicazione sintetici destinati ad assomigliare alla voce o all’aspetto di una persona reale. Rientrano nella categoria dell’intelligenza artificiale generativa, un tipo di apprendimento automatico che addestra un algoritmo ad apprendere gli schemi e le caratteristiche di una serie di dati, come un video o un audio di una persona reale, in modo da riprodurne il suono o le immagini originali.
Mentre i primi algoritmi di deepfake speech potevano richiedere migliaia di campioni della voce di una persona per poter creare un audio simile all’originale, i più recenti possono riprodurre la voce di una persona utilizzando solo una clip di tre secondi in cui parla. Gli algoritmi open source sono disponibili gratuitamente ed è possibile addestrarli in pochi giorni.
L’azienda tecnologica Apple ha recentemente annunciato un software per iPhone e iPad che consente all’utente di creare una copia della propria voce utilizzando 15 minuti di registrazioni. I ricercatori dell’UCL hanno utilizzato un algoritmo text to speech, addestrato su due serie di dati disponibili pubblicamente, uno in inglese e uno in mandarino, per generare 50 campioni di voce finta in ciascuna lingua.
Questi erano diversi da quelli usati per addestrare l’algoritmo per evitare che riproducesse l’input originale. I campioni generati artificialmente e quelli autentici sono stati fatti ascoltare a 529 partecipanti per comprendere la capacità di riconoscere il discorso vero da quello falso.
I soggetti sono stati in grado di identificare il discorso falso solo nel 73% dei casi, percentuale che è migliorata leggermente dopo aver ricevuto un addestramento per riconoscere gli aspetti del discorso falso. “I nostri risultati confermano che gli esseri umani non sono in grado di rilevare in modo affidabile il deepfake speech, indipendentemente dal fatto che abbiano ricevuto o meno una formazione che li aiuti a individuare i contenuti artificiali”, ha dichiarato Kimberly Mai, dell’UCL Computer Science e prima autrice dello studio.
“Vale anche la pena notare che i campioni che abbiamo utilizzato in questo studio sono stati creati con algoritmi relativamente vecchi, il che solleva la questione se gli esseri umani saranno o meno in grado di riconoscere il deepfake speech creato utilizzando la tecnologia più sofisticata disponibile ora e in futuro”, ha continuato Mai.
Il prossimo passo dei ricercatori è quello di sviluppare migliori rilevatori automatici del parlato, come parte degli sforzi in corso per creare e rafforzare la capacità di rilevamento al fine di contrastare la minaccia di audio e immagini generate artificialmente. Sebbene la tecnologia audio generativa dell’intelligenza artificiale presenti dei vantaggi, come ad esempio una maggiore accessibilità per coloro che hanno un linguaggio limitato o che possono perdere la voce a causa di una malattia, cresce il timore che tale tecnologia possa essere utilizzata da criminali per causare danni significativi a individui e società.
Tra i casi documentati di utilizzo di deepfake speech da parte di criminali, c’è un incidente del 2019 in cui l’amministratore delegato di una società energetica britannica è stato convinto a trasferire centinaia di migliaia di sterline a un falso fornitore grazie a una registrazione deepfake della voce del suo capo.
“Con la tecnologia dell’intelligenza artificiale generativa sempre più sofisticata e molti di questi strumenti apertamente disponibili, siamo sul punto di vedere numerosi benefici ma ci sono anche dei anche rischi; sarebbe prudente per i governi e le organizzazioni sviluppare strategie per affrontare l’abuso di questi strumenti, senza tralasciare le possibilità positive che sono all’orizzonte”, ha detto Lewis Griffin, professore all’UCL Computer Science e autore senior dello studio.