AI & ROBOTICA

Deepfake voice: le nuove truffe ad alta tecnologia

Conoscere le nuove affascinanti frontiere di IA serve a proteggersi dai rischi

All’inizio del 2020, un direttore di banca negli Emirati Arabi Uniti ha ricevuto una chiamata telefonica da un uomo di cui ha riconosciuto la voce, un manager di una società con cui aveva parlato in precedenza. Il manager pare abbia comunicato al bancario che la sua azienda stava per effettuare un’acquisizione, quindi aveva bisogno che la banca autorizzasse alcuni trasferimenti per un importo totale di 35 milioni di dollari. Un avvocato di nome Martin Zelner era stato assunto per coordinare le procedure di acquisizione e il direttore della banca era stato messo in copia nello scambio delle e-mail tra il presunto manager e Zelner, che confermavano la necessità del bonifico nonché gli estremi di pagamento. Il direttore della banca, credendo che tutto apparisse legittimo, ha quindi autorizzato l’ordine per il bonifico.

Quello che il malcapitato direttore non poteva immaginarsi era che era stato ingannato da un’elaborata truffa in cui i truffatori avevano usato la tecnologia “deepfake voice” per clonare il timbro della voce del manager.
Gli Emirati Arabi Uniti hanno ha quindi cercato l’aiuto degli investigatori americani per rintracciare i fondi rubati, circa 400.000 dollari che sono finiti su conti statunitensi detenuti dalla Centennial Bank. Gli investigatori emiratini ritengono che questa singola frode fosse parte di uno schema elaborato ripetuto, che coinvolgendo almeno 17 persone ha inviato i soldi rubati su diversi conti bancari gestiti dai truffatori.

Il caso degli Emirati Arabi Uniti mostra quanto possano essere devastanti tali truffe ad alta tecnologia e mette in guardia sull’uso dell’intelligenza artificiale per creare le cosiddette immagini e voci deepfake.
L’utilizzo delle reti neurali per la costruzione di immagini, video e voci artificiali non è una novità, la tecnologia necessaria esiste da diversi anni e fu proprio Google con la sua azienda DeepMind a creare una delle prime Intelligenze Artificiali dedicata alla produzione di voci deepfake.

Come sempre, la tecnologia è un’arma a doppio taglio, dipende dall’uso che se ne fa. Ad esempio, l’iconico fisico Stephen Hawking era conosciuto per la sua voce sintetica, vista la sua impossibilità di parlare negli ultimi anni della sua vita a causa di una tracheotomia subita nel 1985. Essa fu resa necessaria dall’avanzare della sclerosi laterale amiotrofica di cui il fisico soffriva già dalla gioventù. 
Il software utilizzato per donare la voce a Hawking fu lo Speech Plus CallText 5010, creato dal ricercatore Dott. Dennis Klatt a partire da una ricerca da lui iniziata negli anni ’60 e poi perfezionata nei laboratori del Massachusetts Institute of Technology. 
Hawking fece un così grande uso di tale tecnologia che arrivò ad impersonificarsi nell’iconica voce robotica, venuta alla ribalta tra i non addetti ai lavori grazie alle sue apparizione nella serie tv The Big Bang Theory, rifiutandosi negli anni di aggiornarla con voci sintetiche dal suono più naturale.
Se Hawking fosse ancora vivo e se avesse voluto cambiare idea, l’attuale livello di sviluppo della IA specializzate in deepfake voice gli avrebbe consentito di parlare addirittura con la sua voce reale. 
Sarebbe bastato infatti consegnare ad una delle IA specializzate qualche minuto di una registrazione vocale di una delle sue conferenze tenute quando ancora riusciva a parlare e aspettare che la rete neurale si auto-addestrasse per riprodurla efficacemente.
Ma chi ha avuto la fortuna di conoscere Hawking, sa anche molto bene che egli avrebbe preferito continuare ad utilizzare la voce robotica con la quale è diventato famoso.

Ma quanto è difficile oggi emulare i ladri che hanno portato a segno il colpo nella banca degli Emirati? In realtà è un processo alla portata di tutti, sul repository GitHub si trovano diversi tool per la creazione di deepfake vocali, basta installarli e lanciarli, un lavoro praticamente alla portata di chiunque sia minimamente un nerd informatico.
Ad esempio, lo specialista in IA Corentin Jemine insieme a un team di 15 contributori internazionali hanno messo a disposizione di tutti una procedura deepfake voice che necessita di analizzare solo cinque secondi di una registrazione audio della voce da clonare per addestrare la rete neurale e permetterle di pronunciare con la voce emulata  qualsiasi discorso scritto inserito in un campo di testo.
Vedere per credere: 

Sia chiaro, non stiamo spingendovi a commettere alcun crimine, il nostro intento è solo quello di farvi sperimentare in prima persona quanto sia meravigliosa ma anche pericolosa questa tecnologia, così da mettervi in condizione di proteggere voi stessi o qualora foste dei professionisti della sicurezza, i vostri clienti.
A chi fosse interessato ad approfondire l’avanzamento delle tecnologie di IA nei campi più svariati, suggeriamo il canale youtube Two Minutes Papers nel quale un’altro famoso ricercatore, il Dott. Kàroly Zsolnay-Fehér oltre a mostrare su base quasi giornaliera i progressi di tali tecnologie ha anche prodotto un video proprio sul tool deepfake voice in questione.

Buona visione. 

Back to top button