Servono dai 3 ai 10 secondi di audio per costruire un clone vocale credibile. Tre secondi: il tempo di un saluto registrato durante una videoconferenza, una voce recuperata dal podcast aziendale, una segreteria telefonica. Nel 2024 una sola truffa contro Arup è costata 25,6 milioni di dollari, con deepfake video e audio del CFO impiegati in una stessa videoconferenza. Per le aziende italiane il voice cloning non è più una curiosità tecnologica: è uno dei vettori d’attacco a maggior crescita del 2026, con un +900% di interesse online nell’ultimo anno.
- Cos’è il voice cloning
- Il salto di qualità tecnologico del 2023-2025
- La portata del fenomeno: i numeri 2024-2026
- Casi reali documentati: dal 2019 a oggi
- I 4 vettori di attacco del voice cloning
- Voice cloning e aziende italiane: gli scenari concreti
- Quadro normativo: AI Act, NIS2, GDPR e Codice Penale
- Come si difende un’azienda dal voice cloning: 6 misure concrete
- FAQ

Cos’è il voice cloning
Il voice cloning è una tecnica di sintesi vocale basata su intelligenza artificiale che permette di generare una copia digitale di una voce reale a partire da una registrazione audio. Una volta creato il clone, l’attaccante può fargli pronunciare qualsiasi frase, in qualsiasi lingua, con qualsiasi intonazione: il risultato è indistinguibile dalla voce originale per l’orecchio umano e, in molti casi, anche per i sistemi automatici di analisi.
La tecnologia non è in sé nuova: i primi prototipi sperimentali risalgono ai primi anni 2000. Quello che è cambiato negli ultimi due anni è la combinazione di tre fattori: la qualità sonora del clone, la quantità di audio necessaria per generarlo (dai diversi minuti del 2018 ai 3-10 secondi del 2025), e l’accessibilità degli strumenti, oggi disponibili anche in versioni gratuite o a basso costo. Servizi commerciali come ElevenLabs, Resemble AI, OpenVoice e numerose alternative open source rendono possibile generare un clone vocale con competenze tecniche minime.
Per chi attacca un’azienda, il voice cloning è uno strumento di social engineering potentissimo: la voce di un dirigente è considerata istintivamente un’autenticazione affidabile. Quando un dipendente dell’ufficio amministrativo riceve una chiamata dal “CEO” che chiede un bonifico urgente, la voce stessa è la prova di identità più forte che il suo cervello processi. E quella voce, oggi, può essere falsificata.
Il salto di qualità tecnologico del 2023-2025
Negli ultimi due anni il voice cloning ha attraversato tre soglie critiche che hanno cambiato il panorama della sicurezza aziendale.
La prima soglia è quella della qualità realistica. Fino al 2022, i cloni vocali AI presentavano spesso artefatti percepibili da un orecchio attento: una cadenza leggermente innaturale, un tono che variava in modo strano, brevi pause nei punti sbagliati. Dal 2023 in poi questi artefatti sono diventati quasi impercettibili, persino in lingue diverse dall’inglese, italiano incluso.
La seconda soglia è quella della quantità di audio necessaria. Solo cinque anni fa servivano decine di minuti di registrazione per costruire un clone credibile. Oggi i tool più avanzati richiedono dai 3 ai 10 secondi. Questo significa che ogni dirigente che abbia mai pubblicato un’intervista, partecipato a una conferenza, registrato una videopresentazione aziendale è teoricamente esposto al rischio. Il materiale è disponibile pubblicamente, e non c’è modo di “ritirarlo” dall’internet.
La terza soglia è quella dell’accessibilità. Strumenti che fino al 2023 erano disponibili solo a ricercatori e laboratori specializzati sono oggi accessibili come servizi web a pagamento, in alcuni casi anche gratuiti. Il barrier to entry per costruire una truffa basata su voice cloning è crollato a poche decine di euro e qualche ora di tempo per imparare a usare gli strumenti.
Il National Cyber Security Centre britannico, in una serie di pubblicazioni del 2025, ha avvertito che il voice cloning rappresenta una delle minacce tecnologiche più sottovalutate dal management aziendale, proprio perché molti decisori associano ancora il fenomeno a scenari fantascientifici, mentre il fenomeno è già nel mainstream criminale.
La portata del fenomeno: i numeri 2024-2026
I dati raccolti su scala globale negli ultimi due anni descrivono un fenomeno in espansione rapida.
Secondo il McAfee Global Survey 2023, un adulto su dieci è stato bersaglio personale di una truffa basata su voice cloning, e tra le vittime il 77% ha effettivamente perso denaro. Il dato non riguarda solo il mondo aziendale: anche le truffe consumer “ho rapito tuo figlio, paga il riscatto” sono ormai costruite con voci clonate del familiare bersaglio, recuperate da social media.
Sul fronte aziendale, le rilevazioni dell’FBI Internet Crime Report 2024 non separano ancora il voice cloning dagli altri vettori BEC, ma indicano che il segmento “Business Email Compromise” — categoria che ormai include voice e video deepfake — ha causato 2,77 miliardi di dollari di perdite negli Stati Uniti nel solo 2024. L’Association for Financial Professionals nel suo report 2025 ha aggiunto che il 63% delle organizzazioni intervistate ha subito un tentativo di BEC nello stesso anno, una quota in crescita rispetto agli anni precedenti.
Anche i dati di interesse online raccontano la storia. In Italia la ricerca “voice cloning” ha registrato una crescita del 900% anno su anno nel 2025, con un volume mensile che ha raggiunto le 5.000 ricerche. Significa che decisori, IT manager e dipendenti stanno iniziando a interrogarsi sul fenomeno, ma significa anche che le misure di difesa nelle aziende stanno arrivando in ritardo rispetto alla curva della consapevolezza.
Casi reali documentati: dal 2019 a oggi
Non si tratta di teoria. Ecco i casi pubblicamente documentati che hanno segnato l’evoluzione del fenomeno.
2019 — Società di energia britannica, 220.000 euro. Considerato il primo caso pubblico di CEO Fraud basato su voice cloning. Il CEO della filiale britannica di una società di energia ha ricevuto una telefonata da quello che credeva essere il CEO della casa madre tedesca, con istruzioni urgenti per un trasferimento di fondi verso un fornitore ungherese. La voce, l’accento, le pause, persino la “cantilena” tipica del dirigente erano perfette. Il trasferimento è stato eseguito. Solo successivamente è emerso che la chiamata era stata orchestrata con voice cloning.
2020 — Banca di Hong Kong, 35 milioni di dollari. Un branch manager di una banca con sede a Hong Kong ha eseguito 35 milioni di dollari di bonifici sulla base di telefonate ricevute dal “direttore” della casa madre. La voce era clonata. Il caso è stato uno dei primi in cui il bonifico è andato a buon fine prima che la frode venisse scoperta. L’inchiesta successiva ha rivelato la presenza coordinata di email contraffatte a supporto della telefonata.
2024 — Arup, 25,6 milioni di dollari. Il caso che ha cambiato la storia. La multinazionale dell’ingegneria Arup ha perso 25,6 milioni di dollari attraverso una videoconferenza in cui CFO e dirigenti senior, tutti deepfake video e audio, hanno convinto un dipendente dell’ufficio finanza di Hong Kong a eseguire 15 bonifici verso 5 conti diversi. È il caso più costoso documentato di attacco basato su deepfake audio-video integrato. Rob Greig, allora CIO di Arup, ha raccontato successivamente al World Economic Forum di aver provato a generare un deepfake di sé stesso con tool open source gratuiti: gli sono bastati 45 minuti.
Maggio 2024 — WPP, tentativo fallito. Il CEO della multinazionale pubblicitaria WPP è stato impersonato in un tentativo di frode su Microsoft Teams basato su un audio deepfake. Il dipendente, addestrato a verificare richieste insolite, ha fermato l’operazione attraverso una verifica out-of-band. Il caso mostra come la formazione del personale possa fare la differenza tra una perdita milionaria e un tentativo sventato.
2024 — Fremantle Italia, quasi 1 milione di euro. Il CEO per l’Europa meridionale di Fremantle, leader mondiale dell’intrattenimento TV, è stato vittima di una CEO Fraud in cui l’audio cloning ha giocato un ruolo. L’attacco è iniziato con un messaggio WhatsApp e si è chiuso con una telefonata da un sedicente “avvocato” che confermava le coordinate bancarie con voce credibile.
Vale la pena ricordare che in ognuno di questi casi le aziende colpite avevano programmi di sicurezza informatica strutturati. Il problema non è di competenza tecnica: è di velocità di adozione delle minacce rispetto alle difese.
I 4 vettori di attacco del voice cloning
Nel 2026 il voice cloning viene utilizzato in quattro modalità principali, spesso combinate tra loro.
- Chiamata diretta in stile CEO Fraud. L’attaccante chiama un dipendente dell’ufficio amministrativo, della tesoreria o dell’IT, impersonando un dirigente. La richiesta è sempre urgente, riservata, fuori dalle procedure normali: un bonifico verso un fornitore non in elenco, un cambio IBAN da approvare al volo, la condivisione di credenziali per “risolvere un problema”. È il pattern del caso 2019 e del Fremantle 2024
- Videoconferenza con audio deepfake. L’attaccante organizza una call su Zoom, Teams o Google Meet, in cui il “dirigente” appare con audio clonato. Spesso la videocamera viene tenuta spenta giustificando con problemi tecnici, oppure (come nel caso Arup) viene affiancata da deepfake video. È il vettore più recente e in più rapida crescita
- Voicemail e segreteria telefonica. L’attaccante lascia un messaggio in segreteria con la voce clonata del CEO o del CFO, chiedendo al destinatario di richiamare un numero specifico (controllato dai truffatori) per “risolvere una pratica urgente”. Variante più subdola perché il dipendente, richiamando, sente di “essere lui a controllare” la situazione
- Voice phishing automatizzato di massa. Sistemi che combinano voice cloning con automazione AI — simile alle logiche di WormGPT e dei suoi cloni — per generare migliaia di chiamate personalizzate verso dipendenti di un’azienda, ognuna con la voce clonata del rispettivo dirigente diretto. Tecnica industriale ancora rara ma in espansione, particolarmente preoccupante perché trasforma il voice cloning da attacco mirato a attacco di massa
In molti casi reali questi vettori vengono combinati con altri canali per aumentare la credibilità: una SIM swap per intercettare le verifiche SMS, una compromissione email per anticipare il contesto della chiamata, un messaggio WhatsApp di “preavviso” da un numero che sembra aziendale.
Voice cloning e aziende italiane: gli scenari concreti
Per il tessuto produttivo italiano il voice cloning rappresenta un rischio particolarmente concreto per tre ragioni specifiche.
La prima riguarda l’uso diffuso di WhatsApp e canali informali per comunicazioni aziendali sensibili. Le aziende italiane, soprattutto PMI e studi professionali, hanno spesso processi amministrativi in cui un dirigente può autorizzare un bonifico via messaggio o telefonata, senza passare per procedure di doppia firma. Questo crea una superficie di attacco particolarmente ampia per le truffe basate su voice cloning.
La seconda riguarda la presenza online dei dirigenti. Imprenditori italiani che partecipano a conferenze settoriali, podcast di settore, interviste ai principali media economici, o che semplicemente hanno presentazioni aziendali registrate sul sito o sui social — simile al fenomeno di reconnaissance descritto nel nostro articolo su LinkedIn Persona — forniscono inconsapevolmente il materiale necessario per costruire un clone vocale.. Una breve intervista a Radio24 o un intervento al Sole 24 Ore può essere sufficiente.
La terza riguarda la distribuzione settoriale del rischio. I settori più esposti in Italia sono il manifatturiero (con bonifici frequenti verso fornitori esteri), gli studi legali e notarili (con autorizzazioni di pagamento basate su comunicazioni informali), il fashion e il design (con relazioni internazionali e management spesso in viaggio), il farmaceutico e la sanità privata (con processi di approvazione delegati). Il fenomeno è in espansione anche al Sud, particolarmente in turismo, agroalimentare ed export di eccellenza.
Le aziende italiane raramente denunciano per non sommare il danno reputazionale al danno economico, quindi i numeri ufficiali sottostimano significativamente il fenomeno reale.
Quadro normativo: AI Act, NIS2, GDPR e Codice Penale
Sul piano normativo, il voice cloning tocca contemporaneamente più piani regolatori, e questo lo rende particolarmente delicato.
L’AI Act dell’Unione Europea (Regolamento UE 2024/1689), applicabile dal 2024 con disposizioni che entrano in vigore progressivamente fino al 2027, contiene disposizioni specifiche sui contenuti generati da AI. L’articolo 50 prevede l’obbligo di trasparenza per i sistemi di sintesi vocale e per i contenuti deepfake: chi genera tali contenuti deve dichiararne l’origine artificiale. La discussione sull’introduzione di obblighi di watermarking dei contenuti AI è in fase avanzata e potrebbe portare a strumenti tecnici di riconoscimento dei deepfake nei prossimi due-tre anni.
La Direttiva NIS2, recepita in Italia con D.Lgs. 138/2024, all’articolo 23 richiede esplicitamente programmi di formazione del personale sulla cybersecurity, e all’articolo 24 impone misure tecniche e organizzative per gestire i rischi ICT. Le minacce di ingegneria sociale, voice cloning incluso, rientrano nel perimetro dei rischi che le aziende essenziali e importanti devono affrontare e documentare.
Il GDPR ha un’applicabilità duplice: da un lato la voce è un dato biometrico (art. 9) e quindi la sua acquisizione e utilizzo non autorizzati possono integrare violazioni del Regolamento; dall’altro, quando un attacco di voice cloning porta all’esposizione di dati personali di clienti o dipendenti, scatta l’obbligo di notifica al Garante entro 72 ore, con sanzioni fino al 4% del fatturato globale.
Sul piano penale i reati rilevanti includono la sostituzione di persona (art. 494 CP), la truffa (art. 640 CP), la frode informatica (art. 640-ter CP) e l’accesso abusivo a sistema informatico (art. 615-ter CP) se la voce clonata viene usata per superare controlli biometrici. La responsabilità non è solo dell’attaccante: per le aziende, la mancata adozione di misure preventive ragionevoli può comportare conseguenze giuridiche anche a carico del management.
Infine, per le entità finanziarie il Regolamento DORA (UE 2022/2554, applicabile dal 17 gennaio 2025) richiede esplicitamente capacità di gestione del rischio ICT che includono i vettori di ingegneria sociale evoluta.
Come si difende un’azienda dal voice cloning: 6 misure concrete
La difesa contro il voice cloning non si basa su una singola tecnologia, ma su una combinazione di processi, formazione e controlli. Ecco le sei misure principali che ogni azienda italiana dovrebbe considerare.
- Procedura “parola d’ordine” condivisa. La misura più semplice ed efficace: dirigenti e dipendenti autorizzati a richieste finanziarie sensibili concordano una parola o frase di riconoscimento, da pronunciare in caso di richieste urgenti. Costa zero, è infallibile (un voice clone non può conoscere la parola d’ordine), ma va istituita prima del bisogno. Va aggiornata periodicamente
- Verifica out-of-band obbligatoria. Nessun bonifico sopra una soglia prestabilita deve poter essere autorizzato solo sulla base di una telefonata o messaggio, anche con voce riconoscibile. Una chiamata di richiamo a numero noto in rubrica (non a quello da cui è arrivata la chiamata sospetta), una conferma di persona o una doppia firma su sistema separato sono prassi non negoziabili
- Formazione strutturata e periodica del personale. I dipendenti dell’amministrazione, tesoreria, HR e management devono ricevere formazione specifica sul voice cloning e sui deepfake. Devono conoscere i casi reali, vedere esempi audio di cloni vocali, esercitarsi a riconoscerli. La formazione “una tantum” non funziona: serve un programma continuativo con aggiornamenti almeno semestrali
- Penetration test con scenari di social engineering AI-driven. Un buon programma di sicurezza include simulazioni periodiche di voice phishing, deepfake e CEO Fraud. Permette di misurare in modo oggettivo la preparazione reale dei dipendenti e identificare i punti deboli prima che lo facciano i criminali. Particolarmente efficace per dimostrare al management i rischi residui in modo tangibile
- Limitazione dell’esposizione vocale pubblica dei dirigenti critici. Per CEO e CFO di aziende particolarmente esposte (banche, assicurazioni, finanza, M&A, fashion luxury), valutare quanto materiale audio pubblico sia disponibile online. Non si può eliminare la presenza pubblica del management, ma si può limitare la riutilizzabilità di registrazioni di alta qualità per fini di cloning
- Strumenti tecnici di rilevazione. Sistemi di detection AI per voice cloning stanno maturando rapidamente. Per aziende ad alto rischio (banche, assicurazioni, gestori patrimoniali), l’integrazione di analisi vocale in tempo reale nelle chiamate critiche è oggi una scelta ragionevole, anche se gli strumenti più affidabili sono ancora costosi e poco diffusi nel mercato italiano
FAQ sul voice cloning aziendale
Quanto è facile clonare la mia voce nel 2026?
Molto facile. Bastano dai 3 ai 10 secondi di audio chiaro della tua voce per generare un clone con strumenti commerciali a basso costo. Materiale di partenza sufficiente è recuperabile da una intervista, un podcast, una presentazione registrata, un messaggio vocale WhatsApp inoltrato.
Posso accorgermi che una voce è clonata durante una telefonata?
A volte sì, sempre meno spesso. Segnali sospetti: ritmo leggermente meccanico, pause innaturali, difficoltà a esprimere emozioni complesse, esitazioni nei punti sbagliati, riluttanza a rispondere a domande imprevedibili (“come si chiamava il cane di tuo nipote?”). La regola pratica: in caso di dubbio, interrompere la chiamata e ricontattare la persona da un canale alternativo.
I sistemi di riconoscimento vocale delle banche sono ancora affidabili?
Sempre meno. Diversi istituti bancari internazionali hanno disattivato o ridimensionato i sistemi di autenticazione “voiceprint” perché vulnerabili al voice cloning. Le banche italiane stanno aggiornando i loro sistemi, ma sull’autenticazione voce-based il consenso degli esperti è che non vada usata come unico fattore di sicurezza.
La mia polizza cyber copre i danni da voice cloning?
Dipende dalla polizza. Molti contratti escludono esplicitamente le frodi causate da “errore umano” o richiedono che l’azienda dimostri di aver implementato controlli adeguati. Una revisione del contratto con il broker, e una possibile aggiunta di “social engineering coverage”, è oggi raccomandata.
Cosa fare se sospetto di essere stato vittima di voice cloning?
Tre azioni in parallelo, nei primi 30 minuti: chiamare immediatamente la banca per tentare il recall del bonifico (più tempo passa, meno è recuperabile), sporgere denuncia alla Polizia Postale (necessaria anche per il recall), attivare la propria assicurazione cyber. In presenza di dati personali coinvolti, avviare la procedura di notifica al Garante entro 72 ore.
La formazione anti-voice-cloning è obbligatoria per legge?
Non esplicitamente come “voice cloning”, ma rientra nei programmi di formazione cybersecurity richiesti dalla NIS2 (art. 23 D.Lgs. 138/2024) per le aziende essenziali e importanti, e dal Regolamento DORA per le entità finanziarie. Per tutte le altre aziende è fortemente raccomandata da ISO 27001 (controllo A.6.3).
I deepfake video richiedono più tempo di quelli audio per essere realizzati?
Sì, ma la differenza si è ridotta drasticamente. Nel 2025 strumenti come quelli usati nel caso Arup possono generare deepfake video in tempo reale durante una videocall. Il voice cloning resta comunque più rapido e accessibile, motivo per cui è più diffuso negli attacchi reali.
Cyberment può aiutarmi a prepararmi contro il voice cloning?
Sì, con due servizi specifici: formazione del personale sui rischi di voice cloning, deepfake e CEO Fraud (sia di base, sia avanzata), e penetration test con scenari di social engineering AI-driven, che includono simulazioni di voice phishing e attacchi di impersonificazione del management.
La tua azienda è preparata contro voice cloning, deepfake e CEO Fraud moderne? Cyberment supporta le imprese italiane con formazione cybersecurity certificata ISO 27001 specifica sui rischi di ingegneria sociale AI-driven, Penetration Test con scenari di voice phishing, deepfake e impersonificazione del management, e Consulenza Cyber Security per la definizione di procedure interne anti-frode conformi a NIS2 e DORA.
