Voglio condividere alcune riflessioni scaturite da vari esperimenti che ho condotto recentemente, con l’obiettivo di comprendere meglio alcune caratteristiche dei modelli GSLM (Generative Spoken Language Model), ovvero i modelli generativi del linguaggio parlato, applicati alla clonazione vocale in tempo reale.
Come mi succede spesso, ho cercato di approfondire il tema attraverso vari test e analisi della complessità degli strumenti che si possono trovare liberamente su internet.
Per questo scopo, ho testato, o almeno ci ho provato, modelli avanzati come Tacotron, WaveNet, Transformer-TTS, FastSpeech, Real Time Voice Cloning, DeepVoice. Alcuni di questi, grazie all’uso di tecniche di apprendimento profondo, sono effettivamente in grado di generare clonazioni vocali di notevole realismo.
La clonazione vocale in tempo reale, per chi non fosse familiare con il concetto, è una tecnica che permette di creare un’imitazione digitale della voce di una persona, dopo aver ascoltato solo pochi secondi del suo parlato.
Questo tema risulta interessante anche da un punto di vista professionale. Sembra infatti che il mercato della clonazione vocale crescerà a un tasso annuo composto (CAGR) del 17,2% nel periodo di previsione 2023 – 2028 (fonte: Voice Cloning Market Size & Share Analysis – Growth Trends & Forecasts https://www.mordorintelligence.com/…/voice-cloning-market).
L’interesse del mercato e degli investitori su questa tecnologia sta incentivando la creazione di soluzioni in una varietà di settori, tra cui l’IT e le telecomunicazioni, le istituzioni educative, il settore bancario, finanziario, assicurativo, il turismo e l’assistenza sanitaria. In quest’ultimo campo, ad esempio, potrebbero nascere soluzioni per compensare i deficit causati da malattie gravi come la Sclerosi Laterale Amiotrofica (ALS), la malattia del motoneurone (MND), o per interventi critici come la laringectomia, che può portare alla perdita della parola. (nulla di nuovo ma consentire di riavere la propria voce sarebbe interessante)
L’evoluzione del mercato ha stimolato l’uso di tecniche di apprendimento automatico di intelligenza artificiale che permettono di ridurre il tempo necessario per il processo di clonazione vocale.
Sebbene il trend sia sicuramente interessante, esistono anche preoccupazioni riguardo all’uso improprio di questa tecnologia, come la diffusione di informazioni false e la possibilità di frodi. Ci sono stati casi in cui è stata utilizzata la clonazione vocale per perpetrare frodi su larga scala, come un furto di 35 milioni di dollari in cui è stata clonata la voce del direttore di una società (fonte forbes . https://www.forbes.com/…/huge-bank-fraud-uses-deep…/)
La frode vocale è un rischio concreto e potenzialmente facile da attuare, che potrebbe riguardare truffe telefoniche, deepfake audio e potenziali abusi di sistemi di assistenza vocale.
Ovviamente questo rischio ha ricadute sulla privacy e sull’uso delle registrazioni vocali che spesso ci vengono richieste esplicitamente o implicitamente.
La clonazione vocale richiede l’accesso a campioni vocali: ma chi possiede la nostra voce? Quali diritti abbiamo sulla nostra voce e come possiamo proteggerla?
Per rispondere a queste domande e accettare la sfida della regolamentazione, sono necessarie riflessioni approfondite, azioni di formazione e di divulgazione, e una maggiore consapevolezza. È fondamentale che tutti comprendano le capacità e i rischi di questa tecnologia.
In questo contesto, sarebbe opportuno sviluppare e adottare standard per l’uso etico e responsabile della clonazione vocale ed in tal senso si rende necessario un dialogo tra tecnologi, legislatori, per navigare le complesse questioni etiche sollevate da queste tecnologie.
L’uso improprio di tali strumenti ha il potenziale di causare danni significativi, e la nostra responsabilità è di prevenire questo tipo di abuso prima che possa creare situazioni pericolose.
In conclusione ero partito con l’idea di pubblicare un post sul mio blog per spiegare, come spesso faccio, una tecnologia interessante, ma per il momento ho deciso di rimandare.
Sono amante della tecnologia e delle tante sfumature del mondo IT, ho partecipato, sin dai primi anni di università ad importanti progetti in ambito Internet proseguendo, negli anni, allo startup, sviluppo e direzione di diverse aziende; Nei primi anni di carriera ho lavorato come consulente nel mondo dell’IT italiano, partecipando attivamente a progetti nazionali ed internazionali per realtà quali Ericsson, Telecom, Tin.it, Accenture, Tiscali, CNR. Dal 2010 mi occupo di startup mediante una delle mie società techintouch S.r.l che grazie alla collaborazione con la Digital Magics SpA, di cui sono Partner la Campania, mi occupo di supportare ed accelerare aziende del territorio .
Attualmente ricopro le cariche di :
– CTO MareGroup
– CTO Innoida
– Co-CEO in Techintouch s.r.l.
– Board member in StepFund GP SA
Manager ed imprenditore dal 2000 sono stato,
CEO e founder di Eclettica S.r.l. , Società specializzata in sviluppo software e System Integration
Partner per la Campania di Digital Magics S.p.A.
CTO e co-founder di Nexsoft S.p.A, società specializzata nella Consulenza di Servizi in ambito Informatico e sviluppo di soluzioni di System Integration, CTO della ITsys S.r.l. Società specializzata nella gestione di sistemi IT per la quale ho partecipato attivamente alla fase di startup.
Sognatore da sempre, curioso di novità ed alla ricerca di “nuovi mondi da esplorare“.
Se vuoi farmi qualche richiesta o contattarmi per un aiuto riempi il seguente form
Comments