Text-to-speech:
inclusività e didattica multisensoriale
Ogni giorno scopro un nuovo strumento didattico digitale, una nuova IA, o nuove implementazioni in quelle già esistenti. Eccone uno piuttosto recente e con delle particolarità interessanti: OpenAI FM.
OpenAI FM (prodotto dalla società OpenAI, creatrice di ChatGPT per capirci) trasforma il testo scritto in parlato naturale attraverso un'interfaccia web semplice. Prima cerchiamo di capire come funzionano queste tipologie di strumenti:
le app di sintesi vocale (o text‑to‑speech - TTS) come questa, trasformano qualsiasi testo in parlato naturale. Non è un semplice leggere ad alta voce: i modelli scandagliano la frase, analizzano sintassi, punteggiatura e contesto per scegliere intonazione, ritmo e timbro più adatti, con un risultato impressionante. {alertSuccess}
In estrema sintesi, questo è il processo:
🠞 normalizzazione – numeri, abbreviazioni e simboli diventano parole complete: 17/06/25 diventa diciassette giugno duemilaventicinque
🠞 da grafema a fonema – associano suoni, inseriscono pause, decidono l’enfasi in base al contesto, al peso di ciascuna parola all'interno della frase
🠞 vocoder neurale – ricostruiscono l’onda audio, frammento dopo frammento, con reti allenate su migliaia di ore di parlato
Una volta prodotte queste rappresentazioni, un modulo detto vocoder neurale (spesso anch’esso basato su Transformer) trasforma queste schede d'identità in onde sonore. Il risultato è:
Tutte queste reti neurali utilizzano anche un sistema di previsione, non si limitano a trasformare il testo in suoni: prevedono in tempo reale come dovrà suonare ogni frammento della frase, tenendo d’occhio l’intero contesto.
Il Transformer formula la prima previsione, generando il copione sonoro della frase. Il vocoder, a sua volta, prevede i singoli campioni audio basandosi su quel copione. Quindi entrambi prevedono, ma in fasi diverse: il Transformer pensa in millisecondi (blocchi di suono), il vocoder in microsecondi (campione per campione), assicurando continuità e naturalezza.
Un campione audio è una breve porzione di suono digitale catturata da una registrazione oppure generata al computer. Viene convertita in numeri che il computer può leggere e può essere riprodotta, modificata o combinata con altri campioni; è fondamentale per l'analisi audio. {alertInfo}
PARENTESI
A questo punto è doverosa una precisazione: in tutto questo processo ciò che personalmente mi lascia sconcertato è la capacità dei TTS di simulare perfettamente le coarticolazioni (o cointerazioni) e la prosodia, e ti spiego di che si tratta:
⬇️
COARTICOLAZIONE
sovrapposizione dei movimenti articolatori tra suoni consecutivi;
è ciò che rende il parlato fluido e naturale e non una semplice sequenza di sillabe incasellate
Nel parlato i suoni (sillabe o fonemi) non vengono pronunciati come blocchi isolati, ma si influenzano a vicenda. Questo crea transizioni morbide e naturali tra un suono e il successivo, e lo avverti bene tra le sillabe di una parola, ma anche negli eventuali dittonghi o iati. Da un punto di vista articolatorio i suoni vocalici sono infiniti, per passare da un suono vocalico all'altro attraversi un mondo di micro variazioni. Pensa al miagolio di un gatto, il classico mieaou: se tu registrassi le singole vocali I-E-A-O-U e poi le riunissi mediante un software audio perderesti il senso di fluidità, il suono risulterebbe spezzettato e ne risulterebbe un parlato a blocchi, con pause impercettibili ma sufficienti a rompere la continuità.
Sarebbe come percepire non una retta ma i punti che la compongono (concettualmente), non un video ma ogni suo singolo frame (fotogramma).
Ciò avviene perché quando emetti un suono già inizi a modificare la posizione di labbra, lingua e laringe in modo che raggiungano una precisa posizione per produrre il suono seguente, cioè non finisci completamente un suono prima di iniziare il successivo.
⬇️
PROSODIA
l’insieme di variazioni di intonazione, ritmo e intensità
che usiamo per dare senso, emozione e struttura alle frasi
Il funzionamento del linguaggio parlato umano e, nello specifico, dei rapporti linguaggio/pensiero, suono/parola e percezione/comprensione, viene studiato e analizzato dalla Linguistica, e si divide in due macro sezioni:
🠞 segmentale - analizza la sequenza dei caratteri e/o sillabe di una parola o frase, puramente necessarie per la comprensione del significato della parola stessa; una frase pronunciata da una voce piatta robotica non ti impedisce di comprenderne il significato, ma manca di qualsiasi intenzionalità, ritmo ed espressività
🠞 soprasegmentale - analizza il come una parola, o frase, viene pronunciata (accenti, ritmo elocutivo, intensità della voce, intonazione assertiva o interrogativa, etc) e quindi di conseguenza percepita, creando nell'ascoltatore paesaggi mentali differenti proprio grazie a queste inflessioni
💡 Nota: È necessario consentire l'accesso al microfono quando richiesto. L'app funziona meglio con Chrome o Firefox.
Avrai sicuramente notato che le frasi che hai pronunciato, a prescindere dal tipo di enfasi che hai adottato, non erano intonate su un’unica altezza sonora (sulla medesima nota musicale), ma hanno assunto una parvenza melodica determinata dai diversi accenti contenuti nelle singole parole/sillabe. Questo è l'andamento prosodico.
ᓚᘏᗢ ᓚᘏᗢ ᓚᘏᗢ
Chiusa questa parentesi torniamo a OpenAI FM. Presenta un'interfaccia molto semplice:
1️⃣ inserisci il testo
2️⃣ scegli timbro vocale e stile
3️⃣ premi play, e hai subito una lettura vocale professionale
Attualmente è in versione demo gratuita, anzi open-source, quindi liberamente accessibile e migliorabile da chi sappia mettere le mani nel codice, il che fa presagire ulteriori future funzionalità.
Inoltre, per essere un'app che non prevede piani di utilizzo a pagamento, possiede una fluidità nello stile parlato (a scelta tra una serie, così come per i timbri vocali) veramente impressionante/inquietante.
In più non necessita di iscrizione, e nessun dato viene salvato, tutto viene cancellato dopo l'utilizzo.
Ha un limite: puoi inserire, o incollare, un testo composto da non più di 999 caratteri; non molti in effetti, ma è sufficiente sostituire il testo precedente con il testo successivo del tuo discorso, riavviare il play e via via così a seguire (esiste comunque un modo legale, agendo sul codice, per portare il numero di caratteri inseribili a 4096, anche se il procedimento è un po' complesso).
Prima di analizzare i suoi potenziali utilizzi in ambito didattico, ti riporto alcuni esempi audio proprio con questa frase, usando differenti timbri vocali e differenti stili. Va bene? Ottimo!
Timbro vocale | Stile vocale | Audio |
---|---|---|
Nova | Eternal Optimist |
|
Nova | Sympathetic |
|
Nova | Dramatic |
|
Nova | Patient Teacher |
|
Solitamente per comprendere o evidenziare le caratteristiche di qualcosa, un’entità materiale o immateriale, concreta o astratta, le mettiamo a confronto con quelle di un suo equivalente che, per qualità, prestazioni o eccellenza, rappresenta il punto di riferimento in quel medesimo settore.
In questo caso il punto di riferimento è ElevenLabs, una startup statunitense fondata nel 2022 e attualmente considerata il top in questo sempre più vasto panorama dei TTS; ovviamente per sfruttarne tutte le potenzialità devi utilizzare dei piani a pagamento. In ogni caso mettiamo a confronto ElevenLabs con piano gratuito e OpenAI FM:
Caratteristica | ElevenLabs (piano Free) | OpenAI FM |
---|---|---|
Costo | Gratuito, ma limitato a 10 min/mese | Totalmente gratuito |
Voci disponibili | Diverse, molto realistiche | 11 |
Lingue supportate | 32 (fino a 70 nei piani a pagamento) | 58 |
Funzionalità | Studio, editing vocale, pause | Stili emotivi, uso immediato |
Privacy | Non specificata chiaramente | Nessun dato/testo salvato, ottimo per la scuola |
Accesso | Registrazione necessaria | Nessuna registrazione o login |
Uso commerciale | Non consentito | Non indicato, ma uso libero via demo |
Input | 10.000 crediti mensili | 999 caratteri, ma replicabili all'infinito |
Come puoi notare OpenAi FM presenta alcune caratteristiche notevoli, quali l'accesso libero, nessun testo salvato in qualche server remoto, e la possibilità di ottenere infinite sessioni di parlato.
Utilizzo didattico
Qualche lustro fa cominciai a pensare che sarebbe stato interessante provare a registrare le mie spiegazioni teoriche in tempo reale durante le lezioni, per mettere a disposizione degli studenti un archivio sonoro da riutilizzare in seguito di ciò che veniva illustrato in aula. L'dea cadde lì dove era iniziata in quanto, pensandoci bene, non ho mai strutturato una lezione in modalità frontale, seguendo percorsi in prevalenza pratici e multi-disciplinari. Ma ero convinto che questa possibilità, in generale, avrebbe potuto permettere a un alunno di riascoltare i contenuti di determinate discipline secondo il proprio ritmo personale, facilitando un apprendimento più autonomo e magari consapevole.
Questa ipotesi in realtà era già stata analizzata nell'ambito delle neuroscienze cognitive a partire dagli anni '90, specificatamente per un'utenza DSA e ADHD, attraverso una lunga serie di test, studi e ricerche, fino a essere stata riconosciuta e formalizzata come strumento utile per ridurre le barriere cognitive. Sul piano psicologico-comportamentale, questa modalità favorisce l’autoregolazione, poiché un alunno può imparare a riconoscere autonomamente quando è necessario ripetere o rallentare, liberandosi dall'obbligo di mantenere un certo livello di attenzione sostenuta o di prendere appunti in tempo reale.
Tra le migliaia di documenti a riguardo ti riporto questo come esempio esplicativo:
Effects of audio support on multimedia learning processes and outcomes in students with dyslexia
In questo contesto sappiamo che da qualche anno molte case editrici si sono adeguate e hanno iniziato a fornire versioni digitali dei propri testi scolastici, corredate da video, audio e semplificazioni a vari livelli. Ma se tu volessi modificare il contenuto di questi supporti multimediali? Un riassunto audio che non ti convince, troppo complesso o troppo semplice, troppo articolato o troppo scarno, ...
Perché non creare in proprio un contenuto personalizzato secondo il proprio stile e adattarlo a specifiche esigenze di una classe? Bell'idea, ma attuarla può richiedere un notevole dispendio di tempo ed energie, qualche competenza basilare di audio editing e l'acquisto di attrezzatura adeguata.
Quindi:
Domanda: perché registrare il contenuto di una lezione o di un argomento specifico, magari leggendo un testo preparato ad hoc e strutturato secondo i propri obiettivi, e non utilizzare invece un'app TTS?
Risposta: con la propria voce il risultato sarebbe qualitativamente inferiore in termini di intelligibilità, a meno che non si utilizzi una scheda audio e un microfono semi-professionale in ambiente completamente silenzioso; potresti dover ripetere più volte la registrazione per qualche errore di pronuncia, senza contare rumori e fruscii ambientali e una qualità audio mediocre. Un TTS non sbaglia (quasi) mai, la qualità audio è elevata (formato .wav), la dizione è chiara e precisa, nessun brusio di sottofondo, tutto a vantaggio della comprensione.
Oltretutto OpenAI FM offre diversi output linguistici:
Avrai notato che purtroppo non è presente la lingua singalese (per ora), a noi tanto cara.
Un esempio pratico
Qui non si tratta solo di tradurre, anche ChatGPT lo fa, permettendoti inoltre di ascoltare l'audio del testo inserito e tradotto. Qui parliamo di prosodia, della possibilità di adattare l'enfasi e la tensione emotiva che riteniamo più adatte in un specifico contesto.
Ecco una possibile struttura sequenziale:
1️⃣ scrivo un testo introduttivo sul ritmo musicale
2️⃣ chiedo a ChatGPT di tradurlo in lingua tamil; se riproduco l'audio generato avrò un'esecuzione piatta, standardizzata
3️⃣ copio il testo generato e lo incollo su OpenAI FM, scelgo timbro vocale e andamento prosodico che ritengo adeguati al mio contesto e, se sono soddisfatto, esporto o condivido il file audio
4️⃣ (opzionale): verifico la traduzione su Google Translator
Guarda il video:
In contesti con studenti DSA, ADHD o BES, la voce sintetica può essere un supporto notevole. Ovviamente l'empatia viene meno, non sostituisce la relazione, ma gli scopi sono altri. Ecco alcune applicazioni concrete:
❇️ Lettura alternativa per alunni dislessici❇️ Narrazioni audio per esercizi di comprensione
❇️ Creazione di dialoghi o drammatizzazioni multi-vocali
❇️ Supporto in lingue diverse (es. studenti stranieri o CLIL)
❇️ Materiali per autoapprendimento e recupero
❇️ Modulazione emotiva del tono per facilitare la concentrazione
Alla fine il punto non è sostituire la nostra voce, è aggiungerne un'altra. Una voce che non si stanca, che legge nello stesso modo anche alle 8 del mattino o alla sesta ora, che può parlare in un'altra lingua o con tono paziente. Una voce che accompagna, rinforza e sostiene.
Nel nostro lavoro, ogni strumento che ci aiuta a rendere le lezioni più accessibili merita attenzione. Ma ancora di più, merita un uso consapevole.
full-width
0 Commenti