Text-to-speech:
inclusività e didattica multisensoriale

Ogni giorno scopro un nuovo strumento didattico digitale, una nuova IA, o nuove implementazioni in quelle già esistenti. Eccone uno piuttosto recente e con delle particolarità interessanti: OpenAI FM.

OpenAI FM (prodotto dalla società OpenAI, creatrice di ChatGPT per capirci) trasforma il testo scritto in parlato naturale attraverso un'interfaccia web semplice. Prima cerchiamo di capire come funzionano queste tipologie di strumenti:

le app di sintesi vocale (o text‑to‑speech - TTS) come questa, trasformano qualsiasi testo in parlato naturale. Non è un semplice leggere ad alta voce: i modelli scandagliano la frase, analizzano sintassi, punteggiatura e contesto per scegliere intonazione, ritmo e timbro più adatti, con un risultato impressionante. {alertSuccess}

In estrema sintesi, questo è il processo:

🠞 normalizzazione – numeri, abbreviazioni e simboli diventano parole complete: 17/06/25 diventa diciassette giugno duemilaventicinque
🠞 da grafema a fonema – associano suoni, inseriscono pause, decidono l’enfasi in base al contesto, al peso di ciascuna parola all'interno della frase
🠞 vocoder neurale – ricostruiscono l’onda audio, frammento dopo frammento, con reti allenate su migliaia di ore di parlato

I modelli più recenti di TTS si basano su un tipo di architettura chiamata Transformer, un tipo di rete neurale utilizzata ad esempio da ChatGPT. Un Transformer lavora con due passaggi chiave:

❇️ attenzione – il modello guarda contemporaneamente tutte le parole della frase, valuta quanto ogni parola influisce sulle altre e decide dove concentrarsi. Così capisce che nella frase Gianni non ha fame l’avverbio non cambia il senso di ha fame e, di conseguenza, modula la voce con un’intonazione negativa.

❇️ rappresentazioni contestuali – invece di associare a ogni parola un suono fisso, il modello genera una piccola scheda d'identità numerica che descrive quella parola in quel contesto preciso. Perciò una parola suonerà diversamente in relazione al suo peso all'interno della frase (schede d'identità differenti).

Una volta prodotte queste rappresentazioni, un modulo detto vocoder neurale (spesso anch’esso basato su Transformer) trasforma queste schede d'identità in onde sonore. Il risultato è:

➡️ pronuncia più naturale: pause e inflessioni rispecchiano davvero il senso della frase

➡️ coerenza di timbro: la voce non oscilla tra sillabe, perché tutto è generato a partire da una visione d’insieme del testo

➡️ controllo fine: molti servizi permettono di agire su alcuni parametri, il pitch (l'altezza di un suono), la velocità e l'intenzionalità, che derivano da queste rappresentazioni contestuali, perciò basta magari un cursore per modificare lo stile prosodico, rendere la voce ad esempio più entusiasta o più seria.

Tutte queste reti neurali utilizzano anche un sistema di previsione, non si limitano a trasformare il testo in suoni: prevedono in tempo reale come dovrà suonare ogni frammento della frase, tenendo d’occhio l’intero contesto.

Il Transformer formula la prima previsione, generando il copione sonoro della frase. Il vocoder, a sua volta, prevede i singoli campioni audio basandosi su quel copione. Quindi entrambi prevedono, ma in fasi diverse: il Transformer pensa in millisecondi (blocchi di suono), il vocoder in microsecondi (campione per campione), assicurando continuità e naturalezza.

Un campione audio è una breve porzione di suono digitale catturata da una registrazione oppure generata al computer. Viene convertita in numeri che il computer può leggere e può essere riprodotta, modificata o combinata con altri campioni; è fondamentale per l'analisi audio. {alertInfo}

PARENTESI

A questo punto è doverosa una precisazione: in tutto questo processo ciò che personalmente mi lascia sconcertato è la capacità dei TTS di simulare perfettamente le coarticolazioni (o cointerazioni) e la prosodia, e ti spiego di che si tratta:

⬇️

COARTICOLAZIONE

sovrapposizione dei movimenti articolatori tra suoni consecutivi;
è ciò che rende il parlato fluido e naturale e non una semplice sequenza di sillabe incasellate

Nel parlato i suoni (sillabe o fonemi) non vengono pronunciati come blocchi isolati, ma si influenzano a vicenda. Questo crea transizioni morbide e naturali tra un suono e il successivo, e lo avverti bene tra le sillabe di una parola, ma anche negli eventuali dittonghi o iati. Da un punto di vista articolatorio i suoni vocalici sono infiniti, per passare da un suono vocalico all'altro attraversi un mondo di micro variazioni. Pensa al miagolio di un gatto, il classico mieaou: se tu registrassi le singole vocali I-E-A-O-U e poi le riunissi mediante un software audio perderesti il senso di fluidità, il suono risulterebbe spezzettato e ne risulterebbe un parlato a blocchi, con pause impercettibili ma sufficienti a rompere la continuità.

Sarebbe come percepire non una retta ma i punti che la compongono (concettualmente), non un video ma ogni suo singolo frame (fotogramma).

Ciò avviene perché quando emetti un suono già inizi a modificare la posizione di labbra, lingua e laringe in modo che raggiungano una precisa posizione per produrre il suono seguente, cioè non finisci completamente un suono prima di iniziare il successivo.

⬇️

PROSODIA

l’insieme di variazioni di intonazione, ritmo e intensità
che usiamo per dare senso, emozione e struttura alle frasi

Il funzionamento del linguaggio parlato umano e, nello specifico, dei rapporti linguaggio/pensiero, suono/parola e percezione/comprensione, viene studiato e analizzato dalla Linguistica, e si divide in due macro sezioni:

🠞 segmentale - analizza la sequenza dei caratteri e/o sillabe di una parola o frase, puramente necessarie per la comprensione del significato della parola stessa; una frase pronunciata da una voce piatta robotica non ti impedisce di comprenderne il significato, ma manca di qualsiasi intenzionalità, ritmo ed espressività

🠞 soprasegmentale - analizza il come una parola, o frase, viene pronunciata (accenti, ritmo elocutivo, intensità della voce, intonazione assertiva o interrogativa, etc) e quindi di conseguenza percepita, creando nell'ascoltatore paesaggi mentali differenti proprio grazie a queste inflessioni

La prosodia si riferisce propriamente all'analisi soprasegmentale. Se ci pensi bene, quando parli la tua voce non emette sillabe e parole tutte intonate in un'unica altezza/nota, vi sono sempre delle micro variazioni strettamente legate all'intenzionalità di ciò che vuoi comunicare, che influiranno - insieme anche all’intensità (volume) - sulla carica emotiva del messaggio, sulla capacità di attirare l’attenzione e la permanenza dello stesso nella memoria dell’ascoltatore.

Puoi provare tu stesso cliccando su .Run nella web app qui sotto (se il browser ti chiede il permesso di attivare il microfono, accetta). Prova a pronunciare più volte una medesima frase in modo naturale, magari prima affermativa poi interrogativa, prima con tono deciso e perentorio poi calmo e sereno, e vedrai come l'altezza di sillabe e parole varierà proprio in funzione di questi parametri emotivi:

💡 Nota: È necessario consentire l'accesso al microfono quando richiesto. L'app funziona meglio con Chrome o Firefox.

Avrai sicuramente notato che le frasi che hai pronunciato, a prescindere dal tipo di enfasi che hai adottato, non erano intonate su un’unica altezza sonora (sulla medesima nota musicale), ma hanno assunto una parvenza melodica determinata dai diversi accenti contenuti nelle singole parole/sillabe. Questo è l'andamento prosodico.

ᓚᘏᗢ ᓚᘏᗢ ᓚᘏᗢ

Chiusa questa parentesi torniamo a OpenAI FM. Presenta un'interfaccia molto semplice:

1️⃣ inserisci il testo
2️⃣ scegli timbro vocale e stile
3️⃣ premi play, e hai subito una lettura vocale professionale

Attualmente è in versione demo gratuita, anzi open-source, quindi liberamente accessibile e migliorabile da chi sappia mettere le mani nel codice, il che fa presagire ulteriori future funzionalità.
Inoltre, per essere un'app che non prevede piani di utilizzo a pagamento, possiede una fluidità nello stile parlato (a scelta tra una serie, così come per i timbri vocali) veramente impressionante/inquietante.
In più non necessita di iscrizione, e nessun dato viene salvato, tutto viene cancellato dopo l'utilizzo.

Ha un limite: puoi inserire, o incollare, un testo composto da non più di 999 caratteri; non molti in effetti, ma è sufficiente sostituire il testo precedente con il testo successivo del tuo discorso, riavviare il play e via via così a seguire (esiste comunque un modo legale, agendo sul codice, per portare il numero di caratteri inseribili a 4096, anche se il procedimento è un po' complesso).

Prima di analizzare i suoi potenziali utilizzi in ambito didattico, ti riporto alcuni esempi audio proprio con questa frase, usando differenti timbri vocali e differenti stili. Va bene? Ottimo!

Timbro vocale	Stile vocale	Audio
Nova	Eternal Optimist	♪
Nova	Sympathetic	♪
Nova	Dramatic	♪
Nova	Patient Teacher	♪

Solitamente per comprendere o evidenziare le caratteristiche di qualcosa, un’entità materiale o immateriale, concreta o astratta, le mettiamo a confronto con quelle di un suo equivalente che, per qualità, prestazioni o eccellenza, rappresenta il punto di riferimento in quel medesimo settore.

In questo caso il punto di riferimento è ElevenLabs, una startup statunitense fondata nel 2022 e attualmente considerata il top in questo sempre più vasto panorama dei TTS; ovviamente per sfruttarne tutte le potenzialità devi utilizzare dei piani a pagamento. In ogni caso mettiamo a confronto ElevenLabs con piano gratuito e OpenAI FM:

Caratteristica	ElevenLabs (piano Free)	OpenAI FM
Costo	Gratuito, ma limitato a 10 min/mese	Totalmente gratuito
Voci disponibili	Diverse, molto realistiche	11
Lingue supportate	32 (fino a 70 nei piani a pagamento)	58
Funzionalità	Studio, editing vocale, pause	Stili emotivi, uso immediato
Privacy	Non specificata chiaramente	Nessun dato/testo salvato, ottimo per la scuola
Accesso	Registrazione necessaria	Nessuna registrazione o login
Uso commerciale	Non consentito	Non indicato, ma uso libero via demo
Input	10.000 crediti mensili	999 caratteri, ma replicabili all'infinito

Come puoi notare OpenAi FM presenta alcune caratteristiche notevoli, quali l'accesso libero, nessun testo salvato in qualche server remoto, e la possibilità di ottenere infinite sessioni di parlato.

Utilizzo didattico

Qualche lustro fa cominciai a pensare che sarebbe stato interessante provare a registrare le mie spiegazioni teoriche in tempo reale durante le lezioni, per mettere a disposizione degli studenti un archivio sonoro da riutilizzare in seguito di ciò che veniva illustrato in aula. L'dea cadde lì dove era iniziata in quanto, pensandoci bene, non ho mai strutturato una lezione in modalità frontale, seguendo percorsi in prevalenza pratici e multi-disciplinari. Ma ero convinto che questa possibilità, in generale, avrebbe potuto permettere a un alunno di riascoltare i contenuti di determinate discipline secondo il proprio ritmo personale, facilitando un apprendimento più autonomo e magari consapevole.

Questa ipotesi in realtà era già stata analizzata nell'ambito delle neuroscienze cognitive a partire dagli anni '90, specificatamente per un'utenza DSA e ADHD, attraverso una lunga serie di test, studi e ricerche, fino a essere stata riconosciuta e formalizzata come strumento utile per ridurre le barriere cognitive. Sul piano psicologico-comportamentale, questa modalità favorisce l’autoregolazione, poiché un alunno può imparare a riconoscere autonomamente quando è necessario ripetere o rallentare, liberandosi dall'obbligo di mantenere un certo livello di attenzione sostenuta o di prendere appunti in tempo reale.

Tra le migliaia di documenti a riguardo ti riporto questo come esempio esplicativo:
Effects of audio support on multimedia learning processes and outcomes in students with dyslexia

In questo contesto sappiamo che da qualche anno molte case editrici si sono adeguate e hanno iniziato a fornire versioni digitali dei propri testi scolastici, corredate da video, audio e semplificazioni a vari livelli. Ma se tu volessi modificare il contenuto di questi supporti multimediali? Un riassunto audio che non ti convince, troppo complesso o troppo semplice, troppo articolato o troppo scarno, ...
Perché non creare in proprio un contenuto personalizzato secondo il proprio stile e adattarlo a specifiche esigenze di una classe? Bell'idea, ma attuarla può richiedere un notevole dispendio di tempo ed energie, qualche competenza basilare di audio editing e l'acquisto di attrezzatura adeguata.

Quindi:

Domanda: perché registrare il contenuto di una lezione o di un argomento specifico, magari leggendo un testo preparato ad hoc e strutturato secondo i propri obiettivi, e non utilizzare invece un'app TTS?

Risposta: con la propria voce il risultato sarebbe qualitativamente inferiore in termini di intelligibilità, a meno che non si utilizzi una scheda audio e un microfono semi-professionale in ambiente completamente silenzioso; potresti dover ripetere più volte la registrazione per qualche errore di pronuncia, senza contare rumori e fruscii ambientali e una qualità audio mediocre. Un TTS non sbaglia (quasi) mai, la qualità audio è elevata (formato .wav), la dizione è chiara e precisa, nessun brusio di sottofondo, tutto a vantaggio della comprensione.

Oltretutto OpenAI FM offre diversi output linguistici:

Avrai notato che purtroppo non è presente la lingua singalese (per ora), a noi tanto cara.

Un esempio pratico

Qui non si tratta solo di tradurre, anche ChatGPT lo fa, permettendoti inoltre di ascoltare l'audio del testo inserito e tradotto. Qui parliamo di prosodia, della possibilità di adattare l'enfasi e la tensione emotiva che riteniamo più adatte in un specifico contesto.

Ecco una possibile struttura sequenziale:

1️⃣ scrivo un testo introduttivo sul ritmo musicale

2️⃣ chiedo a ChatGPT di tradurlo in lingua tamil; se riproduco l'audio generato avrò un'esecuzione piatta, standardizzata

3️⃣ copio il testo generato e lo incollo su OpenAI FM, scelgo timbro vocale e andamento prosodico che ritengo adeguati al mio contesto e, se sono soddisfatto, esporto o condivido il file audio

4️⃣ (opzionale): verifico la traduzione su Google Translator

Guarda il video:

In contesti con studenti DSA, ADHD o BES, la voce sintetica può essere un supporto notevole. Ovviamente l'empatia viene meno, non sostituisce la relazione, ma gli scopi sono altri. Ecco alcune applicazioni concrete:

❇️  Lettura alternativa per alunni dislessici
❇️  Narrazioni audio per esercizi di comprensione
❇️  Creazione di dialoghi o drammatizzazioni multi-vocali
❇️  Supporto in lingue diverse (es. studenti stranieri o CLIL)
❇️  Materiali per autoapprendimento e recupero
❇️ Modulazione emotiva del tono per facilitare la concentrazione

Alla fine il punto non è sostituire la nostra voce, è aggiungerne un'altra. Una voce che non si stanca, che legge nello stesso modo anche alle 8 del mattino o alla sesta ora, che può parlare in un'altra lingua o con tono paziente. Una voce che accompagna, rinforza e sostiene.

Nel nostro lavoro, ogni strumento che ci aiuta a rendere le lezioni più accessibili merita attenzione. Ma ancora di più, merita un uso consapevole.

~~full-width~~

Text to speech: OpenAI FM

Text-to-speech:
inclusività e didattica multisensoriale

Pubblicato da Marco Tonini

Posta un commento

0 Commenti

Lettori fissi

Web app

CHATBOT

🆘 Normative uso etico IA nella scuola

📚 Hai letto la breve guida sull'IA?

💻 Di cosa si parla in questo blog?

DOC FREE

Wikipedia

Commenti

TAGS

Visualizzazioni

Modulo di contatto

Disclaimer

Menu Footer Widget

Contact form

Text to speech: OpenAI FM

Text-to-speech:inclusività e didattica multisensoriale

Pubblicato da Marco Tonini

Questi post potrebbero interessarti

Posta un commento

0 Commenti

Lettori fissi

Web app

CHATBOT

🆘 Normative uso etico IA nella scuola

📚 Hai letto la breve guida sull'IA?

💻 Di cosa si parla in questo blog?

DOC FREE

Wikipedia

Commenti

TAGS

Visualizzazioni

Modulo di contatto

Disclaimer

Menu Footer Widget

Contact form

Text-to-speech:
inclusività e didattica multisensoriale