Torna alla panoramica

Categorie:

Conoscenze di base

Indice:

Autore Eddy Bøgh Brixen Tempo di lettura 14 min

La verita’ sull’intelligibilita’ del parlato

Le parole che siano pronunciate o cantate dovrebbero essere comprensibili. Ma sfortunatamente, dal punto di vista tecnico durante la registrazione o l’amplificazione della voce, può risultare difficile mantenere l’intelligibilità. In questo articolo presentiamo alcuni effetti sull’intelligibilità del parlato ma soprattutto come mantenerla durante una riproduzione vocale.

Scarica il file di stampa qui

Sintesi

Il linguaggio proviene dalla parola parlata. Quindi quando effettui una registrazione vocale dovresti considerare sempre l’intelligibilità del parlato.

L’aria passa tra le corde vocali e crea il suono. Dal controllo delle corde vocali il livello e il tono della voce possono variare. Agendo sulle cavità sopra le corde vocali (faringee, orali, nasali), il filtraggio viene aggiunto allo spettro della voce.

Variando lo sforzo vocale cambia sia il livello che lo spettro di frequenza del suono vocale, così come anche il tono della voce. Gridare è differente dal parlare, con una voce normale.

Durante la registrazione, scoprirai che i picchi del segnale acustico sono molto più alti del livello RMS o medio. Assicurati che tutti i picchi vengano mantenuti attraverso la catena di registrazione.

Nei linguaggi non tonali le consonanti sono importanti. Le consonanti (k, p, s, t, ecc.) si trovano prevalentemente nella gamma di frequenze superiori a 500 Hz. Più specificamente, nella gamma di frequenza 2 kHz-4 kHz.

Percepiamo il naturale suono della voce e la sua massima intelligibilità quando siamo ad una distanza di circa un metro dalla persona che parla di fronte a noi. Posizionarsi di fianco o dietro rende la voce meno naturale e intelligibile.

In realtà, la voce può spaziare in quasi tutte le altre posizioni rispetto a quando ci avviciniamo alla persona che parla al nostro orecchio o con il microfono.

Ogni posizione microfonica, sulla testa o sul petto ha il proprio colore del suono - o timbro. Ad esempio, lo spettro del parlato registrato sul torace di una persona normalmente manca di frequenze nell'intervallo importante tra 2 e 4 kHz. Ciò si traduce in una ridotta intelligibilità del parlato. Se il microfono non compensa, è necessario apportare delle correzioni con un equalizzatore.

Quindi, quando si posiziona un microfono, bisogna prestare attenzione a questi problemi. Preparati a scegliere il microfono idoneo per l'uso nella posizione in cui lo stai mettendo. Altrimenti occorre compensare (equalizzare) per ottenere il suono corretto.

Puoi ottenere un’indicazione guardando una serie di brevi video in cui sono spiegati alcuni fattori importanti che influiscono sull'intelligibilità del parlato. Quando sei pronto per un'immersione più profonda nella teoria, puoi controllare l'articolo completo sotto la playlist.

La voce come sorgente acustica

La voce come sorgente sonora è importante da capire. Mentre il linguaggio può essere qualcosa che gruppi di persone hanno in comune, il suono e il carattere della voce sono invece individuali da persona a persona. Allo stesso tempo, la parola, considerata come un segnale acustico, è il tipo di suono che ci è più familiare.

Livello sonoro

Lo sforzo vocale varia: da un sussurro a un forte urlo. È difficile assegnare un valore fisso al livello della voce, poiché questo è individuale e varia da persona a persona. I valori nella tabella seguente indicano il livello medio ponderato della voce di un adulto.

Vale la pena notare che la capacità di comprendere il parlato è ottimale quando il livello corrisponde a quello di una voce normale a una distanza di 1 metro. In altre parole, un livello di pressione sonora di circa 55-65 dB re 20 μPa. (In questo caso, "re" significa "con riferimento a"; il riferimento è il livello di pressione sonora minimo udibile.)

Livello del parlato

Speech level [dB re 20 µPa]


Listening distance [m]	Normal	Raised	Loud	Shout
0.25	70	76	82	88
0.5	65	71	77	83
1.0	58	64	70	76
1.5	55	61	67	73
2.0	52	58	64	70
3.0	50	56	62	68
5.0	45	51	57	63

Livello medio del parlato in funzione della distanza di ascolto / registrazione. C'è una differenza di quasi 20 dB tra il parlare normalmente e il gridare.

Fattore di cresta

Si nota che ogni livello presentato nella tabella è un livello RMS medio e non un livello di picco. In genere, i picchi sono 20-23 dB al di sopra del livello RMS. Il rapporto tra il livello di picco e il livello RMS è chiamato fattore di cresta. Questo fattore è un parametro importante quando una voce deve essere registrata o riprodotta da un sistema elettroacustico.

Nota anche: il canto ad alto livello, misurato alle labbra, può raggiungere i 130 dB con riferimento a 20 μPa RMS e livelli di picco superiori a 150 dB con riferimento a 20 μPa.

Lo spettro del parlato

Lo spettro del parlato copre una porzione abbastanza ampia dello spettro completo delle frequenze udibili. Nei linguaggi non tonali, si può dire che il discorso è composto da suoni vocalici e consonanti. I suoni vocalici sono generati dalle corde vocali e filtrati dalle cavità vocali. Un sussurro è senza suoni espressi.

Tuttavia, le cavità che contribuiscono alla conformazione delle diverse corde vocali influenzano il flusso d'aria che passa. Questo è il motivo per cui le caratteristiche dei suoni vocalici si identificano anche in un sussurro. In generale, la frequenza fondamentale del tono del parlato complesso, noto anche come altezza o f0, si trova nell'intervallo di 100-120 Hz per gli uomini, ma possono verificarsi variazioni al di fuori di questo intervallo. L'f0 per le donne si trova circa un'ottava più alta. Per i bambini, f0 è di circa 300 Hz.

Le consonanti sono create da blocchi d'aria e suoni formati dal passaggio dell'aria attraverso la gola e la bocca, in particolare la lingua e le labbra. In termini di frequenza, le consonanti si trovano sempre sopra i 500 Hz.

Ad un'intensità vocale normale, l'energia delle vocali di solito diminuisce rapidamente al di sopra di circa 1 kHz. Tuttavia l'enfasi sullo spettro del parlato si sposta di una o due ottave verso le frequenze più alte quando la voce si alza. Inoltre, si noti che non è possibile aumentare il livello sonoro delle consonanti nella stessa misura delle vocali. In pratica, ciò significa che l'intelligibilità del parlato non aumenta gridando, rispetto al normale sforzo vocale in situazioni in cui il rumore di fondo non è significativo.

Spettri vocali (1/3 di ottava) in vase allo sforzo.

Le Formanti

Se senti due persone pronunciare la stessa vocale alla stessa altezza (f0), le vocali sono presumibilmente riconoscibili come identiche. Tuttavia, due voci qualsiasi non necessariamente riproducono esattamente lo stesso spettro. Le formanti forniscono i suoni vocalici percepiti. Inoltre, le formanti forniscono informazioni differenti da una persona all’altra. Le formanti sono create dal filtraggio acustico dello spettro generato dalle corde vocali. Le vocali sono create dalla sintonizzazione delle risonanze delle cavità del tratto vocale.

Cosa influenza l’intelligibilità?

Nelle lingue tonali come il cinese e il thailandese è usato il tono lessicale o la frequenza fondamentale per identificare il significato. Nelle lingue non tonali come inglese, spagnolo, giapponese, ecc., Le parole si distinguono cambiando una vocale, una consonante o entrambe. Tuttavia, fra queste, le consonanti sono le più importanti..

Frequenze fondamentali

Le frequenze fondamentali nelle lingue non tonali (occidentali) sono illustrate dal diagramma seguente. Qui, la banda di frequenza intorno a 2 kHz è la gamma di frequenza più importante per quanto riguarda l'intelligibilità percepita. La maggior parte delle consonanti si trova in questa banda di frequenza.

(Ref: N.R. French & J.C. Steinberg: Factors governing the intelligibility of speech sounds. JASA vol. 19, No 1, 1947).

Uno spettro vocale è filtrato passa-alto o passa-basso. L'uso di un filtro HP a 20 Hz (in alto a sinistra) rende il discorso comprensibile al 100%. (Questo perché lo spettro completo del discorso è mantenuto). Un filtro HP che taglia tutto sotto i 500 Hz lascia ancora il segnale vocale comprensibile. Anche se la maggior parte dell'energia vocale viene attenuata, l'intelligibilità viene ridotta solo del 5%. Tuttavia, l'applicazione di un cut-off più alto riduce l'intelligibilità.

Al contrario, l'applicazione di un filtro LP fa diminuire molto rapidamente l'intelligibilità. Quando si taglia a 1 kHz, l'intelligibilità è già inferiore al 40%. Questo dimostra che la gamma di frequenze tra 1 kHz e 4 kHz è di grande importanza per l'intelligibilità.

Rumore di fondo

Il rumore di fondo ha un’influenza percepibile sull’intellegibilità del parlato. In questi casi, tutti gli altri segnali diversi dalle parole possono essere considerati come rumori di fondo. Quindi in un auditorium o in una aula, il rumore dell’aria condizionata e altre eventuali interferenze possono rendere il parlato meno comprensibile. Inoltre, anche la presenza di altre persone genera rumore. Nel suono della tv o di un film, molto spesso è una questione di relazione tra il livello del dialogo e il livello della musica di sottofondo / suoni atmosferici..

In questo diagramma l'intelligibilità del parlato viene tracciata rispetto al rapporto segnale / rumore (S / N). La curva inferiore mostra che il parlato può ancora essere in una certa misura intelligibile anche se il rapporto S / N è negativo, il che significa che il rumore è 10 dB più alto del livello del parlato. Ma in ogni caso l'ideale è un livello di parlato percepito intorno a 60 dB re 20 μPa.

Molte ricerche sono state condotte in questo campo. In generale, i risultati dimostrano che::

Il livello di parlato ottimale è costante quando il livello del rumore di fondo è inferiore a 40 dB (A)
Il livello di parlato ottimale sembra essere il livello che mantiene circa 15 dB (A) di rapporto S / N quando il livello del rumore di fondo è superiore a 40 dB (A)
La difficoltà di ascolto aumenta all'aumentare del livello del parlato nella condizione in cui il rapporto S / N è abbastanza buono da mantenere l'intelligibilità quasi perfetta

Inoltre, la gamma di frequenza 1-4 kHz dovrebbe essere "mantenuta libera". Quando, ad esempio, si aggiunge musica come sottofondo per la narrazione, un equalizzatore parametrico che taglia la musica di 5-10 dB in questa gamma di frequenze migliorerà l'intelligibilità.

Riverbero

Il riverbero è considerato come rumore quando si parla dell’intelligibilità del parlato. Un riverbero ridotto potrebbe essere sopportabile nel dialogo, tuttavia non appena le consonanti sono sporcate, l'intelligibilità diminuisce.

Il campo sonoro

Il campo sonore intorno alla persona che parla è influenzato non solo dalla fisica del tratto vocale ma anche dalla testa e dal corpo della persona.

Direttività

Di seguito sono riportati i grafici polari di oratori sui piani verticale e orizzontale.

Modelli polari umani (ref.: Chu, W.T.; Warnock, A.A.C.: Detailed Directivity of Sound Fields Around Human Talkers.)

Il livello tracciato è pesato A e in ciascun diagramma vengono tracciati sia maschi che femmine. Tutti gli oratori erano seduti. I livelli sono stati misurati a 1 metro. Si può vedere che la differenza tra fronte e retro è di circa 7 dB. Tuttavia, questo non fornisce alcuna informazione sulla frequenza: le alte frequenze si attenuano maggiormente sul retro rispetto alle frequenze più basse.

Si nota che sul piano verticale, il livello è più alto nella direzione a 330 ° rispetto ad altre direzioni. Ciò è principalmente dovuto al fatto che il suono viene riflesso dal torace.

Questo diagramma mostra i grafici polari per frequenza da 160 Hz a 8 kHz.

Si può vedere che la direttività aumenta da circa 1 kHz in su. Combinando questo fatto con l'importanza delle frequenze superiori a 1 kHz è ovvio che si ottiene una maggiore intelligibilità quando si registra davanti a una persona rispetto a dietro.

Direttività umana, grafici polari, intervalli di 1/3 d'ottava. Divisione 5 dB. ref.: Chu, W.T.; Warnock, A.A.C.: Detailed Directivity of Sound Fields Around Human Talkers.)

Distanza e Direzione

Poiché non tutti i microfoni sono posti ad una distanza di un metro dall’oratore, è interessante conoscere cosa succede quando ci avviniamo di più alla sorgente sonora.

I seguenti diagrammi mostrano la variazione dello spettro del parlato registrato a 1 metro nella direzione data. Gli angoli (+45 gradi, 0 gradi e -45 gradi) si trovano sul piano verticale. Questi risultati rappresentano una media di 10 oratori.

Le linee in ciascuno dei tre diagrammi mostrano le variazioni rispettivamente a 80 cm, 40 cm, 20 cm e 10 cm.

Se non ci fosse nessuna variazione nello spettro quando si cambia distanza e direzione, tutte le curve sarebbero linee rette, ma la variazione aumenterebbe man mano che ci avviciniamo all’oratore.

Il diagramma superiore mostra le posizioni di misurazione a 45° verso l’alto rispetto all’asse. La deviazione è minima, perché il livello fornisce uno spettro vocale stabile, indipendente dalla distanza.

Il diagramma inferiore mostra cosa succede quando riprendiamo la voce sotto il piano in asse. L'influenza del suono riflesso dal corpo è notevole.

Le deviazioni in asse sono comprese fra le precedenti due, ciò significa che lo spettro del parlato cambia con la distanza dal microfono.

(Ref: Brixen, Eddy B.: Registrazione in campo vicino di una voce umana: cambiamenti spettrali dovuti alle posizioni. AES Convention 104, Amsterdam, the Netherlands. Preprint 4728)

Testa e petto

Nel brodcast e in applicazioni live, i microfoni maggiormente utilizzati sono i microfoni lavalier o i microfoni Headset, che permettono all’utilizzatore grande libertà di movimento. Bisogna essere consapevoli del fatto che il posizionamento del microfono ad una breve distanza si traduce in uno spettro registrato differente da quello naturale percepibile ad una normale distanza. Questa differenza è tutt’altro che trascurabile.

Di seguito sono riportati cinque grafici le cui curve mostrano cosa succede allo spettro del parlato quando il microfono viene posizionato sul corpo o sulla testa. Tutte le curve sono basate su misurazioni e sono riferite ad una media di 10 persone.

La prima curva (microfono sul petto) quantifica il modo in cui lo spettro del parlato rilevato al torace differisce dallo spettro del parlato della stessa persona rilevato a 1 metro in asse. Quando si posiziona un microfono sul petto, si verifica una sostanziale riduzione delle frequenze nella gamma critica 2-4 kHz.

La seconda curva (microfono sul collo) mostra la variazione che occorre se il microfono è ancora più vicino, appena sotto il mento. Questa posizione si applica molto bel broadcast perché è l'unico modo pratico per posizionare un microfono lavalier se il giornalista o l'intervistato indossa una maglietta, una felpa o se indossa un cappotto. Per l'uso all'aperto, il microfono può essere ricoperto di pelliccia o posizionato dietro una sciarpa. In tutte i casi: c'è una massiccia riduzione delle frequenze consonantiche.

La curva relativa al microfono sulla fronte mostra che questa posizione meno ostruttiva per lo spettro. Questa posizione è perfetta per il palcoscenico e il cinema ma non per il broadcast.
La curva relativa al microfono posizionato sotto l'orecchio mostra un graduale roll-off delle frequenze più alte. Può essere comodo posizionare il microfono sotto l’orecchio; tuttavia, necessita di una compensazione per mantenere l'intelligibilità del parlato.

Quando si posiziona il microfono sulla guancia (headset), la gamma 2-4 kHz è migliore rispetto alla maggior parte delle altre posizioni. Tuttavia, è ancora necessario una compensazione delle frequenze più alte. Gli headset DPA hanno un incremento integrato.

Va ricordato che il livello della voce "all'angolo del tuo sorriso"(sulla guancia) è di circa 10 dB più alto rispetto alla posizione sul torace.

Dalle curve si nota che c'è una tendenza generale ad incrementare le frequenze attorno agli 800 Hz, che può essere considerato utile. Tuttavia, la variazione più significativa è l'attenuazione sulle alte che causa una ridotta intelligibilità del parlato. Questo deve essere sempre gestito!

(Ref: Brixen, Eddy B.: Degradazione spettrale del parlato ripreso da microfoni in miniatura montati sulla testa e sul petto. AES Convention no. 100, Copenhagen, Denmark. Preprint 4284.)

Posizionamento del microfono

Dopo queste considerazioni, una serie di regole possono essere definite per la selezione e il posizionamento del microfono quando l’intelligibilità del parlato è importante.

Microfoni a mano

I microfono mano devono essere tenuti di fronte alla bocca con un angolo di ±30°;
Se si utilizza un microfono direzionale (cardiode, ipercardoide o shotgun) dovrebbe essere indirizzato in asse (e non come un cono gelato)
Gli schermi antivento possono ridurre le frequenze più alte. Ricordati di compensarle

Microfono Lavalier/ Microfoni posizionati sul Petto

Lo spettro del parlato nella tipica posizione sul torace ha una carenza nella gamma essenziale dei 3-4 kHz. Se un microfono con una risposta in frequenza piatta è posizionato sul torace, la gamma di 3-4 kHz dovrebbe essere aumentata di circa 5-10 dB per compensare la perdita

In pratica ci sono due soluzioni: utilizzare un microfono pre-equalizzato per compesare, o ricordarsi di effettuare la giusta equalizzazione. Nota bene che nessun mixer ENG o telecamera compensa automaticamente questo e spesso non ci sono controlli per farlo. In molti casi, questo non viene mai compensato. Quindi, l'intelligibilità è spesso bassa.

Microfoni Headset

Il livello del microfono headset sulla guancia è più alto di circa 10 dB rispetto alla posizione sul torace
Lo spettro è meno influenzato rispetto alla posizione del microfono sul torace. Tuttavia, in una certa misura, è necessario compensare un calo delle alte frequenze
La posizione del microfono sulla fronte (vicino all'attaccatura dei capelli), che viene spesso utilizzata in film e spettacoli teatrali, è relativamente neutra per quanto riguarda l'intelligibilità del parlato

Microfoni da Podio

I microfoni da podio sono spesso utilizzati a diverse distanze. Quindi, il microfono dovrebbere essere direzionale, specialmente nella gamma di frequenze superiori a 1 kHz
Il microfono deve puntare verso la bocca dell’oratore
I microfoni posizionati su podi non dovrebbero essere sensibili alle vibrazioni o a qualsiasi rumore meccanico

Microfoni da tavolo (per più oratori)

Posiziona ciascun microfono il più vicino possibile a ciascun oratore
Scegli microfoni direzionali
Quando c’è più di una persona a parlare nello stesso momento, il microfono di ogni oratore dovrebbe attenuare il suono proveniente dagli altri oratori di almeno 10 dB

Microfoni Boom (su asta)

Nella ripresa lo spettro più neutro si ottiene posizionando il microfono davanti e sopra la testa
Se l’ambiante circostante lo permette, possono essere utilizzati altri tipo di microfoni oltre a quelli shutgun

Ambienti rumorosi e riverberanti

Posizionare il microfono vicino alla sorgente sonora primaria (Vicino alla bocca dell’oratore)
Usare un microfono con soppressione del rumore elevato, molto direzionale, come un modello cardiode/supercardioide