13
CAPITOLO 1: Suono nello spazio
1. Introduzione
In questo primo capitolo vengono fornite le basi necessarie per la
comprensione degli argomenti trattati in questo lavoro, a partire da una
descrizione dell’apparato uditivo umano per poi descrivere la tecnica di
virtualizzazione dell’audio e procedere con l’esposizione dei maggiori parametri di
cui fa uso.
1.1 Apparato uditivo
Tra i cinque sensi con i quali l’uomo si rapporta con il mondo esterno, quello di
interesse per lo studio e lo sviluppo di questo lavoro è l’udito. Esso permette di
udire i suoni, ovvero un insieme di onde sonore liberate nell’aria da una sorgente.
L’organo fondamentale per la percezione del suono è l’orecchio: esso agisce da
trasduttore nel trasformare l’energia acustica prima in energia meccanica e,
successivamente, in energia elettrica inviata, tramite le terminazioni nervose, al
cervello per l’elaborazione.
L’orecchio può essere suddiviso in tre parti. La pinna, ovvero il padiglione
auricolare, offre una vasta superficie al fronte sonoro e permette di raccoglierne
un’ampia porzione; il suono viene riflesso dal padiglione auricolare e concentrato
verso il condotto uditivo; essa è fondamentale per la localizzazione del suono nello
spazio, apportando importanti informazioni circa l’elevazione della sorgente
sonora. Il condotto uditivo termina sull’orecchio medio: esso è composto dal
timpano, che vibra in accordo con il suono che raggiunge l’orecchio. Al timpano
sono collegati i tre ossicini più piccoli del corpo umano: martello, incudine e staffa.
Il martello è collegato con il timpano, posto alla fine del condotto uditivo.
14
Figura 1.1: Apparato uditivo
Il movimento della membrana provoca, attraverso un complesso gioco di
leve, l’amplificazione della vibrazione del timpano per la trasmissione alla coclea,
ovvero al primo organo di cui è composto l’orecchio interno. Compito di questa
ultima sezione è la conversione dell’energia meccanica in impulsi elettrici da
inviare al cervello. La coclea è un osso a forma di chiocciola contenente del fluido
che riceve la vibrazione dalla staffa e la trasporta al suo interno dove è presente il
vero organo deputato alla conversione dell’energia meccanica in elettrica: l’organo
del Corti. All’interno dell’organo del Corti si trova la membrana basilare che ospita
una popolazione di cellule acustice cigliate, circa 4000, che vibrano in accordo con
la vibrazione del fluido. Ogni gruppo di ciglia è collegato ad una terminazione
nervosa in grado di convertire la vibrazione ricevuta dal fluido in impulsi elettrici
percepiti dal cervello come suoni.
Naturalmente, una singola frequenza non andrà ad eccitare una ciglia singola,
ma ne ecciterà un gruppo. L’estensione delle ciglia eccitate dalla singola frequenza
viene denominata banda critica ed è alla base di molti fenomeni di psicoacustica.
1.2 Virtualizzazione del suono
L’ambiente nel quale un suono viene riprodotto modifica ciò che percepiamo
attraverso un fenomeno detto riverberazione. Esso è legato alla riflessione del
suono da parte di ostacoli posti nell’ambiente in cui viene riprodotto e causa la
propagazione di versioni ritardate o attenuate del suono stesso.
15
Gli elementi che modificano il suono emesso dalla sorgente da quello percepito
sono, tra gli altri:
il busto e le spalle;
la testa del soggetto;
la pinna dell’orecchio, ovvero la parte esterna.
Questi elementi sono, con differenze più o meno evidenti, diversi da una
persona all’altra quindi un suono proveniente da una singola sorgente può essere
udito in versioni diverse da soggetti distinti. Busto, testa e ambiente
contribuiscono nella modifica del suono e una particolare tecnica di riproduzione
audio, l’audio virtualizzato, ha lo scopo di presentare ai due timpani delle orecchie
gli stessi segnali che produrrebbe un suono reale posizionato in quel punto nello
spazio.
La virtualizzazione dell’audio viene ottenuta operando sul suono tramite i
contributi dati da busto, testa e ambiente [1] con una tecnica presentata nel
capitolo 2 e riassunta nella Figura 1.2.
Figura 1.2: Virtualizzazione del suono
Con riferimento alla Figura 1.2:
x(n) rappresenta il suono diffuso dalla sorgente sonora;
head, torso e room sono i contributi dati da testa, torso e stanza all’orecchio
destro e sinistro;
y
(r)
(n) e y
(l)
(n) sono il risultato dell’elaborazione che restituisce l’audio
virtualizzato, riprodotto rispettivamente nell’orecchio destro e sinistro del
soggetto;
, ed r, ovvero azimuth, elevazione e distanza, sono parametri il cui
significato sarà esposto nel paragrafo 1.3.1, 1.3.2 ed 1.3.3.
16
Esistono varie tecniche per ottenere l’audio virtualizzato: ad esempio la
spazializzazione fisica consiste nella riproduzione del suono attraverso un sistema
multi canale, con una qualche codifica per ciascun canale (quale può essere, tra le
altre, la tecnica Dolby Surround)[2]. Normalmente il surround è implementato
mediante audio multicanale nel quale uno o più canali audio sono destinati ad
essere riprodotti da diffusori acustici posizionati, secondo prestabilite regole, alle
spalle, di fronte e a lato dell'ascoltatore. Tali canali audio sono chiamati canali
surround.
Questa tecnica, per rendere al meglio, deve essere utilizzata in ambienti neutri,
ovvero non riverberanti e senza colorazioni, e consente una virtualizzazione del
suono ottima solo nel punto predisposto per l’ascolto, producendo risultati distorti
o comunque non ottimi non appena l’ascoltatore si sposta dal punto richiesto.
Un altro approccio prevede l’utilizzo di auricolari, andando a simulare tutti gli
elementi che il suono naturale incontra durante il suo tragitto dalla sorgente ai
nostri timpani, ovvero la forma della stanza, il corpo dell’ascoltatore e le sue parti
che interagiscono con l’onda sonora (quali le pinne e il torso). Le cuffie, tuttavia,
tendono a conferire alla sorgente una vicinanza eccessiva e sono afflitte da un
problema detto non esternalizzazione: l’ascoltatore ha l’impressione che la fonte
sonora sia posizionata all’interno della sua testa. Per risolvere questi problemi,
delle basi di psicoacustica sono necessarie per comprendere la nostra abilità di
localizzare sorgenti sonore e per la progettazione di sistemi di sintesi 3D efficienti.
1.3 Elementi di Psicoacustica
Con “musica” o “suono” “si fa generalmente riferimento a un complesso di
processi che vanno dalla generazione di pattern sonori fino alla percezione e alla
elaborazione del messaggio musicale da parte di un ascoltatore” [3]. Un suono è
udito dal nostro sistema uditivo quando, come detto sopra, un’onda di pressione
avente caratteristiche fisiche ben definite, va ad eccitare il timpano. Le tre
sensazioni principali che accompagnano l’ascolto di un suono sono:
altezza (pitch);
intensità (loudness): dipende dal flusso di energia che accompagna la
vibrazione ma varia anche in base alla durata del suono o alla presenza di
altre sorgenti sonore;
timbro (timbre): dipende dallo spettro di energia, la cui evoluzione
temporale è un elemento fondamentale per il riconoscimento e la
caratterizzazione dei suoni strumentali.
Nonostante rimangano molti aspetti sconosciuti, le caratteristiche principali
del processo uditivo sono noti da molto tempo ed accurati studi psicologici hanno
17
stabilito quanto accuratamente possiamo dare giudizi sulla localizzazione di una
sorgente sonora.
Per specificare la localizzazione di una sorgente sonora relativamente
all’ascoltatore, si necessita di un sistema di coordinate. Una scelta naturale può
essere quella di un sistema di riferimento centrato sulla testa del soggetto: l’asse x
passante, approssimativamente, attraverso il suo orecchio destro, l’asse y diretto
davanti all’ascoltatore e l’asse z che punta verso l’alto. Questi assi definiscono tre
piani standard: il piano orizzontale xy, il piano frontale xz e il piano mediano yz.
Chiaramente, il piano orizzontale definisce una separazione sopra – sotto, il piano
frontale quella davanti – dietro mentre il piano mediano definisce una separazione
destra – sinistra.
Figura 1.3: Sistemi di coordinate
Tuttavia, essendo il capo di forma sferica, solitamente si usa un sistema di
riferimento sferico e qui le coordinate standard sono azimuth, elevazione e range.
Essendo possibili più modi di definire queste coordinate, esistono due
sistemi di riferimento equivalenti per tali coordinate, ovvero le coordinate polari
verticali e le coordinate polari interaurali.
Nel sistema a coordinate polari si misura dapprima l’angolo di azimuth
come l’angolo tra il piano mediano e un piano verticale contenente l’asse z e, poi, si
misura l’angolo di elevazione come l’angolo con il piano orizzontale. Con questa
scelta, superfici con azimuth costante sono piani che intersecano l’asse z mentre
superfici con costante elevazione sono coni concentrici con l’asse z.
Utilizzando invece un sistema di coordinate interaurali, si misura dapprima
l’angolo di elevazione come l’angolo tra il piano orizzontale e un piano contenente
la sorgente e l’asse x, che è l’asse interaurale; l’azimuth è misurato come l’angolo
18
con il piano mediano. Con questa scelta, le superfici a elevazione costante sono
piani passanti per l’asse interaurale e le superfici con azimuth costante sono coni
concentrici con l’asse interaurale.
1.3.1 Proprietà dell’azimuth
Uno dei più importanti pionieri dell’audio spazializzato fu il barone John Strutt
Rayleigh. Quasi 100 anni fa sviluppò la Duplex Theory, secondo la quale l’azimuth è
individuato tramite due parametri: Interaural Time Difference e Interaural
Intensity Difference.
ITD (Interaural time difference) è definita come la differenza dei tempi di
arrivo del fronte d’onda tra orecchio sinistro e destro, mentre IID (Interaural
intensity difference) misura similarmente la dfferenza di ampiezza tra i suoni uditi
tra i due orecchi. In generale, un suono è percepito vicino all’orecchio al quale
arriva per primo il fronte d’onda sonoro, ovvero ad un ampio ITD corrisponde una
ampia traslazione della sorgente sonora in una posizione laterale rispetto
all’ascoltatore.
E’ opinione comune che il sistema uditivo utilizza ITD, IID e delle indicazioni
spettrali per determinare la posizione spaziale di una sorgente in tutte le posizioni
possibili, non solo in quelle appartenenti al piano orizzontale [4]. Tuttavia, mentre
gli esperimenti di psicoacustica hanno dimostrato la semplice relazione lineare che
intercorre tra ITD, IID e posizione laterale percepita, la relazione tra contenuto
spettrale ricevuto dall’ascoltatore e posizione nello spazio (non limitata solo sul
piano orizzontale) non è così semplice.
Figura 1.4: Cono di confusione