1.1 Analisi della scena uditiva 4
grandissimo numero di informazioni tra le specie esistenti in natura.
In generale, comunque, per ottenere un’analisi chiara dell’ambiente
circostante, risulta di cruciale importanza avere un alto grado di in-
tegrazione tra le diverse modalita` sensoriali quali l’udito e la vista.
Tale approccio e` in completa sintonia con la visione degli psicologi del-
la Gestalt2 che studiano la percezione sensoriale umana dal punto di
vista della risposta dell’organismo al complesso percettivo al quale e`
sottoposto, enfatizzando l’identita` degli eventi psicoacustici e margina-
lizzando l’analisi atomistica ed elementale della percezione dello stimolo
e della risposta.
1.1 Analisi della scena uditiva
In generale il procedimento attraverso il quale il sistema uditivo del-
l’uomo riconosce, localizza ed eventualmente enfatizza diverse sorgenti
sonore viene indicato con la sigla ASA: Auditory Scene Analysis, cioe`
analisi della scena uditiva. Per scena uditiva si intende l’insieme costi-
tuito dall’uditore, dall’ambiente circostante, dalle sorgenti sonore in es-
so presenti e dagli eventi sonori cui queste danno luogo. In questa ana-
lisi bisogna tenere conto delle caratteristiche acustiche della sorgente e
dell’ambiente ma anche delle caratteristiche fisiologiche e psicologiche
dell’uditore. Si tratta, cioe`, di una analisi di tipo psicoacustico il cui
obiettivo e`, in buona sostanza, la ricostruzione spaziale delle sorgenti
sonore e degli eventi acustici aventi luogo nell’ambiente circostante.
Sotto certi punti di vista l’analisi della scena uditiva e` piu` sottile e
leggermente piu` complessa di quella visiva; a differenza degli occhi, in-
fatti, le orecchie non ricevono informazioni dirette sulla conformazione
2La Gestaltpsychologie e` una scuola psicologica nata in Germania all’inizio del secolo
scorso; per Gestalt, che in tedesco vuol dire forma, si intende una struttura o una con-
figurazione di fenomeni fisci e psicologici integrati in maniera tale da costituire un’unita`
funzionale le cui proprieta` non sono derivabili dalla semplice addizione delle parti.
1.2 Analisi Computazionale della scena uditiva 5
spaziale dell’ambiente circostante.
1.2 Analisi Computazionale della scena uditiva
Il termine CASA (Computational Auditory Scene Analysis) denota
differenti tecniche computazionali che cercano di imitare il comporta-
mento del sistema uditivo umano, o per lo meno di alcuni suoi aspet-
ti rilevanti al fine della “identificazione delle sorgenti”. Il grado con
cui tali tecniche modellano il comportamento del sistema umano e` al-
tamente variabile. Ad un estremo ci sono tecniche che mirano alla
completa modellizzazione umana sia in termini di apparato ricettivo
sia in termini di elaborazione dati (effettuando ad esempio un’analisi
in frequenza in bande percettive tipiche della fisiologia umana); all’al-
tro estremo ci sono tecniche che ignorano completamente il modello
umanoide (per esempio attraverso l’impiego di sistemi di rilevazione
equipaggiati con piu` di due microfoni). La bonta` dell’analisi uditiva
da parte di un robot dipendera`, comunque, dalla capacita` di estrarre
le informazioni spaziali dai dati raccolti dai microfoni.
I parametri che possono essere estratti dal segnale recanti le infor-
mazioni utili all’analisi della scena vengono chiamati in inglese auditory
cues ; questi possono essere raggruppati, in prima istanza, in due ampie
classi:
• La prima classe contiene i parametri che rispecchiano le caratte-
ristiche della sorgente; essi sono principalmente legati all’attivita`
della stessa nel dominio dei tempi ed in quello delle frequenze.
Esempi di questa classe sono: il tempo di attacco, la modulazione
in ampiezza o in frequenza di un segnale ecc. . .
• La seconda classe contiene, invece, i parametri relativi alle con-
dizioni fisiche della scena uditiva, riflettendo principalmente la
1.3 Scopo e contenuti della tesi 6
posizione relativa della sorgente rispetto ai sensori. I classici
parametri appartenenti a questa classe sono le differenze di tempo
e di livello tra i sensori. Usualmente con il termine binaural cues
si indicano i paramteri estratti da segnali ricevuti dalle orecchie,
anche nel caso in cui la testa in questione sia quella di un robot.
1.3 Scopo e contenuti della tesi
Il lavoro di questa tesi si concentra sulle tecniche automatiche di lo-
calizzazione spaziale di una sorgente acustica posta nel piano azimutale;
nel piano, cioe`, ortogonale sia all’asse della testa sia all’asse interaurale
(i.e. l’asse delle orecchie). Si e` affrontato il problema costruendo ini-
zialmente al computer un software che simulasse una situazione ideale
di ascolto. Tale situazione e` rappresentata da un ambiente anecoico3
ed assolutamente privo di rumore, e da un apparato di aquisizione dati
privo di ritardi, di distorsioni e di rumore interno. Sono questi, infatti,
i tipici problemi che compromettono il segnale acquisito rendendo dif-
ficoltosa l’estrazione dei parametri e quindi la localizzazione in scene
uditive realistiche.
Il software implementato e` stato dotato della possibilita` di inglobare
tali effetti cos`ı da verificare la robustezza degli algoritmi di riconosci-
mento rispetto agli anzidetti effetti indesiderati. In seguito dopo esserci
dotati degli strumenti necessari alla misura delle caratteristiche di una
testa robotica, si e` passati all’implementazione degli algoritmi in un
ambiente reale.
3Cos`ı si definisce un ambiente nel quale e` assente ogni tipo di riverberazione
1.4 Struttura della Tesi 7
1.4 Struttura della Tesi
La struttura della tesi e` la seguente:
Teoria Generale Si fa una rassegna dei parametri che interessano la
localizzazione acustica e di alcune delle tecniche esistenti per il
loro calcolo.
Misura della risposta all’impulso Nel secondo capitolo si espone il pro-
blema della misura delle caratteristiche della testa robotica. Ven-
gono passati in rassegna diversi metodi.
Esperimenti ed apparato sperimentale Qui si espone il lavoro sper-
imentale svolto ed, insieme alle difficolta` incontrate in corso d’-
opera, si danno i risultati sperimentali.
Conclusioni Nell’ultimo capitolo si espongono le conclusioni e si dis-
cutono alcune idee relative a lavori futuri nello stesso campo.
Appendice A Qui si danno i dettagli dell’apparato sperimentale usato
in laboratorio.
Appendice B Nell’ultima appendice viene esposto il codice sorgente di
tutti i software implementati.
Capitolo 2
Teoria Generale
2.1 Introduzione
Nel descrivere il meccanismo di localizzazione acustica da parte del-
l’uomo diversi termini devono essere introdotti. La testa dell’ascolta-
tore puo` essere considerata, in prima analisi, come una sfera nel cui
centro vi e` anche il punto mediano dell’asse che congiunge le due orec-
chie; tale asse e` detto asse interaurale. Nel centro della sfera (si veda
la figura 2.1), inoltre, si intersecano tre piani detti rispettivamente:
Piano mediano Il piano che divide la fronte in due; viene anche chia-
mato piano dell’elevazione. L’angolo che spazza tale piano e`
indicato con φ ed e` detto angolo di elevazione.
Piano frontale Il piano dove giace la fronte del soggetto.
2.1 Introduzione 9
Figura 2.1: Il sistema di coordinate (da Blauert,1983)
Piano orizzontale Il piano individuato dalla rotazione dell’asse inter-
aurale intorno all’asse verticale della testa. Viene anche detto
piano azimutale. L’angolo che spazza tale piano e` indicato con θ
ed e` detto azimuth.
Partendo da queste assunzioni di base verranno descritte in questo
capitolo le linee generali della localizzazione acustica nell’uomo insieme
con alcuni fenomeni psicacustici di interesse ed alcuni cenni di fisiolo-
gia sull’orecchio interno umano. Successivamente saranno descritte le
modalita` di calcolo dei parametri binaurali e come estrarre da essi in-
formazioni circa la posizione della sorgente sul piano azimutale.
2.2 La localizzazione acustica nell’uomo 10
2.2 La localizzazione acustica nell’uomo
2.2.1 La teoria duplex
Circa un centinaio di anni fa Lord Rayleigh studio` in dettaglio la
localizzazione di sorgenti sonore da parte dell’uomo. Secondo la sua
teoria, nota in letteratura con il nome di teoria duplex i parametri in
base ai quali l’uomo effettua tale localizzazione sono di tipo interau-
rale1, cioe` dovuti all’influenza della testa sul segnale in arrivo alle due
orecchie.
Gli effetti principali della testa umana sul segnale originale sono
traducibili, essenzialmente, in termini di differenze di livello della pres-
sione sonora (Interaural Level Difference) e di tempo (Interaural Time
Difference) esistenti tra i segnali percepiti dalle due orecchie. Tali
parametri sono direttamente collegati allo spazio nel quale si trovano
immersi i sensori, siano essi due orecchie od un numero eguale di micro-
foni, e riflettono direttamente la loro posizione rispetto alla sorgente;
per tale motivo come gia` accennato nell’introduzione ci si riferisce loro
come binaural cues o parametri spaziali.
Gli esperimenti di Lord Rayleigh furono condotti usando segnali a
banda limitata (i.e. toni puri) in tutto il campo di frequenze udibili;
cio` che viene evidenziato da questi esperimenti e` che per le frequenze
la cui lunghezza d’onda e` dell’ordine delle dimensioni della testa, cioe`
al di sotto dei 500 Hz circa2, le differenze di livello tra le orecchie sono
trascurabili e la localizzazione avviene grazie alle differenze di tempo.
A frequenze piu` alte e` la valutazione di ITD a presentare, soprat-
tutto nel caso di toni puri, molte ambiguita`. Le differenze di tempo
fra i segnali binaurali sono causate infatti dal differente cammino che
1Si usera` nel seguito anche il termine binaurale
2Considerando una testa perfettamente sferica di diametro compreso tra gli 11 ed i 16
cm.
2.2 La localizzazione acustica nell’uomo 11
l’onda segue nell’andare dal punto in cui e` situata la sorgente alle due
orecchie; questa differenza di cammino si riflette in una differenza di
fase all’arrivo tra i due segnali. Si consideri per esempio una sorgente
sonora che emette un tono puro posta alla massima distanza da una
delle due orecchie (i.e. posta ad un azimuth di ± 90◦), il ritardo misu-
rato in questo caso sara` il massimo ottenibile date le dimensioni della
testa; quando la lunghezza d’onda del segnale e` pari alla distanza in-
teraurale, il ritardo di fase sara` nullo. In pratica non sara` piu` possiblie
distinguere tra sorgenti poste all’estrema destra o all’estrema sinistra
affidandosi al solo ITD.
Nel corso degli anni altri esperimenti hanno confermato la teoria
duplex, mostrando che in buona sostanza il ruolo delle differenze di
tempo nella localizzazione dei toni puri e` limitato alle frequenze al di
sotto dei 1.5 KHz.
Bisogna far notare che, nonostante sua la comprovata validita`, la
teoria duplex non e` in grado di spiegare in maniera completa il mec-
canismo di localizzazione umana. Prima di tutto per questioni geome-
triche: se si ipotizza, infatti, una testa perfettamente sferica, sia ITD
che ILD dipenderanno esclusivamente dalla posizione della sorgente
sul piano azimutale. Cio` significa che, fissati l’azimuth e la distanza
della sorgente, tutte le posizioni corrispondenti a diversi angoli di ele-
vazione danno origine ad eguali differenze di tempo e di livello tra le
due orecchie. Inoltre i parametri sui quali questa teoria si basa non
sono sufficienti da soli a spiegare come l’uomo risolva la cosiddetta am-
biguita` fronte-retro: in ipotesi di sfericita`, infatti, esiste un iperpiano
di simmetria centrato sull asse interaurale per il quale i valori di ILD e
di ITD risultano uguali. Tale iperpiano e` detto cono di confusione. In
buona sostanza anche in situazioni realistiche, cioe` considerando una
testa non sferica ma simmetrica per quanto riguarda il posizionamen-
to delle orecchie e dei padiglioni auricolari, esiste un gran numero di
posizioni spaziali cui corrispondono uguali valori dei due parametri bin-
aurali, anche se la forma di questo iperpiano devia in maniera sensibile
da quella di un cono.
2.2 La localizzazione acustica nell’uomo 12
In secondo luogo e` stato dimostrato che sia l’uomo che gli animali
sono in grado di effettuare la localizzazione acustica con un orecchio so-
lo anche se con una precisione molto inferiore. Risulta percio` chiaro che
i sistemi biologici sfruttano anche l’informazione monoaurale; questo
tipo di informazione tiene conto in particolare dell’azione filtrante dei
padiglioni auricolari, delle riflessioni del suono sulle spalle e sul torso
ed e` altamente dipendente dallo spettro della sorgente3.
Infine se si considerano sorgenti sonore a banda larga il quadro del-
l’analisi si fa di gran lunga piu` complesso e la teoria duplex in generale
non e` piu` applicabile4.
2.2.2 La risoluzione in frequenza dell’apparato uditivo umano
I parametri binaurali presi in considerazione nel paragrafo prece-
dente sono dipendenti dalla frequenza del segnale, risulta percio` di
notevole interesse esaminare, seppur brevemente, in che modo l’essere
umano conduce l’analisi spettrale dei suoni.
Nel sistema uditivo umano (vedi figura 2.2) il segnale entrante viene
decomposto in bande di frequenza con un alto grado di sovrapposizione
e con una larghezza non uniforme di banda. Cio` si spiega analizzan-
do la fisiologia dell’apparato uditivo: l’analisi in frequenza del suono
entrante nell’orecchio umano avviene nel cosiddetto orecchio interno e
piu` precisamente nella coclea, un organo dalla forma vagamente ras-
somigliante ad una conchiglia posto in accoppiamento acustico con gli
ossicini dell’orecchio medio tramite un apertura detta finestra ovale;
all’interno del dotto cocleare si trova l’organo del Corti alloggiato sulla
3E` stato misurato l’errore commesso da diversi soggetti umani nel localizzare diversi
segnali locali sul piano mediano, il risultato e` che in presenza di una voce familiare l’errore
risulta decisamente piu` basso.
4
In particolare cio` che si nota e` che l’ITD gioca un ruolo anche a frequenza piu` alte.
2.2 La localizzazione acustica nell’uomo 13
Figura 2.2: L’apparato uditivo umano
Figura 2.3: La membrana Basilare