G.Carpenter e S.Grossberg, cerca di riprodurre il meccanismo mediante il quale un
organismo superiore è in grado di memorizzare le informazioni in maniera
associativa, e senza dimenticare la precedente esperienza. Il punto di partenza è
dato dalle seguenti constatazioni: per richiamare la memoria di un evento sono
sufficienti informazioni anche frammentarie, purché ad esso correlate. Inoltre
ulteriori informazioni relative allo stesso evento non alterano ciò che già si conosce,
contribuiscono anzi a rafforzarne la conoscenza. Eventi distinti, che non presentino
nessuna correlazione tra di loro vengono memorizzati separatamente, il ricordo di
uno di essi non provoca alcuna associazione con l'altro. Un ricordo frammentario, o
comunque disturbato da altre informazioni che non siano correlate con esso, evoca
per associazione il ricordo completo dell'evento a cui si riferisce.
Una memoria biologica svolge quindi due funzioni: amplificazione delle
informazioni correlate e soppressione dei disturbi. Si vedrà come è possibile
simulare questo comportamento.
Nel capitolo 3 si espongono alcuni esempi di riconoscimento.
Lo scopo è di dare una valutazione di massima della fattibilità di questo sistema, non
ci si propone di offrire una trattazione esaustiva dell'argomento, che basandosi su
analogie biologiche, è ben lungi dall'essere stato chiarito in modo completo.
Tutte le procedure usate per l'implementazione del preprocessore del segnale e per
il successivo riconoscitore sono state create col pacchetto software MATLAB v5.2
1CAPITOLO UNO.
IL MODELLO.
1.1 Il segnale vocale. Le caratteristiche di base.
Il sistema alla base della produzione della voce si compone delle seguenti parti.
a) POLMONI.
Essi sono la fonte d'energia del segnale. L’aria da loro compressa provoca la
vibrazione delle corde vocali.
b) LARINGE.
La laringe contiene le corde vocali e le cartilagini tiroide, cricoide e aritenoide.
Le corde vocali sono pieghe di tessuto mobile fissato alla tiroide nella parte
anteriore della gola; l’estremo posteriore è fissato alla cartilagine dell’aritenoide
che a sua volta è connessa alla cricoide. Quest’ultima è controllata da un insieme
di muscoli, in modo tale che le parti mobili delle corde vocali possano essere
accostate oppure allontanate. Quando le corde si avvicinano il flusso d'aria le fa
vibrare generando il suono (fonazione); quando invece sono lontane l’aria passa
attraverso l’apertura della laringe senza provocare vibrazioni (la normale
respirazione).
c) TRATTO VOCALE.
E’ parte superiore dell’apparato respiratorio. Consiste nelle due cavità: orale e
nasale.
La cavità orale sagoma il suono prodotto dalle corde vocali, e gli conferisce le
caratteristiche significative per la comunicazione verbale.
Le parti coinvolte sono : il velo palatino, la lingua, il palato, i denti e le labbra.
2odifica il suono creando i
fonemi. Il fonema è definito come la più piccola parte di segnale dotata di
significato distinguibile per un determinato linguaggio.
Ovviamente ogni lingua usata dall’uomo possiede i propri fonemi, derivanti dal
particolare uso degli organi vocali che si è sviluppato in una determinata
popolazione; componendo i fonemi si ottengono le sillabe e poi le parole.
La cavità nasale costituisce un’uscita supplementare per l’energia del segnale
vocale. Dal punto di vista spettrale si può notare una forte concentrazione
d'energia alle basse frequenze, ogniqualvolta interviene una nasalizzazione del
fonema emesso.
A causa dell’imprecisione e della notevole varietà nel modo di articolare i suoni, un
segnale vocale abbastanza fluido è normalmente non stazionario.
Tuttavia è possibile individuare nello spettro di una piccola porzione del segnale
alcune frequenze caratteristiche che restano stabili seppur per un breve periodo
(tipicamente meno di 50msec.).
Tali frequenze, dette formanti, permettono di modellizzare l’apparato vocale con
una successione di cavità risonanti, ciascuna con frequenza propria, stimolate da un
generatore di impulsi (ciò che sostituisce la voce). Ovvero si approssima la voce con
un segnale a frequenza fissa modulato da un sistema all-pole.
Si ipotizza cioè che il segnale vocale possa essere considerato quasi-stazionario in
ristretti intervalli di tempo, e che attraversi nel tempo una successione di stati
stazionari. Da qui emerge quindi la necessità di segmentare il segnale nel tempo per
individuare quelli che sono i singoli fonemi.
Non sempre comunque i fonemi sono perfettamente distinti, a causa del fenomeno
3della coarticolazione; consiste nel rapido cambiamento della forma della cavità
orale che si prepara a pronunciare il successivo fonema fondendolo col precedente.
Per un essere umano parlare in questo modo è naturale, e l’abilità nel distinguere ciò
che viene detto nasce dall’esperienza. Per ovviare a questo fenomeno in un
riconoscitore automatico, è necessario introdurre un’analisi a livello di livello
superiore a quello fonemico (per esempio trifoni, sillabe, parole).
1.2 I fonemi.
I fonemi base sono: le vocali e le consonanti. I dittonghi vengono anch'essi
considerati come fonemi inscindibili, a causa del fatto che le caratteristiche spettrali
delle vocali si susseguono tanto rapidamente, che non è possibile osservarle
individualmente.
Le vocali sono suoni emessi modulando la voce soltanto con una diversa apertura
della cavità orale lasciando che il suono fuoriesca liberamente senza occlusioni.
Aprendo bene la bocca si ottiene il fonema /a/ , chiudendo le labbra
progressivamente si passa da /o/ a /u/; spostando la parte posteriore della lingua verso
il palato e tenendo tirate le labbra si ottiene la /i/, e abbassando la lingua si produce
un fonema via via più aperto fino alla /e/. Ovviamente possono esserci diverse
modulazioni intermedie, ma nella lingua italiana le vocali sono ufficialmente queste
cinque.
A livello spettrale le vocali possono essere distinte efficacemente in base alle prime
due formanti.
La prima formante varia da circa 300Hz a circa 700Hz La seconda va da 800Hz a
2500Hz. Si tratta di dati approssimativi, dal momento che cambiano in funzione del
parlatore, ma comunque il campo di variabilità è circa questo.
4In base ad alcune misure percettuali si possono disporre le vocali su un piano
cartesiano i cui assi sono dati da queste due formanti (chiamate f1 e f2), ogni punto
del piano rappresenta una vocale grazie alla coppia di valori di frequenza; si osserva
che i punti creano una caratteristica forma a triangolo i cui vertici sono /u/ (f1 e f2
basse) /a/ (f1 alta f2 intermedia) e /i/ (f1 bassa f2 alta).
Le consonanti si dividono in diverse categorie:
a) Plosive: p,t,k (sorde) b,d,g (sonore).
Ottenute mediante occlusione temporanea della cavità orale e improvviso rilascio
b) Fricative: f,s,sh (sorde) v,z,zh (sonore).
Ottenute con parziale occlusione della parte anteriore della cavità orale per
mezzo dei denti. Le fricative si distinguono per le alte frequenze (sopra i
3000Hz). Quelle sorde producono una moltitudine di picchi diffusi su una larga
banda ad alta frequenza, il che rivela la loro rumorosità. Quelle sonore
presentano anche un picco stazionario a bassa frequenza dovuto alla fonazione.
c) Nasali: m,n,gn.
Ottenute abbassando il velo palatino e deviando parte del flusso d’aria verso la
cavità nasale. Le nasali sono distinguibili per le risonanze a banda larga alle
basse frequenze (sotto i 1000Hz).
d) Aspirate: h.
Si ottengono provocando un’occlusione nella parte posteriore del cavo orale.
5e) Affricate: c,j.
Si producono schiacciando la parte media della lingua sul palato.
In frequenza le caratteristiche delle consonanti sono poco stabili, poiché esse
possono essere considerate come una forma modulata di rumore. Soprattutto le
plosive sono il risultato di un'improvvisa esplosione (o “burst”).
1.3 La struttura dell’orecchio umano.
Lo strumento usato di solito per osservare l’evoluzione nel tempo delle
caratteristiche spettrali del segnale è lo spettrogramma.
Esso viene ottenuto nel seguente modo.
Si calcola la trasformata di Fourier di un segmento di segnale, si rappresenta il
quadrato del suo modulo su un piano in cui ogni punto è tanto più marcato quanto
l’armonica dello spettro considerato; equivale quindi a vedere lo spettro
“dall’alto”. L’immagine ottenuta accostando gli spettri dei vari segmenti a istanti di
tempo diversi è lo spettrogramma.
E’ uno strumento molto valido in quanto permette di avere a disposizione tutta la
storia del segnale nel dominio delle frequenze.
Lo spettrogramma ad ogni modo è molto chiaro solo se il rapporto segnale/rumore
non è troppo svantaggioso, poiché nella trasformata di Fourier viene incluso anche il
rumore. Il trattamento dei segnali prevede ovviamente un filtraggio prima
dell’analisi. Il primo intervento che tipicamente si effettua è l’eliminazione delle
bande di frequenza che non interessano; rimane il rumore nella banda del segnale.
6Se il rumore e bianco si può per esempio tentare di eliminarlo sottraendo la densità
spettrale del rumore, calcolata da un segmento qualsiasi dello stesso rumore, dallo
spettro del segnale da filtrare. Questo migliora il rapporto S/N, ma è solo
un’approssimazione. Altri metodi comportano l’uso di filtri adattati.
Il metodo che noi useremo si basa invece su un’approssimazione della fisiologia
dell’orecchio umano . Cercheremo di imitare i processi di elaborazione del segnale
che avvengono nella coclea.
L'orecchio è diviso in tre parti: l'orecchio esterno, che consiste nel padiglione, il
canale auditivo, e la membrana del timpano.
L'orecchio medio è una cavità piena d'aria contenente tre ossicini, chiusa su un lato
dal timpano e sull'altro dalla finestra ovale. I tre ossicini sono: il martello, l'incudine
e la staffa; il martello è attaccato al timpano, la staffa alla finestra ovale e l'incudine
connette i primi due.
La funzione degli ossicini è duplice: adattamento di impedenza, e limitazione di
ampiezza.
L'adattamento di impedenza avviene mediante la connessione meccanica degli
ossicini , il passaggio dell'energia dall'aria al fluido contenuto nell'orecchio interno e
il rapporto d'area tra la superficie del timpano e la finestra ovale.
La limitazione d'ampiezza avviene grazie al muscolo della staffa che si contrae in
modo tale da evitare un'eccessiva eccitazione della finestra ovale, per proteggere
l'orecchio dalle potenze troppo elevate.
L'orecchio interno consiste nell'apparato vestibolare, le finestre rotonda e ovale e la
coclea. L'apparato vestibolare è l'organo di equilibrio, quindi non è di nostro
7interesse. La coclea è un avvolgimento a spirale comunicante con l'orecchio medio
per mezzo delle due finestre; essa contiene i trasduttori che convertono le vibrazioni
in impulsi nervosi. Se non fosse avvolta apparirebbe come un canale diviso per la sua
lunghezza in tre sezioni (Fig.1-2), la parte superiore detta rampa vestibolare e la
parte mediana detta rampa media sono separate dalla membrana di Reissner; la
rampa media e la parte inferiore detta rampa timpanica sono separate dalla
membrana basilare .
Il segnale sonoro entra attraverso la finestra ovale percorre la rampa vestibolare, e
giunto alla sua estremità torna indietro grazie ad un'apertura, detta elicotrema e posta
all'apice della coclea, percorre la rampa timpanica ed esce nuovamente nell'orecchio
medio attraverso la finestra circolare. Lungo tutta la membrana basilare si trovano:
l'organo del Corti e la membrana tettoriale; tra questi ultimi sono posizionate le
cellule cigliate.
Nel percorso di ritorno il suono fa vibrare la membrana basilare, e di conseguenza le
cellule cigliate, che trasformano la vibrazione in segnale nervoso, convogliato al
cervello grazie al nervo acustico.
La struttura ha lo scopo di produrre una dispersione delle componenti in frequenza
del segnale per tutta la lunghezza della membrana basilare; la figura 3 rappresenta la
localizzazione del massimo della risposta per alcune particolari frequenze (Békésy
1960, [5]); la figura 4 rappresenta invece la tipica risposta in frequenza di un punto
della membrana basilare.
8
(Da Parsons [5])
(Da Parsons [5])
(Da Parsons [5])
Elicotrema
membrana
basilare
Finestra
ovale
Finestra
rotonda
35mm
Fig.1
Membrana
basilare
Rampa
vestibolare
Rampa
timpanica
Rampa
media
Organo di
Corti
Nervo
Cellule
cigliate
Fig.2
Fig.3
0
5
10
15
20
25
30
35
40
20 50 100 200 500 1000 2000
Frequenze (Hz)
Di
st
an
za
d
al
la
st
af
fa
(
mm
)
f (Hz)
Ampiezza
7KHz 2KHz
40Db Fig.4
9
1.4 La percezione.
• Ampiezza.
L'intervallo di udibilità dei segnali per l'orecchio umano è compreso fra
0 e 130Db riferiti ad una potenza di 10-16 W/cm2 ; il primo limite (0Db) è la
soglia del silenzio il secondo (130Db) è la soglia del dolore. [5]
• Range in frequenza.
Le frequenze udibili vanno tipicamente dai 16Hz ai 16Khz; il limite superiore
diminuisce in funzione dell'età dell'individuo. Inoltre l'intensità recepita è
funzione delle frequenze stesse. Per esempio un segnale a 100Hz con intensità di
60Db viene percepito come se fosse di intensità pari a 40Db. Esistono apposite
curve di livello che descrivono tale fenomeno ([5] figura 3.13).
La percezione dei toni puri non è lineare, ma misure psicofisiche indicano che
segue una legge approssimativamente logaritmica sopra i 1000Hz e lineare sotto i
1000Hz. Fant (1959)
ha fornito la seguente
formula, rappresentata
in figura 5.
L'unità di misura m così ottenuta è detta "mel".
+=
1000
1log
2log
1000 fm
10 100 1000 10000
500
1000
1500
2000
2500
3000
3500
frequenza (Hz)
To
no
(m
els
)
Scala mel
Fig.5
10
• Banda critica.
Le bande critiche spiegano il fenomeno del mascheramento: se in un segnale si
trovano più frequenze, tutte comprese in una di queste bande critiche, esso sarà
percepito con la stessa intensità di un segnale contenente un solo tono puro di
frequenza pari al centrobanda; se la distanza fra le componenti del segnale eccede
la banda critica, l'intensità percepita sarà maggiore.
Accade quindi che toni vicini si mascherino in potenza. Vedremo più avanti
come questo meccanismo possa essere implementato.
La larghezza di queste bande critiche è circa costante prima dei 1000Hz e segue
una legge lineare dopo i 1000Hz; si va da 100-150Hz con un centrobanda di
150Hz a 1300Hz con un centrobanda di 7kHz.
• Banda di segnale.
Per quanto riguarda il segnale vocale la banda di frequenze utili per
l'intelligibilità va dai 100Hz ai 7000Hz. French & Steinberg(1947, [5]) hanno
studiato gli effetti del filtraggio nell'identificazione di sillabe senza alcun
significato semantico. Il grafico sottostante esprime i risultati trovati.
11
(Da Parsons [5])
Come si vede, il filtraggio passa-basso rende il segnale incomprensibile per
frequenze di cutoff al di sotto dei 200Hz; il passa-alto per cutoff sopra i 6kHz.
La banda scelta per la nostra analisi 100-7000Hz sembra dunque adeguata.
Frequenza di cutoff (kHz) 5 0.2
P
er
ce
nt
ua
le
c
or
re
tt
e
100% Fig.6
passa-basso passa-alto
12
1.5 Modellizzazione della coclea.
Il modello da noi adoperato si basa su uno studio effettuato da ODED GHITZA [1],
e si compone di due parti: la sezione di filtraggio, e un'altra di simulazione della
risposta delle cellule cigliate.
Gli esiti di un'analisi di questo genere sono molto soddisfacenti, consentono infatti di
rilevare le caratteristiche rilevanti del segnale vocale, anche se immerso in un forte
rumore. Gli esperimenti condotti da Ghitza [1] con questo modello riguardavano il
riconoscimento di 39 numeri, pronunciati da 2 voci maschili; i risultati riportati sono
molto incoraggianti:
si ottengono percentuali intorno al 95% per segnali perfettamente ripuliti, e del 60%
per segnali con rapporto segnale/rumore di 0Db. E' stato effettuato un confronto con
metodi standard basati su analisi spettrale, il metodo di Ghitza risulta il più robusto
in condizioni ambientali critiche.
1.5.1 I filtri cocleari.
Le cellule cigliate sulla membrana basilare vengono idealizzate come un banco di
165 filtri passa-banda aventi approssimativamente la forma in Fig.4, ognuno dei
quali è seguito da un'unità di confronto con una serie di soglie. I filtri sono a fase
minima, e hanno una propria frequenza di risonanza e bande fortemente sovrapposte,
sono equispaziati su scala logaritmica fra 150 e 7000Hz, e le rispettive forme sono
state assegnate simulando la risposta in frequenza del sistema uditivo del gatto. Si
tratta quindi di simulazioni basate su misure psicofisiche. E' stato anche provato un
banco di filtri costruito in modo diverso, con spaziatura lineare e banda costante; ma
questi cambiamenti non incidono in misura rilevante sui risultati dell'analisi. Sono
piuttosto la forte sovrapposizione tra i filtri e l'elaborazione successiva al filtraggio
che conferiscono al modello la particolare robustezza.
13
1.5.2 Le cellule cigliate.
Il meccanismo delle ciglia viene ricreato costruendo una griglia di soglie. Le soglie
rappresentano i livelli che il segnale deve oltrepassare per stimolare una risposta
della cellula, il valore delle soglie rappresenta lo spessore delle ciglia: un segnale
debole metterà in movimento solo quelle sottili, se il segnale invece è forte allora
ecciterà anche quelle più spesse.
Distribuendo i valori delle soglie su scala logaritmica, si ottiene una misura in unità
decibel della energia del segnale. Altra caratteristica delle cellule è la
depolarizzazione unidirezionale; il movimento delle ciglia produce un impulso
elettrochimico, che si attenua fino a spegnersi del tutto, quando il segnale scende
sotto la soglia; le semionde negative del segnale non vengono quindi percepite.
Per tenere conto di questo fatto bisogna raddrizzare a mezz'onda.