Introduzione
2
Questo lavoro di tesi è stato mirato, ad una ottimizzazione
dell’algoritmo di stima del SNR in modo da riuscire ad esaminare l’influenza
del rumore sulle sottobande relative ai parametri biometrici considerati e su
tutta la banda del segnale. Il lavoro che verrà illustrato nei capitoli di tale tesi
è focalizzato proprio all’implementazione di uno strumento automatico per la
stima del SNR di interesse.
I passi più significativi per lo svolgimento di tale lavoro possono essere
riassunti come segue:
• Creazione dei database, nelle varie condizioni di SNR e tipologie
di rumore;
• Estrazione dei parametri biometrici dal segnale vocale e del SNR
per l’intera banda e per le sottobande di interesse;
• Valutazione dell’influenza del rumore nelle sottobande.
In particolare nel primo capitolo di introducono le caratteristiche biometriche,
ponendo particolare attenzione al ramo vocale, evidenziando quindi principi di
fonetica e concetti di speech processing.
Nel secondo si descrivono i parametri qualitativi e le metodologie di
valutazione della qualità di un segnale vocale.
Introduzione
3
Il terzo capitolo è dedicato alle caratteristiche dei databases utilizzati nel
lavoro e al funzionamento del software impiegato per effettuare le marcature
del saggio vocale.
Nel quarto capitolo vengono approfondite le routines facenti parte
dell’algoritmo implementato per il calcolo e la stima del SNR nell’intera
banda e nelle sottobande di interesse biometrico.
Infine, nel quinto e sesto capitolo sono mostrati e commentati i risultati
ottenuti.
Capitolo 1
4
CAPITOLO 1
Biometria Vocale
1.1 Biometria
Con il termine "biometria", dal greco bios (vita) e metros (misura), si
intende l'identificazione automatica o la verifica dell'identità di un soggetto
sulla base di caratteristiche fisiche e/o comportamentali.
La figura mostra la classificazione delle caratteristiche biometriche.
Fig. 1.1 Caratteristiche biometriche
Capitolo 1
5
Queste caratteristiche, dette anche biologiche, possono essere:
- Fisiologiche: cioè si riferiscono a dati statici quali ad esempio
le impronte digitali, la geometria dell'iride, la sagoma della
mano o del volto;
- Comportamentali: quando si riferiscono ad azioni svolte
dall'individuo, come la scrittura, il parlato, lo stile di battitura.
Le tecnologie biometriche soddisfano tre funzioni fondamentali:
1. Autenticazione (controllo “uno a uno”): verifica che le
persone siano ciò che dichiarano di essere;
2. Identificazione (controllo “uno a molti”): scopre le identità
di persone sconosciute. Il processo di identificazione consente
di risalire all’identità di una persona esaminando una
“impronta” biometrica calcolata a partire dalle caratteristiche
biometriche dell’individuo;
3. Riconoscimento: individua le persone partendo da una lista di
nomi, ovvero prevede che l’identità della persona sia nota a
priori e l’impronta biometrica viene confrontata con il
modello precedentemente immagazzinato.
Capitolo 1
6
Per la valutazione qualitativa di un sistema biometrico sono stati definiti
due parametri, detti “indici di accuratezza”:
- FAR (False Accept Rate): Definisce in percentuale il numero
di volte in cui il sistema considera valida un’impronta non
valida. Indica la probabilità di accettare chi non è autorizzato;
- FRR (False Reject Rate): Definisce in percentuale il numero
di volte in cui il sistema non riconosce valida un’impronta
valida. Indica la probabilità di non riconoscere chi è
autorizzato.
Fig. 1.2 Andamenti degli indici di accuratezza
Queste due grandezze sono strettamente correlate da una semplice
proprietà: al diminuire dell'una cresce l'altra.
Capitolo 1
7
Ogni sistema biometrico ha la possibilità di regolare il rapporto
FRR/FAR e quindi aumentare o diminuire la sensibilità complessiva del
sistema. Infatti il punto di equilibrio per cui FAR=FRR, è detto EER (Equal
Error Rate) e può essere usato come indice di prestazione. Tanto più piccolo
è l’EER, tanto migliore è la prestazione del sistema.
Oggigiorno le più diffuse tecniche d'identificazione biometrica
consistono nella valutazione di:
- Impronte digitali
- Geometria della mano
- Caratteristiche dell'iride
- Analisi dei tratti somatici
- Dinamica d'apposizione della firma
- Caratteristiche della voce
- Caratteristiche della retina
La tecnologia del riconoscimento vocale utilizza gli aspetti caratteristici
della voce umana per verificare l'identità di un individuo.
Capitolo 1
8
1.2 Biometria vocale
Sono molte le aziende che ai nostri giorni investono ingenti somme di
denaro in evoluti sistemi in grado di garantire un’ elevata protezione ai propri
dati sensibili.
Inoltre, in altri settori si avverte la necessità di affidabili strumenti di
identificazione del chiamante. A sostegno degli strumenti in grado di
rispondere a tali esigenze, si pone la “Biometria Vocale”.
L’uso di tecniche biometriche nella identificazione degli utenti permette
di spostare l’attenzione da ciò che l’utente conosce (una password) o possiede
(una ID Card) a ciò che l’utente è. Questo rappresenta una notevole differenza
e, in alcuni casi un notevole vantaggio.
Il timbro vocale essendo una caratteristica unica e misurabile per ciascun
individuo, permette di convalidarne l’identità.
Il riconoscimento della voce è quindi una delle forme principali e più
naturali di identificazione dell’individuo interlocutore.
Tuttavia la voce umana è l’unica tra le caratteristiche biometriche a
presentare, oltre ad una connotazione tipicamente fisiologica, una sensibile
influenza comportamentale legata allo stato psicologico dell’individuo, che
può compromettere, entro certi limiti, il carattere di unicità dell’impronta
vocale.
L'impronta vocale di una persona si differenzia in base alla fisiologia
dell'apparato vocale ed agli aspetti comportamentali tipici del sistema di
Capitolo 1
9
produzione del suono, infatti, la voce può essere alterata da freddo, fumo,
laringite o altri fattori esterni.
La Speaker Verification (sottocampo dello Speech Processing, par. 1.3)
utilizza l'impronta vocale come misura biometrica per verificare l'identità.
La principale tecnica di individuazione dell’impronta vocale di un
individuo, consiste nell’analisi del contenuto in frequenza delle onde acustiche
risultanti dal flusso d’aria generato nei polmoni, propagato attraverso il
condotto tracheale e portato in risonanza dalle corde vocali.
Se da un lato, rumore ambientale e sensori microfonici, radicalmente
diversi, possono condizionare drasticamente l’efficienza del sistema di
registrazione e verifica dell’impronta vocale, dall’altro va osservato che le
metodologie di riconoscimento della voce possono essere facilmente
implementate e gestite, in presenza di risorse tecnologiche esistenti nella
maggior parte delle strutture informatizzate.
1.3 Speech processing
Lo “speech processing” è un settore dell'analisi dei segnali che si occupa,
nello specifico, del modo in cui
– il segnale vocale possa essere elaborato in automatico da un
calcolatore;
Capitolo 1
10
– una macchina possa riprodurre la voce umana e riconoscere la
persona che pronuncia un determinato discorso o le parole che
compongono quel discorso;
– un segnale vocale possa essere codificato, compresso e se ne
possano migliorare le caratteristiche.
Si usano spesso tecniche di intelligenza artificiale come le reti neurali e
gli algoritmi genetici.
La figura 1.3 mostra l'articolata ramificazione di questo campo di studi
1
.
Fig. 1.3 Campi dello speech processing
1
In letteratura ne esistono tanti altri.
Capitolo 1
11
I campi più importanti per il riconoscimento di un parlatore sono:
– Speaker Recognition: riguarda il riconoscimento del parlatore
attraverso la propria voce, utilizzando sofisticati algoritmi di
analisi numerica dei segnali. Questo è un compito che risulta
naturale per noi uomini, ma è molto più complesso per una
macchina. Le applicazioni pratiche di questa tecnologia spaziano
dai sistemi di sicurezza (l'impronta vocale di una persona é
univoca come le impronte digitali) fino alle tecnologie di
assistenza ai diversamente abili. In generale possono essere
distinte due applicazioni di questo campo, la “Speaker
Identification” e la “Speaker Verification”;
– Speaker Identification: si occupa di identificare un parlatore,
confrontando un saggio fonico con un’intercettazione ambientale
o telefonica. Tuttavia l’esame comparativo di un campione di
voce non è in grado di fornire un risultato certo di
identificazione, in quanto è presente del rumore ambientale, ma
soltanto una probabile identificazione;
– Speaker Verification: è il processo in cui un campione di voce è
messo a confronto con un saggio fonico di riferimento, contenuto
in un database e rilasciato dal parlatore stesso durante una fase di
addestramento del sistema.
Capitolo 1
12
Le differenze fondamentali tra la verifica e l’identificazione di un
parlatore sono essenzialmente quattro:
• Nel processo di verifica si hanno sempre due campioni da
confrontare, mentre nell’identificazione non sempre questo
avviene perché l’imputato può rifiutarsi di rilasciare il saggio
fonico.
• Nel processo di verifica il parlatore ha lo scopo di farsi
riconoscere. Farà in modo di essere quanto più chiaro possibile,
ripetendo senza alterazione sempre le stesse frasi, poiché il suo
fine è proprio quello di essere riconosciuto. Viceversa, nel caso
dell’identificazione, il parlatore potrebbe alterare la sua produzione
linguistica perché non vuole essere identificato.
• Durante il processo di identificazione, si fa uso di intercettazioni
telefoniche o ambientali. La qualità di tali registrazioni non è
sempre elevata, ma dipende dal contesto e dall’ambiente in cui
sono state effettuate. È anche abbastanza evidente, nel caso della
verifica, che la qualità delle registrazioni è sicuramente di livello
elevato.
• Infine, bisogna evidenziare che, il processo di verifica viene
effettuato con un numero conosciuto di voci campione presenti in
un database, mentre il processo di identificazione può essere solo
effettuato con alcuni campioni di voci “imputate”. Pertanto, nel