Capitolo 1
Introduzione
1.1 Il Problema Generale
Letecnologielegatealriconoscimentovocalesisonosviluppateapartiredagli
anni ’50, ma solo in tempi relativamente recenti hanno trovato applicazioni
in molti campi, anche per effetto dei miglioramenti nelle capacit` a computa-
zionali dei moderni calcolatori.
Oggi, gli impieghi di questa tecnologia sono molteplici: si pu` o comandare
conlavoceilproprioPC,ilpropriotelefonocellulareoaddiritturalapropria
televisione.
Nel campo della telefonia trovano sempre maggiore impiego i call-center vo-
cali automatici, ma non bisogna nemmeno dimenticare i tentativi di legare
la tecnologia del riconoscimento vocale con la tecnologia domotica.
Un mercato potenzialmente in espansione ` e quello relativo alla trascrizione
automatica, in cui il segnale vocale viene trasformato automaticamente in
testo per vari scopi.
Sipensi,adesempio,allapossibilit` adieseguirelaricercadivideoinbasealle
informazioni del parlato contenuto, oppure alla sottotitolazione automatica
di trasmissioni televisive, di film o di video.
Il contesto in cui si sviluppa l’intero lavoro di tesi ` e quello relativo alla tra-
scrizione automatica delle udienze in tribunale.
Tale attivit` a, che ` e prevista dalla legge, nella maggior parte dei casi viene
ancora oggi effettuata solamente per mezzo dell’operatore umano.
Solodirecente, grazieallosviluppodelletecnologiediriconoscimentovocale,
sono emerse alcune realt` a imprenditoriali che operano nel settore delle tra-
5
6 CAPITOLO 1. INTRODUZIONE
scrizioni automatiche.
Un esempio locale ` e rappresentato da PerVoice, che garantisce dei servizi di
trascrizione automatica anche per i processi in tribunale.
Allo stato dell’arte, come si evidenzier` a in maniera pi` u approfondita nel se-
guito, la qualit` a dei segnali audio acquisiti nell’ambito delle registrazioni dei
processi nei tribunali ` e, per diversi motivi, molto scadente.
Questo rende ancora assolutamente necessaria una revisione della trascrizio-
ne automatica da parte dell’utente umano.
Nell’ambito della tesi si proporranno delle soluzioni basate su multimicrofo-
niadistribuitaingradodiincrementareinmanierasignificativalaqualit` adel
segnaleacquisitoeminimizzarediconseguenzal’entit` adell’interventoumano
nella revisione della trascrizione automatica generata.
L’insieme di tali tecniche potranno essere in futuro brevettate e proposte,
al Ministero di Grazie e Giustizia come nuovo standard per le acquisizioni
effettuate nelle aule di tribunale.
1.2 Approcci Tradizionali
Il problema che si ` e affrontato nel lavoro di tesi ` e relativo al miglioramento
della qualit` a dei segnali acquisiti nell’ambito delle udienze in tribunale, con
particolare enfasi posta al miglioramento della trascrizione automatica otte-
nuta in un contesto di questo tipo.
La legge italiana impone che le udienze che si tengono presso i tribunali ven-
gano trascritte.
Per molti anni tale operazione ` e stata svolta da operatori umani che, ascol-
tando le registrazioni acquisite durante l’udienza, trascrivevano parola per
parola le frasi pronunciate da ogni attore del processo.
Solo in tempi molto recenti, grazie ai miglioramenti nella tecnologia del rico-
noscimento vocale, ` e stato possibile sviluppare sistemi in grado di effettuare
una trascrizione automatica del segnale vocale registrato durante l’udienza.
In realt` a, allo stato dell’arte, nessun sistema ` e in grado di garantire una tra-
scrizione automatica completamente priva di errori e quindi ` e ancora neces-
sario un intervento umano per raffinare e correggere la trascrizione generata.
Ilvantaggiodiunapprocciodiquestotipo` edeterminatodalfattocheitempi
dicreazionedellatrascrizionesononotevolmenteridottiel’interventoumano
` e ridotto al minimo indispensabile.
1.2. APPROCCI TRADIZIONALI 7
E’chiaro che l’efficacia e la convenienza di questo meccanismo dipende larga-
mentedall’accuratezzadellatrascrizioneautomaticachesiriesceadottenere.
Ilproblemadellaqualit` adeisegnaliacquisiti` edunqueunaquestionecentrale
nell’ambito di un sistema di questo tipo.
Nella figura 1.1 ` e riportato uno schema a blocchi di base che rappresenta
l’attuale front-end del sistema che, partendo dall’acquisizione del segnale,
arriva alla trascrizione finale.
Nelle prossime sezioni saranno discussi i blocchi evidenziati.
Sistema
di
Acquisizione
Giudice
Elaborazione
Multimicrofonica
(Semplice)
Trascrizione
Automatica
Trascrizione
Automatica
Revisione
Avvocato
Teste
PM
Distribuzione
Microfonica
Standard
Segnali
Digitali
Segnali
Analogici
Segnali
Senza Rientri
Trascrizione
Finale
Figura 1.1: Schema a blocchi del sistema attualmente in uso per la
generazione di una trascrizione automatica in ambiente tribunale
8 CAPITOLO 1. INTRODUZIONE
Distribuzione Microfonica Standard
L’attualedistribuzionedeimicrofonineitribunaliprevedel’utilizzodiunmi-
crofono cardioide o ipercardiode posto davanti ad ogni attore del processo.
Nella figura 1.2` e riportata la tipica geometria di un’ aula di tribunale con la
distribuzione standard dei microfoni.
Giudice
PM
Avvocato
Teste
Figura 1.2: Distribuzione standard dei microfoni in ambiente tribunale
Setup di acquisizione nei Tribunali
L’attualesetuppresenteneitribunali` epensatoprincipalmentepereffettuare
trascrizioni manuali piuttosto che per effettuare delle trascrizioni automati-
che.
Uno schema a blocchi del setup di acquisizione standard attualmente in do-
tazione presso le aule di tribunale ` e il riportato in figura 1.3.
1.2. APPROCCI TRADIZIONALI 9
Amp
Sampler
fc=16 kHz
Quantizator Coder
MP3
Mic
Speaker 1
s1[n]
Amp
Sampler
fc=16 kHz
Quantizator Coder
MP3
Mic
Speaker 8
s8[n]
.
.
.
.
.
Philips LBB9410/20 ipercardioide
Philips LBB9510/20 cardioide
Philips SQ45
Philips SQ22
RT7000
Figura 1.3: Schema a blocchi del sistema di acquisizione standardizzato
presente nelle aule di tribunale
Ilsistemaprevedel’acquisizionedi8canali, ancheseinmolticasinesono
usati solo 4 (giudice, teste, PM, avvocato).
Isegnali, una volta convertitiin un segnaleelettrico analogico dal microfono,
vengono opportunamente amplificati per poi essere digitalizzati e codificati
tramite l’apparecchio RT7000 di Radio Trevisan.
L’RT7000 ` e un dispositivo basato su una scheda audio Terratec dotata di 8
ingressi analogici.
Elaborazione Multimicrofonica
A valle dell’attuale sistema di acqusizione, viene in genere effettuata una
semplice fase di elaborazione multimicrofonica del segnale.
E’ bene precisare che tale fase non fa parte dello standard previsto nei tri-
bunali, ma ` e una fase di post-processing eseguita dagli operatori (come Per-
Voice) che si occupano della trascrizione automatica.
Essa ` e orientata a risolvere il problema dei rientri, o pi` u in generale il pro-
10 CAPITOLO 1. INTRODUZIONE
blema della Speaker Diarisation.
L’obiettivo di questa elaborazione ` e decidere
′′ chi parla quando
′′ .
Allo stato dell’arte questo blocco` e molto semplice ed utilizza esclusivamente
delle features di tipo energetico.
1.3 Problemi Aperti
La qualit` a dei segnali acquisiti ` e una questione di estrema rilevanza nell’am-
bito del sistema illustrato in precedenza.
Purtroppo,pervarimotivichediseguitosonoelencati,moltospessoisegnali
registrati durante il dibattimento sono di qualit` a scadente.
Analizzando alcune registrazioni acquisite nell’ambito del progetto JUMAS,
in cui il gruppo HLT di FBK ` e coinvolto, sono state riscontrate diverse pro-
blematiche.
Problemi legati all’ambiente acustico
Nei segnali analizzati sono presenti alcune criticit` a legate all’ambiente acu-
stico in cui si svolge l’udienza.
In particolare sono stati riscontrati i seguenti problemi:
Elevato rumore ambientale.
In tribunale ` e frequente che vi sia un elevato rumore ambientale che
pu` o essere determinato dalla presenza di pubblico, dalla presenza di
porte aperte o forti rumori esterni che entrano nell’aula.
Presenza di molti rumori localizzati.
Ascoltando diversi segnali provenienti da tribunale, ` e stata riscontrata
la presenza di numerosi rumori localizzati che il sistema tende a tra-
scrivere.
Quelli riscontrati pi` u volte sono:
– rumori dovuti a sfogliamento di carte
– colpi di tosse o starnuti
– porte che si aprono e si chiudono
1.3. PROBLEMI APERTI 11
– rumori di passi
Elevato Riverbero.
In alcune aulee di tribunale ` e stato riscontrato un forte riverbero che
agisce come elemento molto critico nei confronti dell’accuratezza della
trascrizione automatica
Presenza di Rientri.
Quando parla un attore del processo, la sua voce non entra solamente
nel microfono che ha davanti, ma viene catturata anche dagli altri mi-
crofoni presenti nell’ambiente.
La figura 1.4 evidenza che questo aspetto.
Speaker
MIC 1
MIC 4 MIC 3
MIC 2
Figura 1.4: Il problema dei rientri
L’eliminazione dei rientri` e un fattore determinante per risolvere il pro-
blemadellaSpeaker Diarisation,cio` eperdeterminareistanteperistan-
te
′′ chi parla quando
′′ .
12 CAPITOLO 1. INTRODUZIONE
Segnale Rientro Rientro
Figura 1.5: Esempio di rientri rilevati nella simulazione effettuata presso il
tribunale di Trento
Problemi legati al sistema di acqusizione
Il sistema di acquisizione in dotazione nei tribunali non costituisce di per
s` e il fattore principale che determina la scarsa qualit` a dei segnali acquisiti
nelle udienze, ma piuttosto` e un suo utilizzo non corretto da parte dei tecnici
preposti che causa i principali problemi.
Sono state in particolare riscontrate le seguenti criticit` a:
Problemi di saturazione del segnale: in molti casi il segnale generato
da un attore del processo satura il convertitore A/D per motivi legati
ad un’errata sovraamplificazione del canale.
La saturazione ` e un evento particolarmente critico in quanto si tratta
di un’operazione fortemente non lineare che altera in modo pesante la
qualit` a del segnale da trascrivere.
Problemi di scarsa dinamica del segnale: inalcunicasiilcanalerelativo
ad un attore del processo risulta sottoamplificato.
Tale eventualit` a ` e piuttosto critica in quanto, non sfruttando al mas-
simo la dinamica del convertitore A/D, fa in modo che i dati vengano
corrotti da un rumore di quantizzazione decisamente elevato.
Problemi nella compressione del segnale: in alcuni casi le tecniche di
compressioneMP3 non vengono correttamente impiegate o perch` e ap-
plicate a segnali con dinamica molto scarsa oppure perch` e l’operatore
sceglie un fattore di compressione eccessivo che altera in maniera signi-
ficativa la qualit` a del segnale da trascrivere.
1.4. SOLUZIONI PROPOSTE 13
Problemi legati al comportamento dei parlatori
In molti casi i vari attori del processo intraprendono dei comportamenti par-
ticolarmente critici per il sistema di trascrizione automatica.
In particolare sono stati riscontrati:
Sovrapposizioni fra parlatori: molto spesso nello svolgimento di un’u-
dienza in tribunale, gli attori del processo sovrappongono le loro voci,
causando un decadimento dell’accuratezza della trascrizione prodotta
dal sistema.
Presenza di parlatori lontani dai microfoni: in molti casi, il PM ` e in
piedi e piuttosto lontano dai microfoni.
Questo, naturalmente, ` e un aspetto particolarmente critico per la tra-
scrizione, poich` e il segnale acquisito conterr` a una quantit` a maggiore di
riverbero e risulter` a inevitabilmente meno distinguibile dai rientri.
Presenza di parlatori non orientati verso i microfoni:
molto spesso gli attori del processo non sono orientati verso i rispettivi
microfoni di riferimento.
Oltre al PM che, come illustrato, generalmente sta in piedi e passeggia
lontano dai microfoni, anche gli altri attori del processo non sempre
son orientati verso il microfono di riferimento.
Sipensiadesempioaltesteche,quandosirivolgealgiudice,sar` aorien-
tato verso tale speaker, mentre quando sar` a interrogato dal PM, sar` a
orientato nella direzione di quest’ultimo.
1.4 Soluzioni Proposte
Nella sezione precedente si` e riportato uno schema a blocchi relativo al front-
end attualmente in uso per le trascrizioni delle udienze nei tribunali.
L’obiettivo della tesi ` e stato quello di definire un nuovo tipo di front-end fi-
nalizzatoadotteneredellemiglioriprestazioniinterminidiaccuratezzadella
trascrizione automatica generata.
Il presente lavoro di tesi ` e complementare a quello portato avanti in [23].
14 CAPITOLO 1. INTRODUZIONE
In [23] ` e approfondita la tematica del beamforming, mentre nel presente la-
voro si ` e approfondito lo studio su un’ indice di qualit` a e si sono proposte
alcune soluzioni di Speaker Diarisation non discusse nel lavoro complemen-
tare.
Nella progettazione e nello sviluppo di questo nuovo front-end, si` e fatta una
precisa scelta: gli utenti non devono in alcun modo interagire con il sistema
sviluppato.
La scelta di non far interagire gli speaker con il sistema, complica notevol-
mente le tecniche sviluppate, ma ha il grande vantaggio di fare in modo che
essi possano agire con il nuovo setup esattamente come agivano con il vec-
chio, rendendo il sistema assolutamente trasparente e non invasivo.
Tale scelta` e un punto a favore del front-end sviluppato anche in prospettiva
diunsuoeventualeutilizzofuturonelleauleeditribunalepoich` e, comenoto,
i sistemi invasivi sono fortemente osteggiati dagli utenti coinvolti.
In sostanza il front-end sviluppato deve garantire robustezza nei confronti di
movimenti degli speaker, sovrapposizione dei parlatori e cambi di orientazio-
ne dei vari attori del processo, senza in alcun modo coinvolgere gli utenti in
gioco.
Il confronto fra il front-end standard e quello proposto nel lavoro di tesi ` e
evidenziato nella figura 1.6.
Gliaspettidiinnovazionepi` urilevantirispettoalfront-end standardsono
i seguenti:
L’introduzione di una rete multimicrofonica distribuita al posto della
disposizione standard dei microfoni.
L’introduzione di un blocco di elaborazione multimicrofonica avanzata
orientata al miglioramento della qualit` a del segnale da trascrivere.
La particolarit` a e l’efficacia delle tecniche proposte ` e dovuta a vari motivi:
L’adozione di un approccio di elaborazione multimicrofonico piuttosto
che l’utilizzo di tecniche di processing a singolo canale.
L’utilizzo, al posto di features energetiche, di sola informazione di fase.
Tale tipologia di informazione ` e considerata particolarmente robusta
1.4. SOLUZIONI PROPOSTE 15
Front-End Standard
Front-End Proposto
Sistema
di
Acquisizione
Giudice
Elaborazione
Multimicrofonica
(Semplice)
Trascrizione
Automatica
Trascrizione
Automatica
Revisione
Avvocato
Teste
PM
Distribuzione
Microfonica
Standard
Segnali
Digitali
Segnali
Analogici
Segnali
Senza Rientri
Trascrizione
Finale
Sistema
di
Acquisizione
Giudice
Elaborazione
Multimicrofonica
(Articolata)
Trascrizione
Automatica
Trascrizione
Automatica
Revisione
(veloce)
Avvocato
Teste
PM
Rete
Microfonica
Distribuita
Segnali
Digitali
Segnali
Analogici
Segnali
Senza Rientri
Trascrizione
Finale
Figura 1.6: Confronto fra il front-end standard per la trascrizione e quello
proposto nell’ambito del lavoro di tesi
nei confronti di rumore ambientale e riverbero.
La valutazione delle prestazioni delle varie tecniche proposte` e stata eseguita