1. INTRODUZIONE 2
mediante un modello che ha come unica variabile la fase. Siccome e` proprio la fase il
parametro descrittivo delle mappe di profondita` da noi considerate, queste si prestano
bene ad essere trattate con un algoritmo derivato da questo modello.
Per la regolarizzazione abbiamo utilizzato due varianti dello stesso algoritmo ricor-
sivo: un algoritmo ad accoppiamento costante che prevede una forza d’accoppiamento
costante tra gli oscillatori della mappa ed un algoritmo ad accoppiamento variabile
che considera la forza d’accoppiamento tra gli oscillatori della mappa variabile a se-
conda della fase media nell’intorno degli oscillatori considerati. Il primo opera uno
smoothing delle mappe che rende uniformi le superfici ma non preserva gli edge di
profondita`; per queste caratteristiche questo si e` prestato bene al confronto con un
filtro lineare gaussiano. Il secondo, invece, uniformando le superfici e preservando
gli edge e` stato confrontato con un filtro non lineare mediano. Le prestazioni degli
algoritmi sono state, poi, valutate quantitativamente mediante l’utilizzo di una fun-
zione errore che ha permesso di valutare l’errore medio tra la mappa regolarizzata e
la rispettiva mappa vera (ground truth) ad ogni passo di ricorsione. Infine, abbiamo
applicato il nostro algoritmo di regolarizzazione alle mappe di profondita` relative a
piani inclinati. Si e` potuto, pertanto, verificare che la stima del gradiente di disparita`
delle mappe regolarizzate e` risultata molto piu` uniforme rispetto a quella delle mappe
non regolarizzate.
Capitolo 2
Estrazione della struttura
tridimensionale di una scena da
viste binoculari
2.1 Geometria di un sistema di visione binoculare
e definizione di disparita`
La visione binoculare consente di inferire la struttura tridimensionale di una scena
osservata da una coppia di telecamere. Il principio alla base della visione binoculare
consiste in una triangolazione mirata a mettere in relazione la proiezione di un punto
della scena sui due piani immagine delle telecamere (e.g. tali punti sono denominati
punti omologhi) che compongono il sistema di visione stereoscopico. L’individuazione
dei punti omologhi, problema noto in letteratura come il problema della ricerca del-
le corrispondenze (matching stereo), consente di ottenere una grandezza denominata
disparita`, mediante la quale, conoscendo opportuni parametri del sistema stereosco-
pico, e` possibile risalire alla distanza del punto considerato dalle telecamere. Volendo
3
2. ESTRAZIONE DELLA STRUTTURA TRIDIMENSIONALE DI UNA SCENA DA VISTE BINOCULARI 4
P I A N O I M M A G I N E
Figura 1: Sistema di visione binoculare con telecamera ad assi paralleli, Z rappresen-
ta la distanza oggetto-osservatore, f la distanza focale, b la distanza interoculare, xL e
xR rappresentano le proiezioni del punto P sul piano immagine della telecamera destra e
sinistra.
definire meglio e con maggior rigore la disparita` si consideri il caso piu` semplice di
sistema binoculare: quello in cui gli assi delle telecamere sono posti paralleli l’uno
all’altro e la linea che collega i punti nodali delle telecamere, la base line b e` posta ad
angolo retto con essi, come mostrato in figura 1.
Si consideri un punto P posto ad una distanza Z dalle telecamere. Tale punto
verra` proiettato nella posizione xL sul piano immagine della telecamera sinistra e nella
posizione xR sul piano immagine della telecamera destra. Considerando le relazioni
tra triangoli simili la disparita` orizzontale puo` essere cos`ı espressa:
d = xL − xR = −f
b
Z
(1)
Pertanto la disparita` puo` essere espressa come la differenza di posizione di punti
2. ESTRAZIONE DELLA STRUTTURA TRIDIMENSIONALE DI UNA SCENA DA VISTE BINOCULARI 5
corrispondenti in una coppia di immagini stereo.
2.2 Il problema della ricerca delle corrispondenze
Da quanto detto in precedenza e dalla definizione di disparita` data risulta evidente
come lo studio di questa sia fortemente legato alle corrispondenze che esistono tra
l’immagine destra e quella sinistra della coppia di immagini stereo.
Per risolvere il problema delle corrispondenze stereo spesso, in computer vision,
vengono utilizzate “feature” specifiche come primitive usate per il matching. Queste
“feature” corrispondono a proprieta` reali degli oggetti. Marr, nel suo lavoro [12], ha
formulato la struttura computazionale della corrispondenza stereo a partire dalle basi
di questa nel mondo fisico. In tal senso egli ha considerato due vincoli:
• un dato punto su una data superficie fisica ha una posizione unica nello spazio
e nel tempo;
• la materia e` coesa, separata in oggetti, e le superfici degli oggetti sono
generalmente lisce rispetto alla distanza dell’osservatore;
Il problema stereo puo` essere espresso tramite la sovrapposizione di due descrizioni,
ciascuna relativa ad una telecamera. E´ quindi necessario definire delle regole per
discriminare quali corrispondenze tra gli elementi descrittivi sono possibili e quali no.
I due vincoli fisici visti sopra possono essere tradotti in due regole che permettono di
combinare la descrizione di sinistra con quella di destra:
1. Unicita`. Ciascun punto di ogni immagine deve essere assegnato ad un solo
valore di disparita`. Questa condizione si basa sul presupposto che un punto
corrisponde a qualcosa che ha una posizione fisica unica;
2. Continuita`. La disparita` varia gradualmente quasi ovunque. Questa condizione
2. ESTRAZIONE DELLA STRUTTURA TRIDIMENSIONALE DI UNA SCENA DA VISTE BINOCULARI 6
e` conseguenza della coesione della materia e afferma che solo una piccola fra-
zione dell’area di un immagine e` composta di confini che sono discontinui in
profondita`.
2.3 Algoritmi per la risoluzione del problema delle
corrispondenze
In letteratura si possono trovare numerosi algoritmi per l’estrazione delle mappe di di-
sparita`. Tali algoritmi possono essere divisi principalmente in due categorie: features
based e correspondenceless algorithms.
• Features based: questi algoritmi [9] consentono di ottenere informazioni di
disparita` per un numero limitato di punti delle immagini per i quali sono iden-
tificate “feature” particolari che corrispondono a proprieta` reali degli oggetti
nella scena come segmenti [1], curve [3], angoli [13]. Tali algoritmi risultano
efficienti dal punto di vista computazionale, per via del ridotto numero di “fea-
ture” identificabili nelle immagini rispetto al numero totale di punti, ed anche
estremamente affidabili, perche´ le “feature” estratte dalle immagini generalmen-
te sono intrinsecamente distintive e non pongono problemi di ambiguita` nella
soluzione del problema delle corrispondenze. Tali algoritmi pero` risultano at-
tualmente poco utilizzati poiche´ le mappe di disparita` cos`ı estratte non sono
dense essendo limitate ai soli punti che presentano “feature” distintive. Que-
sti tipi di algoritmi consentono d’altra parte di arginare il problema delle false
corrispondenze data la stabilita` degli elementi estratti.
• Correspondenceless: questi algoritmi non richiedono l’estrazione di “feature”
ma sfruttano la tessitura complessiva delle immagini. Permettono di ottenere
mappe di disparita` dense correlando direttamente i livelli di grigio di patch delle
2. ESTRAZIONE DELLA STRUTTURA TRIDIMENSIONALE DI UNA SCENA DA VISTE BINOCULARI 7
immagini [5, 6]. Tuttavia il processo di correlazione necessita che le immagini
abbiano sufficiente “texture” locale e che questa non sia ripetitiva o discontinua,
inoltre esso e` molto sensibile alle variazioni di luminosita` nella scena. La sensi-
bilita` a tali variazioni e` molto minore se si utilizzano approcci basati sull’analisi
della fase. Questi algoritmi sfruttano il fatto che la disparita`, non essendo altro
che uno shift spaziale tra i punti omologhi di una coppia di immagini stereo,
puo` essere calcolata, nel dominio delle frequenze, grazie al teorema dello shift
di Fourier il quale sostiene che lo shift spaziale e` linearmente proporzionale alla
differenza di fase. Questo approccio verra` comunque sviluppato ampiamente
nella sezione successiva poiche´ le mappe da me regolarizzate sono state estratte
mediante un algoritmo di questo genere.
2.4 Calcolo delle mappe di disparita`
2.4.1 Considerazioni preliminari
Come accennato in precedenza le tecniche sopra descritte risultano molto sensibili al
rumore, al livello di saturazione e alle variazioni di luminosita` delle due immagini.
Gli approcci basati sulla fase, invece, si prestano bene ad essere impiegati nell’ambi-
to del problema della corrispondenza poiche´ si dimostrano robusti rispetto a queste
grandezze. Infatti, una proprieta` fondamentale della fase, e` di essere invariante ri-
spetto all’ampiezza dei segnali [7]. Un altro aspetto interessante di queste tecniche
e` che, grazie ad esperimenti in campo fisiologico, si e` verificato che l’analisi armo-
nica del segnale visivo rispecchia le funzionalita` della corteccia visiva primaria [11,
10, 14]; in particolare i profili dei campi recettivi di cellule semplici della corteccia
visiva primaria hanno forma simile ai filtri di Gabor bidimensionali, che sono i kernel
utilizzati per l’estrazione dell’informazione di fase.