Capitolo 1 Introduzione
2
1.1 Cenni Storici
Già dalla preistoria l’uomo, con i “ graffiti ”, ha cercato di fissare le immagini
della realtà, associando spesso ad esse sensazioni, emozioni e significati
particolari. Ma è nella metà del secolo scorso che la rivoluzionaria tecnica
della fotografia (realizzazione automatica delle immagini) ha aperto un
nuovo orizzonte: capire come estrarre informazioni dalle immagini stesse.
I primi tentativi di comprendere la visione umana risalgono al III secolo
a.c., con Euclide che produsse degli scritti sulla prospettiva. L’argomento
ebbe significanti sviluppi durante il Rinascimento: in particolare a
Brunelleschi (1413) è attribuito il primo disegno basato su una proiezione
geometrica corretta di una scena tridimensionale. Molto importanti si
ritengono i contributi forniti a quella che veniva chiamata la scienza della
prospettiva da parte di Leonardo da Vinci e Albrecht Durer; inoltre è ancora
di Leonardo una descrizione della relazione tra luci ed ombre [Kemp, 1989].
Anche i greci erano interessati alla prospettiva, ma molto di più al
funzionamento dell’occhio umano: Aristotele pensava che l’occhio emettesse
raggi, inoltre i greci furono responsabili della realizzazione delle prime
versioni rudimentali di telecamera.
I maggiori passi in avanti nella comprensione della visione sono stati fatti
nel diciannovesimo secolo: rilevante, in tal senso, è il lavoro svolto da
Helmholtz e Wundt. La teoria tricromatica del colore si deve a Yang,
Maxwell ed ancora ad Helmholtz, mentre il fatto che l’uomo è in grado di
stimare le profondità grazie alla contemporanea visione realizzata tramite i
due occhi è stato dimostrato da Wheatstone nel 1838. A questo riguardo, il
problema della corrispondenza tra punti nelle due immagini è stato
affrontato per la prima volta da Julesz, nel 1971.
Capitolo 1 Introduzione
3
Nella seconda metà del diciannovesimo secolo lo studio della visione
umana è stato svolto prevalentemente dal punto di vista psicologico.
All’inizio del ventesimo secolo, significanti risultati sono stati ottenuti
dalla Gestalt school da Max Wertheimer: lo slogan “ L’intero è più grande
della somma delle parti ” poneva l’enfasi sulle tecniche di “ grouping ”, sia
dei contorni che delle regioni.
All’inizio degli anni cinquanta, all’interesse verso l’elaborazione delle
immagini per motivi di miglioramento delle stesse, finalizzato
all’interpretazione degli esseri umani, si è aggiunto quello motivato dalla
possibilità di interpretazione automatica delle scene.
Dopo la seconda guerra mondiale, importante è stato il lavoro svolto da
Gibson, che ha mostrato per primo l’importanza del flusso ottico e della
tessitura. La tesi di dottorato al MIT di Roberts (1963) è ritenuta la prima nel
campo della computer vision: affronta i problemi di base dell’ “edge
detection” e del “matching” e, più generalmente, il problema del
riconoscimento di oggetti tridimensionali. Al 1964 risale l’utilizzo per la
prima volta di tecniche di elaborazione al computer per la correzione di vari
tipi di distorsione nelle immagini provenienti da una sonda spaziale. Dopo
gli anni ‘30 l’automatismo introdotto per ottenere l’immagine (fotografia),
insieme con lo sviluppo della tecnologia e della necessità di elaborare
immagini, cioè di sottoporle a processi di modifica elaborazione e
trasmissione, hanno portato alla realizzazione di tecniche analogiche, fino
alla trasmissione televisiva. Intorno alla metà di questo secolo iniziano a
diffondersi due tecniche di elaborazione delle immagini: quella ottica e
quella digitale [8]. La prima tecnica utilizza componenti ottici, quali lenti,
prismi etc, per manipolare le immagini, mentre la seconda utilizza dispositivi
digitali, ed è proprio quest’ultima che, in parte, verrà presa in esame in
questo lavoro.
Capitolo 1 Introduzione
4
David Marr ha giocato un ruolo rilevante nel mettere in relazione la
visione artificiale e la tradizionale area della visione biologica. Il suo
principale lavoro [Marr, 1982], pubblicato postumo, ha influenzato le
successive ricerche sulla ricostruzione tridimensionale di una scena. Le
difficoltà che si presentano nella realizzazione di questo lavoro hanno aperto
un filone di ricerca sulla reale o meno necessità della completa ricostruzione;
in tal senso la prova più convincente è stata fornita in Germania da
Dickmanns, nel 1987. Negli anni novanta si è affermata l’idea della visione
come di un insieme di processi per estrarre dalle immagini informazioni per
manipolare, navigare e riconoscere.
Quando arrivarono a terra le prime immagini del Telescopio Spaziale
Hubble (H.S.T.) una profonda delusione colpì la comunità scientifica in
quanto gli errori commessi nella costruzione delle ottiche provocavano un
degrado dell’immagine tale da vanificare in buona parte gli sforzi sino ad
allora compiuti per poter fare osservazioni astronomiche fuori dai disturbi
provocati dell’atmosfera terrestre. Per risparmiare tempo e denaro, infatti,
erano stati saltati alcuni costosi ma importanti test ottici. Poichè un
intervento immediato sulle ottiche non era possibile in tempi relativamente
brevi, per cercare di recuperare buona parte della perdita d’informazione
provocata dalla degradazione delle immagini introdotta da tutto il sistema,
fu necessario inventare degli algoritmi applicabili su immagini che
permettessero di recuperare la perdita di risoluzione e di messa a fuoco.
In genere le immagini vengono classificate a seconda del metodo con cui
sono generate, in particolare si hanno: fotografie, disegni, documenti, dipinti,
immagini televisive, ed in genere immagini su terminali grafici.
Capitolo 1 Introduzione
5
1.2 Il problema dell’ “ Image Restoration ”
Come gia accennato, in molte applicazioni le immagini messe a disposizione
dagli strumenti di acquisizione non presentano una buona qualità a causa dei
disturbi e dei rumori, pertanto si osservano spesso immagini rumorose e
distorte; i difetti che si riscontrano più frequentemente nelle immagini, sia in
quelle di telerilevamento meteorologico, topografico o idrografico sia in
immagini mediche, sono: lo sfocamento dovuto al movimento (motion blur)
e lo sfocamento di “ fuori fuoco ” (out-of-focus o blurring circolare), dovuto,
per esempio, ad un imperfetto allineamento delle lenti, o alle turbolenze
atmosferiche.
Purtroppo questi difetti in molti casi non possono essere evitati, o perché i
costi sarebbero troppo alti (per esempio nel caso d’immagini astronomiche) o
perché si dovrebbero usare tecnologie a volte non ancora realizzabili (ciò che
capita nel campo medico).
Oggi, attraverso l’uso dei segnali numerici o la conversione di segnali
continui o analogici in forma numerica (utilizzando le tecniche di
campionamento, quantizzazione e codifica) si sono potuti sviluppare metodi
e tecniche d’elaborazione dell’immagine sostituendo ed integrando tecniche
più classiche di tipo analogico. Tra le tecniche più sviluppate, di particolare
importanza sono quelle che hanno portato alla sintesi di filtri, nel dominio di
Fourier, ricorsivi ed iterativi.
Tuttavia, nell'uso di queste tecniche di ricostruzione dell’immagine si è di
solito assunto che tutte le informazioni richieste fossero conosciute “a priori”.
Poiché, in pratica, non è sempre possibile conoscere tutte le informazioni
necessarie “a priori”, è di fondamentale importanza, in questo tipo di
problemi di ricostruzione dell’immagine, il modo in cui esse sono ottenute.
Quindi la maggiore difficoltà che s’incontra, quando si vuole migliorare la
qualità di un’immagine degradata, risiede appunto nella mancanza
Capitolo 1 Introduzione
6
d’informazioni “a priori” sui vari disturbi e rumori che hanno corrotto
l’immagine reale.
1.3 Classificazione dei metodi di ricostruzione
I metodi di soluzione a questo problema possono essere classificati nei
seguenti due rami principali:
• ricostruzione dell’immagine a posteriori
• correzione dell’immagine in tempo reale
i quali differiscono notevolmente sia nei concetti basilari sia nelle procedure
matematiche utilizzate:
- Metodi di ricostruzione dell’immagine a posteriori: consistono
nell’elaborazione matematica dell’immagine digitale e fanno uso
delle tecniche di “deconvoluzione” per ricomporre l’informazione
che da ogni punto è stata dispersa su tutta la PSF (algoritmo di
“Richardson-Lucy” [ Richardson, 1972; Lucy, 1974], metodo della
“Massima Entropia” [ Janes, 1957; Narayan R., 1986] o altri, ad
esempio la “deconvoluzione cieca” [ Yueai L. et al., 1993; Dayton
D. et al., 1993] ). In questo ramo rientrano anche le tecniche di
“immagini a macchie” (speckle imaging) [ Seldin J. H. et al., 1995;
Kitchin C. R., 1998] in cui la forma della sorgente viene ricostruita,
tramite trasformate di Fourier, da un’immagine a brevissimo
tempo di posa, nella quale compaiono migliaia di singole
immagini non distorte della sorgente, distribuite casualmente dal
‘seeing’ attorno alla posizione reale.
Capitolo 1 Introduzione
7
- Metodi di ricostruzione dell’immagine in tempo reale: questo secondo
gruppo di metodi è propriamente quello che va sotto il nome di
“ottica adattativa” e consiste nel modificare otticamente il fronte
d’onda in modo che sia nuovamente piano sulla pupilla d’uscita
del telescopio, per esempio. Le tecniche per riuscire a far questo
sono molteplici e si basano sull’introduzione, lungo il cammino
ottico del telescopio, di elementi deformabili o d’indice di
rifrazione localmente variabile, che vengono attivati in base ad
una misurazione più o meno diretta del fronte d’onda presente in
quel momento sulla pupilla dello strumento [Beckers, 1993].
Ognuna di queste metodologie presenta delle limitazioni di carattere
teorico, che non rendono attuabile la completa ricostruzione del fronte
d’onda con una precisione arbitraria, limitazioni legate soprattutto alla
discretizzazione dei livelli e alla suddivisione in pixel delle immagini, per
quanto riguarda la deconvoluzione, e all’ineliminabile presenza del rumore
fotonico per l’ottica adattativa.
1.4 Obiettivi della tesi
In questa tesi viene preso in considerazione il primo approccio, cioè i metodi
a posteriori, più precisamente viene sviluppata la tecnica della “ blind
deconvolution ” (deconvoluzione cieca) e il metodo di Lucy-Richardson,
applicato alla deconvoluzione cieca, esperimento principe sviluppato in
questo lavoro, con i rispettivi algoritmi, mettendo in luce le varie differenze
per le diverse applicazioni.
Viene affrontato il problema della ricostruzione d’immagini corrotte da
blurring circolare in presenza di rumore senza informazioni a priori sulla
causa della degradazione, cioè non si suppone nota la PSF (Point Spread
Capitolo 1 Introduzione
8
Function o funzione di blurring), che è il caso più vicino alle situazioni reali,
poiché nella maggioranza dei casi l’unico oggetto disponibile (misurabile) è
l’immagine che ci arriva dal processo di formazione della medesima; spesso,
però, per la risoluzione del problema, vengono fatte alcune ipotesi sulla PSF,
le quali possono essere viste come vincoli da imporre, invece, per il rumore si
considerano le classiche assunzioni in termini statistici, e nel caso specifico si
è assunto il rumore (di memorizzazione) derivante da un processo
gaussiano.
Pertanto in letteratura troviamo metodi deterministici ed altri
probabilistici, metodi iterativi ed altri non iterativi ed ognuno di essi offre
possibilità diverse: i metodi iterativi deterministici permettono di imporre
dei vincoli all’immagine ricostruita ad ogni passo, mentre i metodi
probabilistici tengono conto del tipo di rumore con cui si ha a che fare.
Si hanno comunque delle caratteristiche comuni a tutti gli algoritmi di
questo tipo:
• la presenza di un parametro regolarizzante, che può essere un numero
reale o il numero delle iterazioni ed il cui valore determina l’incisività
del metodo;
• l’esistenza di una distanza minima, diversa a seconda del metodo, tra
l’immagine deconvoluta e quella vera: il valore ottimale del parametro
che permette di raggiungere tale distanza minima è quello per cui si
ha l’equilibrio migliore tra l’errore dovuto al rumore e l’errore di
approssimazione dovuto al filtraggio;
• l’impossibilità di conoscere nel caso reale il valore ottimale del
parametro: esso può essere valutato in qualche caso grazie ad alcuni
criteri, che non ne permettono però l’identificazione certa.
Capitolo 1 Introduzione
9
Un modo efficace di raccogliere informazioni sul comportamento dei vari
metodi nei confronti di una certa classe di immagini consiste nel ricorrere a
simulazioni. Nelle simulazioni l’immagine da deconvolvere viene costruita
partendo da un’immagine nota, quindi la distanza minima di cui sopra può
essere identificata e si può avere un’idea di quali tecniche, rispetto al caso in
esame, sono più o meno efficaci nel senso delle prestazioni, le quali sono
state valutate con due parametri (MSE, MSEI) descritti nel capitolo 5.
Per quanto riguarda le simulazioni sono state scelte come punto di
partenza due immagini che hanno pero caratteristiche diverse; una e liscia,
con lente variazioni di grigio l’altra presenta delle discontinuità brusche, in
modo tale da ricoprire una vasta gamma di situazioni.
Nel quinto capitolo vengono presentate tali simulazioni che utilizzano
questa scelta di immagini permettendo di valutare come si comportano i
diverse metodi di fronte a caratteristiche differenti.
Una volta convolute le due immagini-test con diverse PSF e sommata
all’immagine sfocata il rurnore gaussiano scorrelato, con diversi valori
dell’SNR, si ottengono nuove immagini a cui applicare i metodi per verificare
quantitativamente quali diano i risultati migliori, ossia quali riportino più
vicino all’immagine originale.
Capitolo 2
Fondamenti sulle immagini
digitali
Le immagini digitali sono alla base di un qualsiasi sistema di visione, quindi
� d�obbligo fare delle considerazioni su come esse vengono prodotte,
registrate e utilizzate in un calcolatore. Con il termine immagine digitale, si
intende un elemento grafico elaborato dal computer, che si pu� visualizzare
sul monitor e stampare su carta. Molto spesso � di tipo bitmap, composta
cio� da un�innumerevole numero di punti, disposti su una griglia, chiamati
�pixel� (picture element, spesso abbreviato con pixel o pel). I pixels sono
piccoli e molto vicini, non � quindi possibile individuarli singolarmente:
formano motivi di colore e forme compatte, costituite dal modo di disporsi di
questi punti, dando forma all�immagine visibile.
2.1 Caratteristiche generali
Alla base delle immagini digitali c�� un processo di digitalizzazione, detto
anche di conversione analogico digitale, che permette di ottenere l�immagine
numerica o digitale, corrispondente ad una analogica attraverso delle
opportune funzioni ()yxf , di due variabili (coordinate nel piano
dell�immagine, corrispondenti alle direzioni spaziali) che misurano
l�intensit� luminosa, nelle varie bande spettrali, nei punti ()yx,
dell�immagine stessa. La scelta della funzione ()yxf , dipende dal particolare
tipo d� immagine che si va a digitalizzare.
Per spiegare brevemente questo aspetto del problema osserviamo che
l�immagine che si forma sul monitor � costituita, per natura stessa del
calcolatore, da un numero finito di elementi, i pixel, caratterizzati da due
valori: [8] [2]
• le coordinate del pixel che ne permettono la localizzazione
all�interno dell�immagine;
• un valore proporzionale alla luminosit� del punto della scena
corrispondente.
Un�immagine da un punto di vista fisico pu� essere pensata come una
distribuzione spaziale dell�intensit� dell�energia luminosa.
Piano Oggetto Piano Immagine
Sistema di formazione
dell'Immagine
),( ηξf
g(x,y)
y
x
ξ
η
Figura 2.1.1: Radiometria della formazione dell’immagine.
Il campo di energia luminosa proveniente dalla scena, come ogni
fenomeno ondulatorio � definito da due grandezze: l�intensit� e la fase. Nei
sistemi di formazione usuali viene memorizzata solo l�informazione relativa
all�intensit� e viene persa l�informazione relativa alla fase, che codifica la
profondit� della scena.
Detto quindi ()ηξ ,f il campo di energia luminosa associato alla scena e
),( yxg l�immagine registrata (fig.2.1.1) vale la relazione (2.1.1) che mostra
come un punto dell�immagine venga ottenuto mediante sovrapposizione
degli effetti dovuti ai singoli punti del campo e pesati con un�opportuna
funzione ),,,( ηξyxh , che � proprio la funzione di risposta impulsiva del
sistema di formazione dell�immagine, chiamata anche con l�acronimo PSF
(Point Spread Function), risposta che tiene conto delle varie componenti
fisiche del sistema di formazione dell�immagine; infatti il sistema per la
formazione dell�immagine ha una ben precisa risposta all�impulso (PSF), la
quale in generale � sconosciuta, e pertanto un singolo punto dell�oggetto
originale viene rappresentato nel dominio dell�immagine come se avesse una
certa larghezza, dimensione, per cui l�immagine finale risulta sfocata ed
alterata. Se questo pu� essere modellato tramite un processo lineare, allora,
l�espressione matematica dell�immagine � data dalla convoluzione tra
l�oggetto reale e la risposta impulsiva avente la seguente espressione:
(2.1.1)
()()ηξηξηξ ddfyxhyxg , ,,,),(
∫∫
∞
∞−
∞
∞−
=
oppure in maniera compatta:
(2.1.2)
),( yxg
=
),,,( ηξyxh
⊗
()ηξ ,f
Un limite della relazione (2.1.1) � che essa non tiene conto del rumore che
si genera nel sistema; tra le principali cause di rumore si possono ricordare:
• la variabilit� intrinseca del campo di energia luminosa ()ηξ ,f a
causa del fenomeno di diffusione della luce dovuta alle
superfici dei corpi presenti, i raggi luminosi infatti subiscono
un numero notevolissimo di riflessioni per effetto della rugosit�
delle superfici dei corpi;
• i circuiti elettronici che fanno parte del sistema di formazione
dell�immagine generano inevitabilmente un rumore e di
conseguenza un errore nella misura dell�intensit� luminosa.
Dalla relazione (2.1.1) supponendo il sistema tempo invariante per
traslazioni e modellando l�errore con una funzione aleatoria additiva ),( yxn
(rappresenta il rumore attraverso una gaussiana), si ottiene la relazione
(2.1.3) che descrive il fenomeno di formazione dell�immagine da un punto di
vista radiometrico.
(2.1.3)
( )() ()yxnddfyxhyxg , , ,),( +−−=
∫∫
∞
∞−
∞
∞−
ηξηξηξ
2.1.1 Immagazzinamento dell’immagine digitale
Dopo che l�immagine in bianco e nero � stata digitalizzata verr�
approssimata da una matrice di valori interi compresi tra 0 e 255. Indicando
con M il numero di righe in cui l�immagine � scomposta e con N il numero
di bit per riga, ( M ed N in genere potenze di 2 ) si ha:
Tali valori sono reali, non negativi (la luminosit� non pu� essere
negativa), e limitati (la luminosit� non pu� essere grande a piacere, in quanto
la luce � una forma di energia). Valgono zero al di fuori di una regione finita,
dal momento che un sistema ottico ha un campo limitato di vista, a pertanto
l�immagine ha dimensione finita. Si pu� assumere, senza perdita di
generalit�, che tale regione sia rettangolare.
A volte � possibile dare della (2.1.4) una rappresentazione vettoriale,
invece che matriciale, mediante un ordinamento lessicografico della stessa
matrice riportato nella relazione (2.1.4).
(2.1.4) ()
() () ( )
()() ( )
−−−−
−
≅
1,1.......1,10,1
.
.
.
.
.
.
1,0.......1,00,0
,
NMfMfMf
Nfff
yxf
Con l�introduzione di tale vettore si pu� riformulare il modello
matematico dell�immagine come relazione tra i campioni, infatti utilizzando i
concetti sulla convoluzione si pu� scrivere la relazione (2.1.5).
(2.1.5)
()
()
()
()
()
()
()
()
−−
−
−
=
1,1
1,1
1,1
1,0
0,1
0,1
0,0
,
NMf
Mf
f
f
Mf
f
f
yxf
(2.1.6) []fHg =
con
[]H
matrice ciclica di dimensione ()()MNMN *** .
Introducendo anche per il rumore la stessa notazione lessicografica
introdotta per la matrice ()yxf , la (2.1.6) diventa:
(2.1.7) [] nf Hg +=