xvi
simulazioni non possono essere considerate sufficientemente rappresen-
tative da consentire l’applicazione di metodi di classificazione ed appren-
dimento, basati su esempi, ma vengono invece qui utilizzate per fornire
una indicazione dell’efficacia del metodo automatico di analisi proposto.
L’estrema debolezza del segnale visivo, rilevata dalle sequenze di per-
dite simulate, richiede tecniche molto sensibili per il riconoscimento di
variazioni nelle immagini riprese da camera fissa. L’aumentata sensibilità
comporta però il rischio che fenomeni di naturale variabilità delle immagi-
ni, dovuti ad instabilità delle sorgenti di illuminazione, rumore di fondo,
riflessi o vibrazioni nel soggetto inquadrato, possano venire confusi con
eventi anomali, determinando segnalazioni di falso allarme.
Per l’analisi di primo livello delle sequenze di immagini viene conside-
rato il metodo della “differenza intra-frame (IFD)”, diffusamente utilizzato
nelle tecniche di sorveglianza visuale, in cui viene calcolata la differenza,
considerata pixel per pixel, tra immagini a distanza fissa.
Generalmente, in questo metodo si considera la possibilità di effettua-
re un’operazione di sogliatura dell’immagine per eliminare il rumore di
fondo sottostante. Un’ulteriore variante prevede la costruzione di un’im-
magine dinamica di sfondo, utilizzata come riferimento nel calcolo della
differenza con l’immagine corrente. Entrambe queste tecniche presentano
alcuni problemi pratici. Nell’eliminazione del rumore di fondo, la scelta
del valore di soglia risulta estremamente critica ed in grado di influenza-
re negativamente l’affidabilità del metodo. La determinazione di un’im-
magine di riferimento per l’operazione di differenza può invece incorrere
in un effetto “deriva”, provocato dalla instabilità di lungo periodo delle
condizioni ambientali, quali l’illuminazione della scena.
In questo lavoro, l’immagine differenza non viene analizzata diretta-
mente, ma si preferisce effettuare l’analisi nel dominio dei coefficienti della
sua trasformata wavelet.
La scelta della trasformata wavelet è motivata dalla possibilità di otte-
nere una scomposizione della variabilità rispetto alla nozione di “scala”,
legata alla dimensione visiva del fenomeno. Questo fatto permette di de-
scrivere aspetti della variabilità dell’immagine dovuti a cause differenti
(illuminazione, perdita, rumore di fondo).
I buoni risultati ottenuti applicando la trasformata wavelet a problemi
di approssimazione di segnali hanno ispirato numerose tecniche di “de-
noising” e di compressione (“lossy”), utilizzate in svariati contesti (analisi
xvii
serie temporali, elaborazione di immagini, metodi numerici di integrazio-
ne, etc.).
Nell’analisi delle sequenze di immagini differenza, la possibilità di trat-
tamento del rumore di fondo spaziale, realizzata applicando metodi di
“wavelet denoising”, viene applicata per determinare una distribuzione di
“sfondo multiscala”. Questa distribuzione, definita nel dominio della tra-
sformata wavelet, permette di descrivere il grado di variabilità locale del-
l’immagine, considerata a diverse risoluzioni di dettaglio, e viene utilizza-
ta nel calcolo di una misura della rilevanza informativa dell’innovazione
introdotta da ogni nuova immagine della sequenza.
Questa misura di variabilità viene successivamente riassunta in un vet-
tore di caratteristiche, in cui le singole componenti rappresentano la parte
di energia totale dell’immagine differenza relativa ai fenomeni visivi che
avvengono ad un particolare livello di “scala”.
L’analisi dell’andamento temporale di questo vettore di caratteristiche
viene inquadrata nel contesto delle metodologie del “Controllo Statisti-
co di Processo Multivariato (MSPC)”. Dopo una presentazione di alcu-
ni metodi standard basati su carte di controllo, viene illustrato il metodo
“MSPCA (PCA multiscala)”, che combina le tecniche tradizionali con l’u-
tilizzo della trasformata wavelet, sviluppata, in questo caso, secondo la
dimensione temporale.
Ringraziamenti
Desidero ringraziare la mia relatrice, Professoressa Paola Campadelli, per
i preziosi consigli e la paziente opera di correzione. Desidero inoltre rin-
graziare CESI, Centro Elettrotecnico Sperimentale Italiano, che ha fornito
l’opportunità per questa tesi, ed in particolare l’Ing. Gaetano Baldini, mio
correlatore, per la grande disponibilità e per l’approfondimento di alcuni
aspetti importanti.
Sono in debito con Sandra Andreussi, che mi ha preceduto nello stu-
dio di questo problema, per la concessione del materiale sperimentale rac-
colto, e con Manuela Centomo per alcuni chiarimenti sulla teoria delle
wavelet.
Desidero infine esprimere la mia gratitudine aMarina e ai miei genitori
per il costante supporto e l’impulso a completare questo lavoro.
Milano Giovanni Pelosi
15 Luglio 2002
xviii
Capitolo 1
Descrizione del Problema
1.1 Illuminazione e Colore
1.1.1 Trattamento Piani Colore
I sistemi di acquisizione considerati in questo studio hanno previsto l’ac-
quisizione di immagini a colori in modalità RGB lineare, in cui ogni pixel
dell’immagine viene codificato da una terna di numeri interi, compresi
tra 0 e 255, ottenuti quantizzando il corrispondente livello di intensità del
pixel rispetto ai tre colori fondamentali: rosso, verde, blu (indicati breve-
mente con r,g,b). Più precisamente, indicando con I(λ) l’intensità radiante
in una certa direzione in funzione dalla lunghezza d’onda λ della radia-
zione elettromagnetica, è possibile specificare le componenti RGB della
luce come:
IR =
∫ ∞
0
I(λ)PR(λ)dλ (1.1)
IG =
∫ ∞
0
I(λ)PG(λ)dλ (1.2)
IB =
∫ ∞
0
I(λ)PB(λ)dλ (1.3)
dove le curve PR(λ),PG(λ),PB(λ) indicano la risposta in frequenza per
i tre colori primari. Nello studio fotometrico della caratteristiche del siste-
ma di visione umana, la Commission International de l’Éclairage (CIE) ha
determinato queste curve mediante esperimenti di corrispondenza croma-
1
Descrizione del Problema 2
tica, utilizzando per i colori primari le lunghezze d’onda: rosso = 700nm,
verde = 546nm, blu = 435nm.
In un esperimento di corrispondenza cromatica un’emissione di luce di
una distribuzione spettrale arbitraria C(λ) viene confrontata con l’emis-
sione ottenuta sommando in proporzione variabile βR,βG,βB i tre colori
primari PR¯,PG¯,PB¯ (Figura: 1.1). I coefficienti βR,βG,βB, riproporzionati ri-
spetto ad una distribuzione spettrale di riferimento per il colore “bianco”,
costituiscono la codifica (RGB)CIE del “colore” C(λ).
Questa codifica presenta il problema di non riuscire a rappresentare
tutti i colori visibili in modo additivo. Infatti è possibile ottenere colori con
coefficienti RGB negativi, per cui la corrispondenza cromatica può venire
realizzata sommando uno o più primari al colore di riferimento. Per risol-
vere questo problema, la CIE ha introdotto un diverso sistema di rappre-
sentazione dei colori, chiamato sistema di coordinate XYZ di tristimolo,
ottenibili dalle coordinate RGB per combinazione lineare:
X
Y
Z
=
0.49 0.31 0.20
0.17697 0.81240 0.1063
0.00 0.01 0.99
RCIE
GCIE
BCIE
(1.4)
Anche le coordinate XYZ sono caratterizzate dalle rispettive distribu-
zioni spettrali, denotate con x¯λ, y¯λ, z¯λ. La codifica XYZ può essere deter-
minata direttamente da queste distribuzioni nel modo seguente:
IX =
∫ ∞
0
I(λ)x¯λ dλ (1.5)
IY =
∫ ∞
0
I(λ)y¯λ dλ (1.6)
IZ =
∫ ∞
0
I(λ)z¯λ dλ (1.7)
La distribuzione spettrale y¯λ della coordinata Y è stata scelta in mo-
do da corrispondere alla funzione spettrale di luminosità, determinata
sempre dall’osservazione fotometrica.
Nel caso di dispositivi di acquisizione e riproduzione ottica, l’evolu-
zione tecnologica ha portato negli anni a differenti standard di codifica
per le immagini, legati alle caratteristiche di alcuni componenti, quali ad
esempio i fosfori utilizzati nei tubi catodici (CRT). In campo televisivo, lo
standard in vigore negli Stati-Uniti ed in Giappone, risalente al 1953, è do-
vuto al National Television SystemCommitee (NTSC) e definisce, oltre alle
Descrizione del Problema 3
ONMLHIJKPR¯ // βR
**
VVVV
VVVV
VVVV
VVVV
VVV
!!
D
D
D
D
D
D
D
D
D
D
D
D
D
D
D
ONMLHIJKPG¯ // βG //
&&
MM
MM
MM
MM
MM
MM
Colore RGB
Additivo
**
*j
*j
*j
*j
*j
*j
*j
*j
ONMLHIJKPB¯ // βB
44hhhhhhhhhhhhhhhhhhh
**
VV
VV
VV
VV
VV Osservatore
Colore di
Confronto
44
4t
4t
4t
4t
4t
4t
4t
4t
_^]\XYZ[C(λ)
44iiiiiiiiiiiiiiiiiii
Figura 1.1: Esperimento di corrispondenza cromatica.
caratteristiche spettrali dei colori primari, anche altri aspetti di codifica e
trasmissione del segnale televisivo. Analogamente, nell’Unione Europea
è in vigore uno standard più recente, emesso dall’European Broadcasting
Union (EBU) per il sistema PAL (Phase Alternating Line). Per la codi-
fica di immagini digitali uno standard correntemente utilizzato, emesso
dall’ International Telecommunications Union (ITU) è la raccomandazio-
ne BT.709, che specifica le curve PR709(λ),PG709(λ),PB709(λ), compatibili con
i tipo di fosfori utilizzati nei computer odierni.
Considerando quindi l’intensità incidente sul sensore ottico della ca-
mera alla posizione (x,y), considerata in funzione della lunghezza d’on-
da λ e del tempo t (indicata con I(λ,x,y, t)), è possibile introdurre una
Descrizione del Problema 4
definizione (continua) di flusso di immagini 1 nel modo seguente:
f(x,y, t) =
r(x,y, t)
g(x,y, t)
b(x,y, t)
=
∫ ∞
0 I(λ,x,y, t)PR709(λ) dλ
∫ ∞
0 I(λ,x,y, t)PG709(λ) dλ
∫ ∞
0 I(λ,x,y, t)PB709(λ) dλ
(1.8)
1 Esistonomodelli della visionemolto più complessi di quello qui esposto. Si consideri
ad esempio la necessità di integrare rispetto all’angolo solido di incidenza sul sensore
ottico la componente normale alla superficie dell’intensità luminosa incidente, dovuta a
sua volta alla diffusione, riflettività e trasparenza degli oggetti sulla scena (dipendenti
dalla frequenza), conoscendo le caratteristiche spettrali delle sorgenti di illuminazione,
etc. etc. (Foley et al. 1990)
Descrizione del Problema 5
Il passaggio da un flusso continuo di immagini alla relativa codifica
digitale di un immagine è svolta in fasi distinte. Per un segnale di tipo
televisivo questa codifica prevede:
• Campionamento Temporale: il sensore ottico della camera viene at-
traversato da una scansione periodica per la codifica dei segnali con-
tinui di luminanza Y e di crominanza I,Q. Nel caso dello standard
NTSC la frequenza di campionamento è di 29,97 frames/sec.
• Campionamento Verticale: la trasmissione televisiva di un imma-
gine bidimensionale attraverso un canale monodimensionale viene
realizzata effettuando una scansione sequenziale dell’immagine in
righe (linee di scansione).
• Campionamento Orizzontale: il segnale analogico relativo ad un
singola linea di scansione viene campionato spazialmente in pixel,
in base alla risoluzione selezionata. Il frame grabber considerato
supporta varie risoluzioni tra cui:
– 720× 480 (NTSC/CCIR-601)
– 640× 480 (NTSC/Squared)
– 720× 580 (PAL/CCIR-601)
– 768× 580 (PAL/Squared)
• Quantizzazione: la terna di valori continui associati al singolo pi-
xel viene quantizzata da una conversione analogico/digitale. Per
la codifica RGB questa operazione prevede l’utilizzo di 24 bit per
ogni pixel di immagine. Al valore di quantizzazione così ottenuto
viene applicata la funzione di trasferimento definita da una tabella
programmabile (LUT).
In realtà occorre considerare che, per camere di tipo CCD, il sensore
ottico è organizzato in forma di matrice di unità fotosensibili (di 362× 492
pixel nel caso della camera MCB-100). Diversamente da quanto avviene
per altri tipi di ripresa, quale ad esempio la ripresa televisiva mediante
telecamera, nel caso di CCD quindi l’immagine subisce una prima fase di
campionamento spaziale, riconvertita in formato analogico in uscita.
Descrizione del Problema 6
Considerando l’operazione di digitalizzazione è possibile denotare una
sequenza di immagini digitali con:
ft[n,m] =
rt[n,m]
gt[n,m]
bt[n,m]
con
{
n = 0, . . . ,N − 1,
m = 0, . . . ,M− 1, (1.9)
in cui le componenti rt[n,m],gt[n,m],bt[n,m] risultano codificate ciascu-
na con 8 bit (0, . . . ,255). Una singola immagine può essere vista come la
composizione di tre sottoimmagini relative alle componenti cromatiche,
denominate “piani colore”, come illustrato in figura 1.2. Dalle componenti
(RGB)709 dell’immagine è possibile ottenere la componente di luminanza
Y, applicando la trasformazione:
Y = 0.2127R709 + 0.7152G709 + 0.0722B709 (1.10)
oppure, utilizzando la notazione della 1.9:
yt[n,m] = 0.2127rt[n,m] + 0.7152gt[n,m] + 0.0722bt[n,m] (1.11)
Nell’ambito degli studi fotometrici, la CIE ha elaborato un’importan-
te descrizione dello spazio colore, caratterizzata da una metrica percettiva
uniforme. In questa descrizione, denominata L∗a∗b∗, è possibile calcolare
la distanza tra due punti dello spazio colore, proporzionale alla valutazio-
ne di “distanza” percepita dal nostro sistema visivo. L’espressione di di-
stanza percettiva, in coordinate di colore L∗a∗b∗ assume la semplice forma
di distanza euclidea:
∆s =
(
(∆L∗)2 + (∆a∗)2 + (∆b∗)2
)1/2
(1.12)
La trasformazione tra coordinate RGB a coordinate L∗a∗b∗ può venire
effettuata attraverso le trasformazioni non lineari
L∗ = L(R,G,B;X0,Y0,Z0) (1.13)
a∗ = a(R,G,B;X0,Y0,Z0) (1.14)
b∗ = b(R,G,B;X0,Y0,Z0) (1.15)
in cui X0,Y0,Z0 indicano le coordinate di tri-stimolo XYZ per il “bian-
co” assunto come riferimento (Jain 1989).
Descrizione del Problema 7
(a) Immagine RGB (b) Piano Colore “Rosso”
(c) Piano Colore “Verde” (d) Piano Colore “Blu”
Figura 1.2: Piani Colore di un’immagine
Descrizione del Problema 8
(a) Componente di Luminosità L∗ (b) Componenti di Cromaticità a∗b∗ combinati
(c) Componente cromatica a∗ (d) Componente cromatica b∗
Figura 1.3: Componenti CIE L∗a∗b∗ di un’immagine
In particolare, la componente L∗ è legata alla percezione di luminosità
dell’immagine, in modo analogo alla dinamica non lineare (logaritmica)
dell’occhio umano.
Nella figura 1.3 viene mostrata la scomposizione dell’immagine rispet-
to alle componenti L∗a∗b∗.
L’utilizzo del colore nell’analisi delle perdite viene discusso nel para-
grafo 2.3.2, dove vengono valutate diverse alternative di trasformazione
degli spazi colore.
Descrizione del Problema 9
1.2 Dati Sperimentali
In questo problema di monitoraggio, l’obiettivo della segnalazione di ano-
malie nell’impianto deve essere considerato rispetto alla impossibilità di
definizione precisa del concetto di “guasto visibile”. Non sono infatti di-
sponibili immagini di situazioni reali di “perdite” di combustibile, iden-
tificate come le cause più probabili di guasto. Data l’estrema pericolosità
e la natura distruttiva di questi eventi, non è chiaramente possibile simu-
lare in laboratorio la costruzione di esempi di perdita che possano carat-
terizzare affidabilmente il concetto di “guasto”. Nelle sequenze campione
utilizzate nelle prove sperimentali le “perdite” sono state simulate con un
compressore, nebulizzando del combustibile sulla scena di un impianto
reale. Anche se queste sequenze risultano ragionevolmente indicative del
possibile andamento di situazioni effettive di guasto, questo fatto impe-
disce l’applicazione di tecniche di elaborazione di immagini orientate al
riconoscimento e all’identificazione di “pattern” visuali.
In questo contesto, l’evento di “perdita” viene associato più generica-
mente all’effetto di variazione provocato sull’immagine, considerando la
rilevazione di forti scostamenti improvvisi come indicativo di situazioni
di anomalia. L’analisi sperimentale delle sequenze di test ha però eviden-
ziato una forte componente di variabilità non eliminabile nelle sequenze
di immagini, anche in assenza di eventi significativi. Le cause principali
di questa variabilità possono essere identificate come:
• naturale variabilità delle sorgenti di illuminazione (solare e artificia-
le)
• vibrazioni meccaniche su parti dell’impianto (tubature di alimenta-
zione)
• errori di misura nel sistema ottico/digitale di acquisizione
Il modello di anomalia considera l’ipotesi che il guasto sia determinato
da una rottura nel circuito di alimentazione, che provocherebbe un getto
di nafta nebulizzata. Questo dovrebbe manifestarsi nelle immagini diffe-
renza come una regione localizzata di intensità elevata. Mentre è ragione-
vole supporre uno sviluppo temporale “rapido” del fenomeno (da pochi
decimi a qualche secondo), non è invece possibile prevederne lo sviluppo
spaziale, legato ad aspetti completamente casuali quali l’angolazione visi-
va della rottura o l’effetto d’ombra provocato dalla copertura di sorgenti
di illuminazione.
Descrizione del Problema 10
(a) senza perdite (b) con perdita simulata
Figura 1.4: Esempio immagini per sequenza “LAB-001”
(a) senza perdite (b) con perdita simulata
Figura 1.5: Esempio immagini per sequenza “BRC-001”
Questo fatto impedisce l’applicazione di alcune tecniche standard di
analisi della correlazione spaziale, quali ad esempio il template matching,
che utilizzano in qualche forma la nozione di “dimensione” dell’oggetto
da individuare nell’immagine. Altri metodi, applicati allo studio delle tex-
tures e basati su matrici di co-occorrenza, risultano invece troppo costosi
computazionalmete per un procedimento real-time.
In questo lavoro sono state analizzate alcune sequenze di immagini, ri-
prese in contesti ambientali simili a quelli di utilizzo finale, e relativi a tre
soggetti diversi, indicati con le sigle “LAB”, “BRC”, “LIG”. Per ogni sog-
getto sono state effettuate diverse riprese (indicate con un numero di serie
“001”,”002”, etc.), campionate a 25 e 10 Frames/sec., contenenti ciascuna
alcune centinaia di immagini. In qualche caso, nella scena è stata prodotta