compromettere la stabilità delle infomazioni preesistenti.
Le reti neurali ART forniscono una soluzione al problema di decidere quando rimanere in modalità
conservativa (stabile) e quando portarsi in modalità adattativa (plastica), attraverso un meccanismo di
apprendimento incrementale on-line in cui la conoscenza del sistema é aggiornata ad ogni nuova istanza
sottoposta alla rete, senza che le precedenti istanze di addestramento siano riconsiderate.
Il capitolo "Reti neurali basate sulla Teoria della Risonanza Adattativa" approfondisce gli aspetti tecnici
legata alla struttura e gli algoritmi delle macchine ART e nel capitolo " Riaddestramento sequenziale:
tecniche proposte" vengono analizzate alcune estensioni innovative all'architettura ART standard.
Accenno qui solo alcuni stimoli che mi hanno appassionato allo studio di questa tipologia di reti neurali:
Le ART sono macchine neurali che nascono da studi sui sistemi neurofisiologici iniziati da
S. Grossberg negli anni '70. Questo si evidenzia nei meccanismi di retroazione (feed-back)
che caratterizzano il comportamento dinamico di apprendimento; tali meccanismi, che si
ispirano fortemente alle reti neurali biologiche, mi sono sembrati intuitivamente più
interessanti rispetto ai sistemi feed-forward (privi di retroazione) di molte altre architetture
neurali (MLP, RBF).
Le ART sono sistemi molto versatili potendo funzionare sia con apprendimento lento
(off-line training), sia con un apprendimento di massima reattività (on-line training) con
una opportuna parametrizzazione. Questa versatilità operativa, unita ad una struttura
modulare delle componenti interne, ha favorito la realizzazione sia di simulatori software ,
sia di implementazioni hardware di circuiti elettronici VLSI. La possibilità del tempo-reale é
sembrata molto interessante dal punto di vista dell'ingegneria, anche se forse un pò al di
fuori degli scopi specifici della classificazione nel telerilevamento,che utilizza tipicamente
tecniche di addestramento "lento" su simulatori software . Recenti studi di implementazioni
VLSI sembrano confermare un attuale interesse dell'industria nella realizzazione di
ART-chips [68][69][70][71].
Le ART sono sistemi abbastanza complessi e restano aperti alla ricerca ancora parecchi
aspetti della dinamica di funzionamento. Pur essendo state ideate da S. Grossberg nel 1976,
le reti basate sulla Adaptive Resonance Theory sono oggetto di continue elaborazioni e
variazioni. Ho constatato un rinnovato interesse scientifico su queste reti proprio quest'anno
e ne sono testimonianza parecchi articoli pubblicati nel 1998 e 1999 sulle autorevoli riviste
Neural Network e IEEE Transaction on Neural Networks [13][14][25][30][33][34][35][49][53].
Le ART sono fonte di un contrastato dibattito tra i ricercatori e gli utilizzatori finali: in vari
benchmarks con altre reti neurali le ART forniscono risultati contrastanti in contesti
applicativi apparentemente simili (ad esempio proprio nella classificazione di dati
telerilevati); questo contrast-enhancement tra ricercatori mi ha incuriosito al punto di
verificare l'applicabilità di queste reti nell'ambito delle attività di ricerca del RSIA
[49][50][51][52][53].
1.2 Obiettivo della tesi
[c][n]
La tesi ha l'obbiettivo di verificare le capacità di apprendimento incrementale delle macchine neurali
basate sulla Adaptive Resonance Theory (ART) ed in particolare delle tecniche di apprendimento
sequenziale (ovvero di riaddestramento in successivi istanti temporali), utilizzando l'architettura fuzzy
ARTMAP sopratutto nell'ambito della classificazione supervisionata in applicazioni di telerilevamento.
Si cerca anzitutto di focalizzare il problema dell'apprendimento incrementale sequenziale ( sequential
incremental learning ), inteso nel contesto del telerilevamento come la capacità di classificazione
incrementale di sequenze di immagini.
La dissertazione espone ampiamente la ricerca a tutt'oggi fatta in letteratura sulle reti ART, con
particolare attenzione alle applicazioni di classificazione supervisionata con il sistema fuzzy ARTMAP ,
che estende le funzionalità di classificazione non supervisionata ART con l'utilizzo della teoria degli
insiemi fuzzy . Sono dettagliati i diversi contesti operativi del sistema fuzzy ARTMAP standard e sono
presentate alcune estesioni e reti ibride che uniscono i vantaggi di apprendimento veloce delle reti neurali
ARTMAP con la maggiore capacità di generalizzazione e robustezza di altre architetture neurali.
Sono già state presentate in letteratura applicazioni delle reti neurali fuzzy ARTMAP nell'ambito della
classificazione di immagini telerilevate [11][64][65][66][67], ma l'aspetto innovativo di questa tesi è anzitutto
l'analisi di queste reti neurali nel contesto dell'apprendimento incrementale di immagini multitemporali; in
particolare l'analisi dell'uso delle reti ARTMAP in contesti di riaddestramento sequenziale non è mai
stata affrontata in letteratura prima d'ora.
Sono quindi proposte alcune tecniche innovative presentate per la prima volta nell'ambito di questa tesi
che modificano l'architettura fuzzy ARTMAP per adattarla a contesti di riaddestramento sequenziale:
(1) La tecnica delle added-classes modifica la rete neurale al fine di permettere un
riaddestramento supervisionato dove sono presenti nuove classi informative.
(2) La tecnica del similitude-mapping consiste in una modifica apportata all'architettura
fuzzy ARTMAP al fine affrontare un contesto di riaddestramento non supervisionato.
(3) La tecnica del tunable pruning é un algoritmo di compressione che preserva
l'accuratezza di classificazione eliminando i nodi non più utilizzati o poco utilizzati nelle
successive sequenze di apprendimento.
Per verificare le capacità di apprendimento incrementale delle reti fuzzy ARTMAP in applicazioni con
dati reali, sono state effettuate le seguenti sperimentazioni su immagini multitemporali telerilevate:
(a) riaddestramento supervisionato con numero fisso di classi:
é stata analizzata l'accuratezza di classificazione nel riaddestramento sequenziale con un
numero fissato di classi informative;
(b) riaddestramento supervisionato con aggiunta di classi informative:
é stata sperimentata con successo la tecnica delle added-classes in un problema di
riaddestramento con nuove classi di verità a terra,
(c) riaddestramento non supervisionato:
è stata sperimentata la tecnica del similitude mapping in un riaddestramento non
supervisionato in cui si è simulata l'assenza delle informazioni di verità a terra;
(d) ottimizzazioni nelle fasi di riaddestramento:
è stata sperimentata con successo la tecnica del tunable pruning in tutte le precedenti
sperimentazioni.
L'utilizzo combinato delle tre tecniche: added classes , similitude mapping e tunable pruning ha
contribuito ad estendere le funzionalità della rete neurale fuzzy ARTMAP nella realizzazione di un
sistema di classificazione sequenziale che si adatta nel tempo ai dati attraverso un meccanismo di
espansione (added classes e similitude mapping) e compressione (tunable pruning) della memoria della
rete neurale fuzzy ARTMAP.
1.3 Sommario degli argomenti trattati
[c][n]
La tesi si sviluppa attraverso una successione di capitoli che vogliono guidare il lettore
propedeuticamente portando l'attenzione dai problemi generali della classificazione incrementale nel
telerilvamento fino ai dettagli della architetturale neurale ARTMAP (ovvero la macchina ART
specializzata nella classificazione supervisionata) e di alcune tecniche di utilizzo, elaborate nell'ambito di
un impiego specializzato delle ARTMAP allo scopo di apprendimento incrementale supervisionato e non
supervisionato.
Nel secondo capitolo, " La classificazione nel telerilevamento ", vengono presentati gli aspetti
fondamentali dellla classificazione supervisionata nell'ambito del telerilevamento; viene descritta la
tipologia di dati (le immagini telerilevate in quando composte da features multispettrali) e ne sono
descritte le caratteristiche peculiari.
Nel terzo capitolo, " Reti neurali con apprendimento incrementale ", viene presentato l' incremental
learning come tema generale nei sistemi di riaddestramento di reti neurali.
Nel sottocapitolo 3.1 sono presentate alcune implementazioni di classificatori neurali che estendono le
reti RBF prevedendo un accrescimento dinamico dei neuroni [39][45][46][57][60][61].
Nel quarto capitolo, "Reti neurali basate sulla Teoria della Risonanza Adattativa", vengono approfondite
le molte implementazioni di reti neurali basate sulla Adaptive Resonance Theory.
In 4.1 vengono descritte le idee iniziali di S. Grossberg sulla rete ART in quanto sistema di
classificazione non supervisionata ed auto-organizzante atto a risolvere lo stability-plasticity dilemma
[1][2][3][3a][4].
Viene descritta in 4.1.1 la prima implementazione con ingressi binari ART1 come evoluzione delle reti
competitive. In 4.1.3 viene approfondito il sistema di stato dell'arte fuzzy ART, che integra la ART1 con
alcune idee della teoria degli insiemi fuzzy [1a].
In 4.2 viene approfondita la rete neurale ARTMAP: l'evoluzione della ART a scopo di classificazione
supervisionata; ne viene descritta l'idea e l'architettura iniziale, che utilizzava due moduli ART1 collegati
da una memoria associativa inter-ART. Questo sistema è evoluto, nel corso degli anni, nella architettura
fuzzy ARTMAP, che é la rete utilizzata nella sperimentazione di questa tesi. Nel paragrafo 4.2.2 vengono
descritte le caratteristiche di dettaglio e le varie tecniche di utilizzo della fuzzy ARTMAP.
In 4.3 sono analizzate alcune architetture ART-simili, ovvero quelle architetture neurali che hanno
variato in qualche modo i meccanismi di funzionamento base studiati da S. Grossberg e G. Carpenter,
oppure hanno integrato architetture ART con quelle di altro tipo (ad esempio le reti neurali
probabilistiche); ne verranno discusse le varianti più interessanti, sia nel clustering, sia nella
classificazione supervisionata.
Nel quinto capitolo, " Riaddestramento sequenziale: tecniche proposte ", vengono presentate alcune
tecniche di apprendimento incrementale che implicano estensioni dell'architettura e della dinamica di
apprendimento della rete neurale fuzzy ARTMAP, presentate per la prima volta nell'ambito di questa tesi:
(1) La tecnica delle added-classes é introdotta per affrontare la situazione in cui nelle
successive fasi di riaddestramento supervisionato é necessario aggiungere nuove classi
informative senza predere la conoscenza relativa alle classi definite in precedenza(5.1).
(2) La tecnica del similitude-mapping consiste in un meccanismo di predizione non
supervisionato che associa una classe informativa alla categoria di rappresentazione interna
creata durante la fase di apprendimento non supervisionato, in base ad un criterio di
similitudine con le categorie preesistenti (5.2).
(3) La tecnica del tunable pruning é nata dalla constatazione sperimentale della
proliferazione di nodi tipica delle reti fuzzy ARTMAP nell'apprendimento incrementale; é
stato quindi studiato un semplice meccanismo off-line di eliminazione dei nodi non utilizzati
(dead units) che preserva completamente l'accuratezza di predizione eliminando i nodi non
più utilizzati nelle successive sequenze di apprendimento. Attraverso un semplice criterio di
soglia é possibile inoltre aumentare il rapporto di compressione (ovvero il rapporto tra nodi
necessari alla rete neurale per rappresentare un certo insieme di patterns) con una perdita di
capacità di generalizzazione contenuta (5.3).
Nel sesto capitolo, "Risultati sperimentali", viene analizzato l'utilizzo della rete neurale fuzzy ARTMAP
in applicazioni di classificazione supervisionata di alcune immagini telerilevate (6.1).
In 6.2 vengono presentate le tecniche generali peculiari delle reti neurali fuzzy ARTMAP a scopo di
classificazione supervisionata.
In 6.3 sono attuate alcune sperimentazioni sull'apprendimento delle singole immagini e sono confrontati i
risultati ottenuti con quelli prodotti da altre reti neurali.
In 6.4 vengono discusse le sperimentazione di apprendimento incrementale su una sequenza di immagini
multitemporali, verificando la tecnica delle added classes in un problema di classificazione
multitemporale dove sono introdotte nuove classi informative; la tecnica del similitude mapping in un
problema di riaddestramento non supervisionato ed in tutti gli esperimenti di riaddestramento
sequenziale é stata sperimentata con successo la tecnica del tunable pruning.
Infine i risultati sperimentali ottenuti con il classificatore fuzzy ARTMAP opportunamente modificato
sono stati confrontati con quelli del classificatore incrementale RBF RSIA.
Nel settimo capitolo " Conclusioni " si delineano i vantaggi e le limitazioni delle reti neurali fuzzy
ARTMAP utilizzate nella classificazione, si traggono le considerazioni finali sulle sperimentazioni fatte e
si delineano i possibili sviluppi futuri di utilizzo dei sistemi ART.
Infine in "Riferimenti bibliografici" vengono riportati tutti i riferimenti di articoli studiati ed utilizzati per
questa dissertazione ed è fornito un elenco di siti web in qualche modo utili allo studio delle reti ART.
1.4 Notazione e guida all'uso dell'ipertesto
[c][n]
Il documento é stato scritto in forma elettronica ipertestuale sperando di facilitare al lettore la
navigazione tra le informazioni: Il testo é "navigabile" con un HTML browser attraverso l'uso di links
che permettono di scorrere agevolmente il testo, spostandosi velocemente tra posizioni distanti nel
documento. Inoltre ogni titolo di capitolo é seguito da alcuni tasti-link (racchiusi tra parentesi quadrate)
per spostarsi agevolmente da un capitolo all'altro: il tasto [ i ] sposta la posizione corrente all'indice nella
posizione contestuale al capitolo stesso, il tasto [c] sposta la posizione corrente all'inizio del capitolo di
livello più esterno, il tasto [ n ] sposta la posizione corrente all'inizio del capitolo successivo, il tasto [p]
sposta la posizione corrente all'inizio del capitolo precedente.
Sono stati utilizzati i termini tecnici lasciandoli scritti in lingua inglese (in stile corsivo). Si ritiene che
spesso siano maggiormente evocativi e di immediata comprensione i termini anglosassoni originali
piuttosto che le traduzioni in lingua italiana. Questa considerazione é verificabile sicuramente nel
tentativo di tradurre in lingua italiana la terminologia usata da Steven Grossberg nell'analisi di
meccaniche ed algoritmi della Adaptive Resonance Theory : la traduzione in italiano corretto risulta
difficilmente comprensibile ed si è preferito infine lasciare i termini anglosassoni originali, che hanno
ormai un significato scientifico storico.
Non tutti i ricercatori che si sono occupati delle reti ART hanno usato le stesse convenzioni di
terminologia per indicare stessi oggetti logici. Ho cercato laddove possibile di utilizzare la terminologia
proposta da G. Carpenter e S. Grossberg nei loro articoli ufficiali nelle riviste: Neural Network e IEEE
Transaction on Neural Networks. La notazione utilizzata dai ricercatori di Boston spesso non é
"perfetta" da un un punto di vista formale-matematico, ma si ritiene che questa terminologia sia ormai
diventata uno "standard" ed usarla aumenti la chiarezza e la comprensione del lettore. si è cercato
laddove possibile di usare la stessa denominazione sintattica per indicare gli stessi oggetti semantici nelle
varie architetture descritte.
2 La classificazione nel telerilevamento
[i][n]
L'obbiettivo del telerilevamento (remote sensing) è quello di ricavare informazioni sulla copertura della
superfice terrestre mediante l'analisi di immagini acquisite da sensori montati a bordo di aerei o di
satelliti. In particolare, è possibile produrre mappe in grado di evidenziare la copertura del territorio
utilizzando metodi automatici di classificazione di immagini telerilevate.
Useremo il termine anglosassone pattern recognition per fare riferimento all'insieme di tecniche ed
algoritmi atti a fornire classificazione e riconoscimento di patterns (ovvero i campioni od istanze oggetto
della classificazione).
2.1 Immagini telerilevate multispettrali
[i][c][n]
I sensori di telerilevamento misurano l'energia elettromagnetica emessa o riflessa dall'oggetto indagato.
Se il sensore è in grado di produrre una rappresentazione dell'oggetto su di un supporto bidimensionale,
a tale rappresentazione si da il nome di immagine telerilevata . Esistono due principali approcci al
telerilevamento che dipendono dal modo in cui viene analizzata l'immagine telerilevata al fine di estrarne
le informazioni desiderate. Il primo approccio, detto qualitativo, richiede l'intervento di un operatore
umano che generalmente si limita ad analizzare l'aspetto pittorico del contenuto dei dati, ovvero cerca di
estrarre l'informazione desiderata per mezzo di una foto-ispezione delle immagini disponibili. Il secondo
approccio prevede di estrarre misure quantitative dei dati attraverso l'esame di ogni pixel attuato con
l'ausilio del calcolatore.
Nel telerilevamento della superfice terrestre si possono considerare come sorgenti principali di energia la
terra ed il sole. Avendo una temperatura superficiale estremamente diversa, a seconda che si voglia
rilevare l'energia emessa dalla superfice terrestre o quella emessa dal sole e riflessa dalla terra, si devono
usare sensori diversi. Si opera quindi nell'infrarosso termico (energia emessa dalla terra) o nel
visibile/infrarosso vicino (energia riflessa). In questi casi si parla di telerilevamento passivo , dato che
l'energia elettromagnetica è fornita da una sorgente esterna al sistema di telerilevamento. Nei sistemi di
telerilevamento attivi il sensore che effettua il telerilevamento illumina la superfice terrestre da osservare
con un fascio di microonde e misura la quantità di energia riflessa dalla superfice terrestre.
La firma spettrale
L'energia riflessa od emessa dalla terra (e quindi ciò che l'immagine telerilevata rappresenta), dipende da
molteplici fattori. In primo luogo dipende dal coefficente di riflessione ρ ( λ ), che è funzione della
lunghezza d'onda λ . Per una lunghezza d'onda fissata λ , il coefficente di riflessione associato ρ (λ )
dipende a sua volta dalle caratteristiche della superfice. Ad esempio nel caso di lunghezze d'onda nella
porzione di spettro del visibile, ρ(λ) dipende dalla pigmentazione, dall'umidità e dal tipo di vegetazione,
dalla composizione minerale del suolo e nel caso delle microonde sono di fondamentale importanza
rugosità, pendenza e proprietà dielettriche del terreno. Inoltre giocano un ruolo importante le condizioni
atmosferiche e quelle di illuminazione. Infatti l'energia riflessa od emessa dalla superfice terrestre, prima
di arrivare al sensore, deve attraversare l'atmosfera, la cui trasparenza alle onde elettromagnetiche
dipende dalle condizioni metereologiche.
Per ogni superfice terrestre è possibile costruire un grafico che ci informa sulle capacità di riflessione in
funzione della lunghezza d'onda della radiazione incidente. Tale grafico, caratteristico di ogni superfice,
viene definito firma (o risposta) spettrale della superfice (ne è visualizzato un esempio nella figura 2.1).
Si può quindi pensare di sviluppare algoritmi che consentano di distinguere superfici diverse sulla base
della loro firma spettrale.
figura 2.1. Firma spettrale per acqua (1), vegetazione (2), suolo (3)
Classi spettrali e classi informative
Il modo più efficace per rappresentare dati multispettrali al fine di una analisi quantitativa è di mapparli
in uno spazio dei patterns (deto anche spazio dei vettori multispettrali o più generalmente spazio delle
features), avente una dimensionalità pari al numero di componenti spettrali considerate. In questo spazio
ogni punto dell'immagine è rappresentato da un punto di coordinate pari al valore dei livelli di grigio del
pixel in ogni banda. Supposto che le bande siano tali da permettere una buona discriminazione, ci si
aspetta che i pixels formino dei gruppi nello spazio multispettrale (clusters) corrispondenti ai diversi tipi
di copertura del terreno. Solitamente lo stesso tipo di vegetazione o di terreno (detto classe informativa)
può essere rappresentato nello spazio multispettrale da più clusters (ovvero le classi spettrali). Questo è
evidenziato in figura 2.2 dove una certa classe informativa indicante vegetazione, è composta da tre
distinti insiemi (clusters). Si evidenzia quindi la corrispondenza uno-a-molti tra una classe informativa
(rappresentativa per l'utente finale) e più classi spettrali associate.
figura 2.2. Corrispondenza uno-a-molti tra classe informativa e classi spettrali
2.2 Clustering e classificazione di Immagini
[i][c][n]
Esistono due approcci principali alla classificazione: quello supervisionato ( classification ) e quello
non-supervisionato ( clustering ). Nel primo caso l'insieme delle classi informative è definito a priori,
mentre nel secondo caso non si possiede nessuna conoscenza riguardo esse.
La classificazione supervisionata è il principale strumento per l'analisi quantitativa di immagini
telerilevate. L'assunzione fondamentale nell'approccio supervisionato è che le classi informative siano
caratterizzate da densità di probabilità che devono essere note a priori od essere stimate sulla base di un
insieme di campioni (il training set) di cui si conosce la classe di appartenenza.
Nella classificazione non-supervisionata , si parte dal presupposto di non conoscere a priori le classi
informative finali, e quindi si cercano di individuare le classi naturali (ovvero spettrali) analizzando la
struttura dei dati. Si tratta di raggruppare i campioni in insiemi in base ad un certo criterio di
similitudine. L'operatore, che non interviene nella classificazione non-supervisionata, non conosce in
generale quante e quali siano le classi spettrali e dove esse siano posizionate nello spazio delle features.
Le tecniche di clustering verranno affrontate in questa trattazione in quanto strumenti preliminari e
complementari della classificazione supervisionata.
2.2.1 Classificazione supervisionata
La classificazione supervisionata (pattern classification) è l'approccio maggiormente usato per l'analisi
quantitativa di un'immagine telerilevata. Lo scopo di un classificatore è quello di associare ogni singolo
punto di una immagine con la rispettiva classe informativa di appartenenza ( target labeling ), ovvero
associare ogni pixel con la classe di copertura del terreno cui appartiene.
Il processo di classificazione supervisionata che utilizza un qualsivoglia sistema di classificazione
consiste in due fasi generalmente distinte: una prima fase di apprendimento ( learning ) detta altresì di
addestramento (training) ed una successiva fase di predizione, detta anche testing o fase di valutazione
delle prestazioni.
1. Fase di addestramento (training phase)
Il classificatore viene addestrato ad associare un certo sottoinsieme dei pixels dell'immagine
multispettrale (il training set) alle rispettive classi informative di copertura del terreno.
2. Fase di predizione (testing phase)
Il classificatore addestrato nella fase precedente è ora utilizzato dall'utente finale per
ottenere delle predizioni su un insieme di pixels (il test set ) diverso da quello con cui il
classificatore è stato addestrato.
figura 2.3. generazione di training set e test set
I dati necessari ad un sistema di classificazione supervisionata che debba essere utilizzato in contesti di
telerilevamento sono riassunti graficamente in figura 2.3 e qui commentati:
(a) IMG(tk) è l'immagine multispettrale prodotta al tempo tk , che corrisponde all'insieme
composto delle risposte di sensori su un certo numero di bande spettrali (fig. 2.3 (a)).
(b) LAND(tk) rappresenta la verità a terra, ovvero l'insieme delle informazioni di copertura
del terreno (land-cover classes), che per ogni pixel di IMG(tk) fornisce la corrispondente
classe informativa . In figura 2.3 (b) è evidenziato graficamente LAND (t k ) come una
mappatura incompleta. Infatti le informazioni delle classi informative finali sono
difficilmente disponibili per tutta l'area dell'immagine IMG (t k ) associata. Nella maggior
parte dei casi pratici sono a disposizione solo alcuni sottoinsiemi sparsi delle classi di
copertura del terreno.
(c) DATASET(tk) è il data set completo, ovvero l'insieme costituito dall'associazione di un
pixel con la corrispondente classe informativa, per tutti i punti per cui si hanno a
disposizione i dati a terra (generalmente per un sottinsieme limitato dell'intera immagine), al
tempo tk:
DATASET(tk) = { IMG (tk) , LAND(tk) } (2.1)
(d) Il data-set è successivamente partizionato in due insiemi distinti: il training set,
denominato TRAINING(tk), necessario nella fase di apprendimento del classificatore ed
infine il test set, denominato TEST(tk), utilizzato nella fase operativa per valutare le
prestazioni del sistema al fine di ottenere benefici applicativi per l'utente finale (figura 2.3
(c) ed (d)).
2.3 Apprendimento incrementale di immagini multitemporali
[i][c][n]
Un problema significativo incontrato nella classificazione di dati di telerilevamento, è che un
classificatore addestrato su una particolare immagine raramente fornisce alti valori di accuratezza di
classificazione su un'immmagine diversa.
Questo rappresenta una importante limitazione per lo sviluppo di sistemi automatici che siano in grado di
classificare periodicamente estese aree geografiche ad un ragionevole costo economico. In questo
contesto è di estremo interesse nella comunità del telerilevamento lo sviluppo di sistemi di classificazione
"robusti", ovvero capaci di operare efficentemente su diverse immagini, a prescindere dalle date di
acquisizione o dalla particolare area geografica considerata.
Un importante passo nello sviluppo di un sistema di classificazione robusto consiste nella definizione di
un classificatore capace di acquisire nuova conoscenza quando nuovi insiemi di addestramento diventano
disponibili, ma nello stesso tempo capace di preservare la conoscenza acquisita (questo è il punto
fondamentale del problema dell'apprendimento incrementalenell'ambito del telerilevamento).
La caratteristica di apprendimento incrementale permette al classificatore di essere aggiornato su nuove
immagini (incrementando le capacità del sistema di fornire alti valori di accuratezza di classificazione)
mantenedo allo stesso tempo prestazioni efficenti sulle vecchie immagini.
Per svolgere questo compito i classificatori convenzionali devono essere completamente riaddestrati sui
nuovi campioni insieme ai vecchi ogni volta che un nuovo insieme di dati è disponibile. Questo richiede
la memorizzazione di tutti i training set , un tempo computazionale alto ed in molti casi addirittura la
ridefinizione dell'architettura del classificatore.
In molti tentativi di affrontare il problema dell'apprendimento incrementale a scopo di classificazione, il
numero di classi informative (le land-cover classes nel caso del telerilevamento) è considerato un
parametro fisso del problema. Questo limita le capacità del classificatore di adattarsi quando un nuovo
training set contiene alcune classi differenti da quelle considerate nella fase iniziale di progetto del
classificatore. Nel contesto del telerilevamento questo vincolo rappresenta una seria limitazione.
Tuttavia nell'ambito delle sperimentazioni attuate in questa tesi, assumiamo che le classi informative
finali possano rimanere relativamente immutate nel labeling macroscopico. Nelle applicazioni pratiche
l'assunzione è giustificata dalla gradualità di variazione delle caratteristiche del territorio nel corso del
tempo.
Classificazione Incrementale
L'apprendimento e le prestazioni di un classificatore sono strettamente correlati all'immagine elaborata al
tempo t k . Per comprendere il comportamento dinamico di apprendimento del classificatore è
conveniente introdurre il concetto di stato del classificatore net(tk):
net(tk) = { W(tk) , parameters (tk) } (2.2)
dove W (t k ) è la matrice delle variabili dinamiche (nel caso dei classificatori neurali vedremo che
corrisponde alla matrice dei pesi neurali, eq 3.2 ) e parameters (t k ) è un insieme di parametri di
configurazione del classificatore. Quale che sia la tipologia od architettura del classificatore, di tipo
neurale od utilizzante algoritmi basati sulla teoria Bayesiana, net (t k ) rappresenta in generale lo stato
dinamico del classificatore.
Distinguiamo tre diverse situazioni operative in funzione dello stato del classificatore:
1. Apprendimento supervisionato iniziale (startup supervised training )
Chiamiamo startup supervised training il contesto in cui il classificatore è inizialmente nello
stato zero , in cui cioè net (∅ ) = {∅}. Al termine della prima fase di apprendimento il
classificatore raggiunge la configurazione net(t0) in cui il sistema è stato addestrato ed è in
grado di fornire una classificazione della prima immagine presentata.
2. Riaddestramento supervisionato
Le fasi di addestramento successive a quella iniziale definiscono il supervised re-training.
In figura 2.4 è rappresentato il flusso delle informazioni in un contesto di riaddestramento
supervisionato in cui un training set, comprensivo sia dei pixels dell'immagine multispettrale
e sia dei dati di verità a terra, è presentato al classificatore denominato CLASSIFIER(tk) nel
generico tempo t k . Il classificatore è inizializzato con lo stato net (t k-1 ) risultante da
addestramenti su immagini precedenti e produce al termine della fase di apprendimento lo
stato net(tk).
figura 2.4. classificazione con riaddestramento supervisionato
3. Riaddestramento non supervisionato
Una classificazione con apprendimento non-supervisionato (unsupervised re-training) viene
realizzata quando un sistema di classificazione incrementale alterna fasi di riaddestramento
supervisonato (in tal caso sono a disposizione le classi informative di copertura del terreno),
a fasi di clustering learning, in cui le uniche informazioni a disposizione sono le immagini
telerilevate IMG (t k ). Viene attuata quindi una classificazione ibrida in cui il clustering
incrementale è elaborato al fine di fornire una predizione sull'insieme delle classi informative
definite all'istante t k-1 ed eventualmente rilevare la presenza di eventuali nuove classi
informative in tk.
L'apprendimento incrementale non supervisionato nell'accezione descritta è una tecnica
molto interessante nell'ambito del telerilevamento, dove è costante la difficoltà pratica di
avere a disposizione le informazioni di copertura del terreno, che sono ottenute attraverso
una raccolta di dati a terra complessa e molto onerosa.
In figura 2.5 è rappresentato il flusso dei dati in cui si evidenzia l'assenza delle informazioni
LAND(tk) sulle classi informative all'istante tk.
figura 2.5. classificazione con riaddestramento non supervisionato
Vediamo come possono essere schematizzate le due fasi di apprendimento e predizione nel caso di un
sistema incrementale che debba classificare successivamente nel tempo una sequenza di immagini:
(a) Fasi dell'addestramento incrementale
Ad ogni successiva presentazione di un training set, il classificatore evolve attraverso una
sequenza di stati risultanti dalle fasi di apprendimento: net(∅), net(t0), net(t1), ..., net(tk-1),
net(tk), net(tk+1) come illustrato in figura 2.6.
figura 2.6. Le fasi dell'addestramento incrementale
(b) Le fasi sequenziali di predizione
L'obbiettivo di un sistema di classificazione incrementale è quello di apprendere nuove
conoscenze mantenedo quelle acquisite su immagini classificate precedentemente. La
conoscenza del classificatore allo stato net (t k ) deve riassumere quindi gli apprendimenti
precedenti mantenendo una accettabile precisione di classificazione sui data set già acquisiti.
In figura 2.7 è schematizzata la fase di predizione multitemporale: ad ogni tempo t k il
classificatore fornisce la predizione PREDICTION (t k ) che devono fornire predizioni non
solo sull'immagine attuale ma su tutti i data set precedenti TEST(t
j
) con t
j
= tk, tk-1, tk-2, ...,
0:
PREDICTION(tk) =
{Pt
k
[TEST(tk)], Ptk[TEST(tk-1)], ..., Ptk[TEST(∅)]}
(2.3)
dove l'istante ∅ corrisponde alla situazione iniziale di stato zero in cui nessuna immagine è
mai stata presentata al classificatore.
Al tempo t k , un efficente sistema di classificazione incrementale fornirà la migliore
prediction accuracy Pt
k
[ TEST (t k )] sulla immagine più recente IMG (t k ) ma manterrà
accettabile accuratezza Pt
k
[ TEST (t k-j )] nella predizione fatta sul test set dell'immagine
IMG(t
j
), relativa ad un precedente addestramento (j < k).
figura 2.7. Fasi di predizione in un sistema di classificazione incrementale