7
ξ nell'ambiente considerato sono presenti altri robot (i compagni di squadra e gli
avversari), che producono ombre, alterando quindi i colori percepiti, ed
occlusioni, rendendo impossibile, tranne in rari casi, il riconoscimento degli
oggetti basandosi sull'analisi della loro forma.
Tutti questi aspetti hanno come effetto netto la richiesta di una necessaria,
efficiente e scientifica fase di sperimentazione delle soluzioni adottate: teoricamente
alcune tecniche potrebbero produrre risultati accettabili, ma, una volta testate e valutate,
potrebbero rivelarsi inefficaci, a causa di una o più caratteristiche dell'ambiente e del
problema considerato.
In questo lavoro si fa uso, nelle fasi preliminari, della sola informazione relativa
al colore, attraverso la componente di tinta del modello HSI; si suppone di partire
dall'immagine segmentata, in cui ogni pixel è etichettato con una label associata al
modo dell'istogramma al quale appartiene il valore di tinta del pixel stesso: è necessario
stabilire la corrispondenza tra il generico modo e la classe di oggetti presa in esame,
nell'ipotesi che gli oggetti siano caratterizzati ognuno da un determinato colore. Questo
viene fatto mediante una rete neurale supervisionata, un multilayer perceptron: si
fornisce alla rete una rappresentazione opportunamente codificata di ogni modo e se ne
riceve in risposta la classe di oggetti di appartenenza, sulla base della dislocazione del
modo stesso nel dominio circolare dei valori di tinta. Sono state anche provate soluzioni
alternative per svolgere lo stesso compito: il classificatore statistico di minima distanza
tenta di classificare il range di tinta sulla base del centroide del generico modo,
attribuendolo alla classe il cui valore medio si avvicina maggiormente al suddetto
centroide; il classificatore ottimo bayesiano cerca di minimizzare l'errore di
classificazione, a partire da una distribuzione di probabilità a posteriori, costruita
analizzando la statistica degli istogrammi di tinta associati alle varie immagini di
training.
Per l'individuazione delle regioni di pixel significative, prima di effettuarne il
relativo riconoscimento, si è adottata una tecnica di estrazione delle componenti
connesse di pixel, in parte già presente in letteratura; ad essa sono state apportate delle
modifiche che ne migliorano le performance, in termini di risorse computazionali
richieste. In particolare è stata messa a punto una variante dell'algoritmo di Warshall per
la determinazione della chiusura transitiva della matrice che esprime le relazioni tra le
etichette associate alle varie componenti connesse: la procedura presentata è più veloce,
in quanto sfrutta alcune ipotesi di base, ed, allo stesso tempo, riduce le richieste di
memoria rispetto alla versione originale di Warshall, aspetto molto importante in
presenza di un numero elevato di componenti connesse.
Per il riconoscimento degli oggetti presenti nella scena sono state adottate alcune
soluzioni specifiche, che ben si adattano al problema in esame ed all'ambiente
considerato, sfruttandone alcune caratteristiche, sotto forma di ipotesi semplificative.
Maggiore risalto è stato dato al riconoscimento della palla, data la notevole importanza
di quest'oggetto nell'ambiente preso in considerazione: pertanto sono state proposte tre
diverse soluzioni, che si differenziano nella parte dell'individuazione del punto
rappresentativo della regione dell'immagine relativa alla palla.
Gli altri oggetti da riconoscere che sono stati ritenuti di interesse in questo
lavoro sono: gli altri robot, la cui posizione è importante per la navigazione del robot
osservatore e per il coordinamento dell'intera squadra; le porte in cui devono essere
8
realizzati i goal, con l'obiettivo di distinguerle e determinarne la posizione relativa
rispetto al robot.
Viene anche descritta una tecnica di blurrring particolarmente utile per la
riduzione del rumore nelle immagini i cui valori dei pixel sono di tipo angolare. Il
metodo proposto copre un vuoto nella letteratura relativa alle operazioni di filtraggio di
tipo passa-basso; per questo motivo ha suscitato un certo interesse in occasione di
alcune conferenze.
Alcune delle tecniche realizzate in questo lavoro sono state e saranno presentate
in occasione di congressi scientifici del settore dell'intelligenza artificiale, della robotica
e dell'elaborazione delle immagini, con la conseguente pubblicazione nei relativi atti. In
particolare l'approccio neurale per la classificazione dei segmenti di tinta è stato
presentato direttamente dall'autore di questa tesi al Congresso WIRN Vietri '99 - XI
Italian Conference on Neural Net, tenutosi dal 20 al 22 maggio del corrente anno e sarà
presentato al Workshop sulla RoboCup del Congresso IJCAI '99 - International Joint
Conference on Artificial Intelligence sulla RoboCup, in occasione della nuova edizione
della competizione. La tecnica utilizzata per la riduzione del rumore nell'immagine di
tinta è stata anch'essa ritenuta interessante in ambito internazionale e sarà oggetto di
presentazione al Congresso ICIAP '99 - International Conference on Image Analysis
and Processing ed anche al suddetto Congresso IJCAI '99. In [Morreale et al., 1999a,
1999b, 1999c] possono essere trovati i relativi articoli.
Si tenga presente che, nonostante la particolarità dell'ambiente che circonda il
robot e degli oggetti presenti nella scena, le tecniche illustrate godono di un elevato
grado di generalità, tranne, naturalmente, quelle relative al vero e proprio
riconoscimento degli oggetti. Si ritiene che questa generalità abbia contribuito anche
all'accettazione degli articoli ed alla relativa pubblicazione negli atti delle conferenze.
Gli algoritmo presentati sono stati implementati mediante il linguaggio di
programmazione C/C++, producendo alcuni programmi e librerie di immediato utilizzo
e che saranno parte del software di visione con cui il robot Pioneer 1, in dotazione del
laboratorio CS&AI (Computer Science & Artificial Intelligence), presso il quale è stata
condotta la sperimentazione relativa a questa tesi, affronterà le partite della
competizione RoboCup. Inoltre altri gruppi di ricerca hanno manifestato la volontà di
utilizzare le suddette soluzioni, riconoscendo la bontà del lavoro svolto.
.
9
Parte 1
Richiami teorici
In questa parte viene data una descrizione generare dello stato dell'arte
relativamente al problema della visione artificiale, riportando molti riferimenti letterari
che rimandano il lettore ai lavori più autorevoli e significativi del settore.
Nel primo capitolo vengono descritti i tre paradigmi di visione robotica
maggiormente utlizzati. Nel capitolo 2 viene affrontato per linee generali il problema
dell'analisi automatica delle immagini, mentre il capitolo 3 fornisce una tassonomia
delle tecniche di riconoscimento delle immagini. Infine, nel capitolo 4 sono riportati i
concetti generali relativi alle reti neurali ed alle corrispondenti regole di apprendimento.
10
Capitolo 1 - La visione artificiale
1.1 La robotica
L'istituto di robotica americano ha definito un robot come un programmabile e
multifunzionale manipolatore progettato per muovere oggetti attraverso movimenti
programmati per una grande varietà di applicazioni [Jablonski e Pose, 1985]. Questa
definizione è sicuramente troppo restrittiva. In [Brady, 1985] viene data una definizione
molto generosa, secondo la quale la robotica è la connessione intelligente tra
percezione e azione. Una definizione più ragionevole è quella di Arkin: un robot
intelligente è una macchina capace di estrarre informazioni dal suo ambiente e usare la
conoscenza sul suo mondo per muoversi in maniera sicura ed al fine di perseguire uno
scopo, un goal [Arkin, 1998].
In [Russell e Norvig, 1995] gli autori definiscono un robot come un agente
attivo ed artificiale il cui ambiente è un mondo fisico, sottolineando la distinzione tra
l'aspetto software dell'agente e la fisicità del robot e del mondo che lo circonda. In
quest'ottica, un robot è autonomo quando le sue azioni sono guidate dalle percezioni e
dall'interazione col mondo, dal quale è in grado di apprendere. Nel sottolineare il fatto
che il progetto di un robot è molto influenzato dalle tecniche di progetto di un agente
software intelligente, essi ribadiscono una notevole differenza tra la robotica e
l'intelligenza artificiale: i ricercatori nel primo campo devono necessariamente porre
un'enfasi maggiore sugli aspetti percettivi ed attuativi.
I robot possono essere classificati sulla base delle dimensioni, dei materiali usati
per la costruzione, per gli attuatori, per i sensori, per il sistema di movimento, per il
sistema hardware di elaborazione e per molte altre caratteristiche. Naturalmente
l'aspetto fisico non basta: un robot deve possedere un sistema di controllo che gli
fornisca l'abilità e le capacità di movimento e d'azione.
Ci sono alcuni sistemi robotici che si pongono come i veri e propri pionieri della
disciplina. Uno dei primi robot mobili costruiti è stato Shakey [Nilsson, 1969],
realizzato presso lo Stanford Research Institute: si tratta di un robot immerso in un
mondo artificiale, nel quale riconoscere oggetti colorati e con particolare forma
mediante un sistema di visione, effettuare delle azioni, come prendere tali oggetti, ed
eseguire un piano. Il robot HILARE del Laboratorio di Automatica ed Analisi dei
Sistemi di Tolosa, in Francia [Giralt et al., 1984] e Cart di Stanford [Moravec, 1977]
sono altri due progetti meritevoli di nota, in quanto costituiscono pietre miliari nella
disciplina. In particolare il robot Cart è stato il primo ad adottare un sistema di visione
stereo.
1.2 La percezione
Per un robot, l'abilità di interpretare le informazioni provenienti dal mondo
esterno è essenziale nel tentativo di perseguire un goal: la sola conoscenza precostituita
in fase di progetto non può bastare, per lo più se l'ambiente in cui è immerso è reale. In
tal senso, la percezione fornisce all'agente robotico alcune informazioni sul mondo che
lo circonda.
11
Le prime ricerche sulla percezione hanno portato allo sviluppo di approcci che
risentivano dei seguenti problemi: la percezione veniva considerata quasi come un
aspetto isolato e separato dagli altri; a causa delle notevoli difficoltà emergenti nella
fase di progettazione dei sistemi percettivi, questi avevano assunto il ruolo di task
predominanti nelle applicazioni robotiche; le tecniche ed i paradigmi utilizzati per la
percezione miravano alla completa ricostruzione tridimensionale della scena e delle sue
proprietà (percezione modulare), senza preoccuparsi del fatto che poteva essere non
necessaria. In [Brooks, 1991] l'autore mette in evidenza questi difetti, soprattutto in
relazione alla visione.
Per superare le suddette difficoltà è stato necessario ricorrere a nuovi paradigmi,
secondo i quali l'azione e la percezione sono inseparabili. Tutti questi vengono
accomunati sotto il nome di percezione modulare, in contrasto a quella generalizzata:
soltanto le informazioni strettamente rilevanti e necessarie in un dato istante devono
essere estratte mediante l'attività percettiva: la stessa può essere allora vista come il
bisogno di conoscere da parte del robot. Alcune delle complicazioni derivanti dalla
volontà di ricostruire completamente una scena spariscono o si mitigano quando questi
approcci vengono utilizzati.
La seguente costituisce una lista non completa di alcuni paradigmi nati sotto
questo auspicio:
ξ percezione orientata alle azioni: la percezione deve essere al servizio delle
azioni;
ξ percezione basata sulle aspettative, in cui la conoscenza del mondo può
vincolarne l'interpretazione;
ξ metodi focus-of-attention, in cui la conoscenza può vincolare la posizione in
cui gli oggetti appaiono nel mondo;
ξ percezione attiva: il robot può controllare in maniera attiva ed interattiva il
processo percettivo;
ξ classi percettive: il mondo può essere suddiviso in categorie.
L'interazione tra il robot ed il mondo esterno al fine di ottenere le percezioni
avviene attraverso i sensori, dispositivi che sono in grado di modificare la
rappresentazione interna che il robot ha creato del mondo, di cui riescono a percepirne i
cambiamenti. In termini della loro interazione con l'ambiente, si possono dividere in
attivi e passivi. I sensori passivi utilizzano l'energia già presente nell'ambiente per
ottenere informazioni: la visione è sicuramente la più classica forma di percezione
medainte sensori passivi. In sensori attivi si fondano sul principio dell'emissione di
energia nell'ambiente e sulla rilevazione della parte riflessa: esempi classici sono i sonar
ed i scanner a laser. Ulteriori informazioni sui sensori possono essere trovate in
[Everett, 1995].
1.3 La visione robotica
Tra i molteplici processi percettivi di cui un robot può avvalersi, la visione
costituisce quello che fornisce il maggior numero di informazioni, sia in termini
qualitativi che quantitativi.
La visione artificiale è il processo che estrae informazioni da una scena
analizzando l'immagine di quella scena [Rosenfeld, 1988]. In genere la scena è
12
illuminata da una o più sorgenti di luce, naturale o artificiale; la telecamera (il sensore
preposto alla percezione visiva) è dotata di un dispositivo ottico in grado di formare
un'immagine della scena su un piano: in esso, per ogni punto, la luminosità ed il colore
sono correlati alla luce ricevuta dal sensore e proveniente da una certa direzione; è la
luce riflessa da un punto di un oggetto (non trasparente o opaco) in quella direzione.
Per poter essere sottoposta ad elaborazione per mezzo di un computer digitale,
l'immagine deve essere campionata (o come si suole dire, discretizzata), ottenendo una
matrice di valori (pixel), ognuno legato alla luminosità o al colore in quel punto o alla
media in un intorno. Il valore di ogni pixel può essere uno scalare (livello di grigio) o un
vettore di n componenti (tipicamente 3 n ), ognuna delle quali legata ad una
particolare banda spettrale e tutti insieme atti a caratterizzare l'informazione di colore
del pixel.
Riprendendo la definizione di visione precedentemente data, l'immagine o una
sequenza di immagini della scena costituiscono l'input dell'intero processo e le
informazioni estratte ne costituiscono l'output. In taluni casi l'input può essere dato da
una coppia di immagini relative alla stessa scena, ma acquisite da due angolazioni
diverse (visione stereo). Generalmente, l'obiettivo della visione è quello di riconoscere
gli oggetti presenti nella scena e determinarne la posizione nel mondo rispetto ad un
riferimento, che può essere il robot stesso. In linea di principio, la tipologia delle
informazioni estratte dipende dall'applicazione e dalle sue finalità ed esigenze. Quando
è possibile si evita di effettuare una ricostruzione tridimensionale della scena, cercando
di estrarre solo le informazioni utili per compiere le azioni finalizzate al goal, in accordo
a quando espresso dai nuovi paradigmi percettivi già citati.
In ambito robotico, la visione trova applicazione nella manipolazione degli
oggetti, nella navigazione e, chiaramente, nel riconoscimento degli oggetti. In nessuna
di esse vi è la reale necessita di una completa descrizione dell'ambiente, ossia della sua
completa ricostruzione tridimensionale.
Storicamente vi sono tre differenti approcci alla visione artificiale:
ξ l'approccio gerarchico [Marr, 1982];
ξ la visione attiva [Bajcsy, 1988];
ξ le routines visuali [Ullman, 1985].
Con riferimento alla distinzione tra percezione generalizzata e percezione
modulare, l'approccio gerarchico può essere sicuramente visto come appartenente alla
prima classe, essendo finalizzato alla completa ricostruzione tridimensionale della
scena. La visione attiva e le routines visuali invece costituiscono due soluzioni
modulari, secondo la definizione precedentemente data, al problema della visione
artificiale. Come diverrà chiaro in seguito, la visione attiva enfatizza il bisogno delle
percezioni piuttosto che quello delle azioni, mentre, al contrario, nelle routines visuali,
la percezione costituisce uno strumento necessario per le azioni, tanto da esse
denominata action-oriented.
I tre approcci ricalcano direttamente le architetture robotiche: l'approccio di
Marr è sicuramente correlato alle architetture deliberative [Albus et al., 1987], laddove
la visione attiva è legata alle architetture controllistiche, mentre le routines visuali
risentono molto dell'influenza delle architetture basate sui comportamenti [Arkin, 1998].
13
Bisogna comunque osservare che un sistema di visione reale utilizza in genere
tutti e tre gli approcci citati, dei quali, nei sottoparagrafi successivi, viene data una breve
descrizione.
1.3.1 L'approccio gerarchico
Nel tentativo di fornire un approccio computazionale alla visione, Marr ed il suo
gruppo di ricerca del Laboratorio di Intelligenza Artificiale del M.I.T. hanno
considerato la percezione visiva come un problema di elaborazione di informazioni, che
ha origine nell'immagine a livelli di grigio
1
, vista come un array di pixel, e che termina
in una descrizione, intesa come una lista di informazioni estratte dall'immagine stessa.
La struttura generale del sistema di visione proposto da Marr è mostrata in figura 1.3.1.
La prima operazione che viene effettuata è la trasformazione dell'immagine in
una descrizione del modo in cui i livelli d'intensità variano, indicata da Marr col nome
di raw primal sketch. E' l'insieme delle informazioni direttamente estraibili
dall'immagine mediante tecniche di elaborazione, come l'estrazione dei contorni: il
sistema di riferimento dipende dall'immagine e, quindi, dipende dal punto di vista.
Questo livello è anche denominato early vision o visione di basso livello ed è
riconducibile ad un processo analogo che avviene nell'occhio umano. In esso
l'immagine viene proiettata sulla retina in ogni punto con un'intensità che dipende dalla
scena e dalla direzione di osservazione. I fattori principali che influenzano questa
intensità sono: l'illuminazione, le proprietà riflessive dell'oggetto che si sta osservando,
la forma della parte visibile di superficie di quell'oggetto ed il punto di vista
dell'osservatore. Secondo la teoria di Marr, bisogna sfruttare questi quattro fattori per
estrarre dall'immagine le informazioni di basso livello che contribuiscono alla
formazione del raw primal sketch. L'analisi da fare in questa fase è di tipo locale,
finalizzata alla determinazione delle proprietà fisiche locali degli oggetti.
Vi sono molte tecniche di elaborazione delle immagini che permettono di
estrarre l'informazione di profondità di un punto nell'immagine: ognuna di esse
costituisce una diversa sorgente di informazioni sulle forme degli oggetti. Spesso alcune
tecniche sono più adatte di altre per l'analisi di particolari tipi di oggetti rappresentati
nell'immagine e sono meno adatte per altri. Allo scopo di integrare tutte le informazioni
provenienti da diversi canali, è necessario adottare una rappresentazione che permetta
tale cooperazione tra tecniche. Marr chiama questa rappresentazione immagine D2
2
1
.
In essa il sistema di riferimento è sempre l'immagine, ma si comincia ad avere una terza
componente (tipo rilievo), una stima della profondità degli oggetti. L'obiettivo dello step
del processo di visione che permette di passare dal raw primal sketch al D
2
1
2 è anche
quello di determinare l'orientazione delle superfici nella scena, determinare, inoltre,
quali contorni estratti nel raw primal sketch sono relativi a discontinuità reali delle
superfici e, di converso, quali contorni invece sono mancanti nel raw primal sketch.
1
Questa è soltanto un'ipotesi, in quanto tutto quello che segue resta valido anche se l'immagine che si
considera come sorgente di informazione è a colori, in cui ogni pixel è un vettore generalmente di tre
elementi.
14
Figura 1.3.1 - Il paradigma di visione proposto da Marr.
Per estrarre queste informazioni esistono diverse tecniche divise in due
categorie:
ξ gradiente di luminosità
ξ visione stereo
e una serie di tecniche miste che sfruttano entrambe.
I metodi appartenenti alla prima classe vengono anche denominati shape from X,
perché permettono di dedurre la forma di una superficie da varie caratteristiche (indicati
con X) che possono essere estratte dall'immagine. Una classe di queste tecniche è la
cosiddetta shape from shading [Horn, 1986; Pentland, 1984; 1990], che utilizza
direttamente il livello di grigio dei pixel, per estrarre le suddette informazioni; queste
tecniche non sono utilizzate nella robotica mobile, in quanto l'illuminazione in genere è
poco controllata e controllabile, mentre è molto usata nei banchi di lavoro delle
fabbriche, per il riconoscimento dei pezzi prodotti. Lo shape from texture fa uso
dell'informazione derivante dalla tessitura delle superfici. Altre tecniche come lo shape
from contour o lo shape from shape utilizzano le informazioni sui contorni estratte
durante la fase di visione di basso livello.
Il metodo delle immagini intrinseche combina le tecniche shape from X, in virtù
del fatto che alcune sono migliori di altre in certe situazioni: si effettua allora una media
pesata dei valori ottenuti con i vari metodi.
Non è possibile in generale determinare l'orientazione delle superfici da una
singola immagine: senza assunzioni addizionali il problema è indeterminato. Per questo
motivo, in alcuni casi si ricorre alla visione stereo, in cui si hanno a disposizione due o
più immagini della scena, acquisite da due differenti punti di vista. Utilizzando tecniche
3 D
2
1
2 D
Raw primal sketch
Immagine
15
di triangolarizzazione è possibile determinare la profondità di ogni punto, supposto che
si riesca ad ottenere entrambi i punti corrispondenti nelle due immagini (problema del
matching).
Una situazione più interessante è quella che vede l'utilizzo di una sequenza di
immagini della scena, per estrarre le informazioni sulla base delle quali realizzare
l'immagine (shape from motion).
Nei primi due stadi del paradigma di visione proposto da Marr non si fa
riferimento alcuno al concetto di regioni o oggetti, propri dell'approccio basato sulla
segmentazione: tutto è fatto in funzione delle proprietà delle superfici presenti
nell'immagine.
L'ultima fase del processo di visione vede l'utilizzo delle informazioni estratte
negli stadi precedenti, al fine di creare una rappresentazione 3D, fatta di forme
tridimensionali degli oggetti e utile al riconoscimento degli stessi. A causa del fatto che
in genere gli oggetti ogni volta sono visti da un'angolazione diversa, la rappresentazione
che di essi viene data deve essere tale da garantirne comunque il riconoscimento.
Diversamente dal D
2
1
2 , in cui la rappresentazione dipende dal punto di vista
dell'osservatore, per ottenere una descrizione della forma che dipenda solo dalla sua
struttura, la rappresentazione 3D deve essere fondata sulle caratteristiche geometriche
dell'oggetto e le eventuali relazioni tra le parti devono essere relative all'oggetto stesso:
il sistema di riferimento deve essere quindi riferito all'oggetto.
Un oggetto tridimensionale è caratterizzato dal suo centro di massa, da una
dimensione totale (volume, diametro, ecc.), da un asse principale o da un asse di
simmetria, se esiste. Nonostante un oggetto composto non possa essere descritto e poi
riconosciuto sulla base soltanto di queste tre caratteristiche, tale modello diventa utile se
si pensa ad ogni oggetto come costituito da un certo numero di parti elementari, ognuna
delle quali descrivibile dalle suddette tre features. La descrizione di una forma realizzata
mediante una gerarchia di forme elementari è detta modello 3D, che permette di trattare
le parti costituenti una forma come parti esse stesse, senza porre alcuna limitazione al
livello di dettaglio che si può raggiungere.
1.3.2 La visione attiva
L'attività percettiva degli esseri viventi è legata non soltanto ad un'elaborazione
delle informazioni acquisite in maniera passiva, ma piuttosto ad un'attività di
esplorazione e di ricerca nell'ambiente che li circonda. Per esempio, negli uomini,
durante il processo visivo, la pupilla, la parte centrale dell'iride, si apre e si chiude in
relazione alla quantità di luce presente nella scena. Inoltre, l'occhio mette a fuoco gli
oggetti dipendentemente dalla loro distanza; anche i movimenti della testa e dell'intero
corpo sono influenzati dall'attività percettiva, nel tentativo di trovare una migliore
posizione, finalizzata al miglioramento dell'attività visiva.
Il paradigma della percezione attiva, ed in particolare della visione attiva, trae
origine proprio dal meccanismo percettivo degli esseri viventi: si tratta di controllare il
processo di acquisizione dei dati provenienti dai sensori, in funzione della loro
interpretazione e dell'obiettivo che l'agente robotico deve perseguire.
Nel paragrafo 1.2 sono state riportate le definizioni che, nella letteratura relativa
alla robotica ed alla visione artificiale, vengono date dei sensori attivi e passivi. Non
necessariamente un sistema di percezione attiva deve fare uso di sensori attivi; anche
16
l'impiego, purché in maniera attiva, dei sensori passivi può produrre un sistema di
percezione attiva.
Negli approcci convenzionali, l'acquisizione dell'immagine è considerata come
la base da cui parte l'attività percettiva. Nella teoria della percezione attiva,
l'acquisizione è invece inserita all'interno del processo di visione: è come dire che,
essendo limitato il contenuto informativo estraibile da una singola immagine della
scena, è più produttivo cercare di avere migliori dati sensoriali, piuttosto che cercare di
estrarre quante più informazioni possibili da quelli che si hanno a disposizione.
Queste considerazioni sulla percezione attiva in generale possono essere estese
in maniera specifica alla visione attiva. In un articolo [Aloimonos e Badyopadhyay,
1987] è stato affermato che un problema di visione mal posto, non lineare e instabile per
un osservatore passivo diventa ben posto, lineare e stabile per un osservatore attivo.
L'analisi svolta in questo lavoro è relativa a tecniche di shape from shading, shape
froma contour, shape from texture, structure from motion e optical flow, assumendo
noto il moto dell'osservatore, finalizzato all'acquisizione di un numero maggiore di dati
utili.
Un sistema di visione attiva è capace di gestire i parametri visuali in maniera
controllata allo scopo di estrarre dati utili dall'immagine della scena [Pahlavan et al.,
1993]. La visione attiva, pertanto, può essere definita come un processo intelligente di
acquisizione di dati visivi e di elaborazione degli stessi al fine di ottenere
l'interpretazione della scena: l'intelligenza è espressa nel controllo della telecamera
attraverso un insieme di feedback ed una conoscenza a priori del mondo.
Nel suo lavoro già citato, Bajcsy pone l'enfasi, piuttosto che sull'aspetto
scientifico della visione attiva, sullo studio di modelli e strategie di controllo finalizzate
alla percezione, modellizzando i sensori, gli oggetti, l'ambiente e le loro interazioni, allo
scopo di raggiungere un obiettivo, che può essere la navigazione, il riconoscimento o
altro. Nello stesso articolo, Bajcsy suggerisce un modello generale per un sistema
multistrato di visione attiva per il riconoscimento di forme tridimensionali. In esso si
possono distinguere alcune fasi, di seguito elencate dal livello più basso a quello più
alto:
ξ controllo del dispositivo fisico, con l'obiettivo di ottenere una prima immagine
della scena con un'adeguata messa a fuoco;
ξ controllo dei moduli di visione di basso livello, ottenendo una segmentazione
2D;
ξ controllo del sistema binoculare (hardware e software), al fine di acquisire
informazioni sulla profondità ed ottenerne una mappa;
ξ controllo della mappa di profondità, finalizzata all'estrazione di parti di superfici;
ξ riconoscimento degli oggetti;
ξ interpretazione della scena.
L'assunzione di base della visione attiva e del sudetto modello è l'inclusione di
feedback che collegano i vari stadi del sistema, per lo scambio tra di loro dei dati
necessari. Si è scelto di non riproporre in dettaglio lo schema proposto da Bajcsy, in
quanto, come la stessa autrice sostiene, non è l'unico possibile. Inoltre l'ordine con cui le
operazioni vengono eseguite in un certo momento può essere diverso da quello
presentato, essendo possibile una variazione nel flusso dei dati lungo l'intero processo, a
causa dei feedback.