-17-
La figura 1.1, per esempio, � una fotografia che mostra Firenze vista da Piazza Mi-
chelangelo: una folta schiera d�alberi esclude gran parte del panorama. Si possono
distinguere diverse costruzioni: un ponte a sinistra, una torre al centro ed una cupola
a destra (almeno queste sono le parti del panorama che colpiscono maggiormente la
nostra attenzione). Noi percepiamo tutto questo cos� rapidamente e senza sforzo che
non immaginiamo neppure quanto tutto ci� sia complicato. La ricca struttura
dell'esperienza visiva, che deriva dal vedere scene naturali come questa, nasce quan-
do i tessuti neurali all'interno degli occhi sono stimolati da un pattern ottico bidimen-
sionale che include solo dei frammenti degli oggetti che sono percepiti. Gran parte
della torre, ad esempio, � nascosta dietro ad altre costruzioni che le sono vicine; tut-
tavia, noi non percepiamo la torre come se galleggiasse in aria. Persino le parti che
sembrano essere pienamente visibili, possono essere viste solo parzialmente perch�
occluse da altre parti pi� vicine, come il fiume Arno la cui vista � occlusa dagli albe-
ri, oppure la strada in basso a sinistra anch�essa nascosta dagli alberi.
In che modo siamo capaci di percepire cos� velocemente e senza sforzo la significati-
va e coerente scena tridimensionale di cui noi abbiamo esperienza a partire dall'in-
completo pattern bidimensionale di luce che entra nei nostri occhi?
E ancora: come possiamo determinare se un oggetto � grande e distante o piccolo e
vicino? Come percepiamo quali regioni in un'immagine sono parti dello stesso ogget-
to? Come possiamo dire se ci muoviamo noi in relazione agli oggetti nell'ambiente o
si muovono loro in relazione a noi?
Il sistema visivo umano � molto complesso dal punto di vista neurofisiologico, anche
se il comportamento visivo � attuato in modo completamente automatico nei soggetti
umani. Infatti, l'azione del vedere non � soltanto una trasduzione di segnale, ma in-
clude anche l'interpretazione dell'immagine. Tale processo presuppone: a) l'estrazio-
-18-
ne d�informazioni parziali che riguardano l'individuazione di tutti gli oggetti presenti
nell'immagine; b) la determinazione delle posizioni spaziali degli oggetti e delle loro
dimensioni; c) la costruzione di una rappresentazione sintetica della scena a partire
dall'immagine stessa.
Il processo visivo, sia naturale sia artificiale, gestisce una rilevante quantit�
d�informazioni. Tali informazioni sono codificate in una matrice bidimensionale,
l'immagine, che rappresenta le misure della quantit� di luce riflessa nell'occhio, o,
per il sistema artificiale nella telecamera, da ogni punto della superficie degli oggetti
tridimensionali presenti nella scena. Questo lavoro di registrazione dell'immagine
nell'occhio umano � svolto da pi� di mille migliaia di recettori, presenti nelle due re-
tine. Nel caso del sistema di visione artificiale, nella telecamera il numero d�elementi
recettori � cento volte inferiore rispetto all'occhio umano. Tuttavia, la quantit�
d�informazioni presenti in ogni immagine � veramente imponente. Per imitare l'oc-
chio umano � necessario che il sistema visivo artificiale sia in grado di processare
almeno alcune immagini al secondo. Per cui, nella progettazione di tali sistemi � ne-
cessario prevedere la disponibilit� di calcolatori con enorme capacit� computazionale
e di dispositivi dedicati per compiere il calcolo ad altissima velocit� o in tempo reale.
Nonostante tutta l'informazione che un calcolatore pu� computare per un�immagine,
essa risulta insufficiente per il problema della proiezione del mondo tridimensionale
sulla superficie bidimensionale dell'immagine, che determina una perdita
d�informazione sulla profondit�, con la comparsa d�ambiguit� interpretative. Analiz-
zando alcuni processi della visione artificiale, ci si rende conto che il compito che
deve svolgere la macchina �, partendo dall'immagine, ricostruire o interpretare il mo-
dello tridimensionale. Gli esseri umani, nonostante il segnale visivo sia spesso confu-
so o ambiguo, percepiscono un mondo d�oggetti tridimensionali che hanno numerose
qualit� strutturali. Infatti, l�esperienza che ogni uomo fa, gli insegna come trarre con-
-19-
clusioni generali sul mondo a partire da informazioni sensoriali molto limitate, com-
binando sensazioni pi� elementari. Nel percorso che l'informazione visiva compie
dalla formazione dell'immagine sulla retina fino ai livelli cognitivi, � trasformata
(ovvero costruita, sintetizzata) in un�informazione molto strutturata. Proprio grazie a
questo processo la percezione visiva � cos� tanto accurata e automatica, che ogni per-
sona � praticamente inconsapevole di come essa sia tratta. Compito della visione arti-
ficiale � quello di mostrare l'informazione intrinseca di un�immagine, in analogia con
i meccanismi di processazione umani.
1.2. Struttura del lavoro
Questo lavoro descriver�, in parte, come i processi umani della visione possono
essere rappresentati attraverso un sistema neurocomputazionale sulla base di esperi-
menti fisiologici fatti sull'apparato visivo umano ed animale. Ad esempio in [1], [2] �
stato mostrato che i neuroni, nella corteccia visiva di un gatto, presentano una rispo-
sta di tipo oscillatoria a stimoli visivi esterni. Si � ammesso che queste oscillazioni
temporali possano essere riferite al processo che � alla base del comportamento del
sistema visivo e del suo legame con la percezione. Il nostro compito sar� dunque
quello di descrivere, attraverso un modello computazionale, come e perch� il nostro
sistema visivo biologico riesce ad interpretare stimoli visivi cos� complessi dal mon-
do esterno. Pi� in particolare tratteremo il caso in cui la nostra scena visiva sia ani-
mata da movimenti relativi dei vari oggetti che la compongono. Se ad esempio nello
scenario, riportato in figura 1.1 passasse un aeroplano, noi saremmo portati a seguir-
lo con gli occhi. L�aeroplano sarebbe discriminato, dal nostro sistema visivo, dal re-
sto dello scenario, il quale andrebbe a costituire un�immagine di sfondo statica (o
quasi) sulla quale avverrebbe, appunto, il movimento dell�oggetto in questione.
-20-
Quindi il movimento relativo tra i vari oggetti costituisce uno dei tanti modi per di-
stinguerli l�uno dall�altro. In effetti, tali oggetti possono essere discriminati tra loro,
almeno in linea di principio, in struttura (propriet� geometriche), tessitura, colore,
luminosit�, contrasto ecc� Comunque se non differiscono tra loro per queste pro-
priet�, possono essere distinti attraverso il movimento reciproco, l�uno rispetto
l�altro. Attraverso il moto relativo dei vari oggetti � possibile, dunque, rilevare la
presenza di oggetti �camuffati�. Un camaleonte, per rendersi invisibile alle prede o ai
predatori, rimane fermo assumendo la stessa trama dell�ambiente circostante, nessu-
no sforzo gli gioverebbe se, pur mimetizzato con l�ambiente, si muovesse. Lavori
precedenti hanno confermato che la discriminazione degli oggetti, in una certa scena
visiva, attraverso il moto relativo � un processo particolarmente sviluppato in diverse
specie animali ed insetti, in [3] e in [4], ad esempio, � stato riscontrato nel sistema vi-
sivo di una mosca.
Si � pensato di presentare il lavoro svolto organizzandolo in sei capitoli e
un�appendice, dove:
• nel primo capitolo vengono descritti dei concetti base riguardanti il mondo
della visione umana ed artificiale attraverso i quali si � giunti ad elaborare
una struttura neurocomputazionale per la discriminazione di oggetti in movi-
mento.
• nel secondo capitolo viene trattato un sistema (EMD) per la determinazione
(stima) del vettore di velocit� globale di una figura su di uno sfondo. Vengo-
no, inoltre, considerate tutte le problematiche per le diverse configurazioni fi-
gura-sfondo. Ogni situazione sar� accompagnata da esempi di simulazione
che confermano la profonda analisi matematica fatta all�inizio.
• nel terzo capitolo, sulla base di scoperte nel campo della neurofisiologia,
viene sviluppata, attraverso una rigorosa analisi matematica, e implementata,
-21-
una rete neurale oscillatoria (ONN) che riproduce delle forme d�onda simili
(stesse caratteristiche dinamiche) a quelle riscontrate nel cervello di alcune
specie animali quando vengono sottoposte a stimoli visivi esterni. Tale rete
viene, inoltre, specializzata per la discriminazione del movimento di una figu-
ra su di uno sfondo.
• nel quarto capitolo viene descritto il ruolo dell�attenzione visiva e presentato
un modello computazionale del tipo WTA (winner take all) per la selezione
di obiettivi (oggetti) nella scena visiva.
• nel quinto capitolo � presentata una soluzione circuitale per la cella elemen-
tare della Rete Neurale Oscillatoria (ONN) trattata nel terzo capitolo.
• nel sesto capitolo vengono fatte le conclusioni sul lavoro svolto.
• nell’appendice � riportato un programma per la simulazione delle risposte
dell�EMD e dell�ONN per diverse configurazioni di moto Figura-Sfondo.
1.3. Organizzazione del sistema visivo
Per comprendere il valore di questo lavoro si deve premettere che il sistema visivo
� formato da molte aree distinte che elaborano il segnale visivo in modo differente.
Nel macaco, un primate molto vicino all�uomo da un punto di vista evolutivo, la cor-
teccia visiva rappresenta circa il 50% dell�intera superficie corticale. In quest�ampia
zona dell�encefalo sono state identificate almeno una trentina di aree diverse coinvol-
te nei processi visivi. Anche nell�uomo una notevole porzione del cervello � occupata
da aree pi� o meno direttamente correlate all�elaborazione dell�informazione visiva.
L�area cerebrale che riceve gli impulsi nervosi direttamente dalla retina, ovvero
dall�organo sensoriale deputato alla �traduzione� degli stimoli luminosi in segnali e-
lettrici, � chiamata corteccia visiva primaria (V1) [5]. La V1 � anatomicamente con-
-22-
nessa con molte aree visive di ordine gerarchico superiore che compiono ulteriori
analisi dell�input sensoriale. Per lungo tempo ci si era chiesti cosa succede quando
s�immagina un oggetto. Cosa accade nel cervello: si attiva solo una �rappresentazio-
ne verbale� dell�oggetto oppure anche una �rappresentazione visiva�? Molti studiosi
del campo hanno potuto �fotografare� l�attivit� del cervello negli istanti nei quali
soggetti umani rievocavano, ad occhi chiusi, l�immagine di un oggetto che gli era
stato mostrato in precedenza. In tal modo hanno potuto dimostrare che vi � una signi-
ficativa attivazione dell�area visiva primaria, oltre che di un certo numero di altre
aree visive. La loro scoperta implica che il ricordo di un oggetto induce l�attivazione
delle stesse aree cerebrali che sono attive quando vediamo l�oggetto stesso. In altre
parole quando c�immaginiamo un oggetto � come se lo rivedessimo anche se di fron-
te ai nostri occhi non c�� nulla.
Com�� organizzato questo sistema? L'organo sensoriale deputato alla trasduzione
della luce in segnali nervosi, la retina, si trova all�interno dell�occhio. Il compito di
tutte le altre strutture dell'occhio � di focalizzare sulla retina le immagini visive, con
la minima distorsione possibile. Nella retina esistono delle cellule specializzate, i fo-
torecettori, che captano la luce e la traducono in impulsi nervosi. Questi sono inviati
ad un�altra categoria di neuroni retinici, le cellule gangliari, dalle quali hanno origine
dei lunghi �cavi di connessione�, gli assoni, che mettono capo ad un nucleo sottocor-
ticale, detto corpo genicolato laterale. Dalle cellule di questo nucleo partono altre
terminazioni nervose che portano l�informazione sensoriale nella corteccia visiva
primaria (o area V1). Questa regione si trova nella porzione posteriore del cervello, il
lobo occipitale. Nel nucleo genicolato laterale, gli assoni delle cellule gangliari pro-
venienti da ciascun occhio sono separati: quelle provenienti da un occhio si alternano
con quelle provenienti dall�altro. A loro volta gli assoni dei neuroni del corpo
genicolato laterale terminano in aree ristrette della corteccia visiva.
-23-
Qui le terminazioni corrispondenti all�occhio destro si alternano a quelle dell�occhio
sinistro, formando le cosiddette �colonne di dominanza oculare�.
1.4. Il neurone
Il neurone (Fig. 16) � una cellula altamente specializzata, finora ritenuta incapace
di autoriprodursi, costituita essenzialmente da quattro parti principali: un corpo cellu-
lare o soma, delle arborizzazioni dette dendriti, un prolungamento per la trasmissione
dei segnali nervosi detto assone, la cui parte finale si ramifica in un numero pi� o
meno grande di collaterali. Il soma contiene il nucleo cellulare e un gran numero di
strutture che sovrintendono ai processi vitali della cellula; la sua forma varia conside-
revolmente a seconda del tipo di neurone. I dendriti hanno come funzione principale
quella di ricevere i messaggi nervosi provenienti da altri neuroni, di combinarli e di
trasmetterli, attraverso la membrana cellulare, verso la parte centrale della cellula. Il
segnale nervoso, di natura elettrochimica, ha origine dal punto in cui l'assone fuorie-
sce dal soma e, mediante complessi meccanismi di scambio ionico ormai in gran par-
te noti, si propaga attraverso l'assone (che pu� essere lungo anche fino a 1 metro nel-
l'uomo) fino ai collaterali, con velocit� che possono raggiungere anche i 100 metri al
secondo.
-24-
Figura 1.2-Struttura schematica del neurone ( presa dal rif. [6] )
L'estremit� finale del collaterale termina in una struttura detta bottone sinaptico (fi-
gura 2.3) che forma una giunzione solitamente con un dendrite (sinapsi asso-
dendritica). Il bottone sinaptico � in realt� separato dalla superficie del dendrite da
uno spazio intersinaptico riempito di fluido extracellulare; all'arrivo dell'impulso
nervoso, dall'interno del bottone sinaptico vengono emessi pacchetti di sostanze chi-
miche dette neurotrasmettitori, che superano lo spazio intersinaptico e sono assorbite
attraverso la membrana post-sinaptica.
-25-
Figura 1.3- Struttura di una connessione sinaptica ( presa dal riferimento [7]).
La presenza e la distribuzione di vari tipi di ioni (sodio, potassio e diversi altri) sia al-
l'interno sia all'esterno del corpo cellulare, come pure la permeabilit� selettiva della
membrana cellulare alle varie specie ioniche, fanno s� che in condizioni di riposo l'in-
terno del neurone si trovi ad un potenziale di circa -70 mV rispetto all'esterno (poten-
ziale di membrana a riposo). La stimolazione di tale potenziale verso valori pi� posi-
tivi (depolarizzazione), che pu� essere provocata sia artificialmente sia mediante op-
portuna concentrazione di determinati tipi di neurotrasmettitori, quando supera i -65
mV, d� luogo (Fig. 18) ad un aumento improvviso del potenziale fino a valori di cir-
ca +40 mV e ad un successivo immediato abbassamento fino a circa -80 mV (iperpo-
larizzazione), seguito poi da un lento ritorno al valore di riposo; questo fenomeno di
rapidissima inversione del potenziale di membrana, della durata approssimativa di
2-3 msec, � detto potenziale d�azione, e una volta generato si propaga lungo tutto
-26-
l'assone, sotto forma di impulso nervoso. Raramente l'impulso nervoso � isolato, anzi
in generale l'informazione trasmessa � strutturata in treni periodici di impulsi, la cui
massima frequenza � tuttavia limitata dalla durata del periodo di iperpolarizzazione,
entro il quale non pu� mai insorgere un nuovo potenziale d'azione.
Figura 1.4- Potenziale di membrana del neurone in funzione del tempo; l'eccitazione avviene
all'istante t = 0.
Ogni giunzione sinaptica � caratterizzata dal tipo di neurotrasmettitore che essa � in
grado di liberare: vi sono sostanze neurotrasmettitrici, come l'acetilcolina, in grado di
favorire la scarica del neurone, mentre altre, come la dopamina o l'acido gamma-
amminobutirrico, la rendono pi� difficoltosa; le corrispondenti giunzioni sinaptiche
vengono allora dette rispettivamente eccitatorie ed inibitorie.
Le reti costituite dall'interconnessione dei neuroni (dette talvolta reti neuronali, per
distinguerle da quelle formate da neuroni artificiali) sono estremamente complesse.
Ciascun neurone pu� formare sinapsi con un gran numero di altri neuroni, da 1000 a
60
40
30
0
-20
-40
-60
-80
- 100
0 1 2 3
mV
msec
-27-
10000 in genere; certi tipi di neuroni del cervelletto (cellule di Purkinje) arrivano a
formare fino a 150000 sinapsi con cellule analoghe ( riferimento [4]). Un esempio
molto significativo della complessit� delle reti nervose e del numero di elementi che
le costituiscono � dato senza dubbio dal sistema visivo dell'uomo: la retina � costitui-
ta da circa 125 milioni di cellule nervose specializzate, i fotorecettori, in grado di
convertire la luce in segnali nervosi; questi segnali vengono preelaborati localmente
mediante cinque strati di neuroni ed inviati attraverso il nervo ottico, costituito da
circa un milione di fibre assoniche, ad una struttura detta nucleo genicolato laterale
costituita da sei strati di neuroni, la quale a sua volta riceve ed emette segnali da e
verso la corteccia visiva primaria, disposta nel lobo occipitale dell'encefalo (riferi-
mento [8]); da qui, si dipartono grossi fasci nervosi verso le aree corticali preposte ai
processi mentali superiori, ancora praticamente inesplorate.
1.5. La formazione dell'immagine
Un qualsiasi processo di visione utilizza come dati di ingresso una o pi� immagi-
ni. Il concetto di immagine � molto importante per capire come un calcolatore possa
registrarla e utilizzarla. In un sistema per la visione artificiale, un�immagine si forma
quando un sensore registra la radiazione luminosa prodotta da una sorgente e riflessa
dagli oggetti fisici presenti nella scena. In termini geometrici il processo di forma-
zione dell'immagine viene determinato attraverso il modello della proiezione
prospettica. Secondo questo modello, per ogni punto della scena viene identificato un
punto dell'immagine che ne costituisce la proiezione su un piano, che viene indicato
come piano dell'immagine. In termini fisici, l'immagine � una distribuzione spaziale
dell'intensit� luminosa, in funzione, oltre che della posizione, anche del tempo e delle
-28-
caratteristiche di frequenza della sorgente di illuminazione e degli oggetti che costi-
tuiscono la scena. Il calcolatore, come dispositivo digitale, non pu� calcolare gran-
dezze continue, ma solo grandezze discrete. Per cui, la definizione operativa del con-
cetto di immagine, poich� oggetto di elaborazione, chiama in causa il problema del
rendere discrete le immagini (discretizzazione). Nel processo di formazione dell'im-
magine da parte di un elaboratore, ci sono due modi per considerare questo fenome-
no: la discretizzazione spaziale e la discretizzazione dell'intensit� luminosa.
Un�immagine � costituita da un numero finito di elementi, detti �pixel�, caratterizzati
da dei valori, le coordinate cartesiane, che ne permettono la localizzazione e da un
valore proporzionale all'intensit� luminosa del punto della scena corrispondente. An-
che la figura 1.1 � stata creata grazie ad uno scanner e quindi non � la realt�, ma rap-
presenta, piuttosto, una rappresentazione prospettica-discreta della realt�. Il processo
di acquisizione prevede che un�immagine venga �fermata� e memorizzata, per essere
utilizzata secondo le finalit� del sistema di visione artificiale. Un esempio classico di
acquisizione di immagine � l'impressione di una pellicola fotografica. Si possono
identificare alcune fasi fondamentali nel processo di acquisizione dell'immagine:
a) la scansione, in cui viene esplorata l'immagine da acquisire;
b) la trasduzione, attuata mediante un sensore, che prevede il passaggio dell'in-
tensit� luminosa a qualche altra grandezza di tipo elettrico (corrente o tensio-
ne);
c) il campionamento, che misura tali grandezze in un insieme discreto di punti;
d) la quantizzazione, che converte tali misure in quantit� numeriche, le quali
possono assumere un numero finito di valori;
e) il trasferimento di questi valori su un opportuno supporto, per esempio la
memoria del calcolatore.
-29-
30
40
60
51
52
50
30 40 60........50 51 52
Figura 1.5- Processo di acquisizione di immagine; la scena viene rappresentata prima da un se-
gnale elettrico, quindi da un insieme di numeri.
Nelle applicazioni di visione artificiale, lo strumento pi� utilizzato per le fasi di scan-
sione e trasduzione � la telecamera, nella quale l'immagine � proiettata direttamente
su una matrice di sensori, che rivelano la luminosit� di una porzione dell'immagine
stessa.
Le fasi successive, campionamento e quantizzazione, sono eseguite normalmente da
un unico dispositivo (convertitore A/D), che trasforma il segnale analogico prodotto
dalla telecamera in un segnale digitale sotto forma di una matrice, i cui valori, detti
livelli, corrispondono alle diverse intensit� luminose nei vari punti dell'immagine.
Telecamera
Segnale elettrico ottenuto
dalla scansione di una linea
orizzontale sull�immagine
Insieme di valori di intensit�
quantizzata sull�immagine
Valori campionati del
segnale analogico
Computer
t
t