Information Processing), sosterr c he le reti neurali non possono
essere un valido modello della mente, perchØ non sono dotate di
rappresentazione mentale di tipo simbolico. Se chi parla Ł di un critico
cognitivista piø amichevole, vi risponder c he le reti neurali sono
strumenti particolarmente adatti allo studio delle capacit c ognitive
basilari come la percezione, ma non le capacit superiori come il
linguaggio o la soluzione dei problemi. E se i risultati ottenuti con
simulazioni che utilizzano reti neurali forniscono buoni risultati ed
alcune suggestioni interessanti, questi modelli non possono
rappresentare, in ogni caso, una spiegazione del funzionamento
della mente.
Consideriamo la domanda dalla prospettiva positiva c he Ł quella da
noi condivisa: una rete neurale Ł un insieme di nodi o unit , tra loro
collegate da connessioni di diverso valore, detti anche pesi, che
concorrono all esecuzione di un compito. I nodi sono contraddistinti
da un livello d attivazione, cioŁ dal grado di contributo che ogni unit
fornisce al funzionamento della rete. Il contributo di ogni nodo Ł
sempre positivo, cioŁ il suo stato d attivazione Ł un numero sempre
compreso nell intervallo d attivazione, solitamente tra 0 e 1. I nodi
della rete sono raggruppati in strati; distinguiamo i nodi di input
perchØ non possiedono connessioni in arrivo, ma sono collegati con i
trasduttori degli stimoli esterni. I nodi di output che non hanno
connessioni in partenza, essendo collegati con i trasduttori di output
verso l esterno. I nodi interni o nascosti, nascosti dagli stimoli che
la rete riceve dall ambiente, possiedono, invece, sia connessioni in
partenza sia connessioni in arrivo. I nodi sono legati tra loro dalle
connessioni (l equivalente del complesso assone-sinapsi) che
veicolano il coefficiente d attivazione ai nodi successivi, questo
coefficiente Ł chiamato peso della connessione (vedi Fig.N.1).
Le connessioni sono di attivazione se il loro peso Ł positivo, di
inibizione se il peso Ł negativo; solitamente le connessioni sono
unidirezionali, cioŁ una connessione parte sempre da un solo nodo e
arriva ad un solo nodo. Ogni nodo, o unit , simula l attivit di un
singolo neurone o di gruppi di neuroni: il suo compito Ł diventare
!attivo se la quantit di segnali ricevuti Ł superiore al proprio valore di
soglia. I parametri che caratterizzano il valore di un nodo sono il suo
livello di soglia, i pesi e il tipo di connessioni che riceve e la funzione
d attivazione.
Figura N.1 Una semplice rete neurale multistrato con
quattro unit di input, due unit nascoste e tre unit di
output.
Il ruolo delle connessioni consiste nel comunicare al nodo yi
l attivazione presente nei nodi xj, trasformando i segnali di uscita di
ognuna di queste unit in segnali di inibizione o di eccitazione; i pesi
delle connessioni servono per incrementare o diminuire l intensit di
questi segnali. Il valore di soglia (bias) Ł equivalente ad una
connessione proveniente da un unit c he ha attivazione costante
uguale a 1; per facilit di calcolo, Ł spesso aggiunta all architettura di
rete un unit di bias, variamente connessa, che pu essere trattata
come un unit qualsiasi.
Il valore di un nodo Ł calcolato dalla formula:
yi = " # $ i % & ' ( ) jN wijxj - * j )
+
Funzione di attivazione
wij Pesi che partono dai nodi xj e arrivano al nodo yi
xj Valori dei nodi connessi al nodo yi
* j valore di soglia di yi (bias)
Strato di unit nascoste
Strato di unit di output
Strato di unit di input
,-
jN wijxj Viene spesso indicato con il nome di Input Netto o
Prodotto Interno
Figura N.2 Schema dell attivazione di un nodo di una
rete neurale.
Le reti neurali si caratterizzano secondo quattro parametri: architettura,
codifica dei segnali, funzione d attivazione e apprendimento.
L architettura della rete Ł la prima scelta importante che deve fare il
progettista, perchØ non tutte le reti svolgono i diversi compiti con gli
stessi risultati. Le architetture piø utilizzate sono le reti etero-
associative a uno o piø strati, cioŁ composte dalle sole unit di input ed
unit di output, normalmente dette Percettroni; oppure con uno o piø
strati di unit nascoste tra le unit di input e le unit di oputput,
chiamate anche Percettroni Multistrato. Le reti etero-associative sono
chiamate cos perchØ separano gli strati di input dagli strati di output, il
loro compito Ł di associare coppie dei rispettivi vettori, che
normalmente sono composti da un numero di elementi diversi.
Le reti etero-associtive prendono il nome di reti feedforward poichØ le
connessioni vanno sempre in un unica direzione, cioŁ dal livello
inferiore di unit a l livello superiore. Se invece vogliamo fornire
caratteristiche contestuali e temporali, dobbiamo inserire all interno di
questi strati alcune interconnessioni, che uniscono unit dello stesso
Prodotto Interno o
Input netto di yi
Funzione
d attivazione non
lineare di yi
W1
W2
W3
Wj
X1
X2
X3
Xj
.
j
/strato oppure con uno strato precedente, permettendo di eseguire
un azione di feedback. Nel caso di reti ricorrenti la formula
dell attivazione del nodo diventa:
t t t t-1
yi = 0 1 2 i 3 4 0 1 5 jN wijxj + c 5 lM rljqj - 6 j )
t
yi segnale all istante t
t
xi attivazione dei nodi xi all istante t
c costante di ricorsivit , percentuale del segnale che giunge
dalle unit di memoria
rlj pesi sulle connessioni ricorrenti
t-1
qj attivazione dell unit di memoria, che corrisponde al
segnale dell istante t-1
L altro tipo di architettura utilizzata sono le reti auto-associative, cos
chiamate perchØ sono composte da un unico strato di unit ; ogni unit
riceve il segnale, oltre che dall esterno, anche da tutte le altre unit
dello strato. In questo caso si dice che la rete Ł interamente connessa;
Ł possibile avere anche modelli a connettivit parziale, a seconda del
compito da eseguire. Nelle reti auto-associative normalmente non
esistono auto-connessioni e valori di soglia. L attivazione di una rete
auto-associativa Ł data da:
yi = 0 1 2 i 3 4 0 7 8 j + 9 j : ; wijyj )
Ij Ł l input esterno dell unit i-esima
wij sono i pesi di tutte le unit c onnesse all unit i-esima
yj sono tutte le unit della rete, ad esclusione dell i-esima
<
Le reti auto-associative sono utilizzate soprattutto nella ricostruzione
di pattern e nel riconoscimento di immagini, cioŁ quando il loro
compito Ł di recuperare un pattern o un immagine, in presenza di un
input incompleto o danneggiato, trovando la situazione d equilibrio
tra le unit e le loro connessioni. La codifica dei segnali Ł scelta in
relazione al tipo di funzione di attivazione che Ł scelta dal progettista:
possono essere valori binari [0,1], bipolari [1,-1] oppure valori reali,
continui, normalmente compresi tra [0,1] o [1,-1]. Se i dati raccolti
sono valori reali che provengono da una rilevazione empirica, Ł spesso
comodo normalizzarli statisticamente, cioŁ rendere l ampiezza di
ciascun vettore uguale a 1.
xi
xi =
= jN xj2
La formula precedente permette di ottenere il valore normalizzato: si
divide ogni elemento del vettore per l ampiezza del vettore, che Ł la
radice quadrata della somma dei quadrati di ogni elemento del vettore.
Queste scelte si ripercuotono sui calcoli matematici dell algoritmo di
apprendimento e, quindi, sui costi in termini di risorse computazionali
utilizzate.
La codifica pu essere locale quando ciascuna unit c orrisponde ad un
oggetto, oppure distribuita se piø unit c ontribuiscono a rappresentare
un oggetto. Evidentemente la codifica locale Ł molto piø semplice da
implementare a livello di progettazione, ma comporta una serie di
limitazioni: per prima cosa Ł biologicamente non plausibile la
corrispondenza biunivoca tra oggetti e neuroni, il famoso neurone
della nonna della letteratura specializzata, poi richiede di conoscere in
anticipo il numero di oggetti che sono presentati alla rete, e, infine, Ł
particolarmente fragile e poco resistente al rumore e ai danneggiamenti.
>Un livello di disturbi molto alto o una lesione ad una sola unit
comporta la perdita totale della conoscenza relativa all oggetto
corrispondente. La codifica distribuita Ł leggermente piø complicata ma
evita i problemi della codifica locale, e perci Ł preferita e utilizzata
nella quasi totalit degli esperimenti. Un oggetto Ł rappresentato dalla
combinazione delle varie unit , in modo da garantire robustezza alla
rete e la possibilit di riconoscere anche nuove configurazioni senza
aggiungere ulteriori unit . A volte Ł utilizzato un approccio intermedio,
in cui ad ogni nodo corrisponde una caratteristica (feature) dell oggetto
come il colore, la forma, ecc. In questo approccio ogni unit
rappresenta una codifica grezza (coarse), e l oggetto Ł dato dalla
combinazione delle diverse codifiche (D.Floreano, 1996, p. 43). Questo
approccio, per , appare affetto dagli stessi problemi della codifica
locale: passando dal livello degli oggetti a quello delle caratteristiche,
si cerca di posticipare la risposta che per non c Ł. Il danneggiamento
di una unit c omporta necessariamente la mancanza della feature
corrispondente e ci si ritrova al punto di partenza: magari l oggetto Ł
riconosciuto per la combinazione delle altre caratteristiche, per la rete
appare comunque piø fragile dei sistemi biologici.
Un altro tipo di codifica distribuita Ł ricavata dalla sovrapposizione
parziale di codifiche grezze; Ł utilizzato soprattutto nei modelli
percettivi dove l intero campo percettivo Ł sezionato da recettori per le
diverse regioni. Guardando la situazione dal punto di vista vettoriale,
un pattern Ł un vettore multi-dimensionale, in cui ogni unit del quale
rappresenta una dimensione: oggetti simili si trovano cos sistemati
vicini tra loro, facilitando la classificazione e la generalizzazione della
rete. La codifica distribuita Ł, per , affetta dal binding problem: due
oggetti presentati contemporaneamente ad una rete neurale sono
codificati e raggruppati in un unico pattern. Una possibile risposta va
cercata nel campo della grammatica visiva , ipotizzando che i diversi
oggetti siano rappresentati da diverse popolazioni di neuroni, che si
sincronizzano e si attivano contemporaneamente, e che si distinguono
dall area generale che rappresenta lo sfondo. La scelta della codifica e,
quindi, anche la selezione dei pattern di input Ł parte fondamentale
della progettazione di esperimenti con le reti neurali: una qualsiasi rete
? @
neurale pu apprendere un compito determinato, se le sono presentati
pattern di input sottoposti ad un adeguata pre-elaborazione e
l opportuna rappresentazione (J.Hertz A.Krough R.G.Palmer,
Introduction to the theory of neural computation, Addison-Wesley,
1991 Reedwood City, citato in D.Floreano, 1996).
La funzione di attivazione Ł il terzo parametro nella scelta della
progettazione di una rete neurale e definisce che risposta l unit deve
fornire. Nella maggior parte dei modelli tutte le unit della rete, tranne
quelle di input, utilizzano la stessa funzione di attivazione (D.Floreano,
1996). Le funzioni normalmente utilizzate sono le funzioni a gradino,
che fu la prima utilizzata da McCulloch e Pittis nel 1943, semplici
funzioni lineari e la funzione sigmoide o logistica, la piø utilizzata dagli
anni 80 in avanti.
La funzione a gradino Ł cos definita:
A B C D E F
G H
D I J
0 altrimenti
K L M N O P N Q R L S M T L U V W L R M Q R L P N O P N Q R L S M U Q X N M P Y Z [ [ \ ] Z ^ _ ` a b c d Z
uguale a 1, altrimenti y Ł uguale a 0; alternativamente la funzione pu
diventare bipolare se y Ł uguale a 1 nel caso in cui x e f g
La funzione lineare Ł la seguente:
h i j k l m j
n o p q r s t u v w x y z { | }
Y
0.50
0.25
~ | ~ { ~ z ~ ~ x x z { | }
Y
0.50
0.25
-0.25
-0.50
Si tratta di una banale funzione lineare dove k Ł una costante; spesso i
risultati di questa funzione possono essere forzati perchØ siano sempre
contenuti nel dominio [0,1] oppure [-1,1]. Il vantaggio di questo tipo
di funzioni d attivazione Ł che permettono di trasmettere alle unit
segnali di diversa intensit c onsentendo, cos , di sfruttare l effetto di
inibizione laterale riscontrati nei neuroni biologici.
La funzione sigmoide o logistica Ł la seguente:
1
1 + e-kx
Nella formula precedente, k Ł una costante che Ł in relazione con
l inclinazione della curva; se k tende all infinito, la curva si
approssima alla funzione a gradino. Si tratta di una funzione asintotica
verso 0 e 1. Per applicazioni che richiedono una funzione bipolare, si
utilizza la funzione tan(kx), che ha estremi asintotici in 1 e 1. Questo
tipo di funzioni sono le piø utilizzate negli esperimenti che hanno
portato vari ricercatori a scoprire, quasi contemporaneamente,
l algoritmo di apprendimento chiamato backpropagation.
L ultimo parametro di cui discuteremo Ł il tipo di apprendimento cui la
rete neurale Ł sottoposta per arrivare ad eseguire il compito desiderato.
Esistono due classi di algoritmi di apprendimento: supervisionati ed
auto-organizzanti. La distinzione tra essi Ł rappresentata dalla presenza
o dall assenza di un insegnante che aiuta la rete neurale ad apprendere.
La scelta dell algoritmo dipende dal tipo di compito che si desidera
eseguire: per compiti di tipo linguistico, un insegnante Ł necessario per
raggiungere una buona competenza linguistica. Per compiti percettivi
non esiste nessuna prova di un istruttore interno che ci dica quando i
nostri sensi sono tratti in inganno.
Ł Ł
Y
1.00
0.75
0.50
0.25
Gli algoritmi auto-organizzanti non prevedono un supervisore esterno
che fornisca alla rete un indicazione della giusta soluzione di un
problema. Le loro procedure di modifica dei pesi delle connessioni si
ispirano alla regola di Hebb: due unit sono collegate da una
connessione; ogni qual volta entrambe le unit sono attive, la
connessione Ł rinforzata (D.Hebb, 1949). Hebb, insieme a C.L.Hull e
E.Thorndike, Ł considerato il padre delle teorie connessioniste e degli
esperimenti con reti neurali; egli scopr questo meccanismo di
apprendimento, a volte chiamato con rinforzo, che Ł uno dei pochi ad
avere evidenza biologica e neurofisiologica. In questo modo basta che
sia attivata l unit pre-sinaptica per attivare contemporaneamente anche
l unit post-sinaptica. La regola di Hebb Ł poi stata migliorata
prevedendo anche la possibilit di ridurre il peso della connessione nel
caso in cui sia attiva l unit pre-sinaptica e non l unit post-sinaptica
(regola hebbiana pre-sinaptica), oppure nel caso contrario (regola
hebbiana post-sinaptica). La regola di Hebb prevede unicamente
l incremento del peso della connessione: ci non p ermette di
riconoscere pattern che hanno elementi attivi in comune. Per superare
questo problema sono state inserite le modifiche pre-sinaptiche (tale
regola Ł di maggiore evidenzia biologica) e post-sinaptica.
La regola di Hopfield o regola della covarianza Ł una combinazione
delle regole precedenti: il peso sulla connessione Ł incrementato
quando l unit pre-sinaptica Ł nello stato dell unit post-sinaptica,
mentre Ł decrementato quando solo una delle unit Ł attiva. In base a
questi semplici meccanismi una rete neurale sottoposta a diversi
pattern di apprendimento pu modificare i propri pesi e riconoscere
ed estrarre le componenti principali dei vettori di input sia a livello di
connessioni locali che a livello globale di tutta la rete. Una variante di
questi modelli sono quelli che funzionano in base a meccanismi di
competizione: ciascuna unit occupa una precisa posizione nello strato
e possiede connessioni laterali con le altre unit . Lo scopo di ogni
unit Ł risultare vincente nella gara alla segnalazione del pattern. Le
connessioni laterali di ogni unit a rrivano ad un area circoscritta che
ha un forma caratteristica detta a cappello messicano di cui Ł stata
riscontrata evidenza neurofisiologica nello studio dei sistemi di
inibizione laterale del sistema nervoso centrale e del nucleo
genicolato laterale. Per quanto riguarda la plausibilit biologica e le
somiglianze tra le reti neurali artificiali ed i sistemi intelligenti
naturali, cfr. A.J.Anderson, An introduction to Neural Networks, 1995,
ben descritti nel primo e secondo capitolo.
Le attivazioni dei neuroni immediatamente vicini al neurone vincente,
sono molto forti mentre sono di tipo inibitorio per le unit successive
che si trovano all interno del cosiddetto anello d inibizione e, attorno
all anello d inibizione si ha un ultimo anello di eccitazione molto
bassa. Le applicazioni piø importanti dei modelli auto-organizzanti
sono le mappe topologiche di Kohonen che funzionano a bolle
d attivazione, le reti WTA, Winner Takes All, versione semplificata
del modello precedente che non possiede le relazioni geometriche
degli anelli d attivazione, ed i modelli di Grossberg. Questi ultimi
sono basati sulla teoria della Risonanza Adattiva elaborata da
Grossberg per rispondere al dilemma della stabilit -plasticit : come
pu un sistema auto-organizzante rimanere plastico nel confronto di
nuovi pattern che gli sono proposti, senza perdere le informazioni
memorizzate nelle presentazioni precedenti? Grossberg ha proposto
un architettura particolare in cui lo strato degli input svolge anche
compiti di comparazione, mentre lo stato di output esegue anche il
lavoro di riconoscimento. Per una trattazione generale di questi
modelli, cfr. D.Floreano, 1996, e J.Anderson,1995. Per uno studio piø
approfondito, si rimanda alla bibliografia alla fine dei suddetti libri.
L altra classe di algoritmi di apprendimento Ł quella con supervisore:
la modifica dei pesi sulle connessioni avviene in funzione della
differenza tra l output realmente prodotto dalla rete e le indicazioni
sempre esatte fornite da un insegnante esterno alla rete. Questi modelli
permettono una maggiore facilit di calcolo e semplicit c oncettuale e,
perci , sono utilizzabili a livello didattico, sono stati scoperti
cronologicamente prima, e forniscono risultati spesso migliori delle
reti auto-organizzanti nello svolgere lo stesso compito: tuttavia la loro
plausibilit biologica Ł molto bassa e ci non toglie che siano i piø
utilizzati.
Gia il percettrone di Rosenblatt del 1962 utilizzava un algoritmo di
tipo supervisionato e i successivi modelli di reti neurali hanno
utilizzato procedure d addestramento ispirate alla regola delta o a
discesa del gradiente che ampliano l apprendimento del percettrone
che usava funzioni d attivazione a gradino anche per funzioni continue
e differenziabili. La regola delta si chiama cos perchØ la modifica dei
pesi delle connessioni avviene sulla base dell errore calcolato sulla
differenza (delta) tra teaching input e output reale. L errore, o
funzione di costo, Ł calcolato come la sommatoria degli scarti
quadratici medi di ogni coppia di risposta desiderata e risposta reale, e
la sua formula Ł
1
EW j i (tji yji)2
2
EW funzione d errore o di costo
ti valori d output atteso (teaching input)
yi valori realmente prodotti dalla rete uguale j wij xj
Compito dell algoritmo di apprendimento Ł la riduzione dell errore
EW, attraverso la modificazione dei pesi delle connessioni che
contribuiscono all attivazione delle unit yji. Tale cambiamento avr
segno contrario all errore e pu essere visto come il rapporto tra la
derivata dell errore d EW e la derivate dei pesi d wij:
d EW
ij = j i (tij yij)xij = j i ijxij
d wij
tasso d apprendimento
ij delta o differenza tra output atteso e output reale
d EW derivata prima della funzione d errore
d wij derivata prima dei pesi delle connessioni
La regola delta Ł un algoritmo che permette alla rete di trovare una
configurazione dei pesi delle connessioni che corrisponde al valore
minimo della funzione d errore EW. Il tasso apprendimento Ł la
costante che guida questa ricerca: se Ł molto alto, si rischia di non
trovare il limite inferiore della funzione d errore, ma solo un minimo
locale; se Ł troppo piccolo, si raggiunge il limite inferiore della
funzione d errore, ma il tempo ed il numero di presentazioni cresce in
modo esponenziale. Normalmente Ł usato un tasso d apprendimento
compreso tra 0.1 e 1.0. Questo algoritmo, per , funziona unicamente
per reti feedforward con un unico strato di connessioni, cioŁ per una
rete formata solo da unit di input e unit di output; come possiamo
utilizzare questo algoritmo per le reti neurali multistrato? La risposta si
trova nell algoritmo di backpropagation che altro non Ł che
un estensione ed una generalizzazione della regola delta.
Questo algoritmo Ł stato scoperto gi negli anni 70 da diversi studiosi
indipendentemente, per essere ripreso ed ampliato negli anni 80 dal
gruppo PDP (D.Rumelhart-J.McClelland, 1986, Vol.1, cap.8; per
conoscere gli altri studiosi che sono giunti a questa formulazione si
veda D.Parisi, 1989a, cap.2) ed ha rappresentato una nuova spinta per
l uso e lo studio delle reti neurali e, attualmente, Ł l algoritmo piø
utilizzato e conosciuto. Consideriamo una rete neurale con uno strato di
input, uno strato di unit interne ed uno strato di unit di output. Per
quanto riguarda le connessioni che partono dalle unit interne alle unit
di output, la loro modifica segue la regola delta descritta in precedenza.
Si calcola, quindi, l attivazione delle unit interne, poi l attivazioni
delle unit di output e si confrontano queste ultime con gli output attesi.
Lo scostamento tra i valori attesi e i valori reali Ł riportato a ritroso
nelle connessioni per modificare i pesi e le unit degli strati nascosti. Il
cambiamento dei pesi delle connessioni risulta per lo strato delle unit
di output uguale a:
¡
ij ¢ £ ¤ j ¤ i ¥ ijxij ¢ £ ¤ j ¤ i (tij yij ¦ § ¨ © ij) xij
Il cambiamento dei pesi delle connessioni per lo strato delle unit
nascoste diventa, invece:
ª «
¬
ij ® ¯ ° j ° i ± ijxij ® ¯ ° j ° i ² ³ ´ ij) wmi ± mi
dove wmi sono i pesi che le unit nascoste ricevono dal livello
superiore (in questo caso le unit di output, indicate con l indice m) e
± mi Ł il delta calcolato per le unit di output al livello m. E quindi
possibile ripeter questo algoritmo in modo ricorsivo per reti con piø
starti di unit nascoste. Questo algoritmo Ł abbastanza potente, ma
lento. Negli ultimi anni sono stati portati dei correttivi per renderne
meno gravante il carico computazionale.
Come per la regola delta, anche nella backpropagation esistono
problemi legati alla scelta del tasso di apprendimento. Una soluzione
possibile Ł sostituire la variazione completa dei pesi sulle connessioni
con una loro frazione che prende il nome di momentum. Il momentum
rappresenta la quantit d inerzia con cui sono modificate le connessioni
rispetto all istante precedente in modo da ridurre la possibilit di
permanenza dell errore in minimi locali e, quindi, di utilizzare tassi di
apprendimento piø alti che consentono apprendimenti piø veloci. Altre
soluzioni consentono di ridurre la funzione di errore senza utilizzare la
backpropagation con altri algoritmi come la quickpropagation o la
cascade correlation, che qui non descriveremo (per la parte matematica
e la spiegazione algoritmica, D.Floreano, 1996).
Un tipo particolare di supervisore esterno Ł quello utilizzato dagli
apprendimenti di tipo competitivo. In questo caso non esiste un
insegnante che fornisce la risposta esatta desiderata, ma un critico
esterno che valuta le risposte fornite realmente dalla rete fornendo
rinforzi o penalizzazioni. Normalmente il critico esterno alla rete Ł
l ambiente in cui Ł inserita la stessa rete che, quindi, deve generare una
serie di valori casuali che gli permetta un esplorazione dello spazio
delle soluzioni finalizzata alla ricerca di quelle risposte che ricevono
rinforzi positivi. Il parametro centrale di questi tipi di algoritmo Ł il
tipo di ambiente in cui sono testate le reti neurali: statico (o stocastico)
se per ogni coppia input-output esiste sempre un determinato valore di
rinforzo o penalizzazione; dinamico quando, prima di ricevere la
valutazione da parte del critico, la rete deve eseguire una serie di
µ ¶
azioni. In questo caso la rete deve avere un critico, o selettore
stocastico interno, che svolga il compito di valutazione.
Questi algoritmi sono un passo ulteriore verso la plausibilit biologica
delle reti neurali perchØ sono finalizzati al superamento della
backpropagation; infatti le prestazioni in ambienti statici sono
identiche a quelle che si ottengono in ambienti dinamici, senza, per ,
dover teorizzare connessioni retroattive che propaghino lo scarto
dall output all interno. In questi modelli l unico segnale di rinforzo, o
penalizzazione, presente per ogni unit Ł utilizzato per calcolare
l errore locale, mentre a livello globale il comportamento della
funzione d errore Ł lo stesso che applicando la backpropagation.
In realt e siste anche una terza classe di algoritmi di apprendimento
che, per , Ł spesso trattata separatamente dalle reti neurali perchØ il
paradigma di riferimento Ł quello della Vita Artificiale, che
rappresenta un evoluzione del Connessionismo. Tali algoritmi sono
chiamati genetici, e sono tecniche di ottimizzazione ispirate
direttamente all evoluzione naturale. Gli algoritmi genetici lavorano su
due piani distinti che riflettono le diverse prospettive dai quali si
possono affrontare i problemi: a livello ontogenetico sono studiate le
caratteristiche dell individuo, e a livello filogenetico si studiano le
conseguenze a lungo termine di queste caratteristiche. Nella Vita
Artificiale si studiano non singole reti neurali isolate in situazioni assai
lontane dalla realt , bens intere popolazioni di reti neurali, che come
piccoli organismi nascono in un ambiente con il proprio patrimonio
genetico di caratteristiche fisiche, sono aiutati dagli organismi adulti
ad apprendere quei comportamenti necessari al prolungamento della
vita, modificano e si adattano all ambiente, si riproducono generando
nuovi organismi e muoiono di morte biologica o per incapacit di
sopravvivenza nell ambiente nel quale sono collocati.
Gli algoritmi genetici si basano su tre operatori: la riproduzione
selettiva, la ricombinazione genetica e la mutazione. La valutazione
degli individui Ł affidata ad una funzione di fitness che rappresenta
l equivalente della selezione naturale.