ii
passaggio dalle equazioni differenziali di bilancio a sistemi discretizzati, ad esempio per
problemi di stabilità e di convergenza.
Se le equazioni del modello risultano fortemente accoppiate, generalmente i metodi usuali di
risoluzione comportano lunghi processi iterativi. Ulteriori complicazioni della soluzione possono
derivare dalle caratteristiche intrinseche del sistema, ad esempio nel caso di instabilità, per le
quali può essere richiesto un notevole aumento del numero di nodi che compongono la maglia di
discretizzazione spazio-temporale. Quindi, spesso, i tempi di simulazione risultano maggiori di
alcuni ordini di grandezza del tempo reale dei transitori. Questo fatto, che porta a delle difficoltà
già in sede di progetto, non è certamente accettabile nel momento in cui il programma di calcolo
deve svolgere le funzioni di simulatore di processo, ad esempio per il controllo diretto
dell’impianto o per l’addestramento del personale.
Varie soluzioni a differenti livelli possono essere adottate per ridurre i tempi di calcolo:
semplificare il problema, linearizzare le equazioni, utilizzare macchine multi-processore che
possano lavorare in parallelo. Purtroppo la prima soluzione non è sempre possibile; la seconda
impedisce di utilizzare i programmi in situazioni di non linearità in cui le quantità linearizzate
varino fortemente; l’ultima, oltre a comportare elevati costi di hardware, richiede tecniche di
programmazione non semplici.
In sostanza, spesso, la simulazione dell’evoluzione di un processo fisico mediante il metodo
classico attuato con calcoli iterativi ed integrazioni numeriche è troppo dispendioso, anche
avendo a disposizione calcolatori molto potenti.
In questo ambito si inserisce l’utilizzo delle reti neurali artificiali quale strumento di calcolo
alternativo veloce ed efficace.
Nonostante la mancanza di una comprensione totale del funzionamento delle reti neurali
artificiali, il loro carattere parallelo e multi-parametrico e la loro elevata velocità di calcolo ha
permesso che si affermassero come strumento computazionale in molti campi di ricerca ed
applicazioni, soprattutto laddove le tecniche tradizionali comportano lunghi tempi di
elaborazione o nei casi in cui risulta particolarmente complicato definire il modello fisico-
matematico.
Una delle applicazioni più recenti è nell’analisi di sicurezza con approccio probabilistico (PSA,
dall’acronimo delle parole inglesi Probabilistic Safety Assessment), la quale, usualmente, si basa
sull’utilizzo dell’albero degli eventi e dell’albero dei guasti che sono tecniche statistiche che non
sono in grado di descrivere in maniera dettagliata l’evoluzione fisica dell’impianto. Questo può
diventare un problema quando l’impianto da studiare presenta forti caratteristiche di dinamica,
cioè quando il funzionamento e la rottura di componenti sono fortemente influenzati dai valori
iii
che le variabili di processo assumono durante l’evoluzione. Negli ultimi anni, si è dunque
sviluppato un filone di ricerca per lo sviluppo di un approccio dinamico all’analisi probabilistica
di rischio che può essere affrontato con l’utilizzo delle reti neurali, grazie non solo alla loro
abilità a rispondere in tempi brevi ma anche alla capacità a riconoscere e classificare le
informazioni anche se queste sono incomplete o affette da rumore statistico.
I vantaggi che derivano da un approccio con le reti neurali emergono non solo per quanto
riguarda la velocità di calcolo ma in ognuno dei tre punti descritti sopra per lo sviluppo di un
codice di simulazione: infatti, in teoria non è più necessario risolvere le equazioni differenziali
del problema ma è sufficiente disporre di una certa quantità di dati che forniscano una
panoramica completa del funzionamento del componente. Al limite può non essere nemmeno
necessario avere compreso completamente la fisica che governa l’evoluzione delle varie
grandezze, perché diventa compito della rete attuare questo processo, seppur attraverso una sua
rappresentazione interna spesso poco intuitiva.
In realtà, essere a conoscenza delle relazioni fisiche che legano le grandezze che si vogliono
simulare con quelle che agiscono sul componente (in pratica uscite ed ingressi della rete neurale)
ha una certa importanza poiché diventa più semplice realizzare la configurazione neurale
desiderata: è infatti controproducente inserire in uno schema neurale degli ingressi che non
hanno effetto su alcune uscite o, peggio ancora, dimenticarsi alcuni ingressi. Per questo, oggi è
ancora necessario fare precedere ad una trattazione con le reti neurali artificiali uno studio
tradizionale del problema che si vuole affrontare.
Una risposta a questo “inconveniente” viene dalle reti neurali auto-adattative che hanno la
possibilità di stabilire autonomamente quali siano i legami ingressi-uscite da mantenere e quali
no, senza avere bisogno di una supervisione umana, consapevole delle regole fisiche che
governano i processi che si stanno studiando. Chiaramente entro ragionevoli limiti.
CAP.1 – PRINCIPALI CARATTERISTICHE DELLE RETI NEURALI
1
1 PRINCIPALI CARATTERISTICHE DELLE RETI NEURALI
Capitolo 1
PRINCIPALI
CARATTERISTICHE
DELLE RETI NEURALI
CAP.1 – PRINCIPALI CARATTERISTICHE DELLE RETI NEURALI
2
1.1 CENNI BIOLOGICI SULLE RETI NEURALI NATURALI
L’elemento base della struttura neurale del cervello umano è il neurone.
L’analisi dettagliata della struttura interna delle cellule neurali (figura 1-1) ha rivelato che tutti i
neuroni sono costituiti dalle stessi elementi base: una zona centrale, soma, dalla quale partono
molte ramificazioni di forma tubolare: i dendriti e l’assone che termina con numerose
ramificazioni. Il collegamento tra la parte finale di un assone ed un altro neurone è chiamata
sinapsi.
Fig. 1-1: Neurone del cervello
I dendriti hanno la funzione di ricevere i segnali dai neuroni adiacenti, mentre l’assone di
trasmettere agli altri neuroni l’attività generata. Nella corteccia cerebrale dell’uomo si stima che
ogni neurone riceva in ingresso in media 10000 sinapsi e fornisca migliaia di uscite.
Considerando che il numero totale di neuroni nella corteccia cerebrale è stimato pari a 3⋅1010 e
CAP.1 – PRINCIPALI CARATTERISTICHE DELLE RETI NEURALI
3
utilizzando la media delle connessioni sinaptiche per ogni neurone si giunge alla cifra di 1015
connessioni sinaptiche, la maggior parte delle quali si formano nei primi mesi di vita.
Questo grande numero di neuroni, altamente connessi tra loro (figura 1-2), permette un elevato
parallelismo di elaborazione ed un’elevata capacità di immagazzinamento di informazioni.
Soprattutto, tale intreccio di vie di comunicazione rende possibile la reperibilità di
un’informazione per vie diverse e la possibilità di utilizzare la stessa informazione in contesti
differenti. Cioè il cervello umano può, dopo aver appreso determinate informazioni,
generalizzare ed estrapolare nuove informazioni simili a quelle con cui è stato addestrato.
Fig.1-2: Fotografia al microscopio elettronico di alcuni neuroni
In sostanza il corpo del neurone agisce come una specie di sommatore che addiziona gli effetti di
depolarizzazione dei suoi segnali di ingresso. Quando il valore totale del potenziale di
depolarizzazione nel corpo della cellula raggiunge una soglia critica (circa 10 mV) il neurone si
attiva.
L’intensità di una connessione sinaptica non è fissata per sempre, ma può venire modificata se il
suo livello di attività cambia: una sinapsi attiva che ripetutamente provoca l’attivazione del suo
neurone postsinaptico tenderà a crescere di intensità, mentre le altre si indeboliranno. Questo
meccanismo, detto di plasticità sinaptica, sembra ricoprire un ruolo determinante nel processo di
apprendimento.
CAP.1 – PRINCIPALI CARATTERISTICHE DELLE RETI NEURALI
4
1.2 GENERALITÀ SULLE RETI NEURALI ARTIFICIALI
Con la locuzione ‘reti neurali artificiali’ si definiscono quei sistemi computazionali ingegneristici
modellati sulle capacità di apprendimento dei sistemi nervosi animali, cioè sulla struttura
altamente parallela del cervello. Esse costituiscono un sistema computazionale parallelo, con
molti elementi processanti, relativamente semplici, detti neuroni o nodi, interconnessi tra loro
che eseguono una mappatura tra lo spazio Ni-dimensionale degli ingressi e lo spazio Nl-
dimensionale delle uscite.
Le stesse modalità di funzionamento dei neuroni costituenti le RNA sono ispirate al modo con
cui si ritiene che i neuroni del cervello elaborino i segnali e gli stimoli che ad essi giungono.
La RNA può essere costruita fisicamente attraverso circuiti elettronici o implementata con
linguaggi di programmazione su un computer. La seconda scelta è la più semplice e versatile ed
è quella utilizzata in questo lavoro di tesi.
In sostanza si tratta di rappresentare i neuroni, gli assoni, i dendriti con delle entità informatiche
e matematiche, cioè variabili e funzioni che modellizzino la rete neurale naturale del cervello.
La differenza più sostanziale tra le reti neurali artificiali e la struttura biologica è nel numero di
neuroni e di connessioni, dato che in un’implementazione al computer si arriva a gestire al
massimo un migliaio di neuroni.
Le RNA sono oggi utilizzate in moltissimi campi includendo sia aspetti ingeneristici che teorici.
Le principali applicazioni possono essere riassunte in :
• Classificazione :un campione è presentato in ingresso alla rete che produce un’uscita indice
della corrispondente classe di appartenenza ;
• Completamento di immagini e parole :un campione incompleto è introdotto nella rete la quale
ricrea l’originale completo ;
• Ottimizzazione :si presenta un ingresso che costituisce lo stato iniziale di un problema ; in
uscita si ottiene un insieme di valori che costituiscono la soluzione del problema (classico
problema della simulazione, ad esempio, del funzionamento di un componente meccanico,
elettronico, nucleare o termoidraulico).
In particolare le potenziali applicazioni in campo nucleare includono :
• Simulazione del funzionamento di un componente ;
• Identificazione di guasti;
• Diagnosi di malfunzionamenti ;
CAP.1 – PRINCIPALI CARATTERISTICHE DELLE RETI NEURALI
5
• Identificazione di dinamiche e transitori non lineari ;
• Controllo della temperatura e della pressione durante l’avvio di un impianto nucleare di
potenza ;
• Monitoraggio delle valvole di controllo ;
• Monitoraggio dei parametri di impianto ;
• Analisi delle vibrazioni degli impianti e in macchine rotative.
È bene tenere presente che oggi le RNA costituiscono argomento di studio dal momento che non
è ancora ben chiaro il loro funzionamento, anche se si basa su elementi molto semplici. Infatti il
processo di ottimizzazione, che consiste nella ricerca dei vari parametri, è effettuato con processi
empirici che consistono nel provare varie configurazioni e scegliere quella che meglio risolve il
problema.
Come ogni sistema innovativo, anche le RNA presentano vantaggi e svantaggi rispetto ad un
approccio tradizionale. Questi possono essere riassunti come segue:
VANTAGGI
1) Elevata velocità di elaborazione : con le RNA si hanno elevate velocità di elaborazione
poiché non si affrontano calcoli complessi che su una macchina sequenziale determinano
elevati tempi di calcolo. Ciò è dovuto al fatto che la RNA esegue calcoli semplici ed in
parallelo (in realtà, se la CPU è unica, si tratta di una pseudo modalità parallela).
2) Solidità : in una risoluzione numerica, se un solo bit è sbagliato viene compromesso tutto il
calcolo; mentre con una rete neurale, gli errori che il computer, o la rete, deve compiere
devono essere molti prima che l’errore globale sia consistente.
3) Soluzione di problemi complicati : un approccio con le RNA non richiede che il problema
sia scomposto in tutte le sue operazioni logiche.
4) Generalizzazione : la RNA, una volta addestrata, è capace di predire valori sempre interni al
volume di addestramento ma che non coincidono con quelli dell’addestramento.
SVANTAGGI
1) Non trasparenza della RNA : dal momento che la RNA lavora in parallelo e attraverso delle
connessioni, non possiamo avere informazioni sulle operazioni logiche che avremmo svolto in
un sistema convenzionale.
2) Difficoltà nel controllo : risulta difficile sapere se i valori predetti dalla RNA siano giusti.
CAP.1 – PRINCIPALI CARATTERISTICHE DELLE RETI NEURALI
6
3) Tempi di addestramento lunghi : in base al tipo di RNA ed al calcolatore usato si può
andare da una decina di minuti a mesi.
4) Errore nella predizione : un programma di calcolo tradizionale, appositamente dedicato per
risolvere un problema, può fornire risultati con errori molto piccoli ;una RNA può
commettere errori molto maggiori.
Gli svantaggi più problematici sono certamente la lunghezza dei tempi di addestramento e
l’errore nella predizione che è figlio del primo, a meno di non avere a disposizione tempo e
calcolatori molto potenti.
Per quanto riguarda la simulazione di componenti di un impianto, una caratteristica interessante
dei metodi neurali consiste nel fatto che essi possono essere visti come collegamento tra
l’ingegneria e l’intelligenza artificiale, poiché, nel tentativo di riprodurre gli schemi
dell’apprendimento senso-motorio del cervello umano, utilizzano l’approccio matematico
dell’ingegneria e la metodologia sperimentale tipica del comportamento umano.
L’approccio neurale non risulta applicabile alla soluzione di quei problemi in cui non sono
verificate le ipotesi di convergenza dei teoremi di stabilità, in cui non è ammessa la possibilità di
fallimento del sistema di controllo e in cui non è possibile applicare metodi provati in caso di
fallimento.
Per quanto riguarda l’addestramento, esso richiede la disponibilità di un certo numero
(tipicamente alcune migliaia) di esempi. Essi possono venire dalla lettura della strumentazione
dell’impianto o da un programma di simulazione tradizionale, che d’ora in poi verrà chiamato
numerico e che inevitabilmente contiene delle semplificazioni. La prima via, la più naturale e
realistica, non è quasi mai utilizzata per la difficoltà nel reperire i dati così come servono e per la
loro accuratezza; la seconda, la più utilizzata, comporta che le previsioni fatte dalla RNA
saranno affette da un errore in più derivante, appunto, dalle approssimazioni presenti nei dati di
addestramento, oltre a quello commesso dalla RNA in quanto tale.
1.2.1 STRUTTURA DELLA RNA
Dal punto di vista matematico, una RNA è definita come un grafo diretto con le seguenti
proprietà:
• Una variabile di stato ni associata con ogni nodo i.
• Un peso reale, wi,k che lega il nodo i con il nodo k dello strato successivo.
CAP.1 – PRINCIPALI CARATTERISTICHE DELLE RETI NEURALI
7
• Una soglia reale θi associata con ogni nodo i.
• Una funzione di trasferimento fi(nk, wik, θi) definita per ogni nodo che di solito ha la forma
f w n
ik k i
k
( )−∑ J .
La topologia di rete neurale utilizzata in questo lavoro è del tipo feed-forward (non include
nessun cammino chiuso) con un solo strato nascosto, come si vede in figura 1-3.
[Wji]
[Wlj]
Fig. 1-3 : Rete neurale artificiale
Le sinapsi sono costituite da valori reali wji e wlj, attraverso le quali il segnale è elaborato e
ricevuto dai nodi successivi.
Nello schema di figura 1-3, e nella successiva trattazione, si utilizzano i seguenti indici :
i : nodi di ingresso (1..ni)
j : nodi nascosti (1..nj)
l : nodi di uscita (1..nl)
Considerato lo schema sopra riportato è possibile calcolare i termini in ingresso e uscita dai nodi
che costituiscono la rete :
Valore passato all’i-esimo nodo di ingresso : Ii
Valore di uscita dall’i-esimo nodo di ingresso : ( )O f I
i i
=
Valore di ingresso nel j-esimo nodo nascosto : I O w
j i ji
i
n
i
=
=
∑
1
Ni=1 Ni=2 Ni=3
Nj=1 Nj=2 Nj=3
Ni=ni
Nj=nj
Nl=1 Nl=2 Nl=3 Nl=nl
B1
B2
CAP.1 – PRINCIPALI CARATTERISTICHE DELLE RETI NEURALI
8
Valore di uscita dal j-esimo nodo nascosto : ( )
jj
IfO =
Valore di ingresso nell’l-esimo nodo di uscita : I O w
l j
j
n
lj
j
=
=
∑
1
Valore di uscita dall’l-esimo nodo di uscita : ( )O f I
l l
=
Oltre ai nodi dello strato di ingresso, dello strato nascosto e di quello di uscita sono presenti due
nodi chiamati nodi di bias le cui uscite hanno sempre valore 1. La funzione di questi nodi è di
inserire nj+nl sinapsi in più e di traslare l’ingresso nei nodi in modo che cada nella zona migliore
della funzione di attivazione.
Considerando anche questi nodi, il numero di sinapsi della RNA è dato da :
( ) ( )nlnjnjniN
sin 11 +++=
La funzione dei nodi non è solo quella di accumulare i segnali e di rispedirli allo strato
successivo, ma anche di operare una semplice elaborazione.
Il segnale I ricevuto da un nodo (figura 1-4), prima di essere ritrasmesso, è filtrato attraverso una
funzione di attivazione (o di trasferimento) che ha lo scopo di compattare i segnali all’interno di
un determinato intervallo e di introdurre una non linearità che incrementa ulteriormente la
capacità della RNA di modellizzare funzioni complesse:
Fig. 1-4: Neurone artificiale
Tale funzione può essere di vario tipo, generalmente si utilizza la funzione lineare f x= , la
funzione di Fermi f
e x
=
− −
1
1
, la gaussiana
2
1
1
1
x
e
f
−−
−= , la funzione a gradino f = U(x).
1.2.2 ADDESTRAMENTO DELLE RNA
Pretrattamento dei dati
I dati necessari per l’addestramento della RNA consistono in una serie di esempi formati da ni
ingressi ed nl uscite. Il numero necessario di questi esempi, solitamente generati da un
programma di simulazione, dipende dal volume che si vuole esplorare.
f
I O
CAP.1 – PRINCIPALI CARATTERISTICHE DELLE RETI NEURALI
9
Comunque è assolutamente necessario creare un numero di esempi maggiore del numero di
sinapsi di cui è composta la RNA, altrimenti sarebbe come risolvere un sistema algebrico con un
numero di incognite maggiore di quello delle equazioni.
Il pretrattamento dei dati è richiesto dalle funzioni di attivazione dei nodi, le quali lavorano con
ingressi ed uscite compresi in un determinato intervallo. È, quindi, necessario normalizzare tutti i
dati prima di presentarli alla RNA:
( )min
minmax
minmax
min dd
dd
ee
ed N −
−
−
+=
dove
dN : dato normalizzato
d : dato originale
dmin, dmax : valore minimo e massimo del dato negli esempi di addestramento
emin, emax : estremo inferiore e superiore di normalizzazione
Gli estremi di normalizzazione sono generalmente presi all’interno dell’intervallo 0 - 1, per
evitare errori di over-flow.
Chiaramente, nel processo di verifica dell’apprendimento, i dati in ingresso e le uscite che si
vogliono predire dovranno rispettare questi limiti i normalizzazione.
Presentazione dei dati all’algoritmo di modifica delle sinapsi
Il processo di presentazione dei dati alla RNA per la procedura di addestramento è caratterizzato
da tre parametri :
• Numero di gruppi (batch) :NB
• Numero di esempi per gruppo (patterns/batch) :NPB
• Numero di ripetizioni :NR
Gli esempi vengono scelti a caso all’interno dell’insieme di addestramento ; ogni NPB esempi
costituiscono un gruppo di addestramento. Il gruppo di addestramento è passato ad una
procedura che calcola, con le sinapsi attuali, l’errore quadratico sugli esempi del gruppo e lo
accumula. Ottenuto l’errore si passa alla modifica delle sinapsi che viene effettuata NR volte
attraverso l’algoritmo Back-Propagation.
CAP.1 – PRINCIPALI CARATTERISTICHE DELLE RETI NEURALI
10
Questa sequenza di operazioni è ripetuta NB volte come è rappresentato nello schema di figura
1-5, per cui risulta:
Numero di esempi utilizzati = NB⋅NPB
Numero di addestramenti = NB⋅NR
Fig. 1-5 : Schema di addestramento
SELEZIONE RANDOM DI
UN ESEMPIO
CREAZIONE DI UN
GRUPPO DI n ESEMPI
RACCOLTA DI m
ERRORI QUADRATICI
COMMESSI DALLA RNA
PER OGNI ESEMPIO DEL
GRUPPO
MODIFICA DELLE
SINAPSI
n=NPB
n<NPB
m<NR
s<NB
S=NB
REGISTRAZIONE DELLE
SINAPSI
CAP.1 – PRINCIPALI CARATTERISTICHE DELLE RETI NEURALI
11
L’algoritmo di apprendimento EBP
Scopo dell’addestramento è di modificare il valore delle sinapsi fino a quando la rete predice i
valori delle uscite con errori accettabili.
Esistono in letteratura vari algoritmi di modifica delle sinapsi. Quello utilizzato in questo lavoro
è l’ERROR BACK PROPAGATION (EBP), estensione del metodo del gradiente. Esso è un caso
particolare di una classe molto più ampia di algoritmi detti di apprendimento supervisionato
perché ad ogni passo le sinapsi sono corrette confrontando il valore attuale fornito dalla rete con
il valore desiderato.
Il pregio di questo algoritmo di apprendimento consiste nella capacità di modificare i valori dei
pesi in risposta agli errori che sono calcolati confrontando, durante l’addestramento, il risultato
ottenuto ai nodi di uscita con il valore reale.
L’obiettivo è di modificare opportunamente le sinapsi della RNA in modo da minimizzare
l’errore quadratico medio totale E su tutti i nodi di uscita nl e su tutti gli esempi np.
∑
=
=
pn
p
p
p
E
n
E
1
1
∑
=
=
l
n
l
pl
l
p En
E
1
1
L’errore quadratico ottenuto per ogni esempio (pattern) e per ogni uscita è dato da :
( )2
plplpl OtE −=
tpl : valore reale dell’l-esima uscita del generico esempio p
Opl : valore calcolato dalla RNA per l’l-esima uscita con il generico esempio p
La minimizzazione ha un significato geometrico intuitivo. Mostrando in un grafico l’errore
quadratico medio in funzione dei pesi si ottiene la superficie di figura 1-6.
Fig. 1-6: Superficie errore Fig. 1-7: Superficie errore reale
CAP.1 – PRINCIPALI CARATTERISTICHE DELLE RETI NEURALI
12
In corrispondenza del fondo di questa curva si ha la serie di pesi con la più piccola somma di
errori quadratici. La ricerca del valore minimo della superficie di errore, cioè la migliore serie di
pesi, è l’obiettivo da raggiungere durante l’addestramento. La back-propagation ottiene questo
calcolando la pendenza della superficie di errore rispetto ai pesi correnti; poi cambia i pesi nella
direzione del più ripido sentiero verso il minimo assoluto della superficie di errore. Questo
metodo è chiamato del gradiente.
Nella realtà le superfici d’errore possono avere gole e molti minimi locali (figura 1-7), i quali
imbrogliano l’algoritmo di apprendimento congelando i pesi in una posizione diversa da quella
di minimo assoluto. Inoltre, poiché il metodo del gradiente segue sempre il sentiero più ripido,
nel momento in cui ci si trovi all’interno di un minimo locale risulta impossibile uscirne.
Per minimizzare l’errore E si utilizza il metodo del gradiente che consiste nel :
1. calcolare il gradiente di E rispetto alle sinapsi
2. dare una piccola variazione del tipo d h
�
�
w E
wik
ik
= − alle sinapsi, al fine di minimizzare
l’errore E.
È chiaro che se la derivata di E rispetto alla generica sinapsi wik cresce significa che valori
elevati delle sinapsi determinano valori elevati di E, quindi è necessario diminuire la sinapsi in
questione. Viceversa se la derivata è negativa, è necessario fornire degli incrementi positivi.
Il coefficiente moltiplicativo η > 0, che prende il nome di coefficiente di apprendimento,
permette di regolare la velocità e la raffinatezza dell’apprendimento: se scelto grande (vicino ad
1) si velocizza l’apprendimento ma è possibile che l’errore oscilli attorno al minimo locale;
d’altra parte scegliere un η piccolo comporta un elevato numero di gruppi di addestramento, cioè
tempi molto lunghi.
Per capire perché, adottando la variazione proposta, il valore di E diminuisce, eseguiamo
un’espansione di Taylor sulla variazione che esso subisce a causa della variazione δwik,
fermandosi al termine lineare:
( )[ ]d
�
�
d h
�
�
E w E
w
w E
wik
ikik
ik
ikik
= = −
<∑ ∑
2
0
Risulta che la variazione δ[E(wik)] dell’errore è negativa e quindi l’errore diminuisce.
La generica variazione δwik include una variazione delle sinapsi tra lo strato nascosto e lo strato
di uscita :