7
dei soggetti costituenti il campione, sia per la molteplicità degli aspetti
osservati dalle diverse variabili rappresentate (dimensioni quali-
quantitative di bilancio, dati anagrafici e settoriali, variabili andamentali
riguardanti il rapporto “affidamenti/utilizzi” sia internamente che sul
sistema bancario nazionale tramite i flussi di ritorno della Centrale dei
Rischi), ha reso possibile l'utilizzo di diverse tecniche algoritmiche, tra
le quali gli alberi decisionali, al fine di ipotizzare la selezione di quelle
variabili a maggior contenuto informativo ai fini della stima della
variabile obettivo.
Esistono svariati metodi per la costruzione di alberi decisionali, tra
cui i CART (Classifìcation And Regression Tree) introdotti nel 1984 da
Leo Breiman, Jerome Friedman, Richard Oishen e Charles Stone.
Recentemente sono state proposte alcune tecniche algoritmiche che
superano alcuni punti di debolezza dei CART, tra cui le Random Forests
e il treeboost - Stochastic Gradient Boosting.
L'algoritmo dei CART prevede la costruzione di un singolo albero
decisionale, mentre le Random Forests sono combinazioni di più CART
caratterizzati da un elemento casuale, al fine di minimizzare l'errore di
previsione. La tecnica treeboost prevede la costruzione di diversi alberi
decisionali, alberi detti additivi, generalmente con dimensione ridotta
(ad esempio tre livelli con otto nodi terminali). Il primo albero è
costruito con i dati riguardanti una popolazione a disposizione del
ricercatore. I residui ottenuti dalla costruzione dell'albero sono utilizzati
come dati di input per lo sviluppo di un secondo albero, ciò al fine di
ridurre ulteriormente l'errore di previsione.
Questo processo è ripetuto n volte, fino ad ottenere centinaia di
alberi singoli. Il valore finale della previsione è costituito dal contributo
di ogni singolo albero, quindi da n funzioni f(x).
8
Vantaggi della tecnica treeboost sono la possibilità di gestire un
numero assai elevato di variabili e l'accuratezza delle previsioni. Punto
di debolezza della tecnica è invece la complessità del modello generato,
il che comporta l'impossibilità di rappresentarlo graficamente.
Obiettivo di questo elaborato è approfondire dal punto di vista
teorico e applicativo le Random Forests, partendo dall'analisi dei CART
su cui esse si basano e proporne un possibile utilizzo per il monitoraggio
del rischio di credito in ambito bancario e più precisamente per
l’individuazione dei fattori di rischio che conducono al default del
cliente.
Nel primo capitolo vengono descritti sinteticamente i modelli e i
sistemi di cui il sistema bancario si è dotato nel tempo per misurare e
monitorare i rischi specifici del proprio settore e in particolar modo il
rischio di credito, in quanto oggetto specifico della presente trattazione.
Il capitolo prosegue analizzando più specificatamente i modelli di credit
risk management e i diversi sistemi di rating, giungendo a descrivere le
diverse implementazioni adottabili, tra le quali i sistemi statistico-
analitici, come ad esempio il modello Basato sull’utilizzo del Random
Forests descritto nei capitoli successivi.
Nel secondo capitolo, partendo dal concetto generale di
"segmentazione gerarchica" verrà introdotto il concetto di "albero
binario" e si illustreranno i fondamenti teorici della metodologia CART
con i propri punti di forza e di debolezza.
Argomento centrale del terzo capitolo sarà l'analisi teorica della
tecnica delle Random Forests, tecnica che elimina il problema
dell'instabilità dei risultati tipico dei CART.
Presentati dal punto di vista teorico i CART e le Random Forests,
dal quarto capitolo si analizzerà una loro applicazione pratica ai dati
9
riguardanti un campione, distribuito a livello nazionale, di imprese
corporate clienti del Gruppo Banca Popolare di Vicenza (in seguito
Banca), al fine di delineare l’importanza di talune variabili al fine del
verificarsi della situazione di default aziendale
In particolare nei paragrafi del quarto capitolo si presenterà l’attività
e la storia della Banca e successivamente nel quinto capitolo verrà
descritto il dataset utilizzato per far funzionare il modello RF,
specificando, laddove possibile per comprensibili vincoli di riservatezza
e data la natura particolarmente delicata delle variabili, il significato e la
modalità di calcolo dei dati utilizzati. Verranno descritte le modifiche
effettuate rispetto al dataset originale quali la riduzione di talune
modalità categoriali e l’eliminazione di alcune variabili dalla fonte dei
dati del modello, avvenute per ragioni di tipo computazionale legate alla
specificità del modello utilizzato.
Nel sesto capitolo si proseguirà con la descrizione delle variabili
contenute nel dataset, integrando la descrizione del capitolo procedente
con grafici e tabella univariate per ciascuna delle variabili di interesse.
Nel settimo capitolo si illustrerà il funzionamento del modello
previsionale, costruito applicando le tecniche descritte nei precedenti
capitoli ai dati a disposizione con l'obiettivo di delineare le variabili
maggiormente significative a i fini della previsione di default.
Infine, si analizzerà l’impatto dei predittori rilevanti, secondo il
modello proposto basato sulle Random Forests, specificando il
significato dei risultati ottenuti non solo in termini statistici, ma anche
dal punto di vista del significato economico.
10
1. Risk management nel settore
bancario.
1.1 Concetto di rischio e gestione bancaria
Il risk assessment nel governo delle imprese si basa su cinque punti
fondamentali del dibattito sul concetto di rischio:
- concetto di “alea”;
- rischio e incertezza;
- segno economico dell’impatto atteso dall’evento;
- rischio e obiettivi;
- rischio e orizzonte temporale.
Una definizione generalmente condivisa di rischio è la seguente
“Si può definire rischio lo scostamento dai risultati attesi per effetto
di eventi di incerta manifestazione interni o esterni all’azienda. Tale
scostamento può essere più o meno ampio in funzione della sensibilità
delle variabili "chiave" del business model all’influsso dei fattori di
rischio”….
…..“La capacità di identificare, selezionare, misurare e gestire i
rischi diventa una fonte di vantaggio competitivo, perché attraverso essa
l’azienda si mette in condizioni di potere cogliere tutte le opportunità di
business compatibili con il profilo di rischio prescelto e concordato
11
dagli organi di governo con gli stakeholders”. (S. Beretta, Valutazione
dei rischi e controllo interno, 2004).
Un fattore che può ostacolare la capacità di gestire i rischi fa
riferimento alla complessità delle tecniche sulle quali poggiano la
misurazione e la valutazione dei medesimi.
In passato la gestione del rischio avveniva all’interno di sistemi
aziendali relativamente semplici, governati in logica accentrata, in un
ambiente organizzativo a struttura gerarchico-funzionale ( Es. Banche
italiane degli anni 70 e 80 operanti in regime di quasi monopolio).
La logica accentrata poteva supplire al mancato approccio di sistema
nell’affrontare e gestire il rischio, ma, nell’attuale contesto competitivo
con strutture organizzative maggiormente complesse e decentrate il
rischio richiede, sia di essere misurato in logica stand alone, sia di
essere governato in modo integrato e formalizzato.
La ricerca sistematica di soluzioni prive di rischio determina
inevitabilmente la paralisi e il regresso aziendale e ciò comporta che il
rischio deve essere visto come una componente di business: la vera sfida
del management consiste non già nella eliminazione del rischio, quanto
nella identificazione, valutazione e gestione differenziata dei rischi in
un’ottica integrata e in coerenza con gli obiettivi di creazione del valore
negoziate con gli stakeholders.
I passi logici del processo di gestione del rischio:
• Definizione delle finalità attribuite al sistema di risk
management;
• Identificazione dei rischi;
• Valutazione (assessment) dei rischi;
12
• Definizione e implementazione dei modelli di misurazione e di
valutazione;
• Implementazione dei programmi e delle procedure atti a gestire i
rischi;
• Valutazione in logica di feedback dei risultati ottenuti e
identificazione delle linee di intervento che si rendano necessarie.
Deve trattarsi di un processo che opera ex-ante, che è integrato ed è
finalizzato all’identificazione dei fattori di rischio prima che essi si
concretizzino ma soprattutto all’assunzione dei rischi governabili.
La gestione della banca consiste nell’assunzione e nel controllo dei
rischi collegati con il carattere monetario delle attività/passività da essa
create/offerte al mercato e con il diverso orizzonte temporale che
caratterizza i loro flussi di cassa e da questo mismatching nasce
l’incertezza legata alla situazione delle imprese finanziate, alle
condizioni dei mercati finanziari, all’andamento economico generale.
La gestione dei rischi fa riferimento all’intero set di procedure e di
modelli che consentono alla banca di impostare e realizzare politiche
gestionali basate sul rischio il cui obiettivo principale è quello di
migliorare il profilo rischio-reddito della banca.
L’innovazione principale è consistita nell’affiancare agli indicatori
qualitativi, misure quantitative di rischio gradualmente estese a tutte le
categorie, ma la maggiore difficoltà da superare è consistita nel fatto che
i rischi non sono "visibili", come invece accade per i costi e per i ricavi.
Essendo i rischi attuali di fatto perdite potenziali per il futuro, e data
l’attuale situazione congiunturale della fase economica, la gestione di