2
Nazionale di Statistica (ISTAT) nell’ambito degli indicatori socio sanitari regionali.
Il lavoro svolto si compone di tre capitoli ed in particolare nel primo capitolo vengono
delineate le caratteristiche teoriche della metodologia multivariata utilizzata; nel secondo
vengono descritti dettagliatamente i dati e la procedura seguita al fine di poter effettuare
una analisi comparativa delle due distinte indagini.
Il terzo capitolo invece, è interamente dedicato ai risultati cui si è giunti applicando la
tecnica delle componenti principali.
Infine, nelle conclusioni si sono ripresi i risultati comparativi cui si era giunti e si sono
evidenziate le tendenze evolutive riscontrate tra i due diversi istanti temporali.
3
CAPITOLO 1
L’ANALISI DELLE COMPONENTI PRINCIPALI
1.1 Introduzione: obiettivi ed ambiti applicativi
Nella fase di raccolta sistematica dei dati di una ricerca scientifica, è possibile che il
ricercatore, in mancanza di una precisa teoria da seguire che indichi, per esempio, la
quantità di dati da rilevare, si trovi costretto a dover raccogliere il maggior numero di
informazioni possibili con la conseguenza di trovarsi di fronte ad un elevato numero di
variabili da rilevare.
La difficoltà principale in tale situazione è quella di non riuscire a cogliere la struttura
esistente nei dati e le loro caratteristiche salienti. Si pone allora il problema se sia possibile
rappresentare le osservazioni, anziché nello spazio originario pR (dove p indica il numero
di variabili), in uno spazio di dimensioni ridotte (R1, R2 o R3), con una perdita limitata di
informazioni e in modo che le relazioni tra le variabili non siano completamente stravolte.
Una metodologia statistica per la riduzione delle dimensioni è l’analisi delle componenti
principali (ACP). Tale tecnica è frequentemente utilizzata in una vasta gamma di
problematiche:
- è utile, per esempio, quando un certo aspetto non è direttamente quantificabile, ma si
dispone di una serie di indicatori del medesimo aspetto. Un tipico esempio è costituito
dalla misurazione della “intelligenza” degli individui, in cui ci si avvale dei punteggi
ottenuti in una serie di test;
- un secondo caso riguarda la valutazione delle capacità dei promotori finanziari di una
4
società in un certo arco di tempo: le variabili considerate possono essere il numero di
clienti contattati, il numero di clienti che hanno sottoscritto un fondo di investimento,
l’ammontare delle polizze sottoscritte. Supponendo tali variabili correlate fortemente tra
loro, è possibile sintetizzare tutte le informazioni di partenza proiettando i punti
corrispondenti alle unità su una retta, ottenendo in tal modo quindi una misura
unidimensionale delle performance dei singoli promotori finanziari;
- un altro esempio potrebbe essere quello relativo alla valutazione della qualità della vita
nei comuni di una regione sulla base di un insieme di indicatori economici, ambientali, di
dotazioni di servizi. Se vi sono forti correlazioni almeno nell’ambito di gruppi di tali
indicatori, è possibile individuare un numero ridotto di dimensioni della qualità della vita e
rappresentare i comuni nel piano cartesiano o in R3, identificando le località dove
complessivamente si vive meglio.
1.2 Definizione e determinazione delle componenti principali
Il punto di partenza per l’applicazione della analisi delle componenti principali (ACP) è la
matrice X dei dati grezzi di dimensione pn× , (con pn > ) dove n indica il numero di unità
statistiche e p il numero di variabili tutte quantitative. E’ necessario che il rango della
matrice dei dati X sia pieno, cioè sia rango (X) = p. Ciò equivale ad affermare la
indipendenza lineare delle p variabili ovvero che tutte le p variabili siano informative.
E’ opportuno precisare che quando le p variabili originarie sono espresse in diverse unità di
misura e/o presentano ordini di grandezza molto differenti, esse non risultano direttamente
confrontabili e pertanto l’ACP partendo dalla matrice di covarianza tra le p variabili si
rileva inappropriata. Tale difficoltà può essere superata considerando le variabili espresse
in termini di scostamenti standardizzati e cioè considerando la matrice Z di dimensione
5
pn × dei dati standardizzati, che equivale ad assumere come punto di partenza dell’ACP la
matrice di correlazione tra le p variabili invece della matrice di covarianza.
Nelle applicazioni concrete questo secondo approccio è di gran lunga il più frequente
rispetto al caso in cui è possibile operare direttamente sulla matrice X. Vi è da sottolineare,
tuttavia, che l’impiego di X oppure di Z è una scelta a priori che condiziona i risultati della
intera analisi e che non è possibile passare da un tipo di analisi all’altra mediante semplici
cambiamenti di scala.
L’ACP consente, dunque, di sostituire alle p variabili (tra loro correlate) un nuovo insieme
di variabili – chiamate componenti principali (CP) – che godono delle seguenti proprietà:
1. sono tra loro incorrelate (ortogonali);
2. sono elencate in ordine decrescente della loro varianza.
La proprietà 1. impone l’assenza di un legame lineare tra le nuove variabili ottenute
mediante una trasformazione lineare di Z, se le p variabili sono espresse in termini di
scostamenti standardizzati dalle loro medie, oppure di X~ 1, se le p variabili sono espresse
in termini di scostamenti assoluti dalle loro medie.
La seconda proprietà invece, intende dare importanza decrescente alle nuove variabili
ovvero, si vuole che le CP riproducano in proporzione progressivamente più piccola la
varianza complessiva delle p variabili iniziali.
L’approccio che si seguirà nella analisi è quello generalmente adottato e cioè si utilizzerà
la matrice Z dei dati standardizzati.
La prima CP, ( )1y è definita come combinazione lineare delle p variabili di partenza avente
massima varianza; la seconda CP, ( )2y è la combinazione lineare delle p variabili con
1
La matrice X~ di dimensione pn × viene detta matrice degli scostamenti dalla media, oppure matrice dei dati
“centrata”, ed è caratterizzata dal fatto che le medie di ciascuna delle colonne sono uguali a zero.
6
varianza immediatamente inferiore, soggetta al vincolo di ortogonalità con la prima CP.
Se le p variabili sono fortemente correlate, un numero k di CP (con k < p) tiene conto di
una elevata quota della varianza totale, per cui ci si può limitare a considerare solo tali
componenti, trascurando le restanti p – k, il che consente in definitiva una maggiore
comprensibilità del data set.
La determinazione della prima CP richiede dunque, l’individuazione del vettore p-
dimensionale 1v dei coefficienti della combinazione lineare delle p variabili, espresse in
termini di scostamenti standardizzati dalle loro medie:
( )
( )1n
1
×
y = 1vZ =
( )
( )
( )
( )
1n
1i
12
11
y
y
y
y
dove ( )1iy indica il valore assunto dalla prima CP sulla i- esima unità statistica, ed il vettore
dei coefficienti 1v di dimensione 1p× contiene una sorta di pesi delle singole variabili.
Prima di procedere nella esemplificazione del calcolo della prima CP, è utile mostrare a
cosa è uguale la media e la varianza della CP suddetta.
Media della prima CP:
( ) ( )
0
n
1
n
1
n
1
y
n
1
y
11
n
1i
11i1
=′=′=′==
=
v0Zvuyu
dove [ ]1,,1=′u ha dimensione ( )n1× , il vettore 0′ è p-dimensionale con gli elementi
7
tutti nulli, e Z è la matrice dei dati standardizzati.
Varianza della prima CP:
( ) ( ) ( ) ( ) 111111
n
1i
2
1i
2
1
n
1
n
1
y
n
1 RvvZvZvyy ′=′′=′==σ
=
dove R è la matrice di dimensione ( )pp× di correlazione sulle variabili originarie che
coincide anche con la matrice di varianze e covarianze tra i dati standardizzati.
Per definizione la prima CP è la combinazione lineare di massima varianza, e quindi il
vettore p
1 Rv ∈ deve essere tale che sia massima la quantità 11Rvv′ sotto il vincolo di
normalizzazione 1v′ 1v = 1. Si precisa che la condizione di normalizzazione del vettore dei
coefficienti è necessaria in quanto le soluzioni del suddetto problema di massimo sono
infinite e proporzionali poiché la combinazione lineare contiene un fattore di scala
arbitrario. Il problema di massimo richiede l’uso della funzione di Lagrange:
( ) ( )1,f 1111111 −′λ−′=λ vvRvvv .
Calcolate le derivate parziali della Lagrangiana rispetto a 1v e 1λ ( 1λ è il moltiplicatore di
Lagrange), e poste uguali a 0, attraverso semplici operazioni matematiche, si ottiene il
seguente sistema di p equazioni con p incognite:
( ) 0vR =λ− 11 (1)
dove I indica la matrice identità di dimensione pp× e 0 è un vettore p-dimensionale i cui
8
elementi sono tutti uguali a 0.
Il sistema ammette soluzioni non tutte nulle se la matrice ( )IR
1
λ− risulta invertibile e
dunque se il suo determinante è uguale a 0, e cioè se:
01 =λ− R .
Tale uguaglianza definisce l’equazione caratteristica della matrice R, che è un polinomio
di ordine p, con p soluzioni chiamate autovalori o radici caratteristiche. Essendo la
matrice R semidefinita positiva, gli autovalori sono tutti non negativi. Poiché l’obiettivo è
la massimizzazione della varianza della prima CP, si sceglie come 1λ il massimo di tali
autovalori, in quanto sussiste la seguente relazione tra il moltiplicatore di Lagrange e la
quantità che si desidera massimizzare:
( ) 111
2
1
λ=′=σ Rvv (2).
La relazione (2) deriva dalla seguente considerazione.
Premoltiplicando il sistema (1) per il vettore
1
v′ , si ottiene:
( ) 0vvIRv
1111
′=λ−′
da cui, svolgendo i prodotti, si ricava:
0vvRvv =λ′−′
11111
.
Stante il vincolo di normalizzazione, si giunge a :
9
111111
λ=′λ=′ vvRvv .
Il primo autovalore coincide dunque con la varianza della prima CP.
In definitiva, si definisce prima componente principale di p variabili, espresse in termini di
scostamenti standardizzati dalla loro media, la combinazione lineare:
( )1y = Z 1v
in cui 1v è l’autovettore di norma unitaria, associato all’autovalore più grande, 1λ della
matrice di correlazione R.
E’ possibile determinare la seconda CP:
( )
( )
( )
( )
( )
( )
==
×
2n
2i
22
21
2
1n
2
y
y
y
y
Zvy
Affinché essa sia ortogonale alla prima CP, il vettore dei coefficienti 2v deve soddisfare il
seguente vincolo:
021 =′vv
oltre al vincolo di normalizzazione:
10
2v′ 2v = 1.
Operando in maniera analoga al caso precedente, si ottiene:
( ) 0vR =λ− 22
per cui si sceglie il secondo autovalore, in ordine decrescente della matrice R, e lo si indica
con 2λ ; l’autovettore associato è 2v .
Si può provare che le CP estraibili sono pari al numero delle variabili p; aumentando
l’ordine di estrazione delle componenti stesse, la loro varianza decresce e ciò significa che
perdono importanza (informazione) al crescere dell’ordine di estrazione.
Il procedimento per ricavare la h-esima CP ( )p,,1h = è analogo al caso precedente,
bisogna solo prestare attenzione al numero di vincoli da considerare. Oltre alla solita
normalizzazione hv′ hv =1, vanno imposti (h -1) vincoli di ortogonalità e cioè:
0
kh
=′ vv con ( )1h,,2,1k −= .
L’ h-esimo autovalore della matrice R è hλ e coincide con la varianza della h-esima CP
dopo che gli autovalori di R sono stati posti in ordine decrescente:
h21 λ>>λ>λ
il relativo autovettore è hv .
11
1.3 Caratteristiche delle CP: matrice di varianze e covarianze,
matrice dei punteggi, matrice di correlazione con le variabili
osservate
Per le successive analisi, risulta utile introdurre alcune matrici. Considerando la funzione
di Lagrange utilizzata per determinare la prima CP ( ) ( )1,f 1111111 −′λ−′=λ vvRvvv , e
passando alla derivata parziale rispetto a
1
v , si ottiene:
0vRv =λ−
111
22
da cui
111
vRv λ= .
La relazione appena trovata può essere estesa a tutte le p variabili; in tal caso si costruisce
il seguente sistema:
λ=
λ=
λ=
λ=
ppp
hhh
222
111
vRv
vRv
vRv
vRv
dal quale, in termini matriciali, si ottiene:
12
[ ] [ ] [ ]
λ
λ
λ
=λλλ=
P
2
1
p21pp2211p21
000
000
00
000
*,,,,,,,,,
vvvvvvvvvR (3).
Ponendo [ ]p21 ,,, vvvV = , matrice pp× e
λ
λ
λ
P
2
1
000
000
00
000
= Λ di dimensione
pp× , si ricava una espressione per R in termini di Λ :
VRV = (4).
Si osservi che Λ è una matrice che ha sulla diagonale principale le varianze delle CP e in
cui tutti gli elementi extradiagonali sono nulli in quanto le covarianze tra le CP sono pari a
0 per costruzione. Essa rappresenta la matrice di varianze e covarianze delle CP.
Dalla (4) postmoltiplicando per V′ si ricava:
VVVRV ′=′
e quindi tenendo conto che VVVV =′=′ si ha:
VVR ′= .