2
trasformazione delle variabili, il trattamento dei valori anomali, i pesi e
la funzione aggregatrice, la confrontabilità dei dati, conclusioni.
La seconda sezione è puramente teorica e descrive l’Analisi
Fattoriale Multipla; è divisa in quattro sezioni: analisi in Kℜ : gli
individui, analisi in Iℜ : le variabili, analisi in 2Iℜ : i gruppi di
variabili, conclusioni.
La terza sezione, anch’essa esclusivamente teorica, descrive il PLS
Path Modeling, e si divide in altri quattro paragrafi: specificazione, la
stima, la validazione, conclusioni.
La quarta sezione è invece di stampo empirico, in quanto vi sono
descritte le due analisi effettuate (la cui metodologia è discussa
teoricamente nelle due sezioni precedenti). Il capitolo è diviso in tre
parti: Analisi Fattoriale Multipla, PLS Path Modeling, un confronto con
la classifica del Sole24Ore, conclusioni.
La quinta sezione infine riporta le conclusioni del lavoro svolto,
con particolare riferimento all’analisi svolta dal noto quotidiano
economico ed ai vantaggi e svantaggi delle metodologie proposte in
questo lavoro.
L’intera analisi è stata effettuata attraverso l’impiego di diversi
software statistici specialistici: SPSS 15.0 è stato utilizzato per i calcoli
semplici, le trasformazioni dei dati ed il trattamento dei valori anomali;
XLSTAT 2007 è stato utilizzato per l’Analisi Fattoriale Multipla e per
alcune applicazioni PLS Path Modeling; SPAD 6.0 è stato utilizzato per
il PLS Path Modeling.
PDF created with pdfFactory Pro trial version www.pdffactory.com
3
CAPITOLO 1
La sintesi degli indicatori
Ogni anno il Sole24Ore conduce un’indagine sulla Qualità della
Vita (QdV) delle province italiane al fine di realizzare una classifica che
possa essere letta anche in relazione agli anni precedenti. Lo studio si
basa sulla divisione della QdV in sei aree tematiche che a loro volta
sono misurate da sei indicatori ciascuna, per un totale di 36.
La metodologia statistica utilizzata, a partire dalla definizione del
problema e dalla raccolta dei dati, non sembra essere adeguata allo
studio di un fenomeno tanto complesso; d’altra parte la costruzione di
un indicatore composto deve passare attraverso una serie di fasi che
portano ad una definizione scientifica del problema. In questo capitolo
si discuterà proprio dell’analisi di queste fasi e del confronto parallelo
con l’analisi del Sole24Ore.
PDF created with pdfFactory Pro trial version www.pdffactory.com
4
1.1 Definizione del problema e selezione delle
variabili
Il punto di partenza nella costruzione di un indicatore composto è
la definizione del problema: appare chiaro che ciò che è mal definito
sarà anche mal misurato. Ovviamente questo processo è basato sul
concetto che si vuole misurare, e non sugli indicatori disponibili.
Tuttavia non tutti i concetti multidimensionali hanno una base
teorica ed empirica già definita scientificamente ed accettata come tale.
In questa fase del lavoro la trasparenza è essenziale, e richiede:
• La definizione del concetto
• La determinazione di sottogruppi
• L’identificazione del criterio di selezione delle variabili
In generale la forza e la debolezza di un indicatore composto
derivano dalla qualità delle variabili sottostanti; questa va intesa
innanzi tutto come dimensioni di qualità delle variabili di base, che
prevedono che i dati siano attinenti, esatti, rilevati in tempi brevi e
definiti, accessibili, interpretabili e coerenti; va poi intesa come
dimensioni di qualità della procedura utilizzata per costruirli:
chiaramente la bontà della struttura risulta scadente se non viene
utilizzata la giusta tecnica multivariata, o se si ricorre ad una
normalizzazione errata o ad una funzione aggregatrice inidonea,
oppure se i risultati siano mal presentati.
Dal lato suo il Sole24Ore non fornisce una definizione di QdV
precisa, ma passa direttamente all’identificazione di sei sottogruppi,
come già detto, ognuno dei quali è a sua volta diviso in sei variabili:
PDF created with pdfFactory Pro trial version www.pdffactory.com
5
• Tenore di vita: Valore aggiunto per abitante in euro (2006);
Depositi bancari per abitante in euro (2006); Importo medio
mensile pensioni in euro (2006); Spesa/abit. Mobili-
elettrodomestici in euro (2006); Indice ponderato aliquote Ici
(2007); Costo mq in semicentro in euro (ottobre 2007).
• Affari e lavoro: Imprese registrate/100 abitanti (sett. 2007);
Iscrizioni/cancellaz. Cdc (ott. 06-sett. 07); In cerca di
lavoro/forza lavoro in % (2006); Persone 25-34 anni occupate in
% (2006); Tassi d'interesse su prestiti a breve (2006); Protesti
pro capite in euro (ott. 06- sett. 07).
• Servizi, ambiente e salute: Indice Tagliacarne su dotazione
infrastr.; Differenza gradi mese più caldo e più freddo; Indice
Legambiente su ecosistema urbano 2007; Sezioni scuole
dell'infanzia/1000 bambino età pr; Cause esaurite su nuove
pendenti (2006); Emigrazione ospedaliera in % (2004).
• Ordine pubblico: Furti d'auto denunciati/100.000 abitanti 2006;
Furti in casa denunciati/100mila abit. (2006); Scippi e borseggi
denunciati/100.000 abitanti 20; Rapine denunciate/100mila
abit. (2006); Minori denunciati/mille punibili (2006); Var. del
trend dei delitti totali (2002=100).
• Popolazione: Numero abitanti per kmq (2006); Nati/1000
abitanti in rapporto indice 2002; Trasferimenti ogni 100
cancellazioni (2006); Laureati/1000 giovani 19-25 anni (2006);
Persone 15-29 anni rispetto a over 65 (2006); Immigrati regolari
in % su popolazione (2006).
• Tempo libero: Attività culturali ricreative/100mila
abitanti(2007); Indice 2007 enogastronomia di qualità; Cinema
PDF created with pdfFactory Pro trial version www.pdffactory.com
6
ogni 100mila abitanti (sett. 2007); Mostre ogni 100mila abitanti
(2006); Indice di sportività (2006); Indice assorb. Libri % su
popolazione (sett. 2007).
Nonostante la difficoltà nel definire l’oggetto di studio, che ha una
connotazione altamente soggettiva, è possibile trovare in letteratura
studi che possono aiutare in questa direzione. Il dibattito sollevato è
antico: fu trattato già da Aristotele, che introdusse il concetto di
eudaimonia (dal greco “buon spirito”), e lo stesso Platone dedicò vari
anni della sua vita ad organizzare praticamente il governo e la città
perfetta.
Secondo Joachim Vogel la QdV “comprende la possibilità di godere di
salute e di sicurezza personale, di realizzare la propria personalità mediante
un processo di crescita culturale nell’arco della vita, di soddisfazione
lavorativa e di sviluppo professionale, di autorealizzazione nel godimento del
tempo libero, di disporre in misura sufficiente di beni materiali e di servizi, di
contatti umani, di comunicazione e di tutela della sfera intima, della libertà
personale, di partecipazione nel settore politico”.
Lo United Nation Research Institut for Social Developments,
organismo dell’ONU, nell’intento di comparare le condizioni di vita
dei paesi membri ha definito la QdV come l’espressione del grado di
soddisfacimento di tre ordini di bisogni dei cittadini: bisogni fisici,
bisogni culturali e bisogni superiori. Questi a loro volta sono
rispettivamente articolati nelle seguenti aree tematiche: alimentazione,
riparo e ambiente, salute e sanità; istruzione, tempo libero, sicurezza;
infrastrutture, servizi, tenore di vita.
Se da un lato potrebbe sembrare che questa prima fase sia stata
sviluppata con cura dai ricercatori del Sole24Ore, ad una lettura critica
PDF created with pdfFactory Pro trial version www.pdffactory.com
7
più approfondita è possibile imbattersi in errori che comportano una
falsificazione dell’intera analisi. Si pensi ad esempio alla sanità: il noto
giornale economico inserisce un solo indicatore, l’Emigrazione
ospedaliera, che di fatto poco riesce a spiegare del fenomeno.
Inoltre, per fini di comparabilità territoriale, gli indicatori devono
essere costruiti come rapporti statistici che hanno al denominatore la
causa del dato posto al numeratore; tuttavia questo non avviene
sempre: si pensi ai furti in casa denunciati, che sono rapportati agli
abitanti e non alle case occupate.
Vi è poi il problema della disomogeneità delle aree territoriali:
bisogna sempre tener conto che i dati si riferiscono alle province e non
alle città (come spesso viene erroneamente titolato dallo stesso
giornale); l’importanza di questa chiarificazione sta nel fatto che la
percentuale dei residenti nel capoluogo è invero molto variabile da
provincia a provincia, e questo tipo di dati viene spesso influenzato da
un hinterland molto eterogeneo rispetto alle città.
1.2 La trasformazione delle variabili
Il passo successivo nella costruzione di un indicatore sintetico
consiste nel trasformare le variabili di partenza in indicatori semplici,
dimensionali e quindi aggregabili.
Esistono numerosi metodi di normalizzazione.
Posto che sia osservata una variabile X che caratterizzi in positivo
la QdV (ovvero che sia positivamente correlata con essa), posto che si
PDF created with pdfFactory Pro trial version www.pdffactory.com
8
voglia assegnare il valore 1 (o 1000) all’unità con la performance
migliore, la trasformazione applicata dal Sole24Ore è la seguente:
()x
x
t
i
i max
=+
Per quanto riguarda le variabili che caratterizzano in negativo la
QdV (negativamente correlate), la trasformazione utilizzata dal
quotidiano è:
( )
i
i
x
x
t
min
=−
La logica di questa seconda trasformazione è che le variabili
negativamente correlate con la QdV vengono prima trasformate nei
loro reciproci e successivamente normalizzate secondo la +t .
Tuttavia la trasformazione −t modifica la forma della
distribuzione ed altera la struttura di correlazione originaria delle
variabili non solo nel segno. Per notare graficamente alcune sue
caratteristiche, fra cui principalmente la non linearità, si supponga di
aver rilevato una variabile X su una popolazione di 10 unità e che
disponendo le xi in ordine non decrescente sia risultato:
ix
i
= , 10,...,1=i
PDF created with pdfFactory Pro trial version www.pdffactory.com
9
Si creano quindi tre popolazioni, ottenute ponendo la 1x uguale,
rispettivamente, a 0.5, 1 e 1.5; le tre serie trasformate sono
rappresentate nella Figura 1.
Figura 1.1: Trasformata −t al variare del minimo
Si può notare come tale trasformazione espande la parte alta della
distribuzione e comprime la coda destra, esaltando le differenze tra le
prestazioni migliori e riducendo quelle tra le prestazioni peggiori. Si
veda poi come la trasformazione sia sensibile a piccole variazioni nel
minimo della distribuzione di partenza: una diminuzione del minimo
ha un effetto nettamente maggiore sulla parte alta della distribuzione
che non sulla coda destra (quindi una variazione nella performance
PDF created with pdfFactory Pro trial version www.pdffactory.com
10
migliore si riflette maggiormente sulle prestazioni buone che non su
quelle meno buone).
Una trasformata lineare per le variabili negativamente correlate
alla QdV e che, al contrario di −t , appartiene alla stessa famiglia di +t è
la seguente:
()
( )
()x
x
x
x
u i
i max
min
max
1 +−=−
che assume valori nello stesso intervallo di +t : ( )
()
1,
max
min
x
x
; tale
conclusione rende la trasformata −
i
u la più naturale alternativa a −t .
Tuttavia le trasformazioni −
i
u e
+
t differiscono per un importante
aspetto: l’influenza degli outlier. Si pensi, ad esempio, di osservare una
performance particolarmente negativa (positiva) per una variabile X ;
la trasformata avrà, a seconda del segno della correlazione tra la X e la
QdV, un minimo particolarmente basso o un massimo particolarmente
alto; se però un decremento del minimo (incremento del massimo) non
indurrà alcuna variazione negli altri valori della +t , un incremento del
massimo (decremento del minimo) modificherà tutti i valori della −
i
u .
Dal momento che delle 36 variabili selezionate numerose
presentano valori anomali, è preferibile utilizzare una trasformazione
invariante per traslazione ed a range costante. Viene qui proposta una
famiglia di trasformazioni che assegnano il valore 1 (o 1000) all’unità
con la performance migliore, e 0 a quella peggiore.
Per le variabili correlate positivamente alla QdV:
PDF created with pdfFactory Pro trial version www.pdffactory.com
11
( )
() ()xx
xxw i
i minmax
min
−
−
=+
Per le variabili correlate negativamente con la QdV:
( )
() ()xx
xxw i
i minmax
max
−
−
=−
Il vantaggio di tali trasformate sta nel fatto che, oltre ad
appartenere alla stessa famiglia, assumendo lo stesso range e gli stessi
momenti, non presentano asimmetria nell’effetto di outlier grandi e
piccoli.
Un altro tipo di trasformazione, molto utilizzata in statistica, è la
standardizzazione, che converte gli indicatori in una scala di misura
comune con media zero e deviazione standard uno:
s
m−
= i
i
x
z
Indicatori con valori estremi risultano avere un grande effetto
nella costruzione degli indicatori composti.
PDF created with pdfFactory Pro trial version www.pdffactory.com
12
1.3 Il trattamento dei valori anomali
Un altro limite dell’analisi del Sole24Ore riguarda il trattamento
dei dati anomali. Oltre agli effetti dovuti al tipo di trasformata
applicata (l’analisi degli outlier è stata eseguita successivamente alla
trasformazione), bisogna fare delle considerazioni sull’uniformità di
tale trattamento.
Di fatto i ricercatori del quotidiano attribuiscono un punteggio
d’ufficio nei casi di eccessivo distacco fra due province successive.
Dalle analisi degli scorsi anni e dalle elaborazioni presenti in
letteratura si nota come la trasformata viene corretta ogni qual volta si
ha () ( ) 25.01 >− +ii tt 1, ponendo ( ) () 25.01 −=+ ii tt , definendo di conseguenza
un nuovo minimo tramite cui trasformare le restanti osservazioni.
Tuttavia analizzando i valori trasformati si può facilmente vedere
come questo tipo di trattamento viene effettuato solo per alcune
variabili (ad esempio per la variabile Scippi e borseggi), mentre altre
sono lasciate invariate rispetto alle trasformazioni effettuate (si vede
subito, ad esempio, per la variabile Attività culturali e ricreative, dove il
valore massimo supera di quasi 400 punti il secondo valore).
Inutile ricordare l’importanza del trattamento dei dati anomali,
che consente di ridurre il divario fra unità “troppo” distanti fra loro, e,
soprattutto, deve possedere un carattere uniforme.
L’individuazione dei valori anomali qui proposta è ben nota in
letteratura. Si tratta di individuare quei valori che differiscono troppo
1
A titolo di esempio ci si è riferiti al caso della trasformata per le variabili negativamente correlate
con la QdV; ovviamente lo stesso tipo di ragionamento è applicato anche per la trasformata per le
variabili positivamente correlate.
PDF created with pdfFactory Pro trial version www.pdffactory.com
13
dagli altri nella distribuzione; dunque un valore
i
x è definito anomalo
se:
( )
( )131
133
3
3
QQQx
QQQx
i
i
−−<
−+>
dove 1Q e 3Q rappresentano rispettivamente il primo ed il terzo
quartile. In questo modo si identificano i valori troppo alti e troppo
bassi della distribuzione, i quali condizionano non poco le
trasformazioni attuate sulle variabili. Sostituendo agli outlier così
identificati i valori soglia calcolati, di fatto viene ridefinito un nuovo
massimo, o un nuovo minimo, sul quale effettuare nuovamente la
trasformazione.
L’idea alla base è quella di posizionare un valore soglia al di
sopra, ed al di sotto, del quale non ha più senso aumentare, o
diminuire, il distacco con gli altri valori della distribuzione. Un
esempio banale chiarirà meglio il concetto: si immagini di aver
osservato su di una popolazione di carcerati il numero di anni di
detenzione che ogni individuo dovrà scontare; ebbene, se un
individuo, per una qualsiasi ragione, avesse accumulato ad esempio
quattro ergastoli, di fatto resterebbe in prigione tutta la vita,
esattamente come se un individuo di ergastoli né avesse accumulati
due; è dunque inutile penalizzare in modo diverso i due individui.
PDF created with pdfFactory Pro trial version www.pdffactory.com