Introduzione
Le espressioni analisi multivariata e analisi multidimensionale spesso vengono usate in-
differentemente l’una al posto dell’altra, come sinonimi. In realtà identificano due diversi
modi del trattamento dei dati statistici.
L’Analisi Multivariata concerne lo studio delle relazioni di un insieme circoscritto
di variabili statistiche (per lo più inferiori a dieci, soprattutto quando se ne studiano le
iterazioni di ordine superiore a due), sulle quali vengono avanzate a priori assunzioni sul
genere di distribuzione teorica, in chiave squisitamente probabilistica.
Nella Statistica, tradizionalmente, si opera una distinzione netta fra momento descritti-
vo e momento inferenziale. Per Inferenza Statistica si intende quel processo induttivo
che rende possibile una valutazione probabilistica di parametri della popolazione, a partire
dalle conoscenze acquisite attraverso un campione. In questo ambito si parla di modello
riferendosi sia ad una regolarità di comportamento di una o più variabili, secondo una
qualche legge probabilistica, sia ad una relazione che sussiste fra un effetto (variabile di-
pendente) e un insieme di variabili esplicative (variabili indipendenti), legame che assume
rilevanza, ancora una volta, solo in un contesto probabilistico.
L’Analisi Multidimensionale si caratterizza per prendere in considerazione molte
decine (in alcuni casi centinaia) di dimensioni del fenomeno, o problema oggetto di studio,
senza vincolarne la scelta a caratteristiche distributive delle corrispondenti variabili, anche
perché non se ne avrebbero gli elementi. É un approccio che statisticamente viene definito
non parametrico e che spesso prevede lo studio di caratteristiche eterogenee quanto al loro
livello di misurazione, ossia variabili sia qualitative sia quantitative.
Nell’analisimultidimensionaledeidati,ilmomentodescrittivoeilmomentoinferenzialenon
1
2 Introduzione
sononettamentedistinguibili,poichélafasedescrittivaècaratterizzatadall’utilizzodeimo-
delli di rappresentazione dei dati basatisuspazi vettoriali euclidei,spazi metrici,grafi,...In
tal modo, nel descrivere globalmente un fenomeno, si effettua un inferenza logica (non pro-
babilistica) per ottenere, dalle informazioni prodotte dal modello di rappresentazione dei
dati, valutazioni sui contenuti della matrice dei dati.
Il primo obiettivo di ogni metodologia statistica che voglia operare in un tale contesto
è quello di ridurre utilmente la quantità di informazione, per giungere ad ottenere un
risultato che renda pregnante la lettura dei contenuti informativi espressi nei dati. La
scuola statistica francese è stata fra le prime a cogliere l’importanza di questa logica e a
proporre nuovi metodi per l’analisi statistica di grandi masse di dati. Tali metodi sono
comunemente noti come tecniche di analisi dei dati, dal termine coniato da Benzécri [4]
[5] di analyse des données.
Questi metodi sono utili soprattutto in una logica esplorativa, di prima descrizione
dei dati, o in un momento d’individuazione di nuove ipotesi di ricerca. In questa ottica
le tecniche di Analisi Multidimensionale consentono di trattare simultaneamente delle
variabili statistiche che siano:
• numerose;
• approssimate;
• poco significative, nel senso che singolarmente apportano pochissima informazione;
• discrete o continue;
• eterogenee fra di loro;
• qualitative e quantitative.
In precedenza il ricercatore disponeva di strumenti di analisi che esigevano variabili:
• in numero ristretto;
• esatte;
• significative;
• continue;
• omogenee;
• quantitative.
In sostanza, a delle analisi ricche di informazioni, ma povere in relazioni (perché unidimen-
sionali), si preferiscono delle analisi povere in informazioni ma ricche in relazioni (poiché
multidimensionali). Il presupposto quindi della scuola benzecriana d’analyse des données è
Introduzione 3
di disporre di un sistema ampio di informazioni elementari, capace di cogliere il fenomeno
nella sua complessità.
Una gran parte delle tecniche di analisi dei dati danno soluzioni operative a metodi
che, in ultima istanza, realizzano ordinamenti o producono raggruppamenti, entrambi mul-
tidimensionali. I primi corrispondono ai modelli e metodi fattoriali che consentono letture
dell’informazione secondo singoli punti di vista, i secondi ai metodi di raggruppamento che
ricostruiscono tipi, o gruppi, ottimali secondo una prescelta funzione obiettivo.
Le tecniche di tipo fattoriale consistono nel produrre delle dimensioni (fattori) at-
traverso le quali semplificare, sintetizzare e rappresentare il fenomeno. Per raggiungere
l’obiettivo della evidenziazione dei fattori latenti, le variabili osservate sono combinate,
con tecniche dette di fattorizzazione, in un insieme limitato di variabili informativo quasi
quantol’insiemedipartenza.L’Analisi FattorialeèilprogenitoredeimetodidiAnalisi
Multidimensionale ed è stata applicata in ogni campo della conoscenza. Le tecniche più
utilizzate sono l’Acp, acronimo di analisi in componenti principali, nota anche comePca,
dall’ingleseprincipal component analysis,utilizzataquandocisitrovadifronteadatiquan-
titativi, e l’Ac, acronimo di analisi delle corrispondenze, chiamata anche Ca, dall’inglese
corrispondence analysis, alla quale si ricorre nel caso di variabili qualitative.
Sottoilterminegeneraledianalisi dei gruppi,oconquellopiùcomunecluster analysis,
si accorpano varie tecniche volte a raggruppare l’insieme delle unità d’analisi in gruppi non
definiti a priori. I gruppi sono definiti in modo da massimizzare l’omogeneità interna o,
parallelamente, in modo da massimizzare le differenze tra i gruppi stessi.
L’Analisi dei Gruppi è un metodo essenzialmente esplorativo, nel senso che non si as-
sume alcuna classificazione a priori, ma ci si attende che le relazioni tra le unità siano
evidenziate dall’analisi. L’analisi può essere metrica oppure non metrica, secondo che l’ag-
gregazione sia effettuata o no sulla base di indici metrici di somiglianza tra le entità in
esame. Una tecnica che, soprattutto nell’ultimo decennio, ha preso un notevole impulso è
quella del box-clustering. Si tratta di una tecnica simile all’analisi discriminante lineare
che, invece di classificare in base al valore di una funzione discriminante, assegna gli in-
dividui secondo una appartenenza a determinati intervalli diR, calcolati a partire dalla
matrice di dati.
L’aspetto che si desidera mettere in evidenzia, tramite riscontro pratico, è come le varie
tecniche di Analisi dei Dati possano rispondere alle più svariate problematiche della la
vita quotidiana, tra cui quelle di carattere medico.
1
Analisi statistica dei dati
La Statistica è una scienza relativamente giovane il cui contenuto non è tuttora visibile
in modo corretto perché viene spesso confusa con le statistiche: dati, tabelle, grafici, indici,
medie. In effetti, essa è presente in tutte le scienze e rappresenta uno strumento essenziale
per la scoperta di leggi e relazioni fra fenomeni. Intervenendo in tutte le situazioni nelle
quali occorre assumere decisioni in condizioni di incertezza, la Statistica si configura
oggi come un momento importante della ricerca scientifica, della pianificazione economica
e dell’azione politica.
1.1
Le fasi di una analisi statistica
Nell’ambito della sua attività quotidiana, l’essere umano raccoglie informazioni, sia per
curiosità derivanti dalla sua sete di conoscenza, sia per raggiungere obiettivi concreti.
In entrambi i casi, l’obiettivo specifica la natura delle informazioni da raccogliere e gli
strumenti con i quali esaminare i dati. Per questo, ogni analisi empirica si articola secondo
5
6 Capitolo 1. Analisi statistica dei dati
lo schema seguente:
OBIETTIVI −→ INFORMAZIONI −→ METODI STATISTICI
տ ւ
←− RISULTATI ←−
É di primaria importanza definire obiettivi delimitati ed agevoli da investigare sul piano
empirico, in modo da consentire riscontri oggettivi, controlli accurati, verifiche regolari.
Inoltre, occorre individuare la pluralità delle informazioni necessarie per una puntuale
conoscenza del fenomeno oggetto di studio, nonché predisporre le modalità di raccolta dei
dati in modo che essa risulti completa rispetto ai soggetti interessati, efficace sul piano
delle risposte, accurata nella codifica, efficiente rispetto ai costi e ai tempi di indagine.
Talvoltaunaricercapuòessereimpostataerealizzatasenzalameticolositàdiunostudio
preliminareperchémotivispecificiloimpongono:lanecessitàdidecidereintempirapidissi-
mi, l’assenza totale di informazioni empiriche,.... Tuttavia, quando è possibile, è preferibi-
le svolgere la ricerca scientifica mediante una accurata pianificazione, soprattutto quando
le informazioni raccolte devono essere analizzate con metodi statistici. Generalmente si
conviene che le fasi di un’analisi statistica siano le seguenti:
(1) Definizione degli obiettivi della ricerca. Si è già evidenziato la rilevanza primaria
di questo punto, per il quale gli obiettivi devono essere particolareggiati sino ad indivi-
duare con cura le informazioni da ricercare, evitando equivoci definitori, circoscrivendo
con esattezza il territorio e il periodo dell’indagine, fornendo soluzioni alternative nei
casi di mancate o errate risposte, corresponsabilizzando, se possibile, rilevatori o inter-
vistatori in modo da ricevere anche informazioni qualitative e giudizi di valore capaci
di integrare la qualità dei dati raccolti.
Esempio 1.1.1. Una ricerca sui consumi dei giovani va qualificata definendo con esat-
tezza la fascia di età dei soggetti da intervistare, il territorio di riferimento, la tipologia
dei consumi da richiedere, il periodo temporale entro cui misurare tali consumi, e così
via.
Uno studio sui lavoratori pendolari, non si limiterà a chiarire il mezzo di trasporto
utilizzato, ma anche le caratteristiche dell’utente (dipendente, imprenditore, rappre-
sentante) e la frequenza e la regolarità del suo recarsi al lavoro, nonché altri aspetti
rilevanti, per esempio se trattasi di lavoratori saltuari, stagionali o fissi.
(2) Rilevazione dei dati. La rilevazione dei dati può essere completa, quando si esa-
minano tutti gli elementi oggetto di studio, o parziale quando ci si limita a studiare
un sottoinsieme, detto campione, dell’insieme di riferimento. Circa la numerosità delle
informazioni statistiche, oggetto della rilevazione, occorre precisare che è necessario un
ragionevolecompromessotraildesideriodiottenereinformazionimoltodettagliateela
1.1 Le fasi di una analisi statistica 7
concretezza di restringere la rilevazione a pochi dati essenziali. In ogni caso, l’obiettivo
delleindaginièladiscriminantepiùsicuraperindividuareildettagliodellarilevazione.
Esempio 1.1.2. Se occorre conoscere la necessità di aule per le singole classi di una
scuola elementare di un certo comune non possono essere conteggiati i bambini tra 6
e 10 anni in un’unica categoria perché, in tal modo, si riuscirebbe solo a dimensionare
l’esigenza complessiva di sedie, banchi ed attrezzature, senza distinguere tra quelli che
dovranno frequentare le varie classi.
Infine, è essenziale esplicitare il modo con cui si raccolgono le informazioni, cioè trami-
te dichiarazioni (questionario o intervista), o misurazioni (con strumenti). Infatti, la
modalitàdiraccoltadeidatideterminaspesso l’accuratezzadelle informazionisu cuisi
opera essendo differenti le tipologie dei rispettivi errori, la possibilità di dati mancanti,
la presenza di dichiarazioni non veritiere. In tale ambito assume rilevanza il problema
dei dati inesatti e/o mancanti
1
.
(3) Elaborazione metodologica. In questa fase si applicano gli strumenti propri dell’a-
nalisi statistica. Appare complesso definire in modo univoco la metodologia più idonea
per ciascuna indagine e, molto spesso, una pluralità di approcci consente valutazioni
e conferme più accurate per rispondere alle questioni poste dai problemi concreti. In
tal senso, la tipologia di dati con la quale ci si confronta gioca un ruolo decisivo per la
scelta dei metodi che si possono applicare. In molti casi, di fronte a problemi nuovi e
particolarmente complessi, lo statistico deve predisporre uno studio specifico che può
sfociare, talvolta, anche in una nuova metodologia di indagine.
(4) Presentazione ed interpretazione dei risultati. La gran parte dei decisori eco-
nomici, finanziari e politici, soprattutto a livello manageriale, è raramente consapevo-
le delle potenzialità e dei limiti del metodo statistico che, talvolta, viene esaminato
con sufficienza o acriticamente a causa di una presentazione poco efficace dei risultati
dell’indagine. Per questo motivo, lo statistico deve porre particolare cura nella pre-
sentazione dei risultati, sotto forma di tabelle, grafici, diagrammi, e nell’esame delle
implicazioni operative dei medesimi, con particolare riferimento alla interpretazione
propria del settore in cui opera.
(5) Utilizzazione dei risultati della ricerca. Lo statistico deve contribuire ad una
corretta utilizzazione dei risultati di una indagine scientifica, circoscrivendo l’ambito
1
Nelle rilevazioni statistiche e, in particolare, in una matrice di dati possono essere assenti delle informazioni su
alcune variabili riguardanti una unità statistica. Tale eventualità non è rara e cresce notevolmente con l’aumentare
delnumerodelle osservazioni che siregistrano e con la numerositàe complessità delle variabili che sirilevano. Inoltre,
la incompletezza dei dati è anche funzione di circostanze direttamente connesse alla natura dell’indagine stessa.
La presenza di dati mancanti, missing values, ha importanti ripercussioni statistiche, perché da un lato esclude
l’applicazione di alcuni indicatori sintetici, dall’altro richiede conoscenze aggiuntive sui fenomeni per controllare se
la mancata rilevazione possa eventualmente modificare i risultati dell’indagine. In ogni caso, il trattamento dei dati
mancanti non può essere neutrale, per cui una corretta impostazione deve necessariamente essere preceduta da uno
studio delle modalità di rilevazione e della natura delle variabili, individuando le cause della mancata risposta.
8 Capitolo 1. Analisi statistica dei dati
interpretativo e richiamando i vincoli entro cui essa assume validità.
Esempio 1.1.3. Un’indagine telefonica condotta durante un martedì non festivo tra
le ore 10 : 00 e le ore 12 : 00 non è utile per conoscere le scelte politiche degli italiani
in virtù del fatto che una fetta consistente della popolazione italiana non è presente,
in quelle ore, presso la propria abitazione.
Similmente, una ricerca sui consumi di un bene tra i dipendenti di una grande azienda
non può essere estesa alla collettività delle famiglie di una regione.
L’usodeirisultatidiunaricercaèquindiconnessoancheallesuemodalitàdiesecuzione
e ai dettagli mediante i quali è stata condotta la misurazione o l’intervista, perché solo
precisando questi aspetti è lecito ampliare l’interpretazione e l’uso dei risultati.
Infine va sottolineato il carattere dinamico ed interattivo dell’indagine statistica. Pur pia-
nificando con cura ogni aspetto di una ricerca la realtà fenomenica è così complessa ed
articolata che regolarmente ci si trova di fronte a situazioni non previste, a casi atipici non
codificati,allanecessitàdimodificarequestionariestrumentidirilevazioni,all’opportunità
di ampliare o meglio specificare la popolazione in esame.
1.2
Rilevazioni statistiche
Una disamina accurata delle informazioni disponibili agevola l’applicazione dei metodi sta-
tistici più idonei per le analisi successive. Per questo è importante premettere ad ogni
elaborazione una descrizione accurata del fenomeno in esame, del contesto in cui viene stu-
diatoedeilimiti(temporali,territorialiodialtranatura)cheinevitabilmentecondizionano
ogni ricerca su dati reali.
1.2.1
Elementi di una rilevazione statistica
Definizione 1.2.1 [Rilevazione statistica]. Una rilevazione statistica è il complesso
di operazioni rivolte ad acquisire una o più informazioni su un insieme di elementi oggetto
di studio.
Una rilevazione statistica può essere semplice, come misurare l’altezza in centimetri di un
individuo,o chiederglitelefonicamenteil sesso e la data di nascita,oppurecomplessa, come
codificare un bilancio aziendale, o registrare quotidianamente e con ritmo orario il prezzo
di tutte le azioni di Borsa.
1.2 Rilevazioni statistiche 9
In alcune situazioni, la rilevazione fornisce risposte (opinioni, informazioni, gusti, scale
digiudizi,etàinannicompiuti,...),mentreinaltricasioccorreprocedereamisure tramite
strumenti(metro,bilancia,orologio,microscopioelettronico, radar,dosatoriormonali,...).
Con riferimento al collettivo da esaminare, le rilevazioni statistiche si distinguono in:
• globali, come per esempio rilevazioni censuarie, o censimenti;
• parziali, ovvero rilevazioni campionarie, o campioni.
Definizione 1.2.2 [Popolazione]. Una popolazione è un qualsiasi insieme di elementi,
reale o ipotetico, presente o futuro, che forma oggetto di uno studio statistico. A tale ri-
guardosidistinguefrapopolazionevirtuale,definibileconaccuratezzamanonosservata
né osservabile, e popolazione reale, effettivamente esistente e visibile.
Esempio 1.2.1. É una popolazione reale quella dei residenti maschi in Abruzzo di età
compresa tra i 16 e i 65 anni, delle piante di ortensia presenti in un orto botanico, dei
passeggeri paganti su un treno,...
É una popolazione virtuale quella delle possibili cinquine estraibili su una prefissata ruota
nel gioco del Lotto, quella dei voti che uno studente può ricevere ad un esame, quella delle
parolechehannounsignificatocompiutoperlalinguaitalianaestraendo consecutivamente
cinque lettere dall’alfabeto di 26 lettere,...
Una popolazione statistica non costituisce necessariamente un insieme biologico, essendo
lecitopensareallapopolazionedellelampadineprodottenell’ultimomesedaun’azienda,al-
lapopolazionedelleschedinegiocatealSuperEnalottonell’estatedel2009,allapopolazione
delle stelle della Via Lattea,....
Definizione1.2.3[Unitàstatistica]. Unaunitàstatistica,osoggettostatisticoèl’e-
lementodibasedellapopolazionesullaqualevieneeffettuatalarilevazione,olamisurazione
di uno o più fenomeni oggetto dell’indagine.
Così, la famiglia può essere unaunità statistica se si rileva il numero dei suoi componenti,
ma è composta da varie unità statistiche se si misura l’altezza dei suoi componenti adulti;
similmente, il telefono può essere una unità statistica se si intendono studiare i consumi
mensili, ma può consistere di varie unità statistiche se si studiano le differenti linee ad esso
collegate.
L’unità statistica è definita in termini di occasione, tempo, durata, territorio, e che,
talvolta, essa cambia durante la rilevazione. Per esempio, in riferimento alla popolazione
italiana nell’ultimo secolo, va precisato che i confini presi in considerazione sono quelli
attuali, chiarendo se è calcolata con o senza gli italiani residenti all’estero, se trattasi di
popolazione presente o popolazione residente, se va riferita ad una data prefissata oppure
all’inizio dell’anno solare.
Definizione 1.2.4 [Carattere]. Il carattere, o variabile statistica, è il fenomeno
oggetto dello studio, rilevato o misurato sulle unità statistiche.
10 Capitolo 1. Analisi statistica dei dati
É tipico dei fenomeni reali di interesse statistico che le variabili assumano valori differenti
nellevarieunitàstatistiche.Sullepopolazioni,equindisulleunitàstatistiche,possonoessere
rilevate uno o più variabili di interesse: sesso, religione, età, professione, altezza, reddito
mensile,cilindratadell’automobilediproprietà,metriquadratidellapropriaabitazione,....
Definizione 1.2.5 [Modalità di un carattere]. Una modalità è l’espressione concreta
del carattere nelle unità statistiche, cioè il semplice numero, o l’attributo, che l’unità
statistica manifesta.
Definizione 1.2.6 [Modalità disgiunte]. Le modalità di un carattere sono disgiunte
se una unità statistica può manifestare il carattere in una ed una sola modalità fra quelle
indicate.
Esempio1.2.2. Sull’unitàstatisticaAdriano,ilcarattereSessosimanifestanellamodalità
attributo ‘‘maschio’’, mentre il carattere Altezza si manifesta nella modalità numero ‘‘173
cm’’. In entrambi i casi, trattasi di modalità disgiunte.
In generale, la popolazione si specifica nell’unità statistica, mentre il carattere, che varia
nella popolazione, si specifica nella modalità assunta nell’unità statistica. A tal riguardo,
ogni studio delimita le informazioni statistiche da rilevare, sino al punto di considera-
re ‘‘equivalenti” due soggetti che possiedono uguali le sole variabili oggetto dell’indagine
medesima.
Esempio 1.2.3. Se obiettivo dell’indagine è lo studio dell’altezza in rapporto al sesso, due
ragazze alte entrambe 172 centimetri, ai fini dell’indagine in oggetto, sono indistinguibili,
anche se nella realtà sono due persone differenti.
Definizione 1.2.7 [Frequenza]. Lafrequenza è il numero di volte che una determinata
modalità si verifica nel collettivo di riferimento. Quando la frequenza è un numero intero
non negativo si parla di frequenza assoluta. Quando la frequenza è rapportata al totale
delle unità statistiche della popolazione si parla di frequenza relativa.
Ladistribuzione delle frequenze
2
evidenzia come il fenomenosi manifesta nella popolazione
in rapporto ad un criterio di ordinamento delle frequenze.
1.2.2
Tipologia delle informazioni statistiche
Definizione 1.2.8 [Informazione statistica]. Con informazione statistica si inten-
de ogni risultato ottenuto da un’indagine sui collettivi esaminati (popolazione o campio-
ne) rispetto ai loro costituenti (unità statistiche), ed in rapporto ad uno o più fenomeni
(caratteri).
2
Cfr. Sezione 1.3.