2
volta che si è sviluppata l’analisi della varianza e si è appurato che esistono delle differenze fra le
medie, si deve continuare l’indagine per sapere quale o quali gruppi differiscono dagli altri.
Come illustrato nel quinto capitolo, si hanno a disposizione diversi metodi per affrontare il
problema, fra questi: il test t di Bonferroni per confronti multipli nell’analisi della varianza ad un
criterio di classificazione; il test di Student-Neuman-Keuls per confronti multipli nell’analisi della
varianza ad un criterio di classificazione; il test t di Bonferroni per confronti multipli nell’analisi
della varianza per prove ripetute; il test di Student-Neuman-Keuls per confronti multipli nell’analisi
della varianza per prove ripetute.
Se invece le popolazioni statistiche, dalle quali sono stati tratti i campioni, non sono distribuite
normalmente e di conseguenza la media e la deviazione standard non sono più sufficienti per fornire
una completa descrizione della popolazione, i metodi parametrici diventano poco attendibili e si
devono usare i test statistici non parametrici (vedi capitolo sei), definiti anche come metodi liberi da
distribuzione, si basano su modelli matematici che non richiedono condizioni relative alla forma
della distribuzione della popolazione da cui è tratto il campione. I test non parametrici, non essendo
basati sui parametri della popolazione di origine, in questi casi sono più potenti e forniscono
risultati più attendibili.
Nel settimo capitolo si sono descritti e confrontati tra loro i tipi di studio che possono essere
trasversali, prospettivi o re-trospettivi. Uno studio trasversale deve essere condotto in modo
“istantaneo” per determinare esattamente quanti sono i casi di malattia presenti nella collettività in
esame in quel preciso momento; uno studio prospettivo viene condotto identificando un gruppo di
individui esposti ad un agente eziologico sospetto, seguendoli nel tempo e registrando il numero di
casi di malati che si verificano; uno studio re-trospettivo considera i malati come punto di partenza
dell’indagine per risalire a determinare la frequenza con cui un sospetto fattore eziologico compare
nella loro storia clinica.
Nell’ottavo capitolo si è parlato del metodo “clinical trials”(CT) che è uno studio controllato
condotto su soggetti umani e mirato a scoprire, valutare, verificare la sicurezza, l’efficacia, gli
effetti clinici e farmaceutici, e le reazioni avverse dei nuovi farmaci, o dei nuovi dispositivi,
trattamenti, misure preventive o di altri interventi medici nel trattamento, nella prevenzione o nella
diagnosi di una specifica malattia o condizione.
Nel nono capitolo si è parlato del metodo “blind” che è una parte importante del metodo scientifico,
utilizzato dall’osservatore per prevenire pregiudizi e influenze sui risultati della ricerca.
Infine, nel capitolo dieci si è parlato delle normative da seguire per garantire la riservatezza dei dati
e del protocollo HTTPS che serve per proteggere i dati sul web.
3
In appendice sono stati illustrati i più comuni software statistici sia commerciali che open source
evidenziando i relativi vantaggi e svantaggi, tutta la normativa sulla privacy presa dal sito del
garante della privacy ed infine una tabella come integrazione degli esempi.
4
Capitolo 1
Acquisizione ed interpretazione dei dati
1.1 Obiettivi, definizioni e classificazione
Le relazioni esistenti fra le questioni proprie del fenomeno osservato e le caratteristiche tecnico-
statistiche ed operative dell’indagine sono tali e tante che risulta indispensabile la partecipazione di
uno o più esperti del settore specifico all’interno del gruppo di progettazione. Di seguito viene
riportata una breve descrizione degli aspetti definitori che è necessario prendere in considerazione:
ξ Fenomeno di interesse: delimitare precisamente cosa interessa da cosa non interessa
ricordando che più ampio è l’arco degli argomenti trattati, maggiori divengono le
complessità da affrontare sul piano concettuale statistico ed operativo. Definire se interessa
descrivere un fenomeno nella sua componente statica o in quella dinamica. Specificare se
interessa confrontare i risultati con informazioni relative ad altre realtà territoriali.
Specificare quali ipotesi si intende sottoporre a verifica.
ξ Popolazione di riferimento: individuare con precisione l’insieme di unità statistiche alle
quali si intende estendere i risultati dell’indagine. Specificare esattamente le condizioni di
eleggibilità, ovvero le caratteristiche che determinano l’inclusione (o l’esclusione) delle
unità statistiche della popolazione. Discutere la possibilità reale di verificare le condizioni
di eleggibilità sulle unità statistiche e giungere a condizioni che rappresentino un
compromesso tra correttezza teorica ed effettiva praticabilità.
ξ Variabili studiate: misure di caratteristiche, solitamente elementari, riferite alle unità
statistiche. Si raggruppano concettualmente in quattro grandi classi:
1. Qualitative sconnesse: assumono un insieme finito di categorie mutuamente
esclusive tali che, per due differenti unità statistiche, si può definire soltanto se
queste assumono la stessa o differenti categorie (sesso, stato civile).
2. Qualitative ordinali: assumono un insieme finito di categorie mutuamente esclusive
tali da poter ordinare due unità statistiche secondo il possesso di caratteristiche
possedute (grado di istruzione, grado di soddisfazione).
3. Quantitative discrete. La caratteristica può essere descritta mediante un numero
finito o infinito numerabile di valori numerici fra i quali abbia senso calcolare una
differenza e/o un rapporto (numero di figli).
5
4. Quantitative continue: la caratteristica può essere descritta mediante un’infinità non
numerabile di valori fra i quali abbia senso calcolare una differenza e/o un rapporto
(fatturato d’impresa).
La definizione delle variabili dovrebbe procedere attraverso una progressiva identificazione e
raffinamento del fenomeno di interesse nelle sue componenti fino ad identificare gli aspetti salienti.
L’obiettivo di tale procedimento dall’alto verso il basso serve a definire delle caratteristiche
immediatamente utili all’obiettivo della ricerca. D’altro canto è necessario predisporre un analogo
meccanismo dal basso verso l’alto considerando che le caratteristiche che si vogliono conoscere
siano effettivamente misurabili sulle unità statistiche da indagare. E’ utile procedere nella
definizione delle variabili utilizzando tecniche quali il “modello entità-relazioni”.
ξ Classificazioni: insieme delle categorie assunte da una variabile qualitativa sconnessa o
ordinale. Definire una classificazione è un momento particolarmente critico. Ad esempio
misurare il gradimento di uno spettacolo ricorrendo a quattro anziché a cinque categorie
(ma anche denominando in modo appena diverso le stesse cinque categorie) può fornire
risultati addirittura opposti. E’ quindi opportuno, soprattutto se si desidera confrontare i
risultati dell’indagine con altre fonti di informazione disponibili, ricorrere a classificazioni
comunemente utilizzate. Per alcune variabili particolarmente complesse da definire (attività
economiche, professioni, malattie) sono disponibili classificazioni standard riconosciute a
livello internazionale.
In tutti i casi, soprattutto in quelli più complessi, nel definire una classificazione è opportuno, se
possibile, procedere ad aggregazioni o raffinamenti di categorie utilizzate da classificazioni già
esistenti in modo da preservare almeno in parte la confrontabilità dei risultati dell’indagine.
1.2 Disegno d’ indagine
La definizione del disegno di indagine mira a rispondere alle seguenti necessità:
1. Definire qual è il tipo di indagine più consono a produrre le statistiche che si desiderano;
2. Decidere tra indagine totale e campionaria e, in tal caso, disegnare ed estrarre il campione.
Di solito vengono illustrati ciascuno dei due punti in maggior dettaglio:
6
1. Seguendo Duncan e Kalton (1987) esistono una varietà di stime che può interessare
produrre:
ξ stime di caratteristiche, attività, comportamenti, attitudini in un punto nel tempo;
ξ stime di variazione netta o lorda in due o più punti nel tempo;
ξ stime di andamenti tendenziali su più periodi temporali;
ξ stime di durata, transizioni o frequenze di accadimento per specifiche tipologie di
eventi e specifici sotto-insiemi di popolazione;
ξ stime di caratteristiche basate sull’accumulo di dati nel tempo;
ξ stime di relazioni fra caratteristiche.
Pur rimandando alla letteratura specifica per approfondimenti, è già chiaro che, a seconda delle
informazioni alle quali si è interessati, è necessario fare riferimento a differenti tipi di indagine.
Ricorrere all’indagine di tipo non opportuno può pregiudicare in tutto o in parte gli scopi della
ricerca.
2. Raccogliere informazioni su tutte le unità statistiche appartenenti alla popolazione implica
non solo un aumento insostenibile dei costi, ma anche un maggior numero di errori non
campionati tali da limitare questa modalità a casi di eccezionale importanza come i
Censimenti o a casi in cui le informazioni sulla totalità delle unità statistiche sono state già
raccolte per motivi diversi dell’indagine, come nel caso delle indagini amministrative.
Se le considerazioni di costo/beneficio orientano la scelta verso una indagine campionaria occorre
valutare i seguenti aspetti:
ξ identificare il metodo di selezione del campione in riferimento alla struttura degli archivi di
base e alle informazioni in essi contenute, in modo da massimizzare l’efficienza delle stime
prodotte, tenendo conto allo stesso tempo dei vincoli da essi imposti;
ξ dimensionare il campione in modo da garantire stime della precisione desiderata, dati i
vincoli di bilancio imposti;
ξ i due problemi elencati possono essere affrontati utilizzando la ben consolidata teoria del
campionamento. La soluzione a tali problemi prende il nome di strategia di
campionamento.
7
1.3 Tipi d’indagine
Una prima grande distinzione può essere fatta tra indagini trasversali e longitudinali.
Nelle prime si rilevano le unità statistiche raccogliendo informazioni di interesse riferite ad un
particolare momento o periodo di tempo, con l’intento di stimare le caratteristiche riferite allo stato
della popolazione oggetto nel momento o periodo di interesse.
Nelle seconde invece l’obiettivo è principalmente rivolto a misurare l’evoluzione nel tempo delle
caratteristiche di interesse mediante l’espediente di ricontattare le unità per analizzarne i
cambiamenti.
E’ importante tuttavia osservare che questa distinzione non impedisce completamente di stimare
misure di cambiamento con indagini trasversali o misure di stato con indagini longitudinali, anche
se ciò può essere fatto utilizzando opportune accortezze. Di seguito, vengono elencate una serie
di tipologie d’indagine illustrandone sia le potenzialità informative in termini di stima di
caratteristiche di stato o di cambiamento (Bailar 1989):
ξ Indagini occasionali: si tratta di indagini pianificate allo scopo di ottenere stime riferite a
caratteristiche possedute dalla popolazione in un singolo istante di tempo (es.: distribuzione
per età della popolazione in un dato istante) o riferite a un periodo (es.: distribuzione del
fatturato realizzato nell’arco di un anno). Se tuttavia nell’indagine occasionale sono
raccolte una o più informazioni in comune con altre indagini è possibile ottenere stime di
variazione netta. E’ importante osservare che queste stime di cambiamento possono essere
gravemente affette da variazioni indotte dalla diversa tecnica di indagine adottata nei due
casi.
ξ Indagini ripetute (nessuna sovrapposizione fra le unità indagate nelle diverse occasioni):
sono spesso chiamate indagini periodiche o ricorrenti. Secondo questa modalità
un’organizzazione di indagine viene ripetuta in momenti programmati nel tempo.
L’organizzazione adottata non prevede una sovrapposizione, neanche parziale, del
campione di unità in differenti occasioni.
ξ Indagini ripetute con una parziale sovrapposizione del campione: queste indagini sono
programmate ad intervalli di tempo regolari con l’uso di panel ruotati: in altri termini le
unità statistiche sono introdotte nel campione, indagate per un prefissato numero di
occasioni e quindi escluse (ruotate). Lo scopo principale per introdurre una
sovrapposizione del campione è quello di ridurre la varianza campionaria delle stime. Non
viene fatto alcun tentativo di seguire le unità che si muovono o abbinare le unità