1.1 LA QUALITA’ DEI DATI STATISTICI
Negli ultimi anni, si � affermato in svariati campi del sapere, un tipo di analisi che si basa
sempre di pi� sull'impiego di dati osservazionali, per la definizione delle relazioni
funzionali tra gli aggregati oggetto di studio
1
. Sono evidenti i progressi fatti in questa
direzione nei settori dell�economia aziendale, delle scienze demografiche, biologiche e
sanitarie, e nel vasto campo delle rilevazioni economiche e sociali; senza dimenticare,
inoltre, i pi� recenti sforzi compiuti per colmare lacune riguardanti campi nuovi di
indagine, si pensi alla tematica dell�ambiente. In ciascuno di questi ambiti, il generale
miglioramento dei risultati dell'analisi, si ritiene debba essere ricercato muovendosi su
due piani strettamente interdipendenti: occorre infatti, che ai continui avanzamenti teorici
compiuti nella ricerca di modelli sempre pi� rappresentativi della realt� investigata,
corrisponda una corretta formazione delle statistiche dei dati raccolti, onde permettere il
necessario testaggio empirico delle costruzioni econometriche intuite
2
.
Alla luce di quanto detto, appare facilmente comprensibile il vivacizzarsi del dibattito
attorno al problema della qualit� dei dati statistici, che gli utilizzatori degli stessi hanno
acceso nei confronti degli statistici in generale, e dei costruttori di dati in particolare. In
quanto pi� vicino ai nostri interessi, poi, occorre sottolineare come gli sforzi verso il
miglioramento dell'informazione economica, utilizzata dalla collettivit� in tutte le sue
componenti, oltre che da vaste categorie di studiosi, siano visti come l'adempimento di
un vero e proprio dovere sociale per gli statistici economici.
Bisogna a questo punto premettere, pero, che quando si parla di qualit� dei dati statistici,
ci si trova di fronte ad un concetto molto generale e composito, racchiudente al suo
interno i numerosi caratteri che devono necessariamente connotare il prodotto
1
Alavo G., Contabilità Nazionale e Statistica Economica, Accucci Editore, Bari, 1995.
informazione, per poter soddisfare pienamente i bisogni del fruitore di dati. Considerato
inoltre che il tema in questione, si lega indissolubilmente con quello, pure generale e
vario, degli errori nei dati di tipo empirico, errori che possono sorgere a qualsiasi livello
della ricerca, si comprende come il discorso che segue � lungi dal poter essere trattato in
termini rigorosamente deterministici. Ci� � testimoniato anche dal fatto che, ciascuno dei
numerosi studiosi che si sono soffermati sul tema della qualit� dei dati statistici, ha
impostato il suo contributo in riferimento ad uno stadio particolare del processo di
rilevazione statistica, privilegiando di conseguenza, soltanto singoli aspetti della suddetta
qualit�. Sar� importante, pertanto, cogliere i tratti comuni alle varie riflessioni, su
ciascuno dei caratteri dei dati statistici.
In termini molto generali, per qualit� dei dati intendiamo la loro capacit� di descrivere il
fenomeno oggetto di rilevazione, in modo corrispondente al vero
3
. Ma per esprimere in
maniera pi� precisa i termini del discorso, conviene, seguendo l�approccio seguito da
Parenti, affrontarlo da due punti di vista. Cos�, se ci si riferisce alla qualit� intrinseca del
prodotto, si parler� in termini di attendibilità dell'informazione raccolta, se invece ci si
pone nell'ottica dell'utente, conviene esprimersi in termini di adeguatezza, detta anche
rilevanza o pertinenza, per indicare la rispondenza dell'informazione prodotta, alle
necessit� degli utilizzatori dei dati
4
. Alcuni autori, inoltre, hanno definito queste due
caratteristiche dei dati statistici partendo da tre concetti base: l�obiettivo ideale Z,
l�obiettivo definito X e il risultato ottenuto dall�indagine Y; in tal caso l�attendibilit� �
rappresentata dalla differenza D(A)=Y-X, mentre l�adeguatezza viene definita con
l�espressione D(R)=X-Z. L�obiettivo ideale Z rappresenta l�insieme delle statistiche che
2
Vinci S., Presentazione, in Quintino C., Castellano R., Romano AA, L'imputazione delle mancate risposte
nelle indagini con parte panel. Il caso dei redditi familiari della Banca d'Italia, Rocco Curto Editore, Napoli,
1996.
3
Maffioli D., Un aspetto particolare della qualità dei dati: la soggettività delle risposte ad interviste., Atti del
Convegno della Società Italiana di Statistica, Trieste, 1983.
4
Parenti G., Sulla qualità dei dati statistici, Atti del Convegno della Società Italiana di Statistica, Trieste,
1983.
si otterrebbero se tutte le richieste �ideali� fossero determinate in modo preciso e
rigorosamente soddisfatte; l�obiettivo definito X � invece costituito dall�insieme delle
statistiche che si otterrebbero se tutte le specificazioni richieste dal ricercatore nella fase
di predisposizione del piano, fossero state realizzate rigorosamente e con precisione nel
corso dell�indagine.
Al fine di approfondire il carattere della attendibilit�, � importante evidenziare
innanzitutto che, nell�ambito dello stesso, uno degli aspetti pi� frequentemente
richiamati � quello della accuratezza, il quale sta ad indicare la rispondenza di un dato
statistico, alla realtà effettuale che esso intende rappresentare. Quest'ultima, � bene
precisare, non va concepita come qualcosa di concreto, ma � il risultato di quel processo
di astrazione, necessario ai fini conoscitivi, che ci permette di ottenere un'immagine
semplificata e convenzionale della complessa realt� da studiare
5
.Vi � anche chi intende
l'accuratezza dell'informazione, come conseguenza diretta del rispetto delle
specificazioni operative, stabilite nella fase di predisposizione del piano, relativamente a
ciascuna delle operazioni da eseguire nel corso dell�indagine
6
.In sintesi, mutuando da
altri la seguente definizione, intendiamo per accuratezza, la rispondenza del valore
stimato a quello che, nell'ambito delle convenzioni accolte, consideriamo il valore �vero�
del fenomeno oggetto di studio
7
.
Altro aspetto dell�attendibilit� di un dato, � rappresentato dal grado di precisione.
Occorre in primo luogo avere la consapevolezza che operando con dati di tipo empirico,
� impossibile maneggiare valori �esatti�, e questo, a causa sia delle ipotesi semplificativi
da noi introdotte, che della inadeguata sensibilit� degli strumenti in relazione alla
5
Colombo B., La qualità dei dati statistici, Atti del Convegno della Società Italiana di Statistica, Trieste,
1983.
6
Gottardo G., Alcune considerazioni sulla valutazione dalla qualità dei dati provenienti da un'indagine
campionaria in campo sociale, Atti del Convegno della Società Italiana di Statistica, Trieste, 1983.
7
Trivellato U., L'attendibilità di aggregati ed indici economici, in Marbach, Statistica economica, UTET
libreria, Torino, 1991.
fenomenologia
8
. La precisione di un dato, intesa nel senso di livello di approssimazione,
sar� pertanto soddisfacente, in relazione a ci� che da esso vogliamo sapere e quindi, alla
funzione che lo stesso � chiamato ad assolvere.
Si noti ancora che, nel tentativo di migliorare l�attendibilit� generale dell�informazione
prodotta, si � portati ad orientarsi verso l�uso di dati provenienti da pi� fonti di
informazione, siano esse pubbliche o private, dirette o indirette
9
. In tal caso per�, prima
di procedere ad un qualsiasi tipo di elaborazione, occorre verificare che ci sia
concordanza tra i diversi valori eventualmente ottenuti, in modo tale da ricavare una
visione del fenomeno la pi� completa e coerente possibile, grazie alla composizione di
notizie provenienti da canali diversi. E� in tal senso che si parla di coerenza tra le diverse
informazioni utilizzate, distinguibile a sua volta in coerenza interna o esterna a seconda
che il confronto sia tra dati provenienti da un�unica fonte o da pi� fonti distinte
10
.
Spostandosi, invece, nell�ottica dell�utilizzatore dei dati, si possono comprendere meglio
i vari aspetti della adeguatezza o rilevanza della informazione statistica, prima definita
come la capacit� del dato di soddisfare i bisogni del singolo utente. E� chiaro che il
principale obiettivo che il fruitore di dati persegue, � senza dubbio di tipo conoscitivo,
per cui occorrer� in primo luogo assicurare la rispondenza dell�informazione prodotta,
alle necessit� dell�utente di disporre di elementi utili alla descrizione dei fenomeni che
interessano, o alla costruzione delle relazioni formali dei modelli da creare.
Un�altra delle necessit� maggiormente avvertite dal fruitore di dati, poi, � senza dubbio
quella della tempestiva disponibilità dell�informazione richiesta, che discende
direttamente dalla esigenza di prendere decisioni immediate, soprattutto in periodi di
8
Skoniecskny G., L’imprecisione nei dati di carattere economico. Proposte per un approccio mediante la
teoria degli insiemi sfocati, estratto da: Annali della facoltà di Economia e Commercio dell’università di
Catania, A. XXXIV 1988, pp. 276-286.
9
Colombo B., La qualità dei dati statistici, Atti del Convegno della Società Italiana di Statistica, Trieste,
1983
10
Trivellato U., L’attendibilità di aggregati e indici economici, in Marbach, Statistica Economica, UTET
Libreria, Torino, 1991.
continui e profondi cambiamenti
11
. Tra l�altro si sottolinea come il suddetto requisito
debba essere anche conciliato con quello della attendibilit�, con il quale � in evidente
contrapposizione, per via del tempo che necessariamente occorre allo svolgimento delle
operazioni di verifica e controllo, senza parlare poi dei tempi di stampa; il necessario
compromesso dovr� essere ricercato di volta in volta.
Occorre preoccuparsi, pure, di fornire all�utente tutta una serie di informazioni
integrative, sul significato esatto delle statistiche offerte, sui concetti e sulle procedure di
rilevazione ed elaborazione adottate, sulla validit� dei risultati; il tutto in una forma che
sia la pi� adatta possibile alle capacit� di comprensione e alle necessit� del singolo
cliente.
Volendo si possono anche considerare aspetti minori della qualit� delle statistiche,
attinenti, per cos� dire, alla confezione del prodotto, quali il formato e la maneggevolezza
delle pubblicazioni, l�ordinamento e la struttura tipografica, che ne facilitino la
consultazione e ne consentano una immediata lettura, e tutto quello che, in generale, ne
accresce il grado di usabilità ed utilità
12
.
Da quanto detto, appare chiaro che la qualit� dei dati statistici, non pu� essere intesa
semplicemente come grado di rispondenza a norme standardizzate, ma va concepita con
riferimento al singolo utente, ai suoi problemi, alle sue modalit� di impiego dei dati, ma
anche, e soprattutto, alle sue esigenze di bilancio
13
. Si dice a ragione, che la qualit� costa,
e che le decisioni da prendere in riferimento a ciascuno degli aspetti fin qui trattati,
devono necessariamente essere prese in termini di compromesso tra opposte esigenze,
non escludendo a priori anche soluzioni qualitative subottimali. In altri termini, per
l�utente la cosa pi� importante non � il disporre a tutti i costi, delle migliori statistiche in
11
Colombo B., La qualità dei dati statistici, Atti del Convegno della Società Italiana di Statistica, Trieste,
1983.
12
Trivellato U., L’attendibilità di aggregati e indici economici, in Marbach G., Statistica Economica, UTET
Libreria, Torino, 1991.
circolazione, bens� massimizzare la propria soddisfazione complessiva in termini di
rapporto qualit�/prezzo.
1.2 L’INDIVIDUAZIONE DEGLI ERRORI IN
UN’INDAGINE STATISTICA
Si � accennato in precedenza alle strette interconnessioni tra il tema della qualit� dei dati
statistici e quello degli errori che inevitabilmente sono presenti negli stessi. Il primo
passo da compiere, pertanto, sar� proprio quello di prendere coscienza dei limiti e
dell�esatta portata dell�informazione contenuta nei dati, cos� da potersene servire, poi, nel
modo pi� proficuo possibile. Giustamente � stato detto che � migliore la qualit� dei dati
dei quali si conoscono i margini d�errore, perch� ci� consente di apprezzare le statistiche,
per quello che effettivamente esse sono in grado di offrirci in termini di capacit�
informativa
14
. Individuare le potenziali fonti e, quindi, la natura degli errori nei dati, ci
permette non solo di correggerli una volta che essi si sono verificati, ma gi� in partenza
di prevenirli o almeno contenerli.
Il problema che si pone a questo punto per�, � che, proprio in virt� delle molteplici e
varie occasioni di commettere errori, gli stessi assumono infinite sfaccettature e sfuggono
a qualsiasi riduzione in categorie. Una classificazione degli errori esaustiva e completa �
quindi impossibile, ed anche il pi� elaborato degli schemi, non riuscirebbe a contenerli
tutti, proprio perch� spesso l�errore � poliedrico ed invade pi� caselle
contemporaneamente
15
.
13
Colombo B., La qualità dei dati statistici, Atti del Convegno della Società Italiana di Statistica, Trieste,
1983.
14
Colombo B., Sul concetto di qualità delle statistiche ufficiali, in Studi di Statistica e di Economia in onore
di Libero Lenti, vol. 1 Statistica, Giuffré ed., Milano, 1979.
15
Colombo B., La qualità dei dati statistici, Atti del Convegno della Società Italiana di Statistica, Trieste,
1983.
Un interessante percorso da seguire, a questo punto, per tentare una possibile
schematizzazione delle varie tipologie di errore, consiste nel classificarli in base alla fase
dell�indagine nella quale essi rischiano di manifestarsi. Tale approccio inaugura una
nuova linea di analisi, che gli anglosassoni chiamano �Error Profile�, tendente ad
individuare, passo per passo, i motivi che sono alla base di eventuali distorsioni del dato
raccolto, studiandone anche i modi della loro eliminazione
16
. Alcune volte la procedura
di controllo di un Error Profile di un�indagine, si riduce a semplice accertamento
dell�adeguatezza delle informazioni fornite o ricevute, altre volte, pi� correttamente, si
estende fino a comprendere l�analisi completa della qualit� dei microdati e a suggerire
accorgimenti da apportare non solo al piano dell�indagine, ma anche all�intero approccio
metodologico alla realt� investigata. L’Error Profile consiste, infatti, in una completa e
dettagliata descrizione di ciascuna fase del processo di produzione di statistiche, al fine
di individuare le principali fonti potenziali di errore e, se possibile, quantificare le
singole componenti di quest�ultimo
17
. Circa quest�ultimo aspetto, per�, si osserva che la
quantificazione degli errori spesso non � agevole, perch� richiede che l�intera indagine
sia impostata anche in funzione delle esigenze di controllo della qualit� e di misurazione
degli errori, il che avviene raramente, e anche che si conducano costose indagini e
sperimentazioni per compiere le suddette misurazioni. Come giustamente � stato
osservato, poi, non � detto che, nonostante gli sforzi profusi, si riescano a quantificare
tutte le possibili componenti di errore
18
.
16
Vitali O., Presentazione, in Castellano R., L’imputazione dei redditi mancanti con medie condizionate,
Quaderni di discussione, Istituto di Statistica e Matematica, Istituto Universitario Navale, Rocco Curto
Editore, Napoli, 1993.
17
Marbach G., Le ricerche di mercato, 3^ ed., UTET, Torino, 1993; Quintano C., Calzaroni M., Dini P.,
Masselli M., Politi M. e Taccini P., Una ricognizione dell’”Error Profile” dell’indagine sul prodotto lordo, in
Trivellato U., Attendibilità e tempestività delle stime di contabilità nazionale, Serie Ricerche, n. 2, CLEUP,
Padova, 1987; Trivellato U., L’attendibilità di aggregati e indici economici, in Marbach G., Statistica
Economica, UTET Libreria, Torino, 1991.
18
Bracalente B., Registro generale delle imprese e qualità delle statistiche economiche, in Biffignandi S. e
Martini M., Il registro statistico europeo delle imprese, Collana di matematica e statistica, F. Angeli,
Milano,1995.
Prima di procedere oltre, per�, occorre precisare che il nostro scopo adesso, non �
certamente quello di tracciare il profilo dell�errore di un tipo di indagine particolare,
operazione, come si � detto, molto vasta e complessa, anche per via delle misurazioni che
comporta; ci� che della suddetta tipologia di analisi, invece, si adotter� � soltanto il tipo
di approccio seguito, che ci permetter� di classificare gli errori, scorrendo le varie fasi del
processo di produzione di statistiche.
Alla stregua di quanto detto, appare chiaro che il primo passo da compiere, sar� quello di
individuare le varie fasi di cui si compone un�indagine statistica. Quest�ultima, sia essa
esaustiva o campionaria, inizia sempre con un processo di astrazione, nel quale si fissano
gli obiettivi della ricerca, e quindi la popolazione di riferimento e i caratteri oggetto di
studio, si determinano le modalit� di raccolta delle informazioni, il tipo di analisi
statistica dei dati, i tempi e le risorse necessari per portare a compimento l�indagine
19
.
Ora, � chiaro che tutte queste specificazioni, vengono prese sulla base delle richieste
conoscitive avanzate da chi ha commissionato l�indagine, ma � pure inevitabile che,
durante la predisposizione del piano d�indagine, per innumerevoli motivi legati sia alla
natura del lavoro statistico, che alla esperienza e alle ristrettezze finanziarie e di tempo
degli organizzatori dell�indagine, non sia possibile soddisfare rigorosamente tutte queste
richieste. Definiamo pertanto �momenti di mancata adeguatezza�, ogni discrepanza, nel
senso di non rispondenza, tra ciascuna richiesta avanzata dall�utente e ci� che � stato
possibile fare da parte del produttore di statistiche, per soddisfare la medesima, tenuto
conto delle sue disponibilit� reali
20
.
Sempre nel corso del processo di astrazione, inoltre, sulla base delle richieste che si �
deciso di accogliere, come gi� si � detto, vengono fissate le specificazioni operative
relative a ciascuna fase dell�indagine. Nella esecuzione vera e propria di ogni singola
19
Fabbris L., L’indagine campionaria. Metodi, disegni e tecniche di campionamento, La Nuova Italia
Scientifica, Roma, 1989.
operazione, per�, esistono innumerevoli possibilit� di deviare dalle modalit� o procedure
prescritte. Tali possibilit� sono la causa delle varie fonti di errore di non campionamento,
che potremmo anche definire come �momenti di mancata accuratezza�, perch�
comportano in ogni caso una difformit� tra il valore osservato presso un�unit� statistica
ed il suo valore vero
21
.
Terminata la fase di predisposizione del piano, si passa a quella di rilevazione vera e
propria dei dati. Quest�ultima pu� essere svolta in maniera diretta, servendosi di
osservatori o intervistatori, per posta o per telefono, oppure indiretta, sulla base di
registri, procedure amministrative o qualsiasi altra fonte diversa dalle unit� interessate.
Occorre prestare la massima attenzione a questo livello della ricerca, perch� la maggior
parte degli errori che inficiano i dati, nascono proprio nel momento e nel processo di
rilevazione. In effetti il prodotto finale � il risultato di una linea di produzione nella quale
interviene l�influenza di numerosi fattori, sia umani che strumentali, che � impossibile
tenere sotto controllo in maniera assoluta.
Gli errori compiuti in questa fase dell�indagine, in genere si distinguono in due grandi
categorie: errori di copertura ed errori di contenuto
22
. I primi si riferiscono sia ai
conteggi in eccesso, sia soprattutto a quelli in difetto; questi ultimi a loro volta, si
verificano quando sfuggono ad un corretto accertamento o singole modalit� di caratteri,
tra quelli osservati su una stessa unit� o, peggio, gruppi interi di unit�. Gli errori di
contenuto, invece, consistono nella divergenza fra la modalit� accertata in una unit�
statistica elementare e quella reale corrispondente. Le cause di questo ultimo tipo di
distorsione, sono imputabili variamente all�incomprensione dei questionari, alla scarsa
collaborazione dell�intervistato, spesso causata da inevitabili vuoti di memoria, alla
20
Gottardo G., Alcune considerazioni sulla valutazione della qualità dei dati provenienti da una indagine
campionaria in campo sociale, Atti del Convegno della Società Italiana di Statistica, Trieste, 1983.
21
Si veda la nota 20.
22
Colombo B., La qualità dei dati statistici, Atti del Convegno della Società Italiana di Statistica, Trieste,
1983.
soggettivit� delle sue risposte
23
, all�inadeguatezza dello strumento di rilevazione e alla
scarsa preparazione dell�intervistatore.
Aggiuntive sorgenti di errore, poi, assumono rilievo nella fase di rilevazione delle
indagini campionarie, quando � obsoleta o mal tenuta la lista dell�universo da cui si
estrae il campione, o quando lo stesso metodo di campionamento adottato non assicura
un soddisfacente grado di precisione o, peggio ancora, pregiudica la stessa correttezza
delle stime.
Terminata la fase di raccolta dei dati grezzi, si procede al trattamento e all�analisi degli
stessi. Rientrano all�interno di questo stadio, le operazioni di codifica, la
memorizzazione su supporti adeguati per l�elaborazione, la verifica della qualit�,
l�elaborazione dei dati per trarne delle stime e, in generale, tutte quelle operazioni
compiute per rendere gli stessi dati, utilizzabili ai fini della produzione di statistiche. I
pericoli presenti in tale fase riguardano essenzialmente, il cattivo funzionamento delle
apparecchiature elettroniche, la perdita di documenti durante i vari smistamenti e la
eventuale scarsa preparazione del personale preposto all�applicazione dei metodi di stima
e di verifica della qualit�. Ad essere pregiudicate in tal caso, sarebbero la tempestivit�
nella fornitura delle informazioni richieste dall�utente, oltre che l�attendibilit� stessa dei
valori stimati.
L�ultima fase dell�indagine, infine, comprende l’interpretazione dei risultati, in rapporto
agli obiettivi prefissati, e la diffusione delle statistiche e dei rapporti contenenti la
descrizione delle soluzioni metodologiche adottate. In questo ultimo stadio della ricerca,
le insidie sono rappresentate soprattutto dalla scarsa capacit� di lettura dei risultati, da
parte di chi � preposto alla compilazione dei rapporti finali, e dalla poca cura prestata alla
�confezione� del prodotto, causa sovente di rappresentazioni inappropriate o ermetiche
23
Maffioli D., Un aspetto particolare della qualità dei dati: la soggettività delle risposte ad interviste, Atti del
Convegno della Società Italiana di Statistica, Trieste, 1983.
dei dati forniti. La qualit� dei dati, in tal caso, ne soffrirebbe in termini di scarsa
usabilit�.
Da quanto detto, dovrebbe essere chiara l�utilit� di un approccio del tipo di quello
dell�Error Profile, al fine di migliorare la qualit� complessiva di un�indagine. Esso
infatti, non si limita soltanto a metterne in evidenza i vari punti deboli, ma finisce anche
con lo stimolarne il continuo miglioramento. Il passaggio successivo e obbligato sar�,
pertanto, proprio quello di suggerire gli accorgimenti utili a prevenire o correggere le
anomalie.
1.3 IL MIGLIORAMENTO DELLA QUALITA’ DEI DATI
E� stato giustamente sottolineato da qualche autore che, se � relativamente facile lo sport
della caccia agli errori, enormemente pi� arduo � suggerire la strada da percorrere per
evitarli. In effetti dovrebbe essere chiaro che i necessari accorgimenti, andrebbero
apportati in ogni direzione e a qualsiasi livello della ricerca, ai fini del miglioramento
generale delle statistiche prodotte.
Essenzialmente per�, il tentativo di migliorare la qualit� dei dati, segue due distinte
direttive: una tendente ad apportare continui miglioramenti alla metodologia della
rilevazione, per renderla sempre pi� conforme al tipo di analisi da compiere, l�altra
orientata a migliorare la qualit� intrinseca dei dati raccolti, intervenendo gi� nelle fasi
della nascita dell�informazione e delle prime elaborazioni
24
. I legami tra questi due
aspetti sono strettissimi perch�, come gi� detto, solo una corretta formazione delle
statistiche, assicura il supporto empirico indispensabile alla verifica di validit� delle
innovazioni metodologiche introdotte. Frutto degli sforzi compiuti nella prima delle
24
Metelka L., Alcuni problemi relativi al controllo della qualità dei dati con campionamento di unità
monetarie, Atti del Convegno della Società Italiana di Statistica, Trieste, 1983.
suddette direzioni, sono ad esempio, i continui miglioramenti apportati al disegno
campionario nelle rilevazioni statistiche parziali; rimane ancora molto da fare, invece,
per quel che riguarda i problemi attinenti alla corretta rilevazione e formazione dei dati, e
cio�, per la parte non campionaria dell�indagine
25
.
Le innovazioni e le tecniche introdotte sui due piani ora delineati, saranno oggetto di pi�
ampia trattazione nel seguito della presente dissertazione; in questa sede, invece, ci si
soffermer� su alcuni suggerimenti di carattere generale, emersi in occasione degli
incontri tra gli studiosi sul tema della qualit� dei dati statistici.
In primo luogo si avverte la necessit� di razionalizzare l�intera procedura d�indagine,
cominciando col ripartire in modo chiaro, i compiti tra il centro e la periferia della
organizzazione preposta alla rilevazione. Competenze dell�ufficio centrale si ritiene
debbano essere, oltre al coordinamento generale di chi lavora sul campo, la
responsabilit� dell�accuratezza delle notizie fornite, i necessari approfondimenti
metodologici, anche per quanto riguarda i metodi di correzione e integrazione dei dati
grezzi, la corretta tenuta e il continuo aggiornamento degli universi di persone, famiglie
ed imprese, da cui estrarre i campioni probabilistici. La periferia pu� godere di una
delega esecutiva, mentre un decentramento funzionale di scelte operative pu� rivelarsi
deleterio. Al contrario, la supervisione ed il controllo periferico devono essere capillari e
continuativi, in considerazione del fatto che la maggior parte delle distorsioni, partono
proprio dalla base della ricerca
26
. Al fine di prevenire queste anomalie, numerose sono le
possibili strade da percorrere: indagini pilota possono essere utili per scegliere il
cammino preferibile; indagini contemporanee, invece, ci aiutano a valutare le
innovazioni introdotte rispetto ad una condotta di routine, tenendo contemporaneamente
25
Quintano C., Castellano R., Romano A.A., L’imputazione delle mancate risposte nelle indagini con parte
panel. Il caso dei redditi familiari della Banca d’Italia, Quaderni di discussione, Istituto di Statistica e
Matematica, Istituto Universitario Navale, Rocco Curto Editore, Napoli, 1996.
26
Colombo B., La qualità dei dati statistici, Atti del Convegno della Società Italiana di statistica, Trieste,
1983.
sotto controllo il lavoro svolto sul campo, al fine di evidenziare eventuali punti deboli e
suggerire rimedi immediati. Sempre in un�ottica di prevenzione degli errori, � importante
prestare la massima attenzione alla scelta e alla gestione dei singoli rilevatori, della cui
preparazione e correttezza professionale non ci si � finora preoccupati pi� di tanto. E�
importante sottolineare, al riguardo, come ci sia concordia nel riconoscere che anche la
persona dell�intervistatore abbia particolari effetti sui dati, tanto che alcuni modelli
vedono la risposta Yij, data dall�intervistato i al rilevatore j, come una somma di tre
fattori, e cio�:
Y
ij
= X
i
+ M
ij
+ E
ij
,
dove X
i
rappresenta il valore vero, M
ij
appunto l�effetto intervistatore e E
ij
l�errore
casuale.
Considerando inoltre, l�enorme peso rivestito dagli errori di risposta, si pu� tentare di
contenerli, ad esempio, predisponendo questionari che rendano meno complicato il
compito degli intervistati e fornendo loro chiare guide per la compilazione
27
. Tutto ci�
consentir� di educare il fornitore di dati elementari, la cui comprensione dell�argomento,
sincerit� e precisione nel riferire, costituiscono un elemento chiave per la riuscita
dell�operazione
28
.
Un�ultima avvertenza attinente alla fase di rilevazione dei dati, deve essere fatta nel caso
di sfruttamento per scopi statistici, di documentazione di provenienza amministrativa.
Occorre precisare infatti, che quest�ultima � comprensibilmente modellata sulla base
delle specifiche esigenze dell�istituto di provenienza, per cui � necessario un preventivo
vaglio critico, per non caricarsi di inutile zavorra, ed attingere dalla suddetta fonte,
soltanto gli elementi utili agli scopi conoscitivi della specifica indagine.
27
Parenti G., Sulla qualità dei dati statistici, atti del Convegno della società Italiana di Statistica, Trieste,
1983.
28
Colombo B., Sul concetto di qualità delle statistiche ufficiali, in Studi di statistica e di economia in onore
di Libero Lenti, vol.1 statistica, Giuffrè ed., Milano, 1979.
Una volta che i dati sono stati raccolti, assumono rilievo le fasi di pulitura degli stessi, al
fine di eliminare le storture, comunque inevitabili, causate da trascuratezze o difficolt� di
rilevazione. In questo stadio l�attenzione si rivolge sul cosiddetto microdato, cio�
sull�insieme di notizie raccolte attorno ad una singola unit� statistica appartenente al
campo di osservazione. Ora, le distorsioni che un modello di rilevazione contenente le
suddette notizie, pu� presentare al suo interno, sono essenzialmente di mancata o
scorretta indicazione di una o pi� informazioni riguardanti la singola unit� esaminata. Per
ovviare a tali inconvenienti, possono instaurarsi confronti tra le risposte ottenute su pi�
caratteri di una stessa unit�, o tra dati relativi ad unit� distinte, ma in qualche modo tra
loro collegate; questo consente di segnalare eventuali incoerenze tra la diverse
informazioni raccolte e di ripianare i dati mancanti. Per gli stessi scopi, possono
confrontarsi tra loro, anche i dati raccolti per una singola unit� in circostanti differenti,
cercando di utilizzare quel tanto di informazione che comunque si � riusciti ad ottenere
intorno ad una unit� statistica.
Le divergenze di opinione su questo tipo di operazioni sorgono, per�, per quanto riguarda
le tecniche da utilizzare. La disputa circa l�opportunit� di adottare tecniche di correzione
ed imputazione automatica dei dati, basate su un unico programma di pulitura, da un lato,
e la preferenza verso verifiche da compiersi sul campo, sulla base della conoscenza
diretta delle specifiche situazioni, dall�altro, sicuramente va risolta con riferimento al
tipo e alla dimensione della singola indagine
29
. I sistemi centralizzati di pulitura
automatica dei dati, come � noto, sostituiscono al microdato originario un insieme
�compatibile� di modalit�, basandosi su criteri di normalit�. Cos� facendo, per�, causano
sovente un appiattimento nella serie originaria dei valori, il cui andamento � il riflesso
della differenziazione tra le singole realt� indagate. Si corre il rischio, pertanto, che la
29
Parenti G., Sulla qualità dei dati statistici; Colombo B., La qualità dei dati statistici, Atti del Convegno
della Società Italiana di Statistica, Trieste, 1983.
realt� convenzionale fornita dalle statistiche, perda ogni parentela con la realt� fattuale,
impedendo inoltre, di cogliere i fatti innovativi che, in genere, si manifestano attraverso
valori fuori dalla norma. Dall�altro lato per�, si deve anche ammettere che l�uso di
programmi differenziati, farebbe perdere i vantaggi propri dell�automatismo. La
soluzione, pertanto, non pu� che essere ricercata in termini di compromesso tra
contrastanti esigenze, magari verificando, con una preventiva analisi manuale fatta in
loco, la ragionevolezza dell�uso di un unico programma di pulitura, specie nelle
rilevazioni che riguardano unit� statistiche sparse in ambiti e in settori fortemente
differenziati
30
.
Sempre in un�ottica di maggiore razionalizzazione dell�intero sistema delle rilevazioni
economiche e sociali, un ruolo di primaria importanza riveste la istituzione di basi di
dati. Sfruttando le potenzialit� delle tecnologie informatiche, infatti, si � in grado di
raccogliere una massa enorme di microdati che, rielaborati e memorizzati, possono essere
in seguito adoperati anche per scopi diversi da quelli originari, per i quali � stata fatta la
rilevazione. Le basi di dati, inoltre, permettono di mantenere vaste liste di universi
utilizzabili per la formazione di campioni probabilistici, di effettuare indagini
longitudinali che colleghino nel tempo eventi e fenomeni riguardanti singole unit�
elementari e, in genere, agevolano la consultazione di macrostatistiche.
Un�altra esigenza particolarmente avvertita, ma sulla quale vengono mosse critiche da
alcune parti, riguarda l�operazione di sistematizzazione delle statistiche. Alcuni autori
affermano che le singole rilevazioni su fenomeni sociali, in generale, non debbano essere
considerate isolatamente le une dalle altre, ne viste nel loro particolare obiettivo, ma
vengano inquadrate in un sistema che, permettendo un collegamento tra i loro risultati,
consenta di aumentare enormemente le loro potenzialit� di informazione.
30
Parenti G., Sulla qualità dei dati statistici, Atti del Convegno della Società Italiana di Statistica, Trieste,
1983.