INTRODUZIONE La presente tesi di laurea si propone di delineare concetti, metodi e tecniche inerenti
la qualità dei dati .
Il ruolo centrale che i dati rivestono nella società moderna, comporta
necessariamente che questi debbano opportunamente essere sottoposti a controlli di
qualità. In mancanza di tali controlli, dati non corretti porterebbero senz'altro a tutta
una serie di effetti negativi che avrebbero riflessi nefasti in molteplici situazioni.
L'aspetto multidisciplinare di questo elaborato è caratterizzato principalmente
dall'interesse che l'argomento della qualità dei dati riveste nelle due discipline della
statistica e dell'informatica.
La varietà dei punti di vista spesso rappresenta un problema di comunicazione tra
mondi disciplinari diversi, già a partire dai termini in uso. Può succedere infatti, che
un determinato fenomeno venga chiamato in un modo in una disciplina e in un altro
nell'altra disciplina, quando il fenomeno è comunque lo stesso.
Ho scritto il seguente testo cercando di far colloquiare questi due mondi, usando un
linguaggio relativamente semplice, così da consentire la lettura anche al lettore non
esperto di informatica e di statistica.
Mi sono interessato a questo argomento durante l'esperienza di tirocino svolta da fine
Aprile a fine Luglio di quest'anno presso il C.S.I.
1
Piemonte. La mansione
assegnatami consisteva nell'individuare inesattezze e non corrispondenze in due
corposi dataset che raccoglievano i dati del CedAP (Certificato di assistenza Al
Parto), uno inerente alle partorienti e l'altro inerente ai neonati. Dati di quel tipo
possono essere utilizzati al fine di produrre statistiche socio-demografiche, ma ancor
più per produrre indicatori utili nell'ambito decisionale relativo alla sanità pubblica
piemontese, nel settore specifico dell'evento “parto”.
A livello generale per poter produrre statistiche che rispecchino i reali movimenti di
un ospedale, di un'azienda o di un'intera società, è necessario disporre di dati che
rappresentino il più fedelmente possibile la realtà e che siano perciò così “puliti” da
consentire delle analisi serie e dei risultati validi.
I risultati di queste analisi sono, però, frutto di due fattori:
1 Consorzio per il Sistema Informativo.
1
DATI (data quality) + ANALISI = RISULTATI E' possibile che in fase di analisi non si consideri sufficientemente la questione della
qualità dei dati.
Tuttavia, non si può prescindere dal fatto che se i dati non sono buoni, i risultati
saranno altrettanto scadenti, anche se lavorano analisti molto esperti. Gli effetti
causati da dati di scarsa qualità sono, quindi, legati inseparabilmente alle relative
analisi. Ancora peggio, se un analista troppo fiducioso non è a conoscenza della
scarsa affidabilità dei dati, i risultati ovviamente fuorvianti possono essere utilizzati
per prendere decisioni importanti che conducono a perdita di credibilità (proiezioni
sbagliate), perdita di ricavi (errori di fatturazione), clienti irati (richieste di
pagamento doppie) e perfino incidenti mortali (calcolo errato delle linee di volo,
errata diagnosi medica). Cercare e trovare difetti nei dati, renderli pubblici agli
utilizzatori e agli apparati decisionali, e usare programmi sempre più sofisticati che
eliminino o perlomeno riducano gli errori, dovrebbero essere attività da considerare
parte integrante di qualsiasi lavoro inerente all' analisi dei dati.
Il lavoro che segue viene suddiviso in sei capitoli.
Nel primo capitolo del testo si sottolinea l'importanza a livello globale del ruolo che
ricoprono i dati e la qualità dei dati, definendo in particolare la qualità dei dati
statistici, per poi passare all'enumerazione di alcuni contesti della vita reale, le cui
attività principali sono basate sui dati e, quindi, con un forte bisogno di dati di
qualità. In seguito sono presenti alcuni dei documenti ufficiali che riguardano la
definizione di qualità per gli standard ISO, le prese di posizione dei governi inerenti
alla qualità dei dati (in genere amministrativi, con valore legale), e anche i principi a
cui i produttori di statistica ufficiale a livello europeo si devono attenere. Nel finale,
vi sono inoltre alcuni articoli di avvenimenti reali le cui cause vengono fatte risalire
ad una scarsa qualità dei dati. Questa rassegna è per sottolineare che il problema può
comunque riflettersi anche sui cittadini comuni e non deve in nessun caso essere
sottovalutato.
Il secondo capitolo differenzia due possibili tipologie di raccolta dati legate
2
essenzialmente agli scopi per cui i dati vengono raccolti.
Dati con finalità amministrative sono spesso raccolti per mezzo di sistemi
operazionali, i quali sono sistemi informatici automatizzati che consentono
l'accumulo e la gestione di grandi moli di dati.
Dati con finalità statistiche, invece, vengono raccolti per mezzo di indagini
statistiche, le quali sono studiate ad hoc a seconda delle modalità con cui si vuole
studiare un certo fenomeno. Vengono delineate le fasi che compongono un'indagine
statistica associando, per ogni fase, i possibili errori che possono essere commessi. Si
cerca di chiarire anche come un dato statistico possa comunque essere estratto da
fonti di tipo amministrativo e come sia le analisi dei dati statistici, sia quelle dei dati
amministrativi, si avvalgano delle stesse tecnologie e strumenti (per es., le basi di
dati).
Il terzo capitolo vede l'introduzione di “dimensioni” relative alla qualità dei dati,
ovvero certe caratteristiche specifiche che danno l'idea della qualità dei dati. Esse si
dividono in dimensioni relative al modello logico (uno schema fondamentale nella
progettazione di basi di dati), ai valori veri e propri dei dati e ai formati (modalità di
rappresentazione dei dati).
Il quarto capitolo è quello più articolato, poiché l'attenzione alla misurazione e al
miglioramento della qualità è la la fase critica nella quale gli esperti e gli studiosi di
qualità dei dati stanno concentrando i loro sforzi di ricerca. Inoltre l'elevato numero
di tecniche e di metodologie fa sì che l'argomento sia di notevoli complessità, stante
le quali non si può far altro che sottolineare la non esaustività della presente
trattazione. Sono considerate principalmente le fasi in successione logica delle
attività che possono essere svolte per migliorare la qualità dei dati, mantenendo un
profilo discorsivo e non dettagliato. Infine viene descritto uno degli strumenti
maggiormente utilizzati per la pulizia, la gestione e l'analisi dei dati: il Data
Warehouse.
Nel quinto capitolo è invece presente una breve presentazione di quei dati che
3
vengono detti valori anomali, i quali risultano insolitamente più piccoli o più grandi
rispetto agli altri valori nella popolazione. Vengono delineati alcuni dei principali
metodi per l'identificazione di questi valori, uno di nuova concezione e altri due
tradizionali. Infine nell'ultimo paragrafo si discute su come tali valori debbano essere
trattati una volta localizzati.
4
1. Importanza dei dati e della loro qualità
Dicesi dato:
Rappresentazione di un'informazione realizzata nell'ambito di un linguaggio
formalizzato e non ambiguo, spesso mediante simboli numerici o alfabetici, ma
sempre in una forma tale da poter essere trattata come una metodologia
d'elaborazione 1
”.
I dati sono dunque “rappresentazioni”. Lo scopo dei dati è proprio quello di
rappresentare il più fedelmente possibile la realtà fenomenica che ci circonda.
L'uomo può arrivare a conoscere il mondo in cui vive tanto meglio quanto più i dati a
sua disposizione si avvicinano alla verità della realtà oggettiva.
E' chiaro già da questa prima considerazione che l'argomento di cui si va a trattare in
questo testo è di grande importanza per la società moderna, sempre più rivolta
all'impiego di tecnologie che consentono il divulgarsi dell'informazione in ogni
angolo del pianeta in tempi brevissimi.
Al giorno d'oggi, infatti, il ruolo dell'informazione è sicuramente fondamentale, una
risorsa strategica che condiziona l'efficienza dei sistemi, divenendo fattore di
sviluppo economico, di crescita e di ricchezza culturale. N on a caso, la nostra società
viene chiamata sempre più spesso proprio società dell'informazione .
Il trattamento dell'informazione e l'elaborazione delle conoscenze sono diventati
recentemente la principale fonte occupazionale nel mondo del lavoro: informazione e
conoscenza sono quindi le materie prime e uno dei principali prodotti della nostra
società.
Viviamo in un'epoca in cui l'informazione è uno dei nuovi beni economico attorno al
quale si concentrano gli interessi produttivi primari. Per “informazione” si intende
qualcosa che non va inteso nei termini e nei modi tradizionali quali sono le notizie
pubblicate sulla carta stampata o diffuse dai “media” radiotelevisivi, bensì ormai
tutta la conoscenza gestita tramite gli elaboratori elettronici.
Ma da dove nasce l'informazione?
Il concetto che si cerca di trasmettere è quello che i dati, opportunamente selezionati
e validati, sono gli elementi fondamentali in grado di “creare” l' informazione.
1 Definizione de “La piccola Treccani” 5
In questo elaborato si tratta più specificatamente della qualità dei dati, ovvero, in
termini molto generali, si intende la capacità dei dati di descrivere un certo fenomeno
oggetto di rilevazione, in modo corrispondente al vero.
Il tema della qualità dei dati (nel seguito della trattazione si indicherà per brevità con
l'acronimo QD l'espressione “qualità dei dati”) è un ambito delicato che attrae su di
sé sempre di più l'attenzione della comunità scientifica. I primi studi riguardanti la
QD risalgono agli anni Sessanta, quando alcuni statistici proposero una teoria
matematica per verificare l'eventuale esistenza di duplicati negli insiemi dei dati da
loro trattati. Successivamente, si occuparono del problema i ricercatori operanti nel
settore della gestione aziendale che, all'inizio degli anni Ottanta, rivolsero la loro
attenzione al modo di controllare i sistemi di manifattura dei dati per individuare e
risolvere i problemi di qualità. Solo nei primi anni Novanta, gli esperti di
informatica hanno cominciato ad occuparsi del problema di definire, misurare e
migliorare la qualità dei dati elettronici memorizzati nelle basi di dati, nei data
warehouse e nei sistemi legacy 2
(Batini & Scannapieco, 2006).
In sintesi si può dire che la qualità dei dati costituisce dunque un'area di ricerca
relativamente recente, in continua evoluzione ed interrelazione e quindi trova la sua
collocazione nell'ambito multidisciplinare. Ciò non può sorprendere visto quanto
detto in precedenza, sull'utilizzo dei dati in ogni attività della vita quotidiana dei
singoli cittadini e delle aziende, e della loro profonda influenza sulla qualità dei
processi che di essi si servono.
Il presente capitolo si divide in sottosezioni che presentano brevemente:
il ruolo della statistica in relazione alla qualità dei dati statistici (paragrafo 1.1),
alcuni possibili contesti di QD (paragrafo 1.2),
i principali documenti a livello internazionale e nazionale che si approcciano alla QD
(paragrafo 1.3)
Infine il capitolo si conclude con l'esposizione di alcuni esempi di fatti realmente
2 Il sistema legacy è un sistema informatico esistente o un'applicazione che continua ad essere usata
poiché l'utente (tipicamente un'organizzazione) non vuole o non può rimpiazzarla. Le ragioni che
inducono a mantenere sistemi legacy sono soprattutto dovute ai costi sostenuti per la loro
implementazione e ai costi da sostenere per la migrazione a nuovi sistemi. Molte persone usano
questo termine per riferirsi a sistemi "antiquati"
6
accaduti in seguito a scarsa cura nell'applicazione di QD (paragrafo 1.4).
1.1 Ruolo della statistica Oggi più che mai tutti i governi, le imprese, i cittadini hanno bisogno di informazioni
statistiche attendibili. È attraverso concetti statistici che si misurano, per esempio, il
benessere di una comunità o il grado di mantenimento degli obiettivi di stabilità
nell’Europa dell’euro, così comeil livello di scolarizzazione, povertà, degrado
ambientale, ecc.
La statistica è, quindi, la scienza che si pone come obiettivo lo studio dei fenomeni
collettivi suscettibili di misura e di descrizione quantitativa. Basandosi sulla raccolta
di un grande numero di dati inerenti ai fenomeni in esame, e partendo da ipotesi più o
meno direttamente suggerite dall'esperienza o da analogie con altri fenomeni già noti,
mediante l'applicazione di metodi matematici fondati sul calcolo delle probabilità, si
perviene alla formulazione di leggi di media che governano tali fenomeni, dette leggi
statistiche.
La statistica viene concepita inizialmente come attività descrittiva di certi fatti sociali
e in particolare di attività amministrative dello stato, ha via via ampliato i suoi
confini, fino ad assurgere a livello di scienza del collettivo , una disciplina con finalità
non solo descrittive dei fenomeni sociali e naturali, ma orientata anche a finalità di
ricerca.
Da queste considerazioni si può dedurre, quindi, che tutto ciò che ha che fare con la
raccolta e l'analisi dei dati ha potenzialmente un'affinità con la statistica.
Quando si parla di qualità dei dati statistici, ci si trova di fronte ad un concetto molto
generale e composito, racchiudente al suo interno i numerosi caratteri che devono
necessariamente connotare il prodotto informazione, per poter soddisfare pienamente
i bisogni del fruitore di dati.
Per esprimere in maniera più precisa i termini del discorso, conviene affrontarlo da
due punti di vista. Così, se ci si riferisce alla qualità intrinseca del prodotto, si parlerà
in termini di attendibilità dell'informazione raccolta, se invece ci si pone nell'ottica
7
dell'utente, conviene esprimersi in termini di adeguatezza , detta anche rilevanza o
pertinenza , per indicare la rispondenza dell'informazione prodotta, alle necessità
degli utilizzatori dei dati.
E' chiaro che il principale obiettivo che il fruitore di dati persegue, è senza dubbio di
tipo conoscitivo, per cui occorrerà in primo luogo assicurare la rispondenza
dell'informazione prodotta, alle necessità dell'utente di disporre di elementi utili alla
descrizione dei fenomeni che lo interessano, o alla costruzione delle relazioni formali
dei modelli da creare.
Appare evidente allora che la qualità dei dati statistici, non può essere intesa
semplicemente come grado di rispondenza a norme standardizzate, ma va concepita
con riferimento al singolo utente, ai suoi problemi, alle sue modalità di impiego dei
dati, ma anche e ,fattore assolutamente non trascurabile, alle sue esigenze di bilancio.
Si dice, a ragione, che la qualità costa, e che le decisioni da prendere in riferimento a
ciascuno degli aspetti fin qui trattati, devono necessariamente essere prese in termini
di compromesso tra esigenze, spesso opposte, non escludendo a priori anche
soluzioni qualitative finali subottimali. Le condizioni di scarse risorse implicano
spesso ostacoli problematici all'ottenimento di soluzioni valide anche per tematiche
inizialmente presentatesi come banali. L'utilizzatore finale dei dati deve decidere se,
per fare un esempio semplice, vuole pochi dati “puliti” oppure tanti dati “sporchi”.
Se la grandezza della rilevazione ha un suo costo, lo ha anche apportare definiti
livelli di qualità ai dati rilevati. Problemi di questo e di altro tipo si pongono allo
statistico in fase di progettazione. La fase di progettazione deve perciò
necessariamente essere molto accurata e prevedere colloqui subito molto franchi con
l'utente. In altri termini, bisogna sapere che per l'utente (e non soltanto per lui) la
cosa più importante non è il disporre a tutti i costi, delle migliori statistiche in
circolazione, bensì massimizzare la propria soddisfazione complessiva in termini di
rapporto qualità/prezzo (Di Rosa, 1996).
8
1.2 Contesti L'insieme degli ambiti di applicazione di QD è veramente molto vasto, poiché i dati e
le informazioni sono gli ingredienti fondamentali di tutte le attività dei singoli e delle
imprese.
Quindi parlando dei campi di utilizzo è abbastanza facile intuire che, essendo i dati
presenti praticamente in ogni disciplina e materia, i fattori che ne valutano la qualità
sono altrettanto estesi.
Purtroppo è molto difficoltoso inquadrare il problema in campi del sapere ben
circoscritti e delineati essendo questo un cantiere sempre aperto in cui la comunità
scientifica lavora senza termine alla ricerca di risultati sempre migliori con formule
onnicomprensive ed universalemente condivise. Oggi la “caccia” alle tecniche
migliori e alle idee innovative è aperta a tutti.
In questo paragrafo vengono introdotti tre distinti domini applicativi della QD.
L'elenco forzatamente non esaustivo, vuole delineare quei domini la cui importanza è
aumentata sempre più negli ultimi anni, data la loro rilevanza nella vita quotidiana
dei cittadini e delle organizzazioni (paragrafi 1.2.1 , 1.2.2 , 1.2.3).
9