Introduzione
Michele Buffolino - Tool per la valutazione della degradazione della qualit dei dati negli algoritmi di
anonimizzazione delle basi di dati.
II
• esiste un controllo sugli accessi ai dati, per cui solo l utente che
possiede i privilegi necessari pu accedere in lettura e modifica dei
valori delle informazioni contenute nella base di dati.
Spesso questi aspetti entrano in conflitto tra di loro. Ad esempio, dando maggior peso
ai requisiti di protezione, si possono compromettere i requisiti di prestazione.
Analogamente, i requisiti di prestazione potrebbero limitare la capacit del sistema di
fornire informazioni agli utenti.
Per garantire la sicurezza dei dati (dal punto di vista della coerenza) un database deve
rispondere ai seguenti requisiti:
• Integrit del database, fisica, logica e integrit dell elemento. I dati contenuti nel
database non devono essere danneggiati da problemi ai dispositivi fisici del
sistema, quali cali di tensione e usura dei componenti mobili; per mantenere
l integrit logica una modifica del valore di un campo non deve influire sul valore
di altri campi. Inoltre i dati contenuti in ogni elemento devono essere accurati.
• Verificabilit , deve essere, cioŁ possibile tracciare le modifiche apportate ai dati da
un utente o da un programma.
• Controllo degli accessi. Il sistema verifica che l utente abbia accesso solo ai dati
per i quali possiede i privilegi necessari. Limitando gli accessi alle operazioni di
lettura e scrittura.
• Autenticazione utente. Il sistema verifica che l utente sia in possesso dei necessari
privilegi per accedere alla base di dati.
Introduzione
Michele Buffolino - Tool per la valutazione della degradazione della qualit dei dati negli algoritmi di
anonimizzazione delle basi di dati.
III
• Disponibilit . Il sistema deve garantire agli utenti l accesso a tutti i dati per i quali
possiedono l autorizzazione.
Dati sensibili
Rientrano nella definizione di dati sensibili, tutti quei dati che non devono essere resi
pubblici. L elemento in base al quale un dato Ł definito sensibile Ł il contenuto stesso
dell informazione. In base a questa definizione, quindi, si possono suddividere i dati in
due categorie: dati sensibili e dati non sensibili.
Il controllo su queste categorie di dati risulta estremamente semplice: un utente pu
avere o meno i privilegi necessari ad accedere al database. Il lavoro di protezione dei
dati diventa piø arduo quando non tutti gli elementi del database sono sensibili. Inoltre
occorre definire diversi gradi di sensibilit . Ancora, un utente pu aver accesso solo ad
alcune categorie di dati sensibili. In riferimento a queste esigenze, si definiscono diversi
fattori che determinano la sensibilit di un dato:
• Sensibili in modo innato. La sensibilit del dato Ł definita dal valore
dell informazione stessa.
• Provenienti da una fonte sensibile. Un dato che nella sua accezione Ł non sensibile
pu indicare un esigenza di riservatezza.
Introduzione
Michele Buffolino - Tool per la valutazione della degradazione della qualit dei dati negli algoritmi di
anonimizzazione delle basi di dati.
IV
• Dichiarati sensibili. In questo caso Ł l amministratore del database (o il proprietario
dei dati) ad aver dichiarato il dato sensibile.
• Parte di un attributo o un record sensibile. Dati facenti parte di un intero record o
attributo dichiarati sensibile.
• Sensibili in relazione a informazioni divulgate in precedenza. Si tratta
dell aggregazione di piø dati. Due o piø dati, che presi singolarmente sono non
sensibili, aggregati sono classificati sensibili, in quanto sono fonte di informazione
sensibile.
Alla luce di queste considerazioni, viene determinata la sensibilit di un dato.
Il gestore del database (DBMS DataBase Management System) che opera sui dati, avr
il compito di regolare l accesso ai dati secondo i criteri di accesso definiti
dall amministratore della base di dati. I criteri da cui scaturisce la possibilit di
accedere ai dati sono la Disponibilit dei dati, l Accettabilit dell accesso e la
Garanzia di autenticit .
La disponibilit dei dati Ł funzione dell assicurazione dell integrit complessiva della
base di dati. Uno scenario tipico si verifica quando un utente sta aggiornando dei
campi: in tal caso il sistema potrebbe bloccare l accesso ai dati per preservarli da un
eventuale stato di inconsistenza.
In base alle query effettuate il sistema deve verificare se l utente pu impossessarsi in
modo indiretto di informazioni sensibili.
Da quanto detto si desume che il problema si estende anche alle caratteristiche dei dati,
le quali possono essere definite sensibili.
Introduzione
Michele Buffolino - Tool per la valutazione della degradazione della qualit dei dati negli algoritmi di
anonimizzazione delle basi di dati.
V
Si esamina, quindi, sotto quale forme di divulgazione un utente senza i necessari
privilegi pu entrare in possesso di dati sensibili.
• Dati esatti. Questa forma di divulgazione Ł la piø grave, in quanto c Ł una
violazione diretta della sicurezza dei dati. Un utente entra in possesso di dati
esatti, interrogando direttamente il database, oppure richiedendo il dato
inconsapevolmente.
• Confini. un altra violazione dei dati sensibili si ha quando l utente, entra in
possesso di intervalli di valori entro i quali Ł posta l informazione. Con questa
tecnica si possono restringere notevolmente gli estremi di tale confine.
• Risultato negativo. Entrano in questa categoria quei dati che possono essere
ricavati per esclusione dai risultati ottenuti dall interrogazione.
• Esistenza. In alcuni casi la conoscenza stessa dell esistenza di un dato viola la
riservatezza di un utente.
Introduzione
Michele Buffolino - Tool per la valutazione della degradazione della qualit dei dati negli algoritmi di
anonimizzazione delle basi di dati.
VI
Motivazioni e Scopo del lavoro
¨ evidente che i possessori di contenuti dovranno garantire la sicurezza dei dati
sensibili. Casi eclatanti dimostrano che Ł molto semplice distribuire, anche
involontariamente, dati personali, con conseguenze penali e civili.
- nel gennaio 2000 dalla societ GlobalHelttrax (societ impegnata nella vendita di
farmaci on-line) ci fu una fuga di informazioni circa identit di clienti e rispettivi
numeri di carte di credito. [1]
- nel 2003 alcuni hacker hanno utilizzato un comunissimo motore di ricerca su web, per
avere accesso a cartelle cliniche di migliaia di pazienti. [1]
- nel 2004 la societ Buongiorno.it, ha usato i dati contenuti in un database di una
societ di cui gestiva le basi di dati, per inviare messaggi pubblicitari via SMS
(short message service). [2]
Al fine di risolvere questi problemi, sono state ideate tecniche di protezione della data
privacy, illustrate nel Capitolo 1. In particolare, vi Ł una tecnica, nota con il nome di
generalizzazione , discussa ampiamente nel Capitolo 2 in termini di vantaggi e limiti.
L idea base Ł quella di poter rendere pubbliche basi di dati (per ricerca di mercato,
indagini statistiche, ricerche mediche) senza violare il diritto alla riservatezza.
Uno dei limiti piø gravi della tecnica in questione riguarda il degrado della qualit dei
dati, all aumentare del livello di riservatezza garantito. E , dunque, necessario avere
uno strumento automatico che supporti il responsabile delle politiche di data privacy
Introduzione
Michele Buffolino - Tool per la valutazione della degradazione della qualit dei dati negli algoritmi di
anonimizzazione delle basi di dati.
VII
nella scelta del livello di riservatezza da mantenere che non degradi in modo
inaccettabile i dati rilasciati dal sistema.
A tale scopo, Ł stato progettato e realizzato uno strumento informatico, Morgana,
illustrato nel Capitolo 3.
Nel Capitolo 4 sono mostrati i risultati della sperimentazione del tool. ¨ stato
appositamente creato un database sperimentale di un reparto ospedaliero. Si sono,
quindi, simulati attacchi al database a tal scopo Ł stato creato un set di 100 query
campione ai vari livelli di anonimizzazione. I dati registrati hanno permesso di
analizzare le dinamiche di degradazione dei dati al cambiare dei livelli di
anonimizzazione.
Capitolo 1 Stato dell arte
Michele Buffolino - Tool per la valutazione della degradazione della qualit dei dati negli algoritmi di
anonimizzazione delle basi di dati.
1
Capitolo 1
Soluzioni per preservare la privacy
Il Web Ł comunemente visto come contenitore di informazioni. ¨ molto semplice
aver accesso ad informazioni di carattere generale, ma Ł altrettanto semplice entrare in
possesso di informazioni che possono ledere il diritto alla riservatezza; la rete Internet,
infatti, non Ł stata progettata per preservare i dati sensibili da questo tipo di attacco. I
dati possono essere resi pubblici accidentalmente, oppure un utente malintenzionato
pu sfruttare le falle presenti nei database per aver accesso a dati riservati.
In questo capitolo saranno presentate soluzioni per preservare la sicurezza delle basi di
dati. E bene fare una distinzione tra sicurezza unilaterale e multilaterale [1].
La sicurezza nelle applicazioni Ł vista come un problema unilaterale: un sistema deve
essere protetto da utenti scorretti. Tale sistema Ł sicuro se nessun utente pu
utilizzarlo per scopi diversi da quello al quale Ł preposto. Un tipico esempio di
sicurezza unilaterale Ł la politica di accesso ai sistemi operativi, come anche la
Capitolo 1 Stato dell arte
Michele Buffolino - Tool per la valutazione della degradazione della qualit dei dati negli algoritmi di
anonimizzazione delle basi di dati.
2
protezione di una rete interna da attacchi esterni. Un esempio ulteriore, Ł la protezione
delle comunicazioni tra due utenti in rete: entrambi hanno bisogno di essere protetti.
Quest ultimo resta un problema di sicurezza unilaterale, poichØ Ł richiesta la
protezione da attacchi esterni.
Anche la sicurezza dei Database Ł spesso vista come un problema di sicurezza
unilaterale: il DB deve essere protetto da utenti esterni; utenti, cioŁ, non godenti dei
necessari privilegi di accesso alla base di dati.
Quando si parla di sicurezza multilaterale si intende la protezione di due utenti da
possibili attacchi reciproci. Si pensi alle transazioni on-line, alle aste on-line, cos
come l e-voting; entrambi le parti richiedono la protezione da un possibile attacco da
una delle parti. Spesso tale problema Ł trascurato, oppure si cerca di nasconderlo,
dichiarando una delle parti (nella maggioranza dei casi il venditore) come fidata
(trustworthy).