Correlation rules: analisi di una tecnica di data mining e sua applicazione ai sistemi di telecomunicazione

Gratis L'anteprima di questa tesi è scaricabile gratuitamente in formato PDF.
Per scaricare il file PDF è necessario essere iscritto a Tesionline. L'iscrizione non comporta alcun costo: effettua il Login o Registrati.

Mostra/Nascondi contenuto.

  
9 
Una correlazione positiva vuol dire che latte e zucchero vengono spesso 
venduti assieme, pi� di quanto ci si aspetterebbe se la vendita di uno dei due 
prodotti fosse indipendente da quella dell�altro. 
Usando il concetto di correlazione si pu� evitare la generazione di regole 
ingannevoli: se la presenza dello zucchero nei carrelli della spesa non venisse 
influenzata dalla presenza del latte e viceversa, allora latte e zucchero avrebbero 
una correlazione nulla, e non verrebbe quindi mai proposta all�utente una regola 
composta da questi due prodotti. 
Per un�efficace applicazione di questa tecnica viene messa in evidenza 
l�importanza di utilizzare un�adeguata misura della correlazione presente tra gli 
elementi della regola; queste misure vengono dette di interesse, perch� pi� alto � il 
loro valore, maggiore � l�interesse dell�utente per quella regola. 
Tali misure servono per fare una classifica dei pattern estratti e per permettere 
di mostrare all�utente solo quelli pi� interessanti. 
In questa tesi verranno presentate ed analizzate le misure di interesse pi� note 
in letteratura; il loro confronto, nella prima parte di questo lavoro, avverr� per 
semplicit� applicandole a pattern composti da due soli elementi. Verr� prima fatta 
una analisi teorica del loro comportamento in alcuni casi limite e successivamente 
verranno invece utilizzati dei dataset sintetici per permettere di valutarne il 
comportamento in situazioni pi� realistiche. 
Una volta messi in luce vantaggi e svantaggi di ciascuna di queste misure, ne 
verr� sviluppata una di nuova, con l�obiettivo di superare i limiti di quelle 
analizzate. 
Lo studio procede poi generalizzando queste misure per renderle applicabili a 
pattern di dimensione arbitraria, ed introducendo successivamente il concetto di 
confrontabilità fra pattern di dimensione diversa. Non deve infatti venir dato per 
scontato il poter confrontare ad esempio l�interesse di una regola composta da due 
elementi con quello di una regola da tre per stabilire quale delle due � la pi� 
interessante: il risultato potrebbe essere ingannevole. Per rendere le misure 
consistenti con questo concetto, vengono in questo lavoro proposte e valutate 
alcune nuove normalizzazioni da applicare alle misure tradizionali. 
Nella parte conclusiva dello studio si discute un�applicazione concreta del 
framework appena sviluppato per contribuire alla risoluzione di un problema 
molto sentito dai gestori delle reti di telecomunicazioni: il fenomeno dell�alarm 
storm. 
L�azienda in cui la tesi � stata svolta, la Tektronix, sta sviluppando un sistema 
di diagnostica per la parte terrestre della rete cellulare GSM. 
  
10 
Quando sorge qualche anomalia, il sistema di rilevazione genera degli allarmi, 
che l�operatore che tiene sotto controllo la rete deve esaminare e cercare di 
interpretare per poter prendere i provvedimenti ritenuti eventualmente necessari. 
Purtroppo, gli allarmi segnalati da queste reti, a causa della loro eccessiva 
quantit�, sono spesso di scarso aiuto nella diagnosi dei problemi di network che ne 
sono la causa, e l�operatore finisce spesso per ignorarli, tralasciando 
l�informazione in essi contenuta perch� la loro analisi richiederebbe troppo tempo. 
Per attenuare questo problema si vogliono allora estrarre delle correlation 
rules dai log degli allarmi dei giorni o dei mesi precedenti, per scoprire quali 
allarmi occorrono spesso contemporaneamente; in seguito, questa conoscenza 
potr� essere applicata in tempo reale agli allarmi che via via giungono alla 
consolle di amministrazione per raggrupparli: allarmi che occorrono spesso 
contemporaneamente rappresentano in genere i diversi sintomi di uno stesso 
problema. 
Questa tecnica non permette di risalire direttamente alla causa del problema, 
ma � comunque un importante aiuto per l�operatore, che potrebbe cos� vedere 
sullo schermo della sua consolle di amministrazione non pi� un lungo elenco di 
allarmi, ma una nuova sequenza, pi� breve e facilmente interpretabile, di allarmi 
gi� raggruppati secondo il problema comune che li ha generati. 
  
11 
2 Cos’è il Data Mining 
2.1 Introduzione 
Nelle ultime decadi alcuni fattori hanno permesso di aumentare notevolmente 
la nostra capacit� sia di produrre che di archiviare dati; i fattori che hanno 
maggiormente contribuito a questo fenomeno includono l�informatizzazione di 
molte attivit� aziendali, l�ampio utilizzo di codici a barre nella maggioranza dei 
prodotti commerciali, la possibilit� di archiviare in maniera economica grosse 
moli di dati. In aggiunta, l�utilizzo diffuso del World Wide Web come un sistema 
informativo globale ci ha sommersi di una enorme quantit� di informazioni. 
Questa crescita esplosiva di dati memorizzati ha generato un urgente bisogno di 
nuove tecniche e di strumenti automatici di analisi per evitare che questi database, 
proprio a causa della loro mole e dell�impossibilit� di esaminarli con strumenti 
convenzionali, si trasformino in �cimiteri dei dati�, dove questi vengono �sepolti� 
senza poi poterne ricavare alcuna informazione utilizzabile. 
Il Data Mining, una nuova e promettente disciplina nell�ambito dell�analisi dei 
dati, si pone come obiettivo proprio l�estrazione di conoscenza utile 
implicitamente contenuta in database, data-warehouse ed altri grossi depositi di 
dati. 
L�applicazione delle tecniche di Data Mining � solo una delle fasi richieste nel 
processo di �estrazione� della conoscenza; tipicamente, l�intero processo � 
composto dalle seguenti fasi: 
  
12 
Pulizia
Integrazione
Selezione
Trasformazione
Data Mining
Val utazi one
Presentazione
Pulizia dei dati, per rimuovere il rumore
di  fondo o i  dati  i rri l evanti
Integrazione dei dati, in cui sorgenti
di dati multiple vengono unite
Selezione dei dati, per mantenere solo quelli
rilevanti ai fini dell'analisi da effettuare
Trasformazione dei  dati , dove i  dati  vengono
consolidati o normalizzati per predisporli
all'analisi con tools di Data Mining
Data Mining vero e proprio
Valutazione dei pattern estratti, per identificare
i pattern veramente interessanti che rappresentano
conoscenza, basandosi su qualche misura di interesse
Presentazione della conoscenza estratta in forme
facilmente comprensibili ed interpretabili dall'utente,
(eventualmente impiegando tools grafici di visualizzazione)
 
Figura 1: Il processo di Knowledge Discovery 
 
� importante evidenziare come, secondo questo punto di vista, il Data Mining 
� solo una fase di tutto il processo di knowledge discovery (anche se spesso i 
termini Data Mining e KDD, Knowledge Discovery in Databases, vengono 
confusi), bench� sia una fase essenziale, quella in cui viene fatta �venire a galla� 
l�informazione nascosta nei dati. 
I prossimi paragrafi verranno dedicati ad una introduzione alle principali 
tecniche di Data Mining e ai principali tipi di pattern che da queste tecniche 
possono essere estratti. 
  
13 
2.2 Classificazione 
Dato un insieme di oggetti, ciascuno dei quali � composto da un certo numero 
di attributi di cui uno viene detto classe, la classificazione � il processo di ricerca 
di un insieme di modelli che, esaminando il valore degli attributi di ciascun 
oggetto, ne stabiliscono la classe. Tali modelli vengono creati basandosi 
sull�analisi di un training-set, cio� di un insieme di oggetti la cui classe � gi� nota, 
e vengono poi applicati su insiemi di oggetti la cui classe � invece sconosciuta. 
Il modello derivato pu� essere rappresentato in varie forme, come regole di 
classificazione (se... allora...), alberi di decisione, formule matematiche o reti 
neurali. 
Un albero di decisione � una struttura ad albero simile ad un flow-chart, dove 
ciascun nodo denota un test sul valore di un attributo, ciascuna biforcazione 
rappresenta un possibile esito del test, e le foglie dell�albero rappresentano le 
classi; gli alberi di decisione possono essere facilmente convertiti in regole di 
classificazione. 
Una rete neurale, quando viene utilizzata per scopi di classificazione, � 
tipicamente una collezione di unit� di elaborazione analoghe ai neuroni, con 
connessioni pesate tra le unit�. 
Le possibili applicazioni delle tecniche di classificazione sono molto ampie: 
ad esempio, la riduzione del costo di operazioni di mailing selezionando le 
persone pi� probabilmente interessate all�acquisto del prodotto da pubblicizzare 
tramite l�utilizzo di un modello creato a partire dall�analisi dei clienti che hanno 
acquistato precedentemente un prodotto analogo. 
Un�altro tipico esempio � la rilevazione delle frodi nell�utilizzo delle carte di 
credito, esaminando le passate transazioni (ora, luogo, importo, bene acquistato...) 
di cui si conosce gi� l�esito per cercare di capire le tipologie di transazioni a 
rischio. 
 
  
14 
Esempio: 
 
Oggetti in cui la classe � gi� nota (Training-set), utilizzati per creare un 
modello: 
 
Età Stato civile Reddito Acquirente 
(CLASSE)
18-30 Singolo 125.000 Euro No
30-50 Sposato 100.000 Euro No
18-30 Singolo 70.000 Euro No
18-30 Sposato 120.000 Euro No
30-50 Divorziato 95.000 Euro Sì
30-50 Sposato 60.000 Euro No
> 50 Divorziato 220.000 Euro Sì
18-30 Singolo 85.000 Euro No
30-50 Sposato 75.000 Euro No
> 50 Singolo 90.000 Euro Sì
 
Oggetti la cui classe non � nota, su cui applicare il modello creato: 
 
Età Stato civile Reddito Acquirente 
(CLASSE)
18-30 Singolo 75.000 Euro ?
30-50 Sposato 50.000 Euro ?
> 50 Sposato 150.000 Euro ?
30-50 Divorziato 90.000 Euro ?
18-30 Singolo 40.000 Euro ?
> 50 Sposato 80.000 Euro ?
 
  
15 
2.3 Clustering 
Diversamente dalla classificazione e dalla predizione, il cui obiettivo � 
principalmente decidere a quale classe appartiene un oggetto, le tecniche di 
clustering si pongono come obiettivo principale lo stabilire quali siano le classi 
(che vengono qui chiamate cluster) in cui suddividere gli oggetti. 
Gli oggetti del training-set sono raggruppati seguendo il principio di 
massimizzare le similarità intra-classe e di minimizzare le similarità inter-classe; 
i cluster di oggetti sono cio� formati in modo tale che due oggetti entro uno stesso 
cluster presentino un elevato livello di somiglianza rispetto a due oggetti 
appartenenti a due cluster differenti. 
In genere per raggiungere questo obiettivo � necessario sviluppare una misura 
di similarità, che pu� essere la distanza euclidea se gli attributi sono continui, 
altrimenti una qualche altra misura �ad hoc� specifica per il problema che si sta 
affrontando. 
 
Figura 2: Insieme di oggetti  prima e dopo l’operazione di Clustering 
Ambiti di applicazione di queste tecniche possono essere la segmentazione di 
un mercato in diverse tipologie di clientela, per poter applicare a ciascuna 
tipologia un�opportuna campagna di marketing. 
  
16 
2.4 Analisi degli outlier 
Un database pu� contenere oggetti che non corrispondono al comportamento 
generale o al modello dei dati: questi oggetti sono detti outlier. La maggioranza 
dei metodi di Data Mining scartano gli outlier considerandoli eccezioni o rumore, 
ma in alcune applicazioni (ad esempio l�identificazione delle frodi) gli eventi rari 
possono essere pi� interessanti di quelli che occorrono con maggior regolarit�. 
L�analisi degli outlier � generalmente indicata come outlier mining. 
Nell�immagine precedente, ad esempio, i quattro punti che non sono racchiusi 
nei cluster possono essere considerati degli outlier. 
Gli outlier possono essere individuati utilizzando test statistici che assumono 
una certa distribuzione o un certo modello di probabilit� per i dati, o che 
utilizzano misure di distanza dove gli oggetti che hanno pochi altri elementi nella 
prossimit� vengono considerati outlier. 
I metodi basati sulla devianza, invece di utilizzare misure statistiche o di 
distanza, identificano gli outlier esaminando le differenze nelle caratteristiche 
principali degli oggetti in un gruppo, prendendo normalmente come riferimento i 
valori degli oggetti esaminati precedentemente. 
2.5 Analisi delle associazioni 
L�analisi delle associazioni ha come obiettivo la scoperta di regole associative 
(o association rules), regole cio� che evidenziano condizioni sui valori degli 
attributi che occorrono frequentemente in un certo insieme di dati. 
Un�association rule � una regola che esprime il concetto �se si verifica la 
condizione X allora � probabile che si verifichi anche la condizione Y�, dove X e 
Y rappresentano i valori assunti da insiemi di attributi. 
 
  
17 
Esempio: 
 
Esaminando i seguenti carrelli della spesa di un supermercato: 
 
Num. Carrello Oggetti contenuti 
1 Pane, Coca-Cola, latte 
2 Birra, pane 
3 Birra, Coca-Cola, pannolini, latte 
4 Birra, pane, pannolini, latte 
5 Coca-Cola, pannolini, latte 
 
Si scoprono le seguenti regole: 
 
• {latte} ⇒ {Coca-Cola} 
• { latte , pannolini} ⇒ {birra} 
 
Cio�, analizzando questi carrelli della spesa si nota come chi acquista latte 
acquista spesso anche Coca-Cola, e chi acquista latte e pannolini acquista spesso 
anche birra. 
Non approfondiamo ulteriormente l�argomento in questa sezione, poich� alle 
association rules verr� interamente dedicato uno dei prossimi capitoli. 
2.6 Sequential patterns 
Questa tecnica di Data Mining � utilizzabile quando gli oggetti appartenenti 
all�insieme da esaminare sono disposti in ordine cronologico (li chiameremo 
eventi), e ci si pone l�obiettivo di analizzare se esistono eventi che, quando 
accadono in una certa sequenza, ed entro determinati lassi di tempo, causano il 
probabile accadere di qualche altro evento. 
Frequenti utilizzi di queste tecniche si hanno nell�ambito dell�analisi degli 
acquisti (alla ricerca di sequenze di acquisti frequenti) e nell�ambito dell�analisi 
dei log dei Web-Server (per comprendere quali siano i �percorsi� tipici che 
l�utente segue per raggiungere determinate pagine).

Anteprima dalla tesi:

Correlation rules: analisi di una tecnica di data mining e sua applicazione ai sistemi di telecomunicazione

CONSULTA INTEGRALMENTE QUESTA TESI

La consultazione è esclusivamente in formato digitale .PDF

Acquista

Informazioni tesi

Autore:	Paolo Salvan
Tipo:	Tesi di Laurea
Anno:	2000-01
Università:	Università degli Studi Ca' Foscari di Venezia
Facoltà:	Scienze Matematiche, Fisiche e Naturali
Corso:	Informatica
Relatore:	Salvatore Orlando
Lingua:	Italiano
Num. pagine:	97

FAQ

Come consultare una tesi

Per consultare la tesi è necessario essere registrati e acquistare la consultazione integrale del file, al costo di 29,89€.
Il pagamento può essere effettuato tramite carta di credito/carta prepagata, PayPal, bonifico bancario.
Confermato il pagamento si potrà consultare i file esclusivamente in formato .PDF accedendo alla propria Home Personale. Si potrà quindi procedere a salvare o stampare il file.
Maggiori informazioni

Perché consultare una tesi?

Ingiustamente snobbata durante le ricerche bibliografiche, una tesi di laurea si rivela decisamente utile:

perché affronta un singolo argomento in modo sintetico e specifico come altri testi non fanno;
perché è un lavoro originale che si basa su una ricerca bibliografica accurata;
perché, a differenza di altri materiali che puoi reperire online, una tesi di laurea è stata verificata da un docente universitario e dalla commissione in sede d'esame. La nostra redazione inoltre controlla prima della pubblicazione la completezza dei materiali e, dal 2009, anche l'originalità della tesi attraverso il software antiplagio Compilatio.net.

Clausole di consultazione

L'utilizzo della consultazione integrale della tesi da parte dell'Utente che ne acquista il diritto è da considerarsi esclusivamente privato.
Nel caso in cui l’utente che consulta la tesi volesse citarne alcune parti, dovrà inserire correttamente la fonte, come si cita un qualsiasi altro testo di riferimento bibliografico.
L'Utente è l'unico ed esclusivo responsabile del materiale di cui acquista il diritto alla consultazione. Si impegna a non divulgare a mezzo stampa, editoria in genere, televisione, radio, Internet e/o qualsiasi altro mezzo divulgativo esistente o che venisse inventato, il contenuto della tesi che consulta o stralci della medesima. Verrà perseguito legalmente nel caso di riproduzione totale e/o parziale su qualsiasi mezzo e/o su qualsiasi supporto, nel caso di divulgazione nonché nel caso di ricavo economico derivante dallo sfruttamento del diritto acquisito.

Vuoi tradurre questa tesi?

L'obiettivo di Tesionline è quello di rendere accessibile a una platea il più possibile vasta il patrimonio di cultura e conoscenza contenuto nelle tesi.
Per raggiungerlo, è fondamentale superare la barriera rappresentata dalla lingua. Ecco perché cerchiamo persone disponibili ad effettuare la traduzione delle tesi pubblicate nel nostro sito.

Scopri come funziona »

DUBBI? Contattaci

Contatta la redazione a
[email protected]

Ci trovi su Skype (redazione_tesi)
dalle 9:00 alle 13:00

Oppure vieni a trovarci su

Parole chiave

alarm storm

association rules

correlation rules

data mining

sistemi di telecomunicazione

Tesi correlate

Non hai trovato quello che cercavi?

Abbiamo più di 45.000 Tesi di Laurea: cerca nel nostro database

Oppure consulta la sezione dedicata ad appunti universitari selezionati e pubblicati dalla nostra redazione

Ottimizza la tua ricerca:

individua con precisione le parole chiave specifiche della tua ricerca
elimina i termini non significativi (aggettivi, articoli, avverbi...)
se non hai risultati amplia la ricerca con termini via via più generici (ad esempio da "anziano oncologico" a "paziente oncologico")
utilizza la ricerca avanzata
utilizza gli operatori booleani (and, or, "")

Idee per la tesi?

Scopri le migliori tesi scelte da noi sugli argomenti recenti

Come si scrive una tesi di laurea?

A quale cattedra chiedere la tesi? Quale sarà il docente più disponibile? Quale l'argomento più interessante per me? ...e quale quello più interessante per il mondo del lavoro?

Scarica gratuitamente la nostra guida "Come si scrive una tesi di laurea" e iscriviti alla newsletter per ricevere consigli e materiale utile.

Leggi la guida

La tesi l'ho già scritta,
ora cosa ne faccio?

La tua tesi ti ha aiutato ad ottenere quel sudato titolo di studio, ma può darti molto di più: ti differenzia dai tuoi colleghi universitari, mostra i tuoi interessi ed è un lavoro di ricerca unico, che può essere utile anche ad altri.

Il nostro consiglio è di non sprecare tutto questo lavoro:

È ora di pubblicare la tesi

Scopri di più

Correlation rules: analisi di una tecnica di data mining e sua applicazione ai sistemi di telecomunicazione

Anteprima dalla tesi:

Correlation rules: analisi di una tecnica di data mining e sua applicazione ai sistemi di telecomunicazione

CONSULTA INTEGRALMENTE QUESTA TESI

La consultazione è esclusivamente in formato digitale .PDF

Informazioni tesi

FAQ

Come consultare una tesi

Perché consultare una tesi?

Clausole di consultazione

Vuoi tradurre questa tesi?

DUBBI? Contattaci

Parole chiave

Tesi correlate

Non hai trovato quello che cercavi?

Ottimizza la tua ricerca:

Idee per la tesi?

Come si scrive una tesi di laurea?

La tesi l'ho già scritta,ora cosa ne faccio?

Login

La tesi l'ho già scritta,
ora cosa ne faccio?