Clustering di transazioni web sulla base della similarità degli accessi

Gratis L'anteprima di questa tesi è scaricabile gratuitamente in formato PDF.
Per scaricare il file PDF è necessario essere iscritto a Tesionline. L'iscrizione non comporta alcun costo: effettua il Login o Registrati.

Mostra/Nascondi contenuto.

 Introduzione 
di quanto detto precedentemente, le sessioni possono essere ben 
modellate come sequenze di pagine, poiché, interessa conoscere in che 
ordine le pagine sono state richieste per la loro visita e, per rafforzare 
il concetto, si può far riferimento ai tempi di visita delle pagine stesse, 
partendo dalla supposizione che un utente si sofferma su una data 
pagina per più tempo di un’altra in quanto in essa riscontra maggior 
interesse che in altre, per cui una sessione verrà modellata come una 
sequenza di pagine con il corrispondente tempo di visita. 
 
I.3 Contributi 
Verrà prodotto un sistema che datogli come input, un insieme di 
sessioni estratti da un file logs del server, estrapoli da esse la loro 
similarità, e in base a questa, produca un insieme di profili utenti atti 
a descrivere e riassumere il comportamento di navigazione degli 
utenti, che in passato hanno contribuito alla creazione delle sessioni 
prese in esame. I profili, hanno lo scopo di essere un mezzo di 
confronto con le ultime pagine visitate da un utente on line, per 
desumere gli interessi dello stesso, a partire dai comportamenti di 
navigazione di utenti passati. 
Da quanto descritto è facile desumere che il sistema avrà due 
modalità di elaborazione, la prima (fase Batch), si occuperà della 
creazione dei profili a partire delle sessioni di input, la seconda (fase 
On Line), fornirà degli strumenti da integrare, opportunamente, con le 
applicazioni web per fornire le pagine da suggerire. 
 2
 Introduzione 
I.4 Organizzazione del lavoro di tesi 
Questo lavoro di tesi sarà organizzato nei seguenti capitoli. 
Capitolo 1: darà una succinta introduzione ai concetti di Data 
Mining, Clustering e Web Mining 
Capitolo 2: esplicherà il concetto di similarità di pagine e di 
sessione web che rappresentano il cardine di tutto il lavoro. 
Capitolo 3: introdurrà un algoritmo di clustering che sarà 
implementato e integrato nel sistema. 
Capitolo 4: mostrerà come vengono ottenuti i profili utenti e 
come vengono sfruttati nella personalizzazione 
Capitolo 5: descriverà come è stato implementato il sistema a cui 
è stato dato il nome di PROPHET. 
Capitolo 6: indicherà gli strumenti e le misure usate per valutare 
le prestazioni del sistema. 
 3
Capitolo I -Data mining  e web mining  
Capitolo 1 
 
DATA MINING E WEB MINING 
 
1.1 Data mining 
Il data mining rappresenta una vasta area di ricerca che consiste 
in tecniche ed algoritmi per l’analisi di grandi volumi di dati, al fine di 
estrazione ed enumerazione di modelli, atti a fornire una descrizione 
ad alto livello della regolarità intrinseca dei dati osservati. 
Indipendentemente dall’applicazioni specifiche, l’attività del data 
mining si contrassegna in varie fasi che vanno dagli obiettivi da 
raggiungere alla valutazione dei risultati. 
Le fasi del Data Mining si caratterizzano in: 
Definizione degli obiettivi. 
Rappresenta il cardine di tutto il processo, poiché, in questa fase verrà 
organizzata tutta la metodologia da usare nel seguito. Per meglio dire, 
verranno scelti i dati da usare, le tecniche di manipolazione e la 
produzione dei risultati. 
Pre-Trattamento dei dati 
I dati di partenza vengono manipolati in modo tale che siano 
manipolabili nelle tecniche successivamente usate e che siano privi di 
informazioni aggiuntive inutili al trattamento degli stessi.  
 4
Capitolo I -Data mining  e web mining  
Elaborazione dei dati sulla base dei metodi usati 
In questa fase, in base alle scelte fatte in analisi, vengono applicate le 
metodologie scelte, al fine di estrarre opportuni modelli a partire dai 
dati pre-trattati. Dal punto di vista metodologico, gli approcci per 
l’estrazione dei modelli si dividono in logico e statistico. Il primo 
produce una descrizione deterministica dei dati originali, mentre, il 
secondo sfrutta calcoli probabilistici per la manipolazione esplicita con 
incertezza che, essendo una caratteristica tipica dei processi di data-
generating, fa del data mining statistico il metodo più usato 
nell’applicazioni pratiche. 
Le tecniche di data mining possono essere divise in due 
categorie: 
• Predictive modelling: quando lo scopo è compiere 
l’inferenza su dati correnti per predire nuove informazioni a 
partire da dati sconosciuti. Questo si avvale di due fasi. La 
prima genera un modello dai dati osservati che, in seconda 
istanza, sfrutta per effettuare delle previsioni su una nuova 
serie di dati, sulla base delle informazioni nello stesso insieme.  
• Data description: quando lo scopo è individuare una 
caratterizzazione dei dati fondamentali, interpretabile dall’uomo, 
che può essere di qualche interesse. Per meglio dire, cercare dei 
modelli che individuano le proprietà generali da informazioni 
considerate fondamentali. Due principali tecniche descrittive 
 5
Capitolo I -Data mining  e web mining  
sono association rules mining e clustering. Di quest ultimo sarà 
data ampia descrizione nel paragrafo successivo. 
 
1.2 Clustering 
Il clustering è un metodo atto a classificare grandi insiemi di 
dati partizionandoli in gruppi di dimensioni più piccole, detti cluster 
(lett. ”grappolo”).  
Eseguire il clustering di un dataset con determinati attributi, 
significa individuare gruppi di oggetti tali che: 
• Oggetti appartenenti allo stesso gruppo siano più simili fra 
di loro (alta intra-similarità del cluster) 
• Oggetti appartenenti a gruppi diversi siano meno simili fra 
di loro (bassa extra-similarita dei cluster) 
La discriminazione degli oggetti si avvale della valutazione degli 
attributi in base ad una misura di similarità. 
Le tecniche di clustering possono essere suddivise in grandi 
categorie: 
• Algoritmi di Partizionamento: eseguono la costruzione di 
un numero variabile di cluster, per poi valutarli e selezionare 
quelli definitivi. Prevedono la costruzione di k cluster a partire 
da un insieme di n oggetti. Il parametro k è un input del 
problema e il risultato è un partizionamento che ottimizza il 
metodo di ripartizione scelto. Un criterio generale è quello di 
 
 6
Capitolo I -Data mining  e web mining  
massimizzare la intra-similarità dei clusters e minimizzare la 
extra-similarità dei clusters. 
• Algoritmi Gerarchici: creano una decomposizione 
gerarchica del dataset. I metodi di questa classe 
raggruppano i dati in un albero di cluster e lavorano 
basandosi sulla Matrice di Similarità. Non richiedono il 
numero di cluster desiderato come input, ma necessitano 
di una condizione di interruzione, per esempio una 
distanza-soglia. Ci sono due tipi di clustering gerarchico: 
ad agglomerazione (strategia bottom-up) ed a divisione 
(strategia top-down).  
• Metodi Density-based: basandosi su connettività e 
funzioni densità, fanno “crescere” i cluster finché la 
densità di punti nel vicinato non supera un prefissato 
limite; sono in grado di trovare cluster di forma arbitraria; 
• Metodi Grid-based: sono basati su una struttura a 
livelli multipli di celle, che forma una griglia sulla quale 
vengono eseguite tutte le operazioni; le prestazioni 
dipendono solo dal numero di celle della griglia; 
• Metodi Model-based: Questa tecnica si basa 
sull’assunzione che gli oggetti siano il risultato di un 
processo di data-generating, in cui sono coinvolte diverse 
distribuzioni di probabilità. Inoltre ipotizzano un modello 
 7
Capitolo I -Data mining  e web mining  
per ciascun cluster cercando il miglior adattamento di quel 
modello con ciascun altro. 
 
1.2.1 Algoritmo K-means 
L’algoritmo k-means è una tecnica di partizionamento di un 
insieme di n oggetti in k cluster disgiunti. Inizialmente, k oggetti 
sono scelti casualmente come rappresentativi del cluster. L’algoritmo 
assegna a ciascun oggetto rimanente al cluster con il più simile 
rappresentativo. A questo punto, ciascun cluster è ricalcolato 
prendendo in considerazione la media degli oggetti interni allo stesso. 
L’algoritmo itera fino a quando altri rappresentativi non cambiano o 
qualche condizione di arresto è verificata. Spesso si sfrutta il criterio 
dell’errore quadratico. Questo richiede la minimizzazione  
∑∑
=∈
−=
k
iCp
i
i
rpE
1
2
 
dove E indica l’errore quadratico di tutti i dati, p è un generico dato e 
per ciascun i compreso tra 1 e k è il rappresentativo del cluster Ci. 
La complessità computazionale dell’algoritmo è O(nkt), con t numero 
di iterazioni. L’algoritmo, però, presenta alcuni svantaggi: 
• Il numero k deve essere conosciuto a priori 
• L’algoritmo può essere utilizzato solo quando la 
media del cluster è definita  
• È incapace di manipolare dati distorti 
 8
Capitolo I -Data mining  e web mining  
• È molto sensibile agli outliers in quanto un piccolo 
numero di essi può influenzare notevolmente il valor 
medio. 
Il k-modes è una variante del k-means che permette il clustering 
di categorie di dati. Questo è ottenuto rimpiazzando la media del 
cluster con la moda e riordinando usando un approccio frequency-
based per l’aggiornamento delle mode dei cluster. Il k-prototypes è 
una ulteriore estensione che permette il clustering di dati 
caratterizzati da numeri e attributi, come per esempio dati 
memorizzati in data base. 
 
 
1.2.2 Algoritmo k-medoid 
Il k-medoid è stato ideato per sopperire ai limiti del k-means. 
L’idea chiave fonda le sue basi sull’utilizzo dei medoids come 
elemento rappresentativo anziché la media degli oggetti del cluster. Il 
medoid non è un oggetto centrale del cluster ma un oggetto dello 
stesso che meglio lo rappresenta. Questo algoritmo somiglia molto al 
k-means. Inizialmente, sono scelti k oggetti del cluster in maniera 
casuale come medoid dei clusters. Successivamente ai clusters 
vengono assegnati i rimanti oggetti che sono più simili ai medoid 
individuati. Per ogni iterazione vengono generati nuovi medoids di 
partenza per le iterazioni successive. Il principale vantaggio è che nel 
k-medoids possono essere usate metriche e non spazi metrici, ed 
inoltre, è più robusto ai rumori e agli outliers. 
 9
Capitolo I -Data mining  e web mining  
 
1.3 Web Mining 
Il Web Mining costituisce l’area del data mining che si occupa 
dell’estrazione di conoscenza dal World Wide Web.  
Si può suddividere il Web Mining in tre sottoaree: 
1. Web Content Mining: si concentra sulle informazioni 
grezze disponibili nelle pagine web ed ha come scopo la 
classificazione e l’ordinamento delle pagine in base al 
contenuto. La fonte dei dati consiste principalmente nei 
dati testuali delle pagine web  
2. Structure Mining: si focalizza sulla struttura del sito ed ha 
come scopo la classificazione delle pagine web in base ai 
collegamenti, l’ordinamento delle pagine web attraverso 
una combinazione di contenuto e struttura ed il riverse
engineering dei modelli del sito web. La fonte dei dati 
consiste principalmente nell’informazione sulla struttura 
delle pagine web (es. collegamenti alle altre pagine). 
 
3. Web Usage Mining: si occupa dell’estrazione di conoscenza 
dai log file del web server. Le principali applicazioni sono 
basate sulle tecniche per modellare gli utenti, come la 
personalizzazione del web ed i siti web adattivi. La fonte 
dei dati consiste nei log (testuali) rappresentati in formati 
standard che vengono raccolti quando gli utenti accedono 
 10

Anteprima dalla tesi:

Clustering di transazioni web sulla base della similarità degli accessi

CONSULTA INTEGRALMENTE QUESTA TESI

La consultazione è esclusivamente in formato digitale .PDF

Acquista

Informazioni tesi

Autore:	Annunziato Francesco Greco
Tipo:	Tesi di Laurea
Anno:	2003-04
Università:	Università degli Studi della Calabria
Facoltà:	Ingegneria
Corso:	Ingegneria Informatica
Relatore:	Domenico Ssaccà
Lingua:	Italiano
Num. pagine:	114

FAQ

Come consultare una tesi

Per consultare la tesi è necessario essere registrati e acquistare la consultazione integrale del file, al costo di 29,89€.
Il pagamento può essere effettuato tramite carta di credito/carta prepagata, PayPal, bonifico bancario.
Confermato il pagamento si potrà consultare i file esclusivamente in formato .PDF accedendo alla propria Home Personale. Si potrà quindi procedere a salvare o stampare il file.
Maggiori informazioni

Perché consultare una tesi?

Ingiustamente snobbata durante le ricerche bibliografiche, una tesi di laurea si rivela decisamente utile:

perché affronta un singolo argomento in modo sintetico e specifico come altri testi non fanno;
perché è un lavoro originale che si basa su una ricerca bibliografica accurata;
perché, a differenza di altri materiali che puoi reperire online, una tesi di laurea è stata verificata da un docente universitario e dalla commissione in sede d'esame. La nostra redazione inoltre controlla prima della pubblicazione la completezza dei materiali e, dal 2009, anche l'originalità della tesi attraverso il software antiplagio Compilatio.net.

Clausole di consultazione

L'utilizzo della consultazione integrale della tesi da parte dell'Utente che ne acquista il diritto è da considerarsi esclusivamente privato.
Nel caso in cui l’utente che consulta la tesi volesse citarne alcune parti, dovrà inserire correttamente la fonte, come si cita un qualsiasi altro testo di riferimento bibliografico.
L'Utente è l'unico ed esclusivo responsabile del materiale di cui acquista il diritto alla consultazione. Si impegna a non divulgare a mezzo stampa, editoria in genere, televisione, radio, Internet e/o qualsiasi altro mezzo divulgativo esistente o che venisse inventato, il contenuto della tesi che consulta o stralci della medesima. Verrà perseguito legalmente nel caso di riproduzione totale e/o parziale su qualsiasi mezzo e/o su qualsiasi supporto, nel caso di divulgazione nonché nel caso di ricavo economico derivante dallo sfruttamento del diritto acquisito.

Vuoi tradurre questa tesi?

L'obiettivo di Tesionline è quello di rendere accessibile a una platea il più possibile vasta il patrimonio di cultura e conoscenza contenuto nelle tesi.
Per raggiungerlo, è fondamentale superare la barriera rappresentata dalla lingua. Ecco perché cerchiamo persone disponibili ad effettuare la traduzione delle tesi pubblicate nel nostro sito.

Scopri come funziona »

DUBBI? Contattaci

Contatta la redazione a
[email protected]

Ci trovi su Skype (redazione_tesi)
dalle 9:00 alle 13:00

Oppure vieni a trovarci su

Parole chiave

clustering

data mining

metis

sequenze

similarità

Tesi correlate

Non hai trovato quello che cercavi?

Abbiamo più di 45.000 Tesi di Laurea: cerca nel nostro database

Oppure consulta la sezione dedicata ad appunti universitari selezionati e pubblicati dalla nostra redazione

Ottimizza la tua ricerca:

individua con precisione le parole chiave specifiche della tua ricerca
elimina i termini non significativi (aggettivi, articoli, avverbi...)
se non hai risultati amplia la ricerca con termini via via più generici (ad esempio da "anziano oncologico" a "paziente oncologico")
utilizza la ricerca avanzata
utilizza gli operatori booleani (and, or, "")

Idee per la tesi?

Scopri le migliori tesi scelte da noi sugli argomenti recenti

Come si scrive una tesi di laurea?

A quale cattedra chiedere la tesi? Quale sarà il docente più disponibile? Quale l'argomento più interessante per me? ...e quale quello più interessante per il mondo del lavoro?

Scarica gratuitamente la nostra guida "Come si scrive una tesi di laurea" e iscriviti alla newsletter per ricevere consigli e materiale utile.

Leggi la guida

La tesi l'ho già scritta,
ora cosa ne faccio?

La tua tesi ti ha aiutato ad ottenere quel sudato titolo di studio, ma può darti molto di più: ti differenzia dai tuoi colleghi universitari, mostra i tuoi interessi ed è un lavoro di ricerca unico, che può essere utile anche ad altri.

Il nostro consiglio è di non sprecare tutto questo lavoro:

È ora di pubblicare la tesi

Scopri di più

Clustering di transazioni web sulla base della similarità degli accessi

Anteprima dalla tesi:

Clustering di transazioni web sulla base della similarità degli accessi

CONSULTA INTEGRALMENTE QUESTA TESI

La consultazione è esclusivamente in formato digitale .PDF

Informazioni tesi

FAQ

Come consultare una tesi

Perché consultare una tesi?

Clausole di consultazione

Vuoi tradurre questa tesi?

DUBBI? Contattaci

Parole chiave

Tesi correlate

Non hai trovato quello che cercavi?

Ottimizza la tua ricerca:

Idee per la tesi?

Come si scrive una tesi di laurea?

La tesi l'ho già scritta,ora cosa ne faccio?

Login

La tesi l'ho già scritta,
ora cosa ne faccio?