7
CAPITOLO 1
1. INTRODUZIONE
1.1 Inquadramento del Problema
Negli ultimi tempi si è verificata la possibilità di immagazzinare grandi
quantità di dati provenienti da origini diverse senza un parallelo incremento della
conoscenza che da essi si può derivare. Inoltre, stessi dati possono avere associate
diverse interpretazioni.
L’incremento conoscitivo che può derivare da tali dati implica la ricerca di
metodi avanzati di sistemi di elaborazione.
Partendo dal processo di scoperta e sviluppo di conoscenza a partire dalle
Basi di Dati (Knowledge Discovery in Databases o KDD) attraverso diverse
metodologie di Data Mining, si è individuata la possibilità di sviluppare meccanismi
simili di scoperta e sviluppo di conoscenza dal Web tramite tecniche di Web
Mining.
La parte conclusiva del processo di scoperta di conoscenza è
l’interpretazione dei risultati che si sono estratti alla fine della fase di Mining.
Dato che i modelli sono determinati da applicativi software, in molti casi
l’interpretazione degli stessi rappresenta un problema; in particolare, la corretta
interpretazione dei modelli generati può richiedere sia la rielaborazione del
processo che il miglioramento dell’applicativo al fine di aggiornare le procedure già
effettuate nonché i risultati raggiunti.
Le ontologie costituiscono una nuova frontiera nel campo della scoperta di
conoscenza: facilitano enormemente la comprensione fornendo un supporto
formale alla conoscenza tramite nuovi modelli di dati di un determinato dominio
applicativo.
Le ontologie sono attualmente applicate in diverse aree della conoscenza ed
esiste un considerevole sforzo di ricerca intorno ad esse, sia in termini di
metodologie che in termini di strumenti per la loro creazione. Negli ultimi anni la
fase di interpretazione dei risultati del mining dei dati può trarre enorme vantaggio
dalla ricerca sulle ontologie.
8
Nel World Wide Web (WWW) gli sviluppi più rapidi si sono verificati nelle
aree del Semantic Web e del Web Mining. I due campi si complementano a vicenda
anche perché ognuno di loro indirizza una parte del nuovo sviluppo posto alla base
del successo del WWW: la maggior parte dei dati sul Web sono così strutturati che
possono essere compresi solo dagli esseri umani, ma la quantità di dati è così
enorme che possono essere trattati in modo efficace solo dalle macchine. Il
Semantic Web affronta la prima parte di questa sfida cercando di rendere i dati
(anche) comprensibili alle macchine, mentre il Web Mining affronta la seconda
parte, la (semi) automatica estrazione di conoscenza utile nascosta nei dati,
rendendoli così disponibili come aggregazioni gestibili.
Il Semantic Web Mining mira a coniugare le due aree di ricerca del Semantic
Web e del Web Mining. Questa visione è il risultato dell’osservazione che le
relative attività di ricerca convergono in entrambe le aree: un numero sempre
maggiore di ricercatori lavorano, da un lato, per migliorare i risultati del Web
Mining sfruttando le nuove strutture semantiche del web, mentre da un altro,
fanno uso delle tecniche di Web Mining per la costruzione del Semantic Web.
Infine, queste tecniche possono essere ottimizzate per il mining del Semantic Web
stesso. Il termine “Semantic Web Mining” sottolinea lo spettro di possibili
interazioni tra le due aree ricerca e quindi può essere letto sia come Semantic
(Web Mining) che come (Semantic Web) mining.
Il Semantic Web Mining ha ovviamente come base il linguaggio a marcature
XML, sopra al quale vengono definiti i linguaggi caratteristici del Semantic Web
(RDF e OWL). Utilizzando tali linguaggi, si possono costruire esplicite
concettualizzazioni delle entità appartenenti ad un determinato dominio: nel
seguito quando utilizziamo il termine “semantic” lo facciamo tenendo presente
un modello logico formale per rappresentare la conoscenza.
La spina dorsale del Semantic Web sono le ontologie che attualmente sono
quasi artigianali, questo crea delle grosse difficoltà nelle applicazioni del Semantic
Web in grande scala. La sfida è quindi quella di implementare le ontologie o le
istanze formali dei loro concetti in modo semi-automatico.
Le ontologie sono necessarie per incrementare sia i processi che i risultati
del Web Mining. Recenti sviluppi includono il mining di siti che diventano sempre
più siti semantici con l’aumento dell’espressività della rappresentazione della
9
conoscenza nel campo del Semantic Web incrementando anche la possibilità di
comprensione del web da parte delle macchine.
1.2 Obbiettivi del Semantic Web Mining
L’obbiettivo è il perseguimento, la scoperta, il raggiungimento di conoscenza
in grandi quantità di dati, di un certo dominio, in un processo di esplorazione che
coinvolge tecnologie di Data Mining usando ontologie adatte a produrre i risultati
perseguiti dall’utenza. Queste ontologie si possono definire come conoscenza
previa, di partenza, di “background”, da utilizzare sia durante il processo di
mining che nella rappresentazione del dominio. Quindi utilizzando concetti
ontologici e le loro relazioni insieme ai risultati di opportuni algoritmi di mining è
possibile estrarre regole di associazione o di conoscenza utili per produrre nuove
ontologie.
Nella scelta dell’algoritmo di Data Mining per l’analisi dei dati da qualsiasi
origine web, si possono ipotizzare opportune ontologie da mettere in relazione a
tale scelta da parte degli utenti, cioè considerare le esigenze dell’utenza per
individuare la giusta ontologia da mettere in relazione all’algoritmo utilizzato.
Quindi attraverso la conoscenza sia delle ontologie che dei Data Mining è possibile
determinare la tecnica più adeguata ai dati da gestire. Inoltre, nelle ontologie è
possibile utilizzare metodi speciali per la determinazione delle modifiche che
risultino necessarie alle stesse.
Aldilà degli sforzi effettuati da parte della comunità scientifica nel piano
dell’integrazione delle fonti di informazione, si punta allo studio del modo di
elaborare le istanze contenute nelle fonti stesse, in quanto, benché l’importanza
della fase di elaborazione dati sia stata ampiamente riconosciuta nel campo dei
Data Mining, nel campo della elaborazione delle istanze non si sono fatti sforzi
adeguati.
Data la grande quantità di dati che si generano oggi, nella fase di analisi del
KDD l’uso delle ontologie abbinato alle tecnologie di mining, dal punto di vista
dell’informatica, dà luogo ad un grande potenziale per la scoperta di conoscenza
nuova, a tal punto che il continuo possibile raffinamento di tale abbinamento può
portare alla individuazione di informazione dettagliata in un volume quasi infinito
10
di dati di varia origine. Quindi essendo il web, la rete globale, il supporto di
riferimento fondamentale per la scoperta di nuova informazione, possiamo
rinominare il KDD in KWD (Knowledge Web Discovery) e pensare all’obbiettivo della
scoperta e raggiungimento di nuova informazione come a un processo di ricerca da
una immensa quantità di dati in continua crescita da ogni possibile origine.
1.3 Organizzazione del Lavoro
L’elaborato di tesi si sviluppa come segue: Una introduzione nella quale
vengono percorsi le fasi inerenti l’analisi di grandi quantità di dati con lo scopo di
scoprirne conoscenza nascosta da gestire secondo le esigenze dell’utenza,
individuando pertanto gli obbiettivi specifici nello specifico ambiente di lavoro. La
fondamentale tecnologia che negli ultimi tempi viene continuamente utilizzata a
tale scopo è l’ontologia che prima viene descritta in modo complessivo o generale
e poi spiegata in ambito web. Tale aspetto viene sviluppato in modo esaustivo,
data la sua rilevanza in questo lavoro, cominciando dalla sua definizione, per poi
continuare con il ciclo di vita dell’ingegneria delle ontologie (Identificazione
dell’ambito di applicazione, Raccolta dati, Concettualizzazione e Impegno
Ontologico, Processo di creazione e Fusione ontologica), l’evoluzione delle
ontologie, il processo di ragionamento ontologico, la architettura della gestione del
conoscimento e l’applicazione dell’ontologia nei sistemi di gestione della
conoscenza. Viene introdotta quindi la nozione di ontologia nel Semantic Web in
cui viene descritto lo Standard Formalizzato, il Vocabolario Standardizzato legato
alla conoscenza proveniente dal web e i Servizi Condivisi nei vari sistemi, in
particolare, vengono introdotti i linguaggi del Semantic Web (XML, RDF(S) e OWL)
indicando anche le aree di ricerca e i relativi campi di applicazione. L’altra
fondamentale tecnologia utilizzata per la scoperta di conoscenza dal web è il Web
Mining derivato dal Data Mining, che viene definito e descritto nelle sue
funzionalità fondamentali (Classificazione, Scoperta delle regole, Clustering e
Sequenzialità di scoperte, classificazione e previsione di eventi). Il Web Mining è
descritto nella individuazione di conoscenza, nella classificazione di documenti, nel
clustering dei documenti, nella estrazione di informazioni, sui dati delle modalità
di utilizzo dell’utenza, sulla personalizzazione dell’utilizzo della utenza, per
11
l’adattamento dei sistemi e per la modellazione degli utenti in rete. Nel Semantic
Web possiamo estrarre semantica dal contenuto e dalla struttura web, utilizzando
mappature e fusione di ontologie, che possono essere tratte dall’apprendimento
dei contenuti web, da istanze di concetti, dalla estrazione di informazioni dal web,
dall’uso di preesistenti concettualizzazioni per l’automatizzazione delle marcature,
dalla struttura delle preferenze web e dalle tendenze dell’utilizzo web. Viene
quindi descritto sia l’uso del Semantic Web per ottimizzare il mining che il mining
del Semantic Web, attraverso il mining del contenuto e della struttura delle
pagine web e la semantica del mining dell’utilizzo web e degli eventi applicativi
evidenziandola in relazione all’utente. Infine, viene descritto il funzionamento di
una applicazione concreta di Semantic Web Mining, e il “mining della semantica”
per sottolineare la cresciuta predominanza della stessa.
Viene poi fatta una sintesi del percorso fondamentale per giungere al
Semantic Web, indicando i passi significativi che sono stati esaminati.
E’ stato necessario considerare l’apporto di ulteriori esempi di mining
semantico per chiarire lo stato dell’arte nel suo continuo sviluppo descrivendo il
mining in un dominio specifico, con un prototipo denominato g-SEGS, il mining in
un dominio esteso, con un sistema per la ricerca di ricercatori basato nella loro
esperienza, di cui si descrivono, nelle attività correlate alla ricerca di ricercatori,
le diverse proposte metodologiche presentate. Della panoramica del processo di
ricerca, fanno parte la raccolta dati, la creazione dell’ontologia necessaria
(tramite l’ontologia nel sistema CCS e l’ontologia di supporto), l’analisi della
competenze del ricercatore e la creazione del profilo del ricercatore. Vengono
infine specificate le modalità di recupero delle istanze ricavate. Il lavoro si
conclude con alcune considerazioni finali.