8
loro dal punto di vista semantico identificando vettori vicini nello spazio
di codifica.
A ciascuna parola dello spazio verra´ associata una propria codifica
vettoriale che la rappresenta nello spazio semantico considerato, tale
codifica e´ necessaria per poter effettuare ad esempio confronti di
distanza in modo da trovare parole semanticamente vicine: parole a
distanza minore nello spazio n-dimensionale saranno maggiormente
legate dal punto di vista semantico rispetto a quanto non lo siano parole
le cui rappresentazioni vettoriali si trovino rispettivamente l’uno
dall’altro ad una distanza maggiore.
Il primo capitolo riporta un’introduzione al recupero automatico
dell’informazione e ai sistemi di recupero di informazione (Information
Retrieval - IR), enunciando alcune delle caratteristiche principali dei
sistemi di ricerca.
Nel secondo capitolo verra´ esposta la tecnica di analisi della
semantica latente per la codifica delle parole e per il recupero di
informazioni. Si fara´ inoltre riferimento alla scomposizione ai valori
singolari (Singular Value Decomposition - SVD) della matrice utilizzata
come base di partenza per la codifica dei termini.
Il capitolo terzo tratta della soluzione proposta, approfondendo le
varie parti dello sviluppo dell’applicazione ed illustrando inoltre le
tecniche di misura innovative utilizzate per ottenere la risposta piu´
pertinente alle richieste degli utenti.
Nell’ultimo capitolo e´ possibile trovare informazioni di carattere
generale sul sistema sviluppato, collezione dei documenti, riferimenti
alle piu´ diffuse interfacce di interazione uomo-macchina con
un’introduzione ai chat-bot e alle differenze che intercorrono tra tali
agenti software - i chat-bot - ed il sistema sviluppato in questa tesi.
Salvatore La Bua – www.shogoki.it
9
Capitolo Primo
Introduzione al Recupero automatico
dell’Informazione
1.1 Introduzione
Grazie soprattutto al continuo sviluppo di Internet ed alla
diffusione dei documenti in formato digitale, ci stiamo rendendo sempre
piu´ conto che e´ possibile disporre di qualsiasi tipo di informazione, sia
essa di nostro interesse o meno. Ma e´ proprio per questo motivo - la
disponibilita´ di tutte queste informazioni spesso non catalogate - che fa
nascere il problema del recupero automatico e intelligente
dell’informazione stessa, in modo da poter ottenere soltanto le
informazioni a noi necessarie, potendole distinguere efficacemente da
quelle di cui non abbiamo bisogno.
Senza adeguati strumenti di ricerca, sarebbe impossibile riuscire ad
ottenere risultati soddisfacenti poiche´, in generale, le informazioni
disponibili ad esempio in rete, spesso non sono caratterizzate da un
adeguato metodo di catalogazione, per cui sarebbe veramente diffcile
trovare cio´ che serve nonostante la disponibilita´ di cosi´ tanta
conoscenza.
Salvatore La Bua – www.shogoki.it
10
1.2 Recupero automatico di informazioni
Con recupero di informazioni (Information Retrieval - IR) si
intende l’insieme di azioni, metodi, procedure utilizzati per recuperare
dati archiviati, allo scopo di fornire informazioni su un dato argomento
[8].
Un sistema di recupero di informazioni deve poter rappresentare,
memorizzare, organizzare ed accedere ai contenuti informativi di una
collezione di documenti [7].
Essi hanno come ingresso due categorie di dati: la prima e´
costituita dalle richieste dell’utente a cui il sistema dovra´ rispondere,
mentre la seconda e´ costituita dall’insieme dei documenti da cui
verranno estratte le possibili risposte.
La richiesta dell’utente - la query - dovra´ essere analizzata dal
sistema per poter effettuare successivamente le ricerche all’interno della
collezione di documenti, al fine di presentare all’utente stesso una o piu´
risposte di cui necessita.
I piu´ diffusi sistemi di recupero informazioni si basano su ricerche
lessicali, all’interno della collezione dei documenti, delle parole chiave
immesse dall’utente. Esistono inoltre metodi molto interessanti che si
basano sull’analisi del significato delle parole all’interno del testo in cui
si trovano; si tratta appunto della tecnica di analisi della semantica
latente esposta nel capitolo secondo.
1.2.1 Caratteristiche dei sistemi di Recupero Informazioni
Come precedentemente accennato, la fonte maggiore di
informazioni attualmente disponibile potrebbe essere il world wide web e,
data la vastita´ delle informazioni in esso contenute, esistono diverse
Salvatore La Bua – www.shogoki.it
11
caratteristiche che i sistemi per il recupero di informazioni devono
soddisfare [15]. Tra queste possiamo ricordare:
1. Perfezionamento della ricerca (Relevance Feedback):
Processo con cui l’utente perfeziona la ricerca identificando
le pagine piu´ rilevanti tra quelle restituite. Questo permette
al sistema di presentare all’utente una nuova lista di risultati
piu´ particolareggiata rispetto alla prima.
2. Estrazione dell’Informazione (Information Extraction):
Capacita´ del sistema di recupero informazioni (IR) di
estrarre informazione dal testo, come ad esempio l’estrazione
di nome, prodotti, localita´, etc. Richieste che a volte
risultano molto difficili da esaudire se non si possiede una
piena comprensione a priori del testo in analisi.
3. Recupero di dati multimediali (Multimedia Retrieval):
Tecniche di accesso ad archivi di immagini, video, suoni
senza descrizione testuale. Soluzioni generali in ambito
multimediale sono molto complesse, come ad esempio
l’indicizzazione delle immagini attraverso la distribuzione di
colore.
4. Recupero di Efficacia (Effective Retrieval):
La necessita´ di una efficacia delle ricerche e´ uno dei
requisiti fondamentali di un sistema di IR. Trovare un testo
che soddisfi le richieste di un utente non é semplice pero´,
tramite l’introduzione di strategie di ordinamento e
valutazione (ranking) sempre piu´ raffinate - che permettono
di ordinare i documenti in base ad un peso di rilevanza - e´
Salvatore La Bua – www.shogoki.it
12
possibile ottenere risultati migliori. E´ possibile inoltre
migliorare l’efficacia delle ricerche tramite l’operazione di
stemming, che consiste nell’effettuare ricerche in base alla
radice di ogni termine cosi´ da non scartare quei documenti
in cui il termine non compare nella stessa forma presente
nella query, come ad esempio termini maschili/femminili
oppure singolari/plurali.
5. Filtraggio secondo profili utente (Collaborative Filtering):
Processo di identificazione dei documenti rilevanti a partire
da un profilo utente: ogni documento proveniente da un
flusso di dati (stream) viene analizzato per verificare se puo´
essere importante rispetto al profilo dell’utente corrente ed
eventualmente gli viene mostrato.
6. Interfacciamento e navigabilita´ (Interfaces and Browsing):
Molto importante e´ anche l’integrazione con i sistemi
esistenti. Una parte altrettanto importante e che non deve
essere trascurata e´ l’interfaccia del sistema stesso - che e´
cio´ con cui l’utente dovra´ dialogare - cosi´ come occorre
rendere il sistema di recupero informazioni il piu´
performante e preciso possibile nella ricerca, e´ inoltre
necessario progettare delle interfacce semplici, intuitive ma
allo stesso tempo complete e adattabili alle esigenze
dell’utente, come ad esempio permettere la formulazione di
query, visualizzare messaggi di risposta all’utente, nonche´
fornire una facile interfaccia per la consultazione dei risultati
che, sicuramente, e´ uno dei punti fondamentali per l’elevata
usabilita´ dell’interfaccia stessa.
Salvatore La Bua – www.shogoki.it
13
7. Espansione delle parole chiave di ricerca (“Magic”):
Una causa non indifferente del fallimento di un sistema di
recupero di informazioni e´ senz’altro la presenza di errori
nel vocabolario. L’informazione e´ spesso descritta
utilizzando differenti termini che si trovano in documenti
rilevanti. Occorre quindi espandere la richiesta dell’utente
per cercare non solo il termine specificato ma anche
eventuali suoi sinonimi. Questo e´ possibile utilizzando un
dizionario dei termini (detto thesaurus) oppure attraverso
metodi di ricerca basati su indicizzazione della semantica
latente (Latent Semantic Indexing) che riescono a superare
tale problema in modo automatico.
8. Indicizzazione e Recupero efficienti e flessibili (Efficient,
Flexible Indexing and Retrieval):
Una caratteristica che certamente non puo´ mancare e´
l’efficienza; l’uso sempre piu´ frequente di motori di ricerca
nel web ha reso essenziale avere tempi di risposta minimi a
fronte di una query immessa dall’utente, specialmente a causa
dell’enorme quantita´ di dati che e´ possibile reperire.
Tecniche di compressione possono essere utilizzate al fine di
ridurre lo spazio necessario per la memorizzazione e di
conseguenza il tempo di recupero dell’informazione.
9. Sistemi distribuiti di recupero informazioni (Distributed IR):
Grazie alla vertiginosa espansione di Internet si e ´verificata
una crescita delle richieste verso i motori di ricerca e,
affinche´ le risposte ad una query siano rapide, risulta
necessario realizzare sistemi distribuiti per il recupero di
informazioni, cosi´ da parallelizzare gli accessi ai dati.
Salvatore La Bua – www.shogoki.it
14
Questo approccio comporta nuovi problemi di
sincronizzazione tra le vare basi di dati (DataBase - DB),
considerando l’eventualita´ di effettuare un’integrazione
(merging) dei risultati provenienti dai differenti DB.
10. Soluzioni Integrate (Integrated Solutions):
L’integrazione del sistema di IR con altri sistemi gia´
esistenti e´ un altro punto da non trascurare. Esistono
differenti strumenti (tools) che vengono utilizzati per per
risolvere parte dei problemi di organizzazione delle
informazioni. Certamente un’effettiva integrazione con altri
tools si rende necessaria affinche´ le funzionalita´ di ricerca
siano realmente disponibili all’utente in base a cio´ che
desidera trovare.
1.3 Precisione e Richiamo
Una delle caratteristiche principali in una ricerca di informazioni,
e´ la misura qualitativa e quantitativa dei risultati tramite i valori di
Precisione e Richiamo [9], [10].
Con Precisione viene indicata la frazione dei documenti realmente
di interesse rispetto a quelli recuperati dalla ricerca; mentre con
Richiamo si intende la frazione dei documenti rilevanti che viene
recuperata.
Salvatore La Bua – www.shogoki.it