7
Introduzione
Nell’ultimo decennio il mondo ha assistito ad un fenomeno unico nel suo genere: la
nascita e l’espansione del Web. Negli ultimissimi anni l’aumento esponenziale della
capacità dei supporti di memorizzazione, accompagnata ad un forte calo dei tempi di
distribuzione e di accesso delle informazioni attraverso la rete Internet, ha accelerato in
maniera significativa tale espansione ed attualmente sulla rete è presente una quantità
dell’ordine dei miliardi di pagine Web.
La possibilità di disporre di tanta informazione è sicuramente un aspetto positivo in
quanto permette lo scambio ed il recupero di dati importanti attraverso tutto il pianeta. Di
fronte ad un tale volume informativo gli utenti di Internet hanno però inizialmente
incontrato notevoli difficoltà nella ricerca e nel recupero delle informazioni di interesse,
infatti non si riusciva a direzionare in maniera appropriata la ricerca sul vasto dominio del
Web.
Per ovviare a tale problema sono quindi stati implementati i ben noti “motori di
ricerca” su Web (search engines) che si propongono di condurre l’utente verso
un’osservazione più mirata dell’informazione d’interesse in tempi molto brevi; ricordiamo
in particolare il popolare motore di ricerca Google ([1]). Esso è un Web crawler che
indicizza una grande mole di pagine Web (al momento più di otto miliardi). L’attività di
crawling di Google parte da una collezione iniziale di pagine (indirizzi) note: per ogni
pagina il crawler segue gli hyperlink uscenti, scarica le pagine raggiunte in un repository
locale e itera tale procedura per ogni nuova pagina scaricata. Successivamente Google
assegna ad ogni pagina Web un “voto” seguendo il meccanismo del PageRank che consiste
sostanzialmente nell’attribuire maggiori valore e importanza alle pagine molto “linkate”,
cioè molto citate da altre pagine. Il risultato di una ricerca su Google sarà quindi
contraddistinto da una lista di indirizzi Web rappresentati da URL (Uniform Resource
Locator) che puntano a pagine contenenti la parola/e specificata dall’utente ordinate per
PageRank.
Nonostante gli innumerevoli vantaggi apportati dai motori di ricerca, esistono ancora
alcuni problemi insoluti che limitano in modo non trascurabile i risultati di una ricerca sul
Web in termini di informazioni raggiungibili e di visualizzazione dei risultati. Tali
problematiche si traducono principalmente in due aspetti:
- Le pagine fornite come risultato in generale non sono ordinate secondo la loro
rilevanza rispetto alla parola/e e quindi all’argomento cercato;
8
- Non tutti gli hyperlink uscenti dalle pagine Web possono essere seguiti dal motore di
ricerca.
Simili limitazioni possono diventare un problema importante quando il recupero
dell’informazione dal Web viene effettuato da aziende che richiedono informazioni
specifiche e molto attendibili per massimizzare il loro profitto.
I limiti suddetti sono stati il problema alla base dell’analisi trattata nella presente tesi.
Nell’elaborato vengono descritti inoltre lo studio di una soluzione che si propone di ovviare,
o perlomeno ridurre tali limiti, nonché l’implementazione di un sistema software che
realizza i propositi appena descritti. Quello realizzato è quindi un sistema di supporto alla
generazione semiautomatica di configurazioni per l’acquisizione di fonti di informazioni da
parte di motori di ricerca. Tale sistema dirige inoltre l’utente verso una ricerca più raffinata
dell’informazione d’interesse, integrando in un’unica interfaccia le principali funzioni
offerte dai comuni motori di ricerca, offre la possibilità di recuperare le informazioni
riguardanti un sito Web appoggiandosi al servizio Whois e sfrutta le avanzate potenzialità di
indicizzazione della piattaforma di crawling focuseek searchbox ([2]). Durante tutte le fasi
del lavoro eseguito è stato considerato come modello concettuale e implementativo il
motore di ricerca Google.
9
Ambito operativo
Lo studio effettuato trova spazio in un contesto più esteso che è quello che considera
quella parte di utenti della rete, prevalentemente imprese, che desiderano massimizzare il
loro business sfruttando le opportunità offerte dal Web. In particolare, il lavoro svolto è
contenuto in un progetto più ampio portato avanti dalla collaborazione del Dipartimento di
Ingegneria dell’Informazione dell’Università degli Studi di Siena con InfoCamere (Società
consortile di informatica delle Camere di Commercio Italiane per azioni): MumbleSearch
([3]).
MumbleSearch è un progetto proposto da InfoCamere ([4]) con lo scopo di fornire
servizi di recupero dell’informazione a piccole e medie imprese (SME – Small and Medium
Enterprises). Oggigiorno il Web è per le aziende una fonte vitale di informazione, dacché il
suo recupero può incidere notevolmente sul loro business. Tuttora la modalità di accesso al
Web dominante è sottesa però dai motori di ricerca, i quali comportano gli aspetti negativi
delineati nell’introduzione del presente elaborato e che adesso vengono descritti nel
dettaglio.
L’area coperta dai motori di ricerca è molto vasta ed attualmente una query
(interrogazione) può trovare corrispondenze in centinaia di migliaia di risultati (pagine) che
i motori ordinano in accordo al ranking utilizzato. Sebbene questa metodica adottata dai
motori di ricerca “orizzontali” risulti molto soddisfacente, essa non può garantire il recupero
di informazioni di alta qualità qualora la ricerca venga effettuata da utenti “verticali”,
ovvero utenti interessati ad ottenere informazioni riguardanti argomentazioni specifiche.
Politiche di recupero più efficaci possono essere concepite restringendo l’attenzione
su domini centrati in particolari argomenti, costruendo un ranking comprensivo del
contenuto delle pagine e della struttura “hyperlinkata” del Web. MumbleSearch può essere
quindi visto come un sistema di monitoraggio del contenuto del Web (WCM – Web Content
Monitoring) pensato per raffinare e “ripubblicare” informazioni utili raccolte dal Web e da
altre fonti digitali. La caratteristica principale di tale sistema è quella di dare all’utente il
controllo completo sull’attività di ricerca.
In innumerevoli scenari applicativi in cui la qualità dell’informazione è strategica, e
dove un meccanismo di ranking impreciso non è accettabile, uno strumento di WCM può
essere utilizzato con successo.
10
Capitolo 1
Analisi dei problemi legati al recupero
dell’informazione dal Web
Nel presente capitolo vengono descritte in dettaglio le problematiche relative alla
ricerca e al recupero di informazioni dal Web presentate nell’introduzione dell’elaborato.
1.1 Problema dell’individuazione di fonti di informazioni
attendibili
In generale, un fruitore del Web, durante il suo periodo di interazione con la rete
Internet, va alla ricerca di informazioni più o meno accurate inerenti a varie classi di
argomenti. Un utente di questo tipo viene detto “orizzontale”, in quanto il dominio
dell’informazione a lui congeniale non ha vincoli e copre (orizzontalmente appunto) tutto il
contenuto del Web; inoltre l’informazione recuperata con successo rappresenta per lui
unicamente un potenziale vantaggio.
La stragrande maggioranza dell’utenza di Internet, che è orizzontale, sfrutta appieno i
moderni motori di ricerca i quali adempiono egregiamente alla loro funzione basandosi sulle
proprie modalità di indicizzazione (crawling) e ranking dei siti Web. L’informazione
recuperata risulta difatti soddisfacente ed utile per l’utente che spesso ne trae sostanziali
vantaggi.
Nonostante l’incontestabile efficienza dei comuni search engines esistono delle
particolari categorie di utenti, detti “verticali”, che non sempre traggono reali benefici
dall’informazione ottenuta. Può accadere infatti che i motori di ricerca recuperino pagine
che in effetti includono la parola/e cercata/e molte volte e che possiedono un ranking
elevato, ma che tuttavia non appaiono rilevanti rispetto al contesto sul quale l’utente –
dall’immissione di tali parole – si voleva focalizzare. L’utenza verticale è perlopiù costituita
da entità aziendali, le quali al giorno d’oggi contano sempre più sul Web, e quindi
sull’informazione da esso raggiungibile; molte di esse sono rappresentate da piccole e medie
11
imprese. Tali amministrazioni pongono infatti il loro sguardo su informazioni molto
specifiche la cui attendibilità risulta di particolare importanza per la loro attività economica.
1.1.1 PageRank di Google
Il sistema di ranking di Google, chiamato PageRank, è costruito sopra una
piattaforma di tipo hardware/software molto evoluta che lo rende molto veloce ed efficiente.
L’idea che contraddistingue questa tecnica è quella di valutare per ogni pagina Web la sua
“importanza” basandosi sulla sua interazione con le altre pagine.
L’idea che ha fatto di Google uno dei maggiori casi di successo degli ultimi anni
prende il nome di PageRank ed è un metodo per ordinare i risultati di una ricerca secondo
un principio che una cospicua parte degli utenti della rete Internet giudica decisamente
soddisfacente. Il principio è molto semplice e si basa sull’idea che all’interno di un ipertesto
se esistono molti riferimenti a questo documento allora è molto popolare e quindi
potenzialmente interessante per l’insieme di persone che usa l’ipertesto stesso. Se
sommiamo a questa considerazione il fatto che il peso delle citazioni uscenti da un nodo nei
confronti del PageRank di quello puntato è inversamente proporzionale al numero globale
delle citazioni uscenti da quel nodo e direttamente proporzionale al numero di nodi che lo
puntano ecco che otteniamo una buona descrizione qualitativa dell’algoritmo di PageRank
di Google. In figura 1 viene mostrato il meccanismo di PageRank su di un grafo
rappresentante il Web. I nodi di tale grafo sono i documenti, mentre gli archi i link entranti
o uscenti dai vari documenti.
Figura 1. Effetto “qualitativo” del meccanismo di PageRank su un insieme di nodi di un grafo del Web