1. introduzione
______________________________________________________________
5
carattere ingegneristico. Libri, pochissimi e, in tutti, i search engine sono
trattati come argomento a sé stante: ciò che invece mi sembra importante è
cercare di integrare questo strumento in un panorama più ampio, che sia il
marketing online o, ancora meglio, anche il marketing offline. Solo
recentemente, a fine del 2002, qualche voce si è alzata per proclamare
l’importanza dell’advertising online nelle pianificazioni advertising delle
aziende , proponendo il digital marketing come “supermedia” e ideale
integrazione a qualsiasi attività di advertising offline (tv, radio o stampa). A
questo punto si è cominciato a fare qualche rilevazione, a scrivere qualche
breve ricerca sull’argomento. Solo nel 2003 si è cominciato a parlare di
motori di ricerca come strumento di marketing, utile sia in relazione alle
vendite, sia in quanto forte supporto per il brand aziendale
1
.
A tal proposito bisogna sottolineare, tuttavia, che già da qualche tempo, nel
mondo del posizionamento, era nata la proposta di cambiare il nome
dell’attività svolta sui motori di ricerca da Search Engine Optmization
(S.E.O.) a Search Engine Marketing (S.E.M.), vista la diversificazione delle
attività di visibilità rese disponibili dai motori di ricerca agli inserzionisti. Ci
sono stati diversi dibattiti sui forum e newsletter specializzate, e poco a poco
questa denominazione, fra gli operatori del settore, è prevalsa, pur
mantenendo in uso anche quella vecchia con una particolare accezione che
vedremo fra pochissimo. Non si tratta di una pura questione terminologica,
anzi, in questo cambiamento credo risieda la chiave dello sviluppo e della
crescita dei motori di ricerca, il motivo per il quale solo nel 2003 i grandi
spender hanno cominciato ad investire su questo strumento e la risposta alla
domanda del perché solo da pochissimo tempo si è cominciato a
commissionare e a svolgere ricerche sul tema. La risposta è ”giro d’affari,
business”, termini poco conosciuti fino ad un paio d’anni fa nel settore
motori, in cui il modello prevalente era il “free service”: il SEO era già
piuttosto diffuso negli Usa, ma in Italia, all’inizio del 2000, era decisamente
1
Proprio a questi temi è stato dedicato uno studio italiano, condotto tramite un panel online
composto sia da responsabili aziendali sia da imprese che forniscono servizi di visibilità,
sull’”utilizzo dei motori di ricerca come strumento di marketing”, i cui risultati, che verranno
analizzati nei capp 9 e 10, sono stati pubblicati a dicembre 2003.
Interactive Media Report, Executive Summary IMR n.2, dicembre 2003
http://www.slash.it/imr/rapporti/imr2_2003.html
1. introduzione
______________________________________________________________
6
poco noto e altrettanto poco praticato; le iscrizioni ai motori di ricerca erano
gratuite e le uniche attività possibili per rendere maggiormente visibili i siti
sui Serp erano quelle di ottimizzazione delle pagine del sito (o la creazione di
doorway page
2
); parlare di internet con i responsabili marketing era assai
difficile in un momento di grande crisi del settore internet, parlare di motori di
ricerca praticamente impossibile, vista la complessità dell’argomento e la
scarsa predisposizione all’ascolto; il posizionamento sui motori era
considerato tutt’al più utile, ma non indispensabile, per il successo di una
campagna di marketing online, in quanto si riteneva che i veri strumenti di
promozione fossero email e banner. Gli investimenti sul mezzo, insomma, nel
complesso erano irrisori e di conseguenza nessuna azienda avrebbe speso
tempo e denaro per investigare su un fenomeno marginale. Credo che il punto
di svolta, in questa situazione, sia stato, paradossalmente, proprio il fenomeno
che molti avevano ritenuto il segnale di una crisi irreversibile dei search
engine: l’introduzione dei servizi a pagamento. Come si vedrà nel capitolo 7,
infatti, il pay per index
3
ed il pay per click
4
si sono affermati progressivamente
nel panorama dei motori di ricerca, divenendone parte integrante. Al di là di
qualsiasi considerazione sull’eticità, l’utilità e l’opportunità di tali modelli di
business, su cui si potrebbe discutere a lungo portando motivazioni a favore e
a sfavore, questi servizi hanno portato due vantaggi: da un lato hanno
convogliato denaro alle casse vuote dei motori di ricerca, che hanno potuto
così limitare i licenziamenti ed evitare la chiusura, e stanziare nuovi fondi per
la ricerca informatica, dall’altro, soprattutto i motori ppc, hanno facilitato
l’avvicinamento di un più ampio pubblico al mondo del positioning, grazie
alla loro somiglianza, in termini di funzionamento e modello di business, con
i più noti banner. E’accaduto che diverse aziende, incuriosite ed invitate dai
bassi costi di partenza, abbiano tentato autonomamente di gestire tali servizi,
fallendo e decidendo quindi di rivolgersi all’esterno per un supporto; da qui, il
passo verso altre attività di posizionamento, se non breve, è stato assai più
2
Si tratta di pagine costruite appositamente allo scopo di migliorare i ranking di un sito sui
SERP. Solitamente sono pagine invisibili all’utente, che viene reindirizzato automaticamente
sul sito ufficiale. Se ne parlerà più diffusamente nei prossimi capitoli.
3
Pagamento di una fee ai motori per l’inclusione nel loro database di una pagina web;
l’inclusione non implica tuttavia un buon posizionamento.
4
Si tratta di un modello di business praticato da alcuni motori di ricerca in modo esclusivo o
affiancandolo ai classici risultati estratti “naturalmente” dai database.
1. introduzione
______________________________________________________________
7
semplice da gestire per i professionisti dei search engine. Le aziende che si
occupano di S.E.M, in modo più o meno specialistico, si sono moltiplicate
negli ultimi 2 -3 anni e di conseguenza anche l’offerta del servizio è divenuta
più capillare. In breve, i motori di ricerca hanno acquisito centralità e sono
divenuti una interessante fonte di sviluppo economico, spiccando ancora di
più in un panorama depresso qual era e quale ancora è, sebbene con qualche
segno di ripresa, quello dell’advertising online.
In conseguenza di ciò è diventata forte l’esigenza, da parte degli attori del
mercato, di quantificare e monetizzare i vantaggi offerti da questo strumento:
per vendere e per comprare un servizio sono infatti necessari dati reali, prove
di efficacia. Tuttavia, rilevazioni sistematiche in grado di fornire risposte certe
sui retention-rate e sui conversion-rate per gli utenti dei motori di ricerca sono
ancora praticamente inesistenti. Solo alcune aziende negli Usa pare stiano
portando avanti progetti di questo tipo, per il momento mantenendo però i
risultati riservati. In realtà, strutturare una rete di rilevazioni in grado di
seguire il percorso decisionale e d’acquisto del consumatore non solo online,
ma su tutti i media, è piuttosto complesso, in quanto è necessaria una stretta
collaborazione fra diversi attori: l’ azienda in primis, oltre a chi per essa si
occupa del posizionamento e delle eventuali altre campagne di digital
marketing, il centro media o agenzia pubblicitaria che si occupa dell’offline, i
responsabili dei punti vendita e, per concludere, l’acquirente stesso. I costi di
un’operazione del genere sono alti e i risultati finali non sono assicurati.
Dunque non è difficile comprendere come rilevazioni incrociate di questo
genere, nonostante siano auspicate da aziende ed agenzie, non siano state
intraprese neppure da grandi nomi della statistica. Recentemente, negli Usa, in
Europa e anche in Italia, sono state realizzate interessanti ricerche
sull’efficacia, all’interno dell’advertising mix, di internet, che saranno prese
in esame nel capitolo 9. E’ stata presentata poi, pochi mesi fa, la più ampia
ricerca mai compiuta sull’efficacia dei motori di ricerca in termini di
conversioni da click in acquisto del servizio online: la ricerca, che viene
discussa nel cap. 7, è ben strutturata, ma limitata al canale online, senza
alcuna considerazione delle interdipendenze esistenti o potenziali con
l’attività di visibilità portata avanti dalle aziende monitorate su altri media.
1. introduzione
______________________________________________________________
8
Ci sono poi aziende di S.E.M. che stanno tentando, in collaborazione con i
propri clienti, di coordinare l’attività offline con quella di visibilità online in
modo continuativo, oltre a compiere un monitoraggio costante sulla sui
risultati della propria attività online in termini di conversion-rate. Alcuni di
questi dati verranno illustrati nel capitolo 10.
Detto ciò, gli obiettivi di questa tesi possono essere così riassunti:
• Comprendere il funzionamento dei motori di ricerca, con
particolare riferimento a quelli “spider based” e definire le linee
guida, gli strumenti e le modalità per poterli sfruttare come
strumento di marketing.
• Verificare l’efficacia dei motori di ricerca come strumento di
marketing
• Inquadrare lo strumento “search engine” all’interno del più ampio
panorama della pianificazione di visibilità sui media.
A tal fine, lo scritto è stato diviso in due parti.
1. La prima è composta da sette capitoli ed è dedicata, per la maggior parte,
agli aspetti tecnico-pratici del posizionamento sui motori di ricerca.
Nello specifico:
• I capitoli 2 e 3 sono dedicati al funzionamento dei motori di
ricerca, spider e directory, ed alle peculiarità di entrambe le
tipologie di motori che è necessario conoscere per pianificare ed
attuare un’azione di visibilità.
• Il capitolo 4 individua quali siano i motori di ricerca sui quali è
opportuno e fruttuoso lavorare indagandone le complesse e
mutevoli interrelazioni. Il mondo dei search engine è assai volubile
ed instabile da più punti di vista: innanzitutto, come accennato
sopra, ogni pochi mesi gli asset societari e le interrelazioni fra i
database dei vari motori cambiano in seguito ad acquisti, cessioni,
nuovi accordi. Inoltre ogni motore di ricerca aggiorna
continuamente i propri algoritmi e dunque c’è un continuo sali-
1. introduzione
______________________________________________________________
9
scendi dei S.E.R.P.
5
, a volte limitato e provvisorio, a volte
definitivo e drastico a causa di un mutamento più profondo
dell’algoritmo o l’inserimento di nuovi filtri antispam. Le politiche
commerciali stesse dei motori cambiano assai frequentemente. Per
tutti questi motivi questa tesi non dà, volutamente, informazioni su
elementi così fluttuanti e si limita a identificare metodi, tecniche e
strutture tendenzialmente sempre validi nel mondo dei motori di
ricerca. Il capitolo 4 è l’unico che si avventuri in queste tematiche:
tuttavia ho ritenuto necessario fornire un’istantanea degli assetti
attuali dei motori di ricerca per rendere più trasparenti possibile le
motivazioni che mi hanno portato ad individuare certi motori come
più utili e rilevanti di altri.
• Il capitolo 5, invece, passa ad analizzare l’elemento base per una
corretta azione di search engine marketing: l’individuazione delle
parole chiave.
• Nel capitolo 6 trovano spazio gli elementi base del
posizionamento: verranno descritti i fattori rilevanti per i motori di
ricerca e come utilizzarli nell’attività di ottimizzazione del sito.
Non si sono volute inserire, qui, particolari tecniche o trucchi (ad
esempio come costruire le information page o i minisiti, o come si
può utilizzare la tecnica chiamata cloacking o i fogli css…): la
scelta è dovuta a quella fluidità che caratterizza il settore, la quale
renderebbe datato questo scritto nell’arco di pochi giorni; per tali
argomenti la pubblicazione online è sicuramente molto più valida
ed efficace. A queste tecniche si accennerà perciò solo
brevemente.
• Il capitolo 7 è dedicato ai servizi a pagamento offerti dai motori di
ricerca, ma, contemporaneamente, anticipa un tema che viene
trattato nella seconda parte: l’efficacia dei motori come strumento
e canale efficace per convogliare visite qualificate al sito, dove,
5
Acronimo solitamente utilizzato nel mondo del search engine marketing (sem) per Search
Engine Results Page, ossia i risultati forniti da un motore di ricerca in seguito ad una query.
1. introduzione
______________________________________________________________
10
per “visita qualificata”, si intende un utente con alte probabilità di
acquisto/ sottoscrizione del servizio proposto.
• Il capitolo 8 esula dall’argomento centrale dello scritto per toccare,
seppure in modo schematico, il tema della legalità nella pratica del
S.E.M.. Seppure non esista una normativa relativa a questo tipo di
attività ed, anzi, soprattutto per questo motivo, ho ritenuto
opportuno, presentando una carrellata di diverse cause svoltesi
negli Usa, indicare alcune delle più comuni problematiche da
tenere in considerazione nell’attività di visibilità sui motori.
La seconda parte è dedicata ai motori di ricerca visti in una più ampia cornice
di marketing. Si sosterrà che il web marketing è in realtà semplicemente una
branca del marketing e come ciò che internet permette è l’effettivo realizzarsi
della tanto preconizzata società dell’informazione, in cui produttore e
consumatore, aziende e fornitori, possono comunicare velocemente,
efficacemente, senza barriere spaziali. Questo non significa che la basi del
marketing non siano più valide, ma semplicemente che da un marketing
rivolto alle vendite qual era quello del periodo industriale, si sta passando ad
un marketing relazionale, più adatto ad una società nella quale stanno
acquisendo sempre maggior peso i servizi. In quest’ottica, ciò che assume una
rilevanza fondamentale nella promozione e nella vendita è il modo in cui il
cliente si sente considerato, la trasparenza e l’ampiezza dell’informazione
disponibile. Il punto vendita non è un luogo ottimale ad una prima
informazione su un prodotto od un servizio. I motivi sono diversi: la tendenza
dei responsabili del negozio che veicolano un’informazione orientata alla
vendita il fatto che “girare per negozi” è dispendioso in termini di fatica e
tempo; inoltre in un negozio è possibile vedere e toccare, ma è difficile
ottenere informazioni sulla qualità, i materiali, le modalità di
confezionamento di un prodotto, indicazioni ritenute indispensabili da molti
consumatori nell’ottica dell’acquisto responsabile, ecologico, sano ecc….così
di moda in questi ultimi anni. Allo stesso modo i call-center, per ottenere
informazioni di questo tipo, non sono il canale migliore, poiché anche qui
entra in gioco una relazione interpersonale, con tutte le difficoltà che essa
comporta, senza contare il tempo richiesto, in molti casi, per prendere la linea
1. introduzione
______________________________________________________________
11
e l’incompetenza di parecchi operatori telefonici. Dalle ultime rilevazioni
Eurisko
6
risulta che il 53% del panel Eurisko (1000casi) utilizza internet per
informarsi su un servizio od un prodotto il cui acquisto verrà effettuato in un
punto vendita e che il 62% ha intenzione di seguire questo percorso per i
prossimi acquisti in programma. I motivi sono diversi: la velocità e la praticità
dello strumento, la possibilità per le aziende di inserire e aggiornare grandi
quantità di informazioni, l’opportunità di avere un confronto immediato fra
prodotti dello stesso genere ecc…E, su internet, lo strumento di ricerca per
eccellenza sono i motori di ricerca. Ciò che si ricava da queste considerazioni
è il fatto che, nella società dell’informazione, internet è lo strumento principe,
e i motori di ricerca sono un servizio essenziale per poter fruire della massa di
informazioni ivi presenti. A questo punto, come si vedrà anche nel cap. 9,
parlare di “utenti dei search engine” significa parlare di utenza internet.
Proprio per questo motivo, nel medesimo capitolo non si tratterà in maniera
esclusiva di motori di ricerca, ma di internet e visibilità sulla Rete: pianificare
una campagna sui motori di ricerca e sfruttarne in pieno le potenzialità, infatti,
significa innanzitutto dover individuare in modo preciso a chi intendiamo
rivolgerci e chi sono i nostri concorrenti in un panorama di possibilità grande
come il mondo.
Nel capitolo 10, poi, verranno tirate le fila di tutto ciò che è stato detto
precedentemente ed esposti tutti i dati disponibili in grado di dare la misura
dell’efficacia del posizionamento in chiave di visibilità e vendite.
Nell’ultimo capitolo vengono presentate, insieme alle conclusioni di questo
lavoro, alcune delle prospettive future per il mondo dei motori di ricerca.
6
E. Lucchi, “L’Integrazione di Internet nel Media Mix di Comunicazione: Specificità ed
Efficacia”, atti del convegno I.A.B. Forum 2003,Primo Convegno sulla pubblicità interattiva,
21-23 settembre, Milano.
http://www.iab.it/img_usr/IabForum2003_Presentazione_Lucchi_1,1Mb.ppt
______________________________________________________________
Parte I
Motori di ricerca
e
Posizionamento
2. Come funziona uno spider
______________________________________________________________
13
2. COME FUNZIONA UNO SPIDER
Il tema del funzionamento di uno spider è sicuramente una delle
problematiche tecnicamente più complesse che verranno trattate in questa
sede. Dal punto di vista informatico, infatti, i motori di ricerca sono oggetti
complessi e frutto di avanzate ricerche in campo matematico: gli algoritmi che
governano la loro operatività, infatti, sono tenuti segreti dalle aziende
proprietarie e anche gli elementi di base discussi nel corso di conferenze
pubbliche (spesso ciò avviene in occasione degli incontri annuali del W3C)
sono difficilmente comprensibili per i “profani” della matematica. Tuttavia, la
struttura generale di funzionamento di uno spider sarà qui descritta nelle sue
linee principali.
2.1 Cos’e’ un algoritmo
Un algoritmo è una sequenza di passi che portano alla realizzazione di un
compito. Un algoritmo è descritto mediante un opportuno linguaggio e fa
implicitamente riferimento ad un esecutore, ossia a un’entità, umana o
meccanica, che deve realizzare il compito attuando la sequenza di passi che
compongono l’algoritmo stesso. Dunque l’algoritmo dipende sia dal compito
che si vuole realizzare sia dall’esecutore per il quale è stato formulato.
Gli algoritmi prevedono generalmente una fase iniziale (detta di
“inizializzazione”) e una fase finale di lettura o presentazione del risultato.
Chi formula l’algoritmo per un determinato esecutore è detto programmatore:
perché il programmatore possa formulare correttamente l’algoritmo è
necessario che abbia una visione chiara del compito che l’esecutore deve
arrivare a svolgere. Questa descrizione è data nella cosiddetta “specifica”, in
cui, ovviamente, non è indicato nessun esecutore.
Quando un algoritmo è diretto ad un esecutore automatico, esso viene
formulato in un apposito linguaggio che permette di descrivere esattamente il
comportamento dell’esecutore. La specifica, invece è diretta normalmente ad
un operatore umano ed è pertanto espressa (interamente o in parte) in
linguaggio naturale. Se da un lato questo consente una grande flessibilità e
concisione, tuttavia introduce la possibilità di incompletezza e ambiguità.
2. Come funziona uno spider
______________________________________________________________
14
Per questo motivo, prima di formulare un algoritmo, è opportuno effettuare
alcune operazioni preliminari sulla specifica volte a chiarire eventuali
imprecisioni. In particolare, la specifica di un problema deve permettere
l’individuazione dei dati (o informazioni) di ingresso e di dati di uscita, ossia,
rispettivamente, dati che devono essere forniti all’esecutore durante
l’esecuzione dell’algoritmo risolutivo e dati che ci si aspetta che l’esecutore
produca per risolvere correttamente il compito.
Se un algoritmo è una sequenza di passi, è possibile individuare due tipi di
sequenze possibili: sequenza statica e sequenza dinamica.
La sequenza dinamica è la sequenza di passi effettivamente eseguita
dall’esecutore in una particolare esecuzione dell’algoritmo. Essa dipende dalla
sequenza statica, ma in generale non coincide con essa. Inoltre, mentre esiste
un’unica sequenza statica, esistono in generale molte sequenze dinamiche
diverse, ciascuna associata a particolari valori dei dati di ingresso.
A questo punto, esaminato il concetto generale di “algoritmo” , vediamo cosa
significa per un motore di ricerca “usare un algoritmo”: il crawler è
l”esecutore” e i tecnici dei motori di ricerca sono i programmatori. Essendo
l’esecutore una macchina, il linguaggio dell’algoritmo è linguaggio macchina.
La specifica per il programmatore è “rintracciare sul web pagine pertinenti
alla query digitata dall’utente”.La sequenza dinamica di operazioni viene
determinata in base alla query, mentre quella statica viene determinata sulla
base di complesse operazioni matematiche nel tentativo di estrarre dai dati
memorizzati i risultati maggiormente pertinenenti. L’algoritmo di ogni motore
di ricerca attribuisce pesi differenti a determinati fattori, che sono per la
maggior parte i medesimi per tutti i search engine: si tratta sia di elementi
“inside the page” che “outside the page”, ossia, nel primo caso, di fattori
rintracciabili nella struttura e nei contenuti della pagina stessa, nel secondo
caso di fattori che sono da rintracciare all’esterno della pagina, cioè su pagine
che ad essa linkano o sulla base di criteri generici utilizzati per determinare
l’utilizzabilità della pagina in questione.
2. Come funziona uno spider
______________________________________________________________
15
2.2 La struttura di un motore spider base
Dopo aver visto cos’è un algoritmo e come sono sfruttate queste “formule”
dai search engine, passiamo ora ad analizzare come lavora uno spider e come
è strutturato. E’ ormai chiaro che ogni motore di ricerca spider-based ha una
propria struttura, che ne determina l’ efficienza in termini di search-retrieval;
ogni motore, tuttavia, funziona compiendo gli stessi tre passi fondamentali:
crawling, indexing e searching.
Come esempio chiarificatore prenderemo la struttura di Google: in parte
perché il saggio
7
che descrive il suo funzionamento, scritto proprio dai suoi
inventori, è probabilmente uno dei più chiari nella letteratura sul tema, in
parte perché la struttura di questo motore di ricerca è, già da alcuni anni, la
più imitata dagli altri motori spider-based, vecchi e e nuovi.
2.2.1 L’ esempio di Google
Google è nato come prototipo di un motore di ricerca di grandi dimensioni
che basa il suo funzionamento sulla struttura ipertestuale dei documenti web.
E’ stato disegnato per esplorare il web ed indicizzare efficientemente i
documenti, restituendo poi risultati più soddisfacenti rispetto ai precedenti
motori di ricerca. Uno dei problemi maggiori che possono sorgere nella
creazione di uno spider sta nell’adeguare le tecnologie utilizzate per piccoli
database ad una mole enorme di dati: in una parola, la difficoltà sta nel
rendere la tecnologia “scalabile” ed applicabile ad una “hyperlinked structure”
in continua ed incontrollabile crescita.
Trovare i documenti sulla rete internet è solo il primo scoglio da superare
nella creazione di un motore di ricerca spider based efficace: successivamente
si pone sia il problema di immagazzinare i dati rendendoli sempre disponibili
e velocemente raggiungibili sia la difficoltà di aggiornarli per evitare
l’accumularsi di dati obsoleti..
Google ha cercato di minimizzare i costi per queste operazioni evitando di
centralizzare la tecnologia di monitoraggio e cercando di sfruttare le
economie di scala, sempre crescenti visto l’aumento esponenziale del web.
Inoltre Google sfrutta la struttura ipertestuale del web sia per calcolare la
7
S. Brin, L. Page, The Anatomy of a Large Scale Hypertextual Web search Engine
http://www7scu.edu.au/programme/fullpapers/1921/com1921.htm
2. Come funziona uno spider
______________________________________________________________
16
qualità della pagina sia per migliorare i risultati di ricerca. Vedremo in
dettaglio nel capitolo dedicato alla link popularity l’importanza di questo
fattore e come viene utilizzato per valutare la rilevanza del documento. Per il
momento basta sottolineare che se i motori di ricerca associano normalmente
il testo di un link alla pagina su cui il link è posto, Google ha cominciato ad
associare il link stesso anche alle pagine alle quali il link indirizza. Questo
porta diversi vantaggi: per prima cosa, i link presenti su altri documenti
forniscono spesso descrizioni più accurate e veritiere del contenuto delle
pagine weba cui portano rispetto alle url in cui sono contenuti. Inoltre, i
collegamenti possono essere inseriti nell’indice anche se i documenti ai quali
linkano non sono ancora stati indicizzati ed essere comunque serviti
all’utente, aumentando così di oltre 10 volte la quantità di documenti
accessibili. Altri elementi che l’algoritmo tiene in forte considerazione sono le
“location information”ossia la posizione in cui le parole sono poste sulla
pagina: in questo modo il motore di ricerca è in grado i valutare la rilevanza
dei termini considerando anche la “proximity” fra di essi
8
. Un altro elemento
da considerare è il peso (“weight”) dei font: semplificando, un font grassetto,
o di maggiori dimensioni, o un header avranno una maggiore considerazione
rispetto ad un testo semplice o di piccole dimensioni.
Vengono poi considerati, congiuntamente a quelli fondamentali sopra citati,
anche alcuni altri dati esterni al sito: reputazione della fonte, frequenza di
aggiornamento, popolarità, citazioni. Non è facile recuperare questi dati, in
quanto i motori di ricerca devono ritrovarli direttamente esplorando la rete di
documenti di cui fa parte la pagina, senza nessun tipo di aiuto esterno; essi,
infatti, hanno imparato a non fidarsi dei meta-dati forniti sulle pagine stesse,
spesso fuorvianti o miranti ad una manipolazione dell’indice. Per questo
motivo lo spider gira senza sosta, esplorando non solo le pagine ma anche i
“contesti” in cui sono inquadrati.
Vediamo ora come effettivamente funziona Google, seguendo il percorso dei
dati.
8
Vedi cap.6
2. Come funziona uno spider
______________________________________________________________
17
Fig. 2-1. Fonte: S. Brin, L. Page, The Anatomy of a Large Scale Hypertextual Web Search Engine
Il web crawling (cioè l’individuazione e il download di pagine dal web al
database del motore di ricerca) è svolto in maniera distribuita da diversi
crawler: esiste una lista di URL che questi devono raggiungere, in modo che i
dati possano poi essere inviati al server (store server) che le immagazzina e le
comprime in un deposito (repository). Ogni pagina è identificata dal proprio
docID, dalla lunghezza del documento e dall’url.
La funzione di indicizzazione è compiuta dall’indexer e dal sorter (estrattore).
L’indexer svolge parecchie funzioni: legge il repository, decomprime i
documenti, li analizza. Ciascun documento è convertito in un set di parole
ricorrenti con una certa frequenza, chiamate “hit”. Ogni hit registra la parola,
la relativa posizione occupata nel documento, oltre a font size e
“capitalization” (presenza di maiuscole o meno). L’indexer distribuisce poi
tutti questi hit in un set di “contenitori”, detti “barrel”, creando così un indice
parzialmente ordinato. L’indexer svolge anche l’importante funzione di
analizzare tutti i link presenti sulla pagina per poi immagazzinare le
importanti informazioni al riguardo in un file. L’url resolver, poi, legge i link,
converte le url relative in assolute e, quindi, assegna a queste ultime un
docID. Viene poi collocato il testo del link, associato al docID, in un indice
2. Come funziona uno spider
______________________________________________________________
18
che collega ogni link al documento a cui punta. In questo modo vengono
anche raccolte le informazioni necessarie per calcolare il PageRank di ogni
documento.
Il Document Indexer, invece, mantiene le informazioni riguardo ciascun
documento ed è ordinato per docID. Se il documento ha avuto un passaggio
dal crawler, nella entry sono contenuti anche un file chiamato docinfo
indicante l’url e il title. In caso contrario, il docID è collegato solamente
all’url relativa.
Il contenuto dei barrels, organizzato in base ai docID, viene riordinato per
wordID, ossia per parole, generando il cosiddetto “indice invertito”. Un
programma chiamato DumpLexicon prende questa lista di termini, insieme a
quella prodotta dall’indexer (presenti negli hits
9
) e crea un nuovo dizionario
che può essere usato da quella parte della struttura di Google chiamato
Searcher. Quest’ultimo utilizza il dizionario insieme all’indice invertito e al
Page Rank per ordinare i risultati e fornirli in risposta alle domande
dell’utente.
Uno dei problemi principali consiste nel metodo di ordinamento di tali
documenti: elencarli in base al loro docID? Elencarli in base al numero di
occorrenze dei termini della query all’interno del documento? Prestare
maggiore attenzione al fornire risultati attendibili per query di un solo termine
o per query più complesse? Sicuramente valutare una rilevanza per una
stringa composta da diversi termini è molto più problematico che per una
parola singola. Inoltre, cambiare l’algoritmo utilizzato per il ranking significa
ricostruire l’indice. Per evitare almeno in parte le difficoltà derivanti da
operazioni del genere, Google ha scelto di mantenere due set di contenitori
“invertiti”: il primo set è costituito da file che descrivono solo title e ancor hit,
dati sufficientemente stabili, il secondo costituito da tutti gli altri dati relativi
al documento.
9
Una lista di hit è una lista di occorrenze di una particolare parola in un
documento:comprende la posizione, il font e la capitalization. Le hit list occupano la maggior
parte dello spazio usato in entrambi gli indici, quello “normale” e quello “invertito”. Ci sono
però due tipi di hit: quelli denominati “fancy hit” e gli hits semplici. I primi includono le
parole che compaiono nella URL, nel title, nei testi dei link e nei meta tag , mentre gli hit
semplici includono le occorrenze che si presentano in qualsiasi altra sezione della pagina. In
un fancy hit troviamo, in pochi bit, dati riguardanti capitalizzazione, font size, posizione, oltre
la codifica necessaria per segnalare al sistema che quello è un fancy hit.