6
1 INTRODUZIONE
Nei primi anni di vita il Web
1
era caratterizzato essenzialmente da siti scarni e con
contenuti statici e limitati; il lavoro dei motori di ricerca, basato sulla ricerca di
informazioni, era reso perciò agevole.
Nel corso degli anni l’evoluzione del Web ha visto l’introduzione di una gran
varietà di applicazioni in grado di offrire alti livelli di interazione con gli utenti. Siti
come blog, forum e social network hanno trasformato radicalmente il concetto
originario di contenuto, proponendo non solo testi dinamici (prodotti
autonomamente dagli stessi utenti della Rete) ma, in maniera diffusa, anche un gran
numero di informazioni multimediali.
Lo sviluppo così massiccio di nuovi contenuti, però, non poteva più essere gestito
dall’approssimativo meccanismo di ricerca dei primi motori; ciò ha determinato la
creazione di algoritmi molto più efficienti in grado di gestire le nuove dinamiche
del Web. L’introduzione di complesse valutazioni matematiche ha permesso una
migliore indicizzazione dei siti web rendendo le ricerche molto più razionali e
capaci di soddisfare in pieno le esigenze degli utenti.
Lo sviluppo dei motori di ricerca è in continua evoluzione, sia per soddisfare le
richieste di utenti sempre più esigenti sia per contrastare chiunque voglia
approfittare di eventuali lacune algoritmiche, sfruttando illecitamente la situazione
ed ottenere così vantaggi in termini di visibilità.
I motori di ricerca, in particolare, devono fornire risultati in maniera intelligente e
coerente con le ricerche effettuate da chi li utilizza: ad esempio, una pagina web che
tratta un argomento specifico, probabilmente verrà visitata soltanto da professionisti
di quel settore i quali la giudicheranno rilevante, mentre risulterà di scarso interesse
1
Il Web è ipertesto: organizza tutti i documenti presenti nella Rete in un unico grande meta-libro, la
“biblioteca universale”. L’ipertesto è uno dei fattori attualmente dominanti nel campo dei motori di
ricerca e al quale essi si affidano per riuscire a fornire delle risposte affidabili e precise.
Con l’aiuto degli algoritmi computazionali rivolti alla ricerca delle informazioni, studiosi e
appassionati navigatori di tutto il mondo hanno la possibilità di trovare esattamente quello che
cercano e risalire in un attimo, tramite i collegamenti ipertestuali, all’origine di un’idea o alla
cronologia di un concetto; a conferma del fatto che nessuna idea può stare in piedi da sola soprattutto
nel mondo accademico e scientifico, dove ciascuna di esse necessita, per essere credibile, di essere
parte integrante di un sistema altamente connesso.
7
per altre persone. La realtà dei motori deve avvicinarsi in modo sempre più definito
verso la situazione ideale, in cui l’organizzazione e la presentazione dei risultati
avviene a seconda delle reali esigenze degli utenti.
La diffusione su larga scala dei motori di ricerca, strumento fondamentale per le
ricerche sul Web, fanno dell’attività SEO (Search Engine Optimization) un punto
basilare ai fini della crescita di una qualunque attività Web, in quanto percentuali
sempre più alte di utenti iniziano la propria sessione di navigazione consultando
questi servizi.
Ogni singola ricerca, anche la più banale, racchiude ragionamenti complessi in base
ai quali, in pochi istanti, viene restituito un elenco contenente migliaia di risultati
(SERP), ordinato in funzione dei legami e dell’autorevolezza delle pagine riportate
nell’elenco rispetto agli argomenti ricercati.
In particolare, SEO vuol dire acquisire quei flussi di traffico qualificato che
identificano il principale obiettivo di una campagna di ottimizzazione rivolta al
posizionamento sui motori di ricerca, fornendo un valido aiuto nella promozione dei
siti web e facendoli apparire in posizioni di rilievo nei risultati restituiti.
Per realizzare ciò un professionista SEO si avvale di validi strumenti di analisi
(forniti in alcuni casi dai motori di ricerca stessi, come nel caso di Google),
determinanti nell’apportare significativi miglioramenti, in termini di qualità, dei siti
in esame e, più in generale, dell’intero Web. Per riuscire a pianificare una strategia
di successo è necessario studiare e comprendere in maniera approfondita le logiche
che regolano il funzionamento di un motore di ricerca, in particolare gli elementi
che permettono l’indicizzazione delle risorse presenti sul Web e il conseguente
processo di ricerca, in modo che possano risultare determinanti per l’assegnazione
di una maggiore visibilità.
L’obiettivo è mostrare le connessioni esistenti tra tecniche SEO e algoritmi di
ricerca, ossia in che modo ed in quale misura le tecniche SEO derivino dai principi
di funzionamento degli algoritmi. I complicati calcoli effettuati da questi ultimi
vengono custoditi in gran segreto, perché uno degli obiettivi dei motori di ricerca è
riuscire a fornire risultati in maniera imparziale. Le strategie SEO derivano perciò
da profonde analisi ed esperimenti effettuati dagli esperti del settore ma anche, in
qualche caso, da essenziali suggerimenti forniti dagli stessi motori di ricerca, ad
esempio Google.
8
La tesi presenta alcune delle più importanti tecniche di ottimizzazione e, allo stesso
tempo, individua un’opportuna metodologia con cui progettare ed ottimizzare il
codice delle pagine web, perchè risultino gradite ai motori ed indicizzate in tempi
ridotti, raggiungendo gli standard qualitativi oramai fondamentali per emergere sul
Web.
9
2 I MOTORI DI RICERCA
Disporre di enormi quantità di informazione senza renderle agevolmente fruibili
equivale, paradossalmente, a non averle a disposizione.
Il grande volume di dati che il Web contiene, supera qualunque possibilità umana
nel tentativo di effettuarne una consultazione esaustiva in tempi ragionevoli.
Senza un valido strumento in grado di assistere gli utenti nella loro ricerche, il Web
sarebbe privo di ogni utilità pratica; è quindi indispensabile la presenza di uno
strumento attraverso cui poter censire in modo adeguato la grande massa di
informazioni presenti sul Web e che consenta, allo stesso tempo, ricerche mirate in
tempi rapidi, fornendo agli utenti risposte in grado di soddisfare le proprie richieste.
Attualmente il Web offre molti servizi che svolgono più o meno efficientemente la
funzionalità appena espressa e sono conosciuti col nome di motori di ricerca. Il loro
compito è quello di classificare tutti i documenti presenti nel Web, presentando agli
utenti quelli che si rivelano maggiormente conformi alle parole chiave inserite in
fase di ricerca.
2.1 Crawling
Con il nome di robot si indicano quei piccoli programmi che setacciano
costantemente il Web alla ricerca di nuovi contenuti nei siti web (o aggiornamenti
di quelli già esistenti) da inserire negli archivi dei motori di ricerca, realizzando
l’operazione di scansione (detta anche crawling) fondamentale per il
funzionamento di questi ultimi. Questi semplici software agiscono visitando ciascun
link presente nelle pagine web e, sfruttando i collegamenti esistenti fra queste,
riescono a raggiungere tutti i siti pubblicati sulla Rete.
Quando accedono ad un sito, i robot (chiamati anche crawler) esplorano
sequenzialmente tutte le informazioni contenute nelle pagine web presenti in esso,
10
partendo dall’analisi di quella principale (homepage), memorizzandole nei rispettivi
archivi. Succede a volte, però, che alcune di esse sfuggono alla scansione del robot
(pagine non collegate alle altre o situate troppo in profondità nella struttura del
sito): per questo è stata introdotta recentemente una linea guida che consiglia di
posizionare, sul server dove risiede il sito, un file appositamente creato per tenere la
lista di tutte le pagine presenti e semplificare così il lavoro dei robot.
2
Figura 1 - Il nome dei robot (o crawler) dei maggiori motori di ricerca
2.2 Indicizzazione
Esistono vari metodi per effettuare un’operazione di ricerca idonea nel recupero
delle informazioni di interesse, la più semplice ed elementare delle quali è
rappresentata dalla ricerca sequenziale; in presenza di un documento, questo viene
esplorato ordinatamente da cima a fondo nel tentativo di trovare le informazioni
desiderate. Si rivela un’operazione efficiente fintanto che il documento è di
2
Vedi paragrafo “4.4.1.10 – Sitemap”
11
dimensioni ridotte e può essere analizzato in breve tempo; per il Web non valgono
le valutazioni appena espresse, perché le ricerche di questo tipo, eseguite su
ragguardevoli insiemi di documenti, diverrebbero insostenibili a causa dell’elevata
quantità di tempo necessaria ad eseguire tali operazioni. È fondamentale quindi
procedere ad una adeguata e preliminare organizzazione delle informazioni, per
favorire l’utilizzo di metodologie più efficienti e funzionali per gli utenti.
L’indicizzazione rappresenta il tipo di organizzazione più adatto per le operazioni
di raccolta e preparazione dei documenti presenti sul Web ed il cui funzionamento
rispecchia per certi versi l’indice analitico presente nelle pubblicazioni cartacee. Nel
momento in cui i robot dei motori di ricerca accedono ai vari siti Web per il
recupero dei dati viene creata, contestualmente all’operazione, una sorta di indice
nel quale vengono mantenute tutte le informazioni trovate, unitamente ai link presso
i quali si trovano i documenti che le contengono. Quando gli utenti avviano una
ricerca inserendo una serie di parole, il motore eviterà di scorrere sequenzialmente
tutti i documenti esistenti in Rete consultando invece, in maniera più semplice e
rapida, l’indice a disposizione restituendo un elenco di risorse in linea con
l’argomento oggetto della ricerca.
2.3 Ranking
Le parole chiave inserite per avviare la ricerca su un motore e che rappresentano
l’argomento di interesse, vengono opportunamente elaborate e i risultati restituiti
rappresentano liste di siti web che trattano i temi da esse indicati. L’esigenza
principale che si incontra nel momento in cui vengono restituite queste liste, è
quella di stabilire una valida gerarchia tra i vari documenti recuperati, in modo da
offrire agli utenti degli elenchi che siano in grado di esaudire in pieno le ricerche.
L’operazione in questione prevede l’uso di algoritmi capaci di valutare globalmente
tutti i parametri associati a ciascun documento in modo da definire l’ordine di
visualizzazione nelle pagine di risposta; il processo algoritmico appena esposto
prende il nome di ranking.
12
Esistono vari criteri di ranking: alcuni motori ritengono più rilevanti (e quindi
destinati ad essere visualizzati per primi) i documenti che presentano il numero più
elevato di parole attinenti alla ricerca, altri preferiscono invece presentare le risorse
aggiornate di recente, altri ancora mostrano i documenti che riescono ad ottenere il
miglior risultato globale dalla valutazione di una serie di altri fattori (sia interni che
esterni ad essi).
3
Grazie alle attività svolte durante questo processo, viene generata la pagina relativa
alla visualizzazione dei risultati per l’utente (SERP), sfruttando l’indice creato
durante le fasi di scansione e di indicizzazione del Web.
2.4 Prime tecniche di posizionamento
Fino a qualche anno fa erano largamente utilizzati i meta-tag,
4
spesso in maniera
illecita, ai fini del posizionamento dei siti web sui motori di ricerca. Per riuscire ad
apparire nelle prime posizioni delle SERP, infatti, era consuetudine inserire nei tag
in questione le parole chiave che all’epoca risultavano maggiormente presenti nelle
ricerche; gli algoritmi, che prendevano in considerazione proprio queste meta-
informazioni per effettuare i propri calcoli, venivano in questo modo ingannati.
Lo stratagemma divenne presto popolare tra i webmaster a tal punto che la
situazione degenerò progressivamente: la maggior parte delle pagine web di quel
tempo riuscivano a posizionarsi nei risultati di ricerche che riguardavano argomenti
che non avevano nulla a che fare con le informazioni in esse contenute.
In particolare, la pratica più diffusa consisteva nell’indicare parole che avessero a
che fare con il concetto di gratuito: l’utilizzo di keywords come “FREE”o “GRATIS”
era (ed è ancora oggi) infatti ampiamente diffuso tra i fruitori della Rete, alla ricerca
di materiale libero da ogni costo.
3
I fattori che determinano il ranking di un documento Web si dividono in interni (contenuti,
struttura, …) ed esterni (link, popolarità, …).
Vedi paragrafo “4.4 – Ottimizzazione delle pagin Web”.
4
I meta-tag rappresentano dei metadati il cui utilizzo è previsto nel linguaggio HTML; forniscono
informazioni supplementari sulle pagine per gli utenti o per i motori di ricerca.
Vedi paragrafo “4.4.1.2 – Meta-tag”
13
Per un certo periodo di tempo, se da un lato queste discutibili strategie sembrava
potessero rappresentare davvero quelle vincenti, dall’altro danneggiavano
irrimediabilmente gli utenti del Web; finché non giunsero nuovi e più rigorosi
algoritmi, ci fu effettivamente un vistoso calo nello sviluppo di contenuti di qualità.
La logica di funzionamento degli attuali motori di ricerca (in particolare Google),
oltre a penalizzare chi fa uso di tecniche non consentite, riesce ad eliminare quasi
completamente le possibilità che vengano restituiti risultati non coerenti con le
informazioni che si desidera trovare; la profonda revisione degli algoritmi avvenuta
nel corso degli anni, restituisce la giusta importanza nello sviluppo di contenuti
coerenti e di alto valore informativo, in modo che rappresentino uno dei fattori
determinanti nel raggiungimento di un onesto e legittimo posizionamento.
La tecnica basata sull’utilizzo dei meta-tag, ad oggi, ha quindi perso del tutto la
propria valenza originaria come strumento di posizionamento.
3 IL MOTORE DI RICERCA GOOGLE
3.1 Introduzione
Quando si effettua una ricerca con Google, viene
elenco di risultati recuperati
ricerca riesce a trovare le pagine web corrispondenti alla
l’ordine di visualizzazione?
L’intuizione iniziale, che sta
motore di ricerca, appartiene
sull’algoritmo HyperSearch dell’anno 1996
l’incisività dei collegamenti ipertestuali
risultati delle ricerche.
I due studenti americani Sergey Brin e Lawrence Page
dall’algoritmo HyperSearch del collega
principio di funzionamento al
annunciando, nel 1997, la nascita
utilizzato nel mondo.
Le due figure seguenti mostrano il bacino di utenza su
ricerca può contare:
Figura 2 - Percentuali di utilizzo dei motori di ricerca nel mondo
(grafico fornito da NetMarketShare.com, dati forniti da
5
Vedi paragrafo “3.4.2 – PageRank
14
IL MOTORE DI RICERCA GOOGLE
una ricerca con Google, viene presentato in modo istantaneo
analizzando l’intero Web. In che modo il motore di
le pagine web corrispondenti alla ricerca stabilendone
sta alla base della logica di funzionamento
appartiene all’italiano Massimo Marchiori, i cui studi
dell’anno 1996 (1) sono stati determinanti nel
i collegamenti ipertestuali nel migliorare notevolmente la qualità de
Sergey Brin e Lawrence Page, prendendo spunto
dall’algoritmo HyperSearch del collega italiano (2) (3), applicarono il medesimo
al loro progetto, dando vita all’algoritmo PageRank
la nascita del motore di ricerca ad oggi più efficiente e più
Le due figure seguenti mostrano il bacino di utenza sul quale questo motore di
Percentuali di utilizzo dei motori di ricerca nel mondo nel 2011
(grafico fornito da NetMarketShare.com, dati forniti da RealTimeStats.com)
PageRank”
presentato in modo istantaneo un
il motore di
ricerca stabilendone
la base della logica di funzionamento di questo
rchiori, i cui studi
sono stati determinanti nel mostrare
nel migliorare notevolmente la qualità dei
prendendo spunto
il medesimo
l’algoritmo PageRank
5
e
del motore di ricerca ad oggi più efficiente e più
quale questo motore di
Figura
(grafico fornito da NetMarketShare.com, dati forniti da
I grafici rivelano percentuali di utilizzo
sottolineano il fatto che quasi la totalità degli utenti
effettuare le proprie ricerche sul Web
I dati indicano, inoltre, come sia importante procedere all’ottimizzazione dei siti
prendendo come punto di riferimento questo motore di ricerca.
3.2 Storia
Nel periodo precedente
Google, venivano eseguite
mensili) ed il periodo di tempo
correlate richiedeva
Il processo in questione prese il nome di
profonda e dettagliata
documento presente nell’archivio con nuove
influenzare il ranking
15
Figura 3 - Percentuali di utilizzo dei motori di ricerca in Italia nel 2011
(grafico fornito da NetMarketShare.com, dati forniti da RealTimeStats.com
percentuali di utilizzo molto alte (prossime a 100
sottolineano il fatto che quasi la totalità degli utenti vuole affida
effettuare le proprie ricerche sul Web.
I dati indicano, inoltre, come sia importante procedere all’ottimizzazione dei siti
prendendo come punto di riferimento questo motore di ricerca.
precedente l’anno 2003 le attività di crawling, realizzate
no eseguite ad intervalli piuttosto dilatati nel tempo (
periodo di tempo necessario per portare a termine tutte le operazioni
richiedeva anche più di una settimana.
questione prese il nome di deep crawl in quanto
dettagliata analisi dell’intero Web, aggiornando, tra l’altro,
documento presente nell’archivio con nuove e più recenti valutazioni
il ranking finale delle stesse.
nel 2011
RealTimeStats.com)
(prossime a 100% in Italia) e
affidarsi a Google per
I dati indicano, inoltre, come sia importante procedere all’ottimizzazione dei siti
e attività di crawling, realizzate dallo spider di
piuttosto dilatati nel tempo (cadenze
necessario per portare a termine tutte le operazioni
in quanto realizzava una
, tra l’altro, ciascun
utazioni in grado di