come è noto deriva dalla abnorme proliferazione di materiali immessi o ‘pubblicati’ in rete senza
alcuna procedura di controllo e di filtro. Nel secondo capitolo poniamo l’attenzione su che cosa
siano le risorse elettroniche e sui metodi di valutazione di esse, proponendo la griglia di valutazione
elaborata da Janet E. Alexander e Marsha Ann Tate, della Wolfgram Memorial Library della
Widener University School of Law, PA, Usa, con particolare riferimento alla lista di controllo
relativa alle pagine di contenuto informativo, e una serie di integrazioni pensate appositamente per
la valutazione delle più comuni risorse di interesse che sia dato incontrare sul Web. Nella
successiva analisi dei più importanti siti shakespeariani, abbiamo cercato di applicare le direttive di
valutazione incontrate, cercando di privilegiare i criteri di autorevolezza, accuratezza, obiettività,
validità e completezza, che meglio si adattano alla valutazione di siti web. E’ chiaro che non tutte le
risorse telematiche e in particolare i siti web oggetto della nostra indagine possono rispondere a tutti
i criteri della valutazione. Per questo motivo abbiamo analizzato i siti shakespeariani in modo da
fornire un prospetto valido soprattutto dal punto di vista grafico-contenutistico, e successivamente
fornito schede utili per una consultazione il più possibile rapida ed esauriente dei siti esaminati.
Dal capitolo 3 entriamo nel mondo dei siti shakespeariani: nel paragrafo intitolato
“Catalogazioni principali” inizialmente analizzando le principali catalogazioni proposte dalle
università che hanno affrontato il problema: Oxford, Cambridge, Harvard, Kentucky, i college di
Connecticut State, Elmhurst State (Chicago), Union State (New York). Successivamente ho raccolto
i siti principali incontrati nel corso della mia ricerca, fornendone una breve descrizione per fornire
una visione d’insieme del fenomeno. In considerazione della grande quantità e dell’importanza che
alcuni dei siti proposti hanno nell’intero panorama mondiale, alcuni siti sono stati da me ripetuti nei
vari elenchi, in modo da fornire – in base al numero di occorrenze di ogni singolo sito – un’idea su
quali siano quelli più citati (e di conseguenza più cliccati) nel panorama della rete. Ne sono state
pertanto omesse eventuali ulteriori descrizioni, riservando particolare attenzione verso i siti con
materiale testuale.
Nel capitolo 4 i siti sono stati scelti in base al “metodo empirico”: sulla base delle occorrenze
trovate nel corso delle ricerche sono stati elencati 8 siti, analizzati in modo particolareggiato sia dal
punto di vista grafico che contenutistico. È stata altresì inclusa una scheda riassuntiva per ogni sito
trattato, in modo da facilitarne la consultazione: sono stati inseriti criteri adatti prettamente per
un’analisi immediata delle pagine Web: grafica, navigabilità, aggiornamento, contenuti, velocità di
caricamento. La scheda contrassegnata con * appartiene ad un sito che non è stato recensito in
modo particolareggiato, ma è stato inserito comunque in elenco perchè risulta essere il sito di
riferimento della maggior parte delle pagine web che trattano di edizioni testuali delle opere di
Shakespeare.
Nel capitolo 5 sono stati analizzati siti che si occupano in maniera esclusiva del mondo
shakespeariano e dello sfruttamento del mezzo Internet per la divulgazione dell’opera di
Shakespeare: è il caso dello Shakespeare Institute e degli altri due siti proposti, SHAKSPER
(trascrizione del nome del nostro Autore in inglese seicentesco) e WORKS OF BARD.
A margine una nota dal punto di vista del lettering: per questo lavoro sono stati adattati
accorgimenti atti a specificare meglio il contenuto del lavoro: nei capitoli propriamente riguardanti i
siti shakespeariani sono state usate cornici per evidenziare la diversa provenienza delle
informazioni, rispettivamente:
¾ Una cornice singola semplice per evidenziare elementi provenienti esclusivamente
dall’homepage dei siti: gli screenshot delle pagine;
¾ Una cornice doppia semplice per evidenziare elementi provenienti da Internet, riportati
per illustrare i siti;
Naturalmente scorrendo il testo si possono trovare tabelle che sono create da me, e che non
portano nessuna bordatura.
Negli elenchi multipli, in particolare quelli presenti nel capitolo 2, sono stati usati elenchi puntati
diversi, per evidenziare meglio la varietà degli elementi facenti parte di tali elenchi.
Capitolo 1 Il mondo di Internet
1.1 Internet: ipertesto globale e catalogazione non definitiva
Chiarire i motivi del notevole sviluppo del fenomeno Internet è alquanto difficile, perché in esso
convergono aspetti tecnologici, comunicativi e socio-culturali. La diffusione della “rete delle
reti” e il suo successo sono dovuti in prima analisi alle tecnologie su cui essa si basa. Una prima
definizione poggia su un pilastro fondamentale: l’incontro tra il computer e le telecomunicazioni
(avvenuto nei primi anni ‘60), che ha dato luogo a quella che oggi viene comunemente indicata
con il termine telematica
1
. Una delle caratteristiche di cui gode è quella che l’informazione in
formato digitale (sotto forma di bit
2
) “viaggia” con grande facilità di movimento, veicolando in
un tempo relativamente piccolo gli impulsi del segnale ad ogni bit in base alla velocità di
trasmissione (bit al secondo, abbreviato bps). Ma cos’è una rete? Un primo passo in questa
direzione era stato il collegamento di terminali remoti ad un terminale centrale attraverso dei
cavi (il sistema statunitense SAGE durante la guerra fredda), sistemi abbastanza semplici di
input-output (monitor e tastiera) che non avevano nulla da condividere in cui tutto il carico di
elaborazione e archiviazione gravava sull’elaboratore centrale. Per ottenere una vera e propria
rete bisognava fare in modo che i dati viaggiassero da un computer all’altro. Bisognava
costruire una rete: un sistema - che estende la capacità di circolazione dei bit per consentire la
trasmissione di informazioni in formato digitale tra diversi computer – basato su un server, che
gestisce l’archiviazione dei dati, le funzioni relative alla ricerca di essi e il suo invio al client,
che richiede e controlla la loro rappresentazione all’utente ed eventualmente la loro modifica e
manipolazione.
Basate su componenti fisiche (lo’hardware: oltre ai computer, canali e apparati di trasmissione)
e logiche (il software: programmi di gestione di collegamento e traffico dati, i cosiddetti
protocolli
3
), le reti telematiche sono divenute una delle infrastrutture fondamentali della società
avanzata, strumento di lavoro indispensabile per milioni di persone. Internet è il simbolo
dell’era digitale, uno strumento che offre opportunità impensabili fino a pochi anni fa.
Ripercorrendo un po’ la storia e lo sviluppo, possiamo sicuramente affermare che il padre di
1
Il termine deriva dalla composizione del prefisso ‘tele’- con ‘(infor)matica, informatica a distanza. La telematica si
occupa infatti della trasmissione a distanza di informazione tra sistemi informatici, mediante reti di computer.
2
Bit: BInary digiT - cifre binarie l'unità base dell'informazione per tutti i computer. Per i calcolatori, i due stati di
sollecitazione elettrica vengono tradotti nel linguaggio aritmetico in 0 e 1, in bit. Il bit viene indicato anche con la
lettera minuscola b, mentre la B, in maiuscolo, indica il byte.
3
Più propriamente un sistema di protocolli, denominato TCP/IP (Transmission Control Protocol/Internet Protocol).
Internet è Vinton Cerf (matematico dell’università di Stanford). Nel 1968 la Defence Advanced
Research Project Agency (ARPA) dà il via al progetto ARPANET, che prevede la costituzione
di una rete di computer che, sparsi sul territorio nazionale, debbono interagire l'uno con l'altro in
tempo reale. Dal 1973 al 1978 Cerf conduce la ricerca che sviluppa e collauda i protocolli di
comunicazione TCP/IP, base del moderno Internet, ampiamente usati nell'industria e per
comunicazioni fra diverse reti commerciali, fra università, fra istituzioni e fra privati. Alla fine
del 1982 i nuovi protocolli, collaudati, sono in grado di sostituire i vecchi protocolli nel progetto
ARPANET. La data fissata per il 'passaggio' è il 1 gennaio 1983. Cerf è considerato il padre di
Internet, anche se, in realtà, i protocolli di Internet sono stati scritti in collaborazione con altri;
primo tra tutti Robert Kahn.
Ripercorrendo le tappe fondamentali della nascita di Internet, in un’intervista apparsa sul
sito www.mediamente.rai.it
4
Cerf precisa:
“all’inizio degli anni sessanta, molte persone, quasi nello stesso momento, ebbero l'idea di un
nuovo modo di comunicare che fosse diverso dal sistema telefonico, chiamato circuito ad inserimento
(circuite switching), dove i due telefoni hanno una connessione tra loro stabile ed operativa finché non si
mette giù il ricevitore. Questa nuova idea di sistema era chiamata "packet-switching", e il primo
ricercatore ad avere l'idea di questo nuovo sistema fu Leonard Kleinrock, un ricercatore del MIT .
Kleinrock scrisse una sua dissertazione sull'argomento. La seconda persona che ebbe tale idea fu Paul
Baran. Egli era alla RAND Corporation di Santa Monica, California, e stava studiando un modo di
comunicare a voce, ma che prendeva il suono e lo commutava in pacchetti digitali di dati; il suono poteva
poi essere distribuito attraverso un network negli Stati Uniti. Il suo obbiettivo era quello di costruire un
sistema che potesse resistere ad un attacco nucleare. L'idea del packet-switching, dunque, almeno come
Paul Baran lo concepiva, doveva fronteggiare il problema nucleare. Il terzo uomo che guardò a
quest'idea in modo indipendente fu Donald Davies al National Physical Laboratory di Londra. Il suo
interesse era quello di connettere apparecchi, terminali e computer insieme con uno switching-sistem che
potesse funzionare molto efficientemente. Questi tre uomini non si incontrarono mai prima che il sistema
che usava il packet-switching, chiamato "Arpanet", fosse creato. Il progetto "Arpanet" iniziò nei tardi
anni Sessanta. Fu finanziato dalla "Defence Advanced Project Research Agency", come ho detto prima,
che fa parte del Ministero della Difesa degli Stati Uniti, ma il loro obbiettivo non aveva niente a che fare
con la guerra nucleare. Così, il primo network di packet-switching, il network ad ampia estensione, fu
progettato per coadiuvare la ricerca. Dopo il successo di questo progetto, che fu mostrato al pubblico nel
1972, uno dei miei colleghi, Bob Kahn, che lavorava all'Arpanet, andò all'Arpa e cominciò a studiare
come si poteva usare questa idea del packet-switching nella comunicazione radio, radiomobile, o
comunicazione via satellite. A questo punto mi chiamò e disse: "Vinton, io ho un problema: abbiamo tipi
4
“La storia di Internet Torgiano, PG, 13 settembre 1997”, Biblioteca digitale, May 8, 2004.
<http://www.mediamente.rai.it/biblioteca/biblio.asp?id=70&tab=int#link003>
diversi di reti a commutazione a pacchetto, ma vogliamo collegarle insieme perché abbiamo bisogno di
usarle per l'esercito, per impiegare questi strumenti di comunicazione sul campo, in veicoli mobili,
sull'oceano, dove si può usare il satellite per comunicare da una nave all'altra e da una nave alla costa; e
noi vogliamo connetterli in un network continentale" (che l'Arpanet rappresentava). Così avevamo queste
tre tecnologie di reti da connettere insieme. Il problema era certamente Internet, perché esso connetteva
delle reti. Bob ed io lavorammo a quel progetto dal 1973.
Varato come abbiamo visto nel 1973, Arpanet seguì un ritmo di crescita impetuoso, fino alla
grande svolta del nuovo protocollo di trasmissione TCP/IP (1973), portando allo sviluppo di
una interrete, una INTERNET.
Nel 1980 la National Science Foundation finanziò la costruzione di reti tra le università
americane e la loro connessione ad Arpanet: nacquero così Csnet (Computer Science Network),
BitNet (Because It’s Time Network), Usenet. La vecchia Arpanet venne chiusa (1989) e, grazie
all’interesse delle aziende private, si dette spazio ad una nuova Internet, globale e trasversale:
molti gestori di telecomunicazione, interessati a vendere l’accesso alla rete, cominciarono a
costruire le loro dorsali. L ‘ennesima grande rivoluzione di Internet era iniziata e nel 1995 il
CERN di Ginevra, diretto da Tim Berners Lee, progettò un sistema per pubblicare sui nodi della
rete documenti testuali interconnessi, battezzato World Wide Web. Già agli inizi del 1993 Marc
Andressen ed Eric Bina (dottorandi al National Center for Supercomputing Applications
dell’Università dell’Illinois) svilupparono la prima interfaccia grafica per l’accesso ai documenti
in rete, il famoso Mosaic: grazie a questo Internet diventò utilizzabile anche da utenti non
esperti e dopo essere entrata negli uffici e nelle aziende è entrata anche nelle case. Lo sviluppo
decentrato e periferico ha portato alla creazione di uno spazio di comunicazione planetario,
variegato e orizzontale per il quale non è possibile fare una stima precisa. In questo quadro si
inserisce la definizione di Internet come “ipertesto globale” nell’importanza che le nuove
tecnologie possono avere nello studio dei testi e nel trattamento della conoscenza. Si tratta,
essenzialmente, di una forma di testo che permette al lettore di abbracciare o di percorrere una
grande quantità di informazione in modi diversi ,scelti dal lettore stesso, e, nel contempo, in
modi previsti dall'autore. L'ipertesto è una forma di testo composta da blocchi di "scrittura" e
immagini collegati da link, che permette una lettura multilineare: non una lettura non lineare o
non sequenziale, ma una lettura multisequenziale. Un ipertesto è un testo composto di spezzoni
individuali, o lessie , uniti da collegamenti elettronici, parole, immagini, suoni o unità di lettura
collegati da link. Le relazioni, che nelle forme di testo precedenti rimanevano puramente
mentali, hanno ora un proprio modo di essere formulate. L'esperienza della lettura di un
ipertesto è simile a quella della lettura di un libro scientifico o scolastico: si inizia a leggere, si
arriva ad un numero di postilla, si interrompe per vedere cosa dice tale postilla. Può anche
essere necessario verificare prendendo un altro libro da uno scaffale, e poi si torna indietro e si
continua a leggere. Ma si procede leggendo ed abbandonando il testo, cosicché ogni testo viene
letto in linee multiple. La caratteristica della nuova forma di interazione sta nella possibilità di
scelta del lettore. Quando si legge una storia o quando si leggono delle informazioni, si può
scegliere di deviare e andare da una parte o da un'altra. Nel sommario di un libro si avrebbe
l'indicazione dall'autore che ci esistono tre ragioni di considerare qualcosa: si va all'elemento
uno, all'elemento due, all'elemento tre. In un ipertesto, l'autore può suggerire che ci sono queste
tre possibilità e dipenderà dal lettore se seguire qualsivoglia direzione, ammesso che lo voglia.
Inoltre, in un ipertesto voluminoso, si collegano testi di diversi autori. Se si vuole scrivere per il
World Wide Web, è necessario rinunciare a un po' del proprio controllo. Se è possibile unire
con un collegamento il proprio testo con quello di un altro, chiunque può collegarsi con il
proprio. Questo è quello che esprime Derrida con il confine aperto del testo: che è ormai
impossibile parlare dell'esistenza di un interno coerente, separato dall'esterno. Nel mondo della
stampa di libri le sue affermazioni non hanno alcun senso. Nell'ipertesto sono semplicemente
l'ordine naturale delle cose. Dovremo decidere come iniziare un testo che la gente può
cominciare in qualsiasi punto; ed è ancora più importante sapere quando il testo è finito.
Certamente, nel mondo della stampa su carta ci sono state alcune opere, come la lunga poesia di
Tennyson "in Memorium", componimento sperimentale del Diciannovesimo Secolo, che
contiene molteplici conclusioni e molteplici punti da cui si può iniziare a leggere; la gente lo
legge e lo attraversa in molti modi diversi: come opera di devozione, come opera letteraria. E'
possibile che questo tipo di testo aperto diventi un modello, in contrapposizione ai testi più
chiusi. Questo è forse un nuovo significato o una riconsiderazione del testo aperto di Umberto
Eco. Si sta assistendo alla creazione di nuove forme di narrativa, nuove forme di espressione di
una comunità. Svilupperemo o inventeremo, nel seguire queste nuove forme di narrativa, nuove
forme di espressione estetica, basate sulla presenza virtuale di diverse persone in quello stesso
spazio immateriale, virtuale o simulato che è Internet. George P. Landow, tra i maggiori teorici
dell’ipertesto, discute
5
molto fino a che punto il WWW sia un vero ipertesto. Il WWW, per
quanto sia inestimabile, è, tuttavia, una forma di ipertesto molto primitiva, appiattita e ridotta.
Sono diversi i motivi per i quali il WWW risulta noioso, ed in parte è per il modo di fare
collegamenti, poiché si tratta di un modo che comprende solo un tipo di link. Questa è la prima
ragione. In secondo luogo c'è soltanto una possibilità di collegamento dal singolo al molteplice,
5
George P. Landow, Hypertext 2.0: The Convergence of Contemporary Literary Theory and Technology, Johns
Hopkins University Press.
e molti browser WWW permettono di utilizzare, in modo utile, solo un tipo di finestra e solo
una finestra per volta, a meno che il lettore sia molto sofisticato. In altri tipi di sistemi di
ipertesto - Storyspace, Intermedia, Microcosm, Sepia - alcuni scrivono con una tecnica simile al
collage, fanno esperimenti con forme di discussione, con l'uso di immagini e colori nei modi più
diversi. Il WWW tende ad annullare tutto questo. In WWW si deve fare un link semplice, e,
poi, manualmente, aggiungere ogni singolo link ogni volta che arriva un nuovo documento.
Sebbene il WWW sia considerato molto dinamico, tuttavia obbliga le persone a passare molto
tempo ad aggiungere le cose manualmente. Per questa ragione molti link muoiono: il sistema è
inadeguato. Un'altra caratteristica che manca nel WWW è un tipo di ipergrafico dinamico. Si
tratta di un dispositivo che si attiva quando un lettore apre un link; tale dispositivo comunica al
lettore dove lui o lei possono andare dopo. In sistemi che hanno dispositivi come questo, quali
Storyspace, Intermedia, Microcosm, il lettore non si perde mai; si è sempre orientati, perché non
soltanto si sa dove si può tornare, ma si conoscono anche i modi per andare avanti, e si ha quello
che Mark Bernstein chiama "airlock": prima di cadere nell'oscurità, un dispositivo ci permetterà
di sapere dove siamo e dove si può andare. Il WWW per il momento non possiede nessuna di
queste caratteristiche. Tuttavia, il WWW ha avuto un'importanza enorme, e questo per due
ragioni: la prima consiste nella gratuità dell'uso; la seconda, nel fatto che il WWW offre,
comunque, una certa idea dell'ipertesto. Ted Nelson parla di "docuverse": tutti i documenti del
mondo potrebbero, potenzialmente, essere collegati. Il WWW è per Internet quello che il
programma Hypercard è stato per i personal computer: Hypercard ha a che vedere con il
momento dell'informatica legato al singolo personal computer, mentre il WWW ha a che vedere
col personal computer collegato ad Internet. In entrambi i casi, tuttavia, l'utente adopera il
sistema come un software praticamente gratuito ed è stimolato a volere molto di più. Forse dal
WWW avremo una forma di ipertesto più ricca, accessibile a molti.
Cosa avviene quando un documento, una unità di lettura può avere molte funzioni?
considerando un'edizione a stampa o un piccolissimo ipertesto di un lavoro didattico, o anche
un'opera creativa; un brano di Dante: se si guarda il brano e si trova un riferimento a
Sant'Agostino, in un libro si potrebbe avere una nota a piè di pagina. Si potrebbe anche avere
l'equivalente di una nota a piè di pagina nel WWW. Poiché la lunghezza è molto diversa, e nel
formato elettronico diverse sono le risorse, ciò che deve essere una piccola nota a piè di
pagina nella stampa, nel WWW o in un altro sistema di ipertesto potrebbe essere un intero
saggio. Ora: la questione è che il saggio potrebbe essere il documento principale e Dante
potrebbe funzionare come nota a piè di pagina, oppure Dante potrebbe essere il documento
principale e quel saggio potrebbe essere la nota a piè di pagina. Quello stesso saggio può, in
realtà, essere collegato a qualcosa su Sant'Agostino. Attualmente sembra che ci sia un
contrasto tra gerarchie accuratamente strutturate ed è ciò che avviene nei testi nel WWW. Le
persone che lavorano con SGML e le teorie delle strutture del testo devono creare forme
dinamiche di strutturazione dei testi in modo che queste strutture solide esistano e allo stesso
tempo si modifichino mentre vengono lette in contesti diversi. Non si possono realmente
giustapporre, opporre diametralmente, testo stampato ed ipertesto, o testo stampato e testo
digitale e considerarli come bianco e nero, come due cose opposte, poiché esse si
compenetrano. Si tratta, in realtà, di un modo di pensare in termini di spettri: in certe aree di
interattività –l’aree delle nozioni del sé, della proprietà intellettuale, dell'impermeabilità - i
testi stampati esistono ad un'estremità dello spettro. Un po' più in là abbiamo l'ipertesto. Il
testo digitale si trova a metà strada. Nell’ipertesto Web confluiscono anche problematiche
riguardanti l’estrema dinamicità e grandezza del sistema: problemi di autorialità del
documento e altri di aggiornamento continuo delle pagine in rete. Quando si fa un libro
elettronico, si allegano molte voci di altre persone. Si può perdere il controllo sul discorso
perché si crea una biblioteca elettronica in miniatura. Se non piacciono le teorie di un
particolare autore, si possono seguire quelle di qualcun altro. Come ci si assicura sui confini
tra le voci dei vari autori? Bisogna rendere ben chiaro al lettore dove cominciano i vari testi,
dove si interrompe e si riprende. Questo si mette in atto spesso nel WWW attraverso la
creazione di uno stile unitario all'interno di un sito, ad esempio attraverso l'uso di colori di
sfondo, o di immagini nell'intestazione o nel piè di pagina dei documenti; in questo modo, una
volta che si lascia un documento si sa che si è trovato qualcos'altro, e quando si torna indietro
si sa dove ci si trova Tuttavia, non si devono dimenticare i vantaggi dell'espressione
multivocale: lo stesso testo può essere letto in diversi modi. Nella forma elettronica si
potrebbe dare la facoltà al lettore di scegliere in che modo leggere il libro; dovrebbe essere
altresì possibile consentire che si legga il libro in maniera isolata: si tratta, sì, di un ipertesto,
ma la prima volta si legge solo attraverso quello che ha scritto l'autore; soltanto dopo si
apriranno i nuovi link. In questo senso ogni documento presente in rete rappresenta un suo
ipertesto, per il quale si possono scegliere molteplici modi di fruizione, tenendo sempre
presente il “problema” della dinamicità di qualsiasi contenuto trattato. Un confine sempre
aperto suscettibile di variazione.
1.2 Come ricercare valide informazioni su internet
Internet è dunque simile a una rete telefonica, una rete telefonica nata per far comunicare fra
loro dei computer la cui caratteristica forse fondamentale è quella di essere insieme una risorsa
informativa e un luogo di interazione culturale, sociale, economica. Chi collega per la prima volta il
proprio computer a Internet e inizia a 'navigare' nella rete ha spesso una idea molto vaga di quanta, e
quanto variegata, sia l'informazione raggiungibile. La vera rivoluzione di Internet consiste nel fatto
che chiunque può mettere informazione in rete: molti lo fanno già, moltissimi lo faranno nel
prossimo futuro. Chi utilizza Internet solo per collegarsi da casa o dall'ufficio al catalogo di una
biblioteca, o al sito di un giornale in rete o della squadra preferita, o ancora per scambiare un
messaggio di posta elettronica occasionale con il collega o con l'amico lontano, sfrutta certo
potenzialità innovative di estremo rilievo, e sarà probabilmente d'accordo nel considerare la rete
come uno strumento di lavoro e di svago utile e ormai perfino indispensabile. Ma finché non
esplorerà in maniera più completa la complessità informativa di Internet, finché non inizierà in
prima persona a utilizzare la rete per diffondere e non solo per raccogliere informazione,
difficilmente potrà cogliere la vera portata della rivoluzione in atto, e - fattore non meno importante
- capire i problemi, le difficoltà, le scelte che questa rivoluzione inevitabilmente comporta, per il
singolo e per la società nel suo complesso. Un aspetto centrale di questa rivoluzione, e una delle
principali ricchezze di Internet come risorsa informativa, risiede nella vera e propria ragnatela di
interconnessioni che possono essere stabilite fra il materiale diffuso attraverso la rete. Internet, e in
particolare World Wide Web, non sono semplicemente organizzati secondo la metafora
dell'ipertesto: sono un ipertesto. Chi pensasse che, grazie alla disponibilità di motori di ricerca ai
quali proporre parole chiave da trovare, reperire informazione su Internet sia relativamente
semplice, commetterebbe di nuovo un grave errore di valutazione. Internet mette a disposizione
informazione di natura assai eterogenea, raggiungibile attraverso canali diversi. Per svolgere
correttamente una ricerca occorre per prima cosa interrogarsi sulla natura dell'informazione che
stiamo ricercando, e avere la capacità di capire se, dove e attraverso quali strumenti essa può essere
reperita su Internet. L'information broker su Internet deve dunque conoscere abbastanza bene la
rete; ma, soprattutto, deve aver piena coscienza della diversa natura di molte fra le fonti informative
accessibili attraverso di essa. nel cercare informazione in rete va tenuta presente la differenza
fondamentale fra informazione fortemente strutturata e informazione 'libera', non strutturata e a
volte occasionale. Un buon punto di partenza può essere, evidentemente, il catalogo di una
biblioteca. Attraverso Internet se ne possono raggiungere moltissimi (i cataloghi di biblioteca
accessibili on-line vengono denominati OPAC: On-line Public Access Catalog); ad esempio il
catalogo della Library of Congress, all'indirizzo http://catalog.loc.gov/ . Sapere quali libri è
possibile consultare su un determinato argomento, e dove reperirli, è un primo passo fondamentale.
Ed è un passo che fino a una decina di anni fa poteva richiedere molto, moltissimo tempo. Internet
modifica radicalmente questa fase della ricerca. Certo, una (grossa) parte del lavoro andrà poi fatta
nel mondo fisico, consultando libri reali. Chi pensasse di poter buttar via la propria tessera della
biblioteca per il fatto di avere accesso a Internet, sbaglierebbe quindi di grosso. Attraverso Internet -
come vedremo - si possono fare ricerche anche su basi dati costituite da abstract di articoli (anche
se questo genere di risorse è sempre più spesso a pagamento). Quello che ci preme sottolineare in
questa sede, tuttavia, è che per fare una ricerca non basta la mera competenza 'tecnica': occorre
sapere cosa stiamo cercando, e avere delle buone strategie di ricerca. Attraverso Internet sono
dunque accessibili - fra le altre cose - banche dati specializzate, contenenti informazione fortemente
strutturata, come il catalogo di una biblioteca (ma anche banche dati di formule chimiche, o di
genetica, o di mappe geografiche, o di informazioni sociopolitiche sui vari stati mondiali, o atlanti
stellari...): le consulteremo quando cerchiamo informazioni di quel tipo. E - occorre che questo sia
ben chiaro - il contenuto di una di queste banche dati è accessibile attraverso Internet, ma non nello
stesso senso in cui lo è, ad esempio, una pagina Web: se utilizzassimo uno dei cosiddetti 'motori di
ricerca' che indicizzano le informazioni presenti su Web, non arriveremmo mai dentro al catalogo di
una biblioteca (a meno, naturalmente, che il catalogo stesso non sia interamente costruito
utilizzando pagine HTML). Occorre tener presente che, anche se quasi tutti i cataloghi on-line
forniscono il risultato delle nostre ricerche sotto forma di pagine Web, queste pagine Web non
esistono prima della ricerca stessa. Infatti, esse sono generate 'al volo' dal server in risposta alla
nostra interrogazione, e non sono dunque conservate su un file permanente. Ciò significa che i
motori di ricerca non possono raggiungerle e indicizzarle.
6
Esistono anche informazioni “sparse”
disponibili in rete, che qualcuno ha ritenuto di rendere accessibile (spesso attraverso pagine Web,
ma talvolta attraverso appositi database, come accade ad esempio nella maggior parte dei siti di
commercio elettronico) ,informazioni da lui considerate interessanti o utili. Anziché una
informazione fortemente strutturata, uniformemente caratterizzata da un alto livello di affidabilità,
stiamo cercando (e troveremo) una informazione assai più eterogenea. Non per questo il risultato
della nostra ricerca sarà meno utile o interessante: sarà solo di diversa natura. Come detto in
precedenza va anche considerato che qualunque ricerca su World Wide Web è fortemente legata al
6
Fra le molte risorse in rete che offrono elenchi commentati di OPAC di tutto il mondo, ricordiamo comunque LIBWEB
(http://sunsite.berkeley.edu/Libweb/), LibCat (http://www.metronet.lib.mn.us/lc/lc1.cfm), lib-web-cats
(http://www.librarytechnology.org/libwebcats/), LibDex (http://www.libdex.com/), la WWW Library Directory di
Michael Saures (http://www.webpan.com/msauers/libdir/) e - per le biblioteche nazionali europee - il sito del
progetto Gabriel (http://www.kb.nl/gabriel/index.html).
momento in cui viene fatta: l'evoluzione della rete è infatti continua, e questo significa non solo che
nuova informazione viene aggiunta ogni giorno, ma anche che alcune informazioni possono essere
rimosse, o spostate.
Fra le capacità che chi fa ricerca in rete deve possedere, particolarmente importante è una
minima familiarità con l'uso degli operatori booleani. Gli operatori booleani si chiamano così dal
nome del matematico inglese George Boole, che verso la metà dell'Ottocento pubblicò un trattato in
cui si studiava il modo in cui la verità o falsità di proposizioni complesse è legata a quella delle
proposizioni più semplici che le compongono. Ma cosa c'entra tutto questo con la ricerca di
informazioni? la nostra ricerca può essere formulata attraverso una proposizione complessa che
riunisce una serie di condizioni: se la ricerca deve soddisfare diverse condizioni l'operatore
booleano che si adopera in casi di questo tipo è l'operatore AND: una condizione complessa della
forma 'a AND b' è soddisfatta solo se lo sono entrambe le condizioni più semplici a e b.
In altri casi, le condizioni che compongono la nostra ricerca possono essere alternative: avrò
bisogno dell'operatore OR: la condizione complessa della forma 'a OR b' sarà soddisfatta solo se
almeno una delle condizioni a e b (e non necessariamente entrambe) è soddisfatta. Gli operatori che
possono essere utilizzati in una ricerca su banca dati sono in realtà molto più numerosi: le
convenzioni adottate a questo proposito da banche dati diverse sono spesso diverse. Anche se a
volte i 'facili' moduli da compilare su World Wide Web evitano alcuni dei problemi, cercando di
esprimere attraverso un linguaggio il più possibile naturale e attraverso comodi menu a tendina le
caratteristiche dei campi da riempire e del modo di combinarli in una ricerca, questa semplicità può
a volte rivelarsi illusoria, o - peggio - fuorviante. Ed è incredibile quanto spesso chi cerca
informazione in rete finisca per naufragare davanti a difficoltà del tutto evitabili, derivanti dalla
mancata comprensione di questo tipo di problemi.
Il World Wide Web, col suo formato costitutivo HTML, non costituisce certo la totalità di
quanto è disponibile in rete (ci sono anche le mailing list, i newsgroup, i server FTP, gli OPAC e i
database interrogabili via Telnet, i libri e i periodici elettronici in formato PDF, i file audio e video,
gli emergenti formati SGML e XML, il mondo del Peer To Peer, eccetera), ma sicuramente
costituisce la parte di Internet cresciuta più rapidamente negli ultimi anni (c'è chi stima che abbia
raggiunto all'inizio del 1998 i trecento milioni di pagine, nel settembre 1999 gli ottocento milioni,
nel 2001 i 2 miliardi e nel 2003 i 5 miliardi). Inoltre la maggior parte delle risorse "non-www"
disponibili in rete difficilmente rinuncia a crearsi almeno una "finestra sul web", ovvero una pagina
HTML con una breve descrizione della risorsa stessa e un link che permetta al browser di attivare
automaticamente il software necessario per raggiungerla. Riuscire a trovare informazioni disponibili
sul Web, insomma, tende sempre più a coincidere col recuperare informazioni tout court disponibili
via Internet. Esistono numerose tipologie di strumenti creati, mantenuti e messi a disposizione
gratuitamente, spesso grazie ai proventi pubblicitari, per facilitare la ricerca in rete.
Motori di ricerca
Indici Web per parola, detti anche "motori di ricerca", "search engine", "robot", "spider" o
"worm". Grazie ad appositi programmi che raccolgono automaticamente in grandi archivi centinaia
di milioni di pagine web e permettono di individuare al loro interno tutte le occorrenze di uno o più
termini digitati dal ricercatore in una apposita maschera. Talvolta i motori ricercano anche tra i
messaggi di numerosi newsgroups. I risultati trovati, purtroppo, non sono sempre pertinenti, anche
se questi strumenti vengono continuamente perfezionati per consentire interrogazioni e metodi di
ordinamento sempre più sofisticati. Il problema consiste nella difficoltà di far individuare
automaticamente a un programma, senza l'intervento di catalogatori umani, omonimie, sinonimie e
più in generale il contenuto semantico delle pagine Web.
Antenati. Veri e propri progenitori degli attuali motori di ricerca web sono stati VERONICA
(Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) e Archie, due fra i più
antichi strumenti di ricerca disponibili in rete, oggi in gran parte abbandonati. Con un client Archie
(oppure collegandosi via telnet a uno dei suoi residui server) si possono ricercare in tutti i siti FTP
mondiali i file che contengono nel proprio nome una determinata sequenza di caratteri; con ciascuna
VERONICA (cfr. ad esempio quella ancora mantenuta dall'Università di Pisa
<gopher://serra.unipi.it:2347/7>) si possono invece ricercare (anche con gli operatori booleani
AND, OR e NOT) tutte le parole contenute nei menu dei non molti Gopher sopravvissuti alla
diffusione dei Web.
Principali. I due principali motori di ricerca internazionali sono attualmente:
¾ Google <http://www.google.com>, che punta molto sull'individuazione dei
siti più rilevanti mediante l'analisi citazionale dei link in entrata e in uscita e dotato di
funzioni di ricerca specializzata di immagini, newsgroups ("gruppi") e fonti giornalistiche
("news");
¾ Yahoo! Search <http://search.yahoo.com>, noto soprattutto per la sua
directory, ma dal Febbraio 2004 in grado di effettuare anche ricerche per parola utilizzando
un proprio archivio e una interfaccia specializzata.
Sotto a questi due giganti si possono citare:
¾ AllTheWeb <http://www.alltheweb.com>, AltaVista
<http://www.altavista.com> e Lycos <http://www.lycos.com/>, che ora attingono tutti dallo
stesso archivio (FAST), rinunciando ad alcune delle principali caratteristiche che li
differenziavano e li rendevano in determinati casi concorrenziali rispetto a Google;
¾ Gigablast <http://gigablast.com/>, il più recente, disponibile dal Luglio
2002;
¾ HotBot <http://www.hotbot.com/ >, che attualmente funge anche da multi-
indice (cfr. definizione più avanti);
¾ MSN Search <http://search.msn.com/ > della Microsoft;
¾ Teoma <http://teoma.com/>, con interessanti opzioni per l'individuazione dei
siti più popolari in una "comunità di esperti".
Fra i motori di ricerca specializzati nel "dragare" il webspace italiano si possono citare invece
Arianna <http://arianna.iol.it> e Il trovatore <http://www.iltrovatore.it>.
Pagine simili. Alcuni motori, fra cui AltaVista e Google, permettono di rintracciare (con una
ricerca che viene talvolta definita impropriamente "per concetto" ma che andrebbe chiamata "per
somiglianza") ulteriori pagine Web contenenti una certa percentuale di parole uguali a quelle delle
pagine già trovate, nel tentativo di recuperare parte del contenuto semantico sfuggito con la ricerca
per parole.
Relevance ranking. Quando si effettua una ricerca su centinaia di milioni di documenti con
tecniche di interrogazione non particolarmente sofisticate come quelle in dotazione ai motori di
ricerca web, ci si può facilmente aspettare di ottenere una quantità esorbitante di risultati, non
sempre facilmente "raffinabili" con ulteriori interrogazioni. Diventa allora di importanza capitale il
criterio utilizzato dal motore per effettuare l'ordinamento (ranking) dei risultati. Il criterio più
diffuso è quello che i motori stessi amano chiamare "ordinamento in base alla rilevanza" (relevance
ranking), e che in realtà cela un complesso e mutevole mix (tenuto rigorosamente segreto per motivi
commerciali) di criteri puramente quantitativi e statistici, fra cui i seguenti:
¾ Frequenza = numero di occorrenze dei termini utilizzati per la ricerca
all'interno della singola pagina recuperata.
¾ Densità = rapporto fra il numero di occorrenze dei termini all'interno della
pagina e il totale delle parole contenute nella pagina.
¾ Rarità = rapporto inverso fra il numero di occorrenze dei termini utilizzati
per la ricerca all'interno del database del motore e il totale delle parole contenute nel
database stesso. Alcuni motori dispongono anche di una lista di stopwords che vengono
ignorate.
¾ Compresenza = presenza, nella pagina, di più d'uno dei termini richiesti o
addirittura di tutti. In questo modo l'operatore booleano AND contribuisce, in una certa
misura, al risultato finale anche nei casi, a dire il vero sempre più rari, in cui la ricerca
iniziale venga impostata di default con l'OR.
¾ Prossimità = presenza, nella pagina, di più d'uno dei termini richiesti - o
addirittura di tutti - nella medesima frase o comunque vicini fra loro.
¾ Priorità = ordine in cui sono stati immessi i termini nel form di ricerca.
¾ Posizione = presenza dei termini in particolari zone della pagina. Nella
sezione visibile BODY vengono tipicamente "premiate" le prime parole e quelle
contenute nei tag H e HREF (ovvero nei vari titoletti (heading) e nei link). La sezione
nascosta HEAD è complessivamente "premiata" più di quella BODY. In particolare
vengono considerati particolarmente "pesanti" il tag TITLE e, in subordine, quelli
KEYWORD e DESCRIPTION.
¾ Aggiornamento = a parità di requisiti, alcuni motori privilegiano le pagine
più recenti
¾ Popolarità = numero dei link "in entrata" provenienti da altre pagine
contenute nel database del motore e numero delle selezioni della pagina effettuate dagli
utenti a partire dalle schermate di risposta del motore. Si tratta di un criterio di recente
introduzione e ancora poco utilizzato.
¾ Tariffazione = Altavista ha recentemente annunciato che sarà possibile,
pagando, garantire una posizione di rilievo alle proprie pagine nella schermata di
risposta. C'è chi sospetta che tale criterio sia già utilizzato da vari motori senza
dichiarazioni esplicite, almeno per quanto riguarda pagine relative a prodotti propri o di
aziende collegate. Per un approfondimento sulla tariffazione nei search engines cfr.
Strumenti di ricerca: chi paga ? <http://www.burioni.it/forum/pes-paga.htm> di
Mariateresa Pesenti.
¾ Metadata. Fondamentale è l'importanza, ai fini del recupero
dell'informazione disponibile in rete, della presenza di appropriati "metadata" e
"metatag" nelle pagine web, che contribuirebbero in maniera determinante a ridurre
quell'information overload di cui molti si lamentano. Esistono a tale proposito vari
progetti, fra cui il più noto è lo standard Dublin Core (cfr. le FAQ
<http://dublincore.org/resources/faq/> e la traduzione italiana
<http://www.aib.it/aib/lis/std/t9503.htm>), molto apprezzato negli ambienti bibliotecari.
Attualmente però i principali motori di ricerca prendono in considerazione una serie di
"metatag" molto meno sofisticati ma ben più diffusi, fra cui i seguenti:
1. AUTHOR = Indica l'autore della pagina, in genere identificato con colui che
costruisce la pagina HTML piuttosto che con chi detiene la paternità intellettuale del suo
contenuto.
2. COPYRIGHT = Dichiarazione esplicita e sintetica sui diritti relativi al
documento, senza link a formulazioni più articolate.
3. GENERATOR = Indica il software utilizzato per creare il file HTML. Molti
di tali software inseriscono automaticamente il proprio nome nel file stesso senza neppure
"avvertire" l'utilizzatore. Evidenti le implicazioni pubblicitarie.
4. ROBOT = Indica ai software di ricerca dei motori se e come tenere conto
della pagina. Non tutti i robot sono però rispettosi delle indicazioni ricevute.
5. TITLE = Il metatag più importante. Non dovrebbe mai mancare in una
pagina ben costruita e dovrebbe includere alcune parole particolarmente significative per
individuare la risorsa a cui si riferisce. E' il metatag più utilizzato e più "pesante" per i
motori di ricerca, che - fra l'altro - lo visualizzano in testa alle "schedine" che si ottengono
effettuando una interrogazione. Inoltre il TITLE, che potrebbe essere definito come qualcosa
a metà strada fra il soggetto e il titolo uniforme, appare anche nei bookmarks e in testa alla
finestra del browser. Alcuni motori, infine, permettono di limitare la ricerca alle sole parole
contenute in questo metatag.
6. DESCRIPTION = Breve descrizione del contenuto della pagina, ovvero un
mini-abstract che molti motori visualizzano nel corpo delle loro "schedine". In caso di
assenza di questo metatag il motore si arrangia da solo, visualizzando in genere le prime
parole presenti nella parte visibile al browser della pagina (BODY), con risultati talvolta
efficaci ma più spesso inutilizzabili.
7. KEYWORD = Ulteriori parole chiave (oltre a quelle contenute in TITLE e
DESCRIPTION) ritenute particolarmente significative dall'autore della pagina per
caratterizzarne il contenuto.