4
reciproco di informazioni
SBN (Servizio Bibliotecario Nazionale) Rete delle biblioteche italiane
promossa dal Ministero per i beni e le attività culturali con la
cooperazione delle Regioni e dell’Università
Screen-shot Immagine che riproduce la schermata di un software o di un sito
web
Surface web Insieme delle pagine di tutti i siti web presenti in Internet
Protocollo
TCP/IP
Protocollo (linguaggio che definisce il modo in cui i dati devono
essere spediti in rete) utilizzato per la trasmissione e la ricezione
dei dati in Internet
Terabyte Unità di misura della capacità si salvataggio di informazioni di un
computer equivalente a 1000 Gigabyte (1 Gigabyte = 1000
Megabyte)
Time-out Tempo massimo in cui il computer può effettuare una ricerca
Visual Basic Linguaggio di programmazione sviluppato da Microsoft per la
scrittura di applicazioni compatibili con Windows
World Wide Web Serie di documenti collegati tra loro che risiedono sulla rete
Internet o su reti private basate sul protocollo TCP/IP
5
Premessa
Questo lavoro è stato avviato alcuni anni addietro con l’intento di compilare una
bibliografia degli scritti inerenti la liuteria e gli strumenti musicali, segnalando quelli
ritenuti fondamentali ed insostituibili così come quelli eventualmente disponibili in
commercio o più frequentemente reperibili sul mercato dell’usato e in antiquariato. Ciò
con l’obiettivo di agevolare chi, studioso o bibliotecario, fosse interessato a costituire in
tempi ragionevolmente brevi una sezione di biblioteca dedicata specificamente
all’organologia (la disciplina che studia la storia e la tecnologia degli strumenti
musicali), ovvero ancora di chiunque altro intendesse individuare un congruo numero di
testi rilevanti in questo campo di studio volendone accertare al tempo stesso l’eventuale
reperibilità (una condizione quest’ultima particolarmente pertinente per la scrivente,
date le sue esperienze di lavoro nel settore librario e nel commercio musicale in
particolare).
Avviata dunque la ricognizione di un imponente numero di voci bibliografiche
(all’incirca 5000 titoli), dalle quali si intendeva ricavare un campione di qualche
centinaio di titoli su cui basare la bibliografia, tale ricerca ha assistito tuttavia, nel corso
del suo prolungato svolgimento, alla crescita smisurata di siti Internet a carattere
bibliografico e, in particolare, di quelli che mettono a disposizione enormi cataloghi o
database relativi a testi reperibili nelle biblioteche sparse per il mondo o anche nel
commercio librario on-line.
L’incremento sostanziale della disponibilità di informazioni via Internet ha pertanto
convinto la candidata dell’opportunità e della necessità di modificare il programma
originario, che teneva in conto solo marginalmente delle risorse offerte dalla rete.
6
Venne così accarezzata l’ipotesi di sfruttare proprio tali fonti telematiche per verificare
l’effettiva presenza di questi testi nelle biblioteche e per rilevarne al tempo stesso
l’eventuale disponibilità sul mercato facendo ricorso rispettivamente alla consultazione
dei sempre più diffusi cataloghi on-line delle biblioteche e a quelli dei siti commerciali
destinati alla vendita di libri.
È venuta parallelamente emergendo la possibilità di avvalersi di tali risorse telematiche
anche al fine di una valutazione “statistica” dei testi che avrebbero composto la
progettata bibliografia, con l’assunto programmatico che la percentuale di presenze di
un libro in un consistente campione di biblioteche mondiali ne accrediti la validità
didattica e/o scientifica in misura proporzionale alla diffusione.
Si è passati così alla fase operativa, partendo da una preventiva indicizzazione di
ciascun testo in base all’argomento trattato, e ciò al fine di poter disporre – a ricerca
conclusa – di una bibliografia distribuita per argomenti, in modo da poterla meglio
sfruttare nel caso dell’eventuale effettiva costituzione di una biblioteca.
Ciascun titolo elencato nella bibliografia è stato quindi passato al vaglio di un potente
motore di ricerca bibliografico (un MetaOPAC) rilevandone scrupolosamente il numero
di copie presenti in un consistente numero di biblioteche sparse su tutto il pianeta.
A ciò si è ritenuto di far seguire una semplice verifica “a campione” della popolarità di
alcuni di tali testi in Internet, effettuando questa operazione tramite il riscontro su uno
dei più noti motori di ricerca, Google. Si è trattato di una circoscritta campionatura
limitata a una quindicina di testi, particolarmente rappresentativi però dal punto di vista
statistico, in quanto risultati nell’indagine bibliografica precedente rispettivamente:
a) tra i più citati, b) tra quelli mediamente citati, e infine c) tra quelli meno citati.
Nella fase successiva si è proceduto alla verifica della disponibilità sul mercato dei titoli
della bibliografia, anche qui per agevolare la costituzione futura di una biblioteca,
7
ovvero la possibile costituzione di un sito commerciale espressamente dedicato alla
compra-vendita di testi musicologici relativi a questo settore di studio. Per tale fase del
lavoro è stato necessario predisporre una specifica procedura informatica, messa a punto
dalla candidata e destinata all’inserimento automatico dei dati in un potente software di
ricerca dei cataloghi on-line di centinaia di “librerie virtuali”, siti di commercio librario
che trattano sia testi nuovi sia materiale d’antiquariato.
È divenuto in tal modo possibile trasformare il programma di ricerca originario, mirante
alla formulazione di una bibliografia organologica di tipo tradizionale, in una
bibliografia statisticamente selezionata e “verificata tramite Internet”.
8
Introduzione
Con questa ricerca si intende raccogliere una bibliografia selezionata e statisticamente
rilevante nello specifico settore dell’organologia e approfondire al tempo stesso le
valenze operative di studio, raccolta dati e catalogazione offerte da Internet nel campo
specialistico suddetto, sfruttando così appieno questo mezzo che sta acquisendo sempre
più importanza anche nelle modalità della ricerca bibliografica.
In tempi di globalizzazione informatica infatti, la ricerca richiede un costante
aggiornamento in relazione ai diversi campi di studio oggetto di approfondimenti
scientificamente condotti: le reti telematiche hanno messo a disposizione di un numero
progressivamente crescente di persone, non più solo potenti strumenti di calcolo o di
elaborazione dei dati, ma anche nuove vie e modalità di accedere alla conoscenza,
lavorare ed acquistare determinati prodotti. Ogni settore dell’esperienza umana, e quindi
anche quello dello studio e della ricerca specialistica, è stato rapidamente trasformato
dall’evoluzione e dalla diffusione di queste tecnologie, che sono diventate il primo e più
efficace motore di cambiamento sociale e culturale della nostra epoca.
La ricerca musicologica, oltre ad usufruire degli indubbi vantaggi professionali che il
nuovo sistema di comunicazione offre, non può esimersi da una considerazione
specifica del fenomeno nelle sue varie implicazioni.
La diversa scansione temporale, l’annullamento delle distanze, la velocizzazione nei
processi di comunicazione suggeriscono l’idea che ciò con cui abbiamo a che fare non è
soltanto un nuovo tipo di apparato telefonico molto sofisticato ed efficiente, quanto
piuttosto un nuovo contesto nel quale facciamo esperienze, un mondo virtuale, ma non
per questo meno reale del contesto quotidiano, che offre possibilità impensate nei più
disparati settori del sapere e della conoscenza.
9
All’interno di questo “mondo” anche i musicologi possono fruire di grandi vantaggi in
termini di qualità, quantità e tempi: infatti non solo è possibile individuare numerose
risorse utili per arricchire le proprie conoscenze e per assumere informazioni sulle
questioni più disparate ma, in particolare, anche l’opportunità di configurare un nuovo
strumento professionale.
Questa ricerca si prefigge dunque di individuare e convalidare, utilizzando i mezzi
messi a disposizione da Internet e da alcuni semplici programmi informatici, un sistema
valido per la compilazione di una bibliografia organologica destinata a sua volta alla
creazione di una biblioteca di base che offra, a specialisti e non, un quadro selettivo
adeguato della produzione libraria essenziale nel campo di studio della disciplina stessa.
Il sistema messo a punto può essere tuttavia applicato a qualsiasi altro settore
disciplinare e a qualsiasi argomento per cui si voglia creare una bibliografia di base,
purché per esso esista una produzione libraria di qualche rilievo. Il procedimento qui
proposto non vale dunque solo in riferimento all’organologia, disciplina per la quale una
bibliografia di tal genere non è ancora mai stata compilata, ma anche per qualsiasi altro
campo del sapere. Esso può inoltre essere sottoposto ad adattamenti specifici, di volta in
volta differenti, per rispondere ad esigenze ulteriori anche di tipo pratico e/o
commerciale, come verrà meglio chiarito più avanti.
Il seguente lavoro illustra nel capitolo iniziale la ricerca in Internet, soffermandosi sulle
diverse opportunità di fruizione e di sfruttamento che la rete consente e sui vantaggi che
l’utilizzo sistematico dei motori di ricerca può apportare oggi per ciò che concerne le
informazioni di tipo bibliografico.
10
Il secondo capitolo è dedicato all’analisi e alla conseguente proposta del nuovo
approccio alla ricerca bibliografica favorito da Internet e relativo alla raccolta e
all’approvvigionamento di informazioni catalografiche e bibliografiche disponibili on-
line, segnatamente quelle riguardanti i testi in possesso di alcune fra le più importanti
biblioteche italiane e straniere (di particolare importanza risultano i riferimenti ai siti
web che offrono questo tipo di servizio).
Nel terzo capitolo viene presentata la fase di progettazione della ricerca svolta e
l’insieme delle operazioni effettuate, la metodologia usata nella fase attuativa ed infine i
risultati ottenuti, nel rispetto di una scrupolosa verifica e di coerenza logica tra ipotesi
individuate, percorsi effettuati e feedback di risposta.
Nel quarto capitolo vengono trattati e discussi singolarmente i principali MetaOPAC, i
MetaMotori commerciali e i motori di ricerca on-line, strumenti base dell’indagine
stessa. Sono inoltre riportati esempi di ricerca effettuati “a campione” riguardo ad alcuni
testi di organologia e sono illustrate le motivazioni che hanno spinto ad adottare un
determinato MetaMotore, prescelto come il più adatto per effettuare la nostra indagine.
Nel quinto capitolo è discusso il procedimento di valutazione statistica dell’affidabilità
di ogni singolo testo in base alla sua ricorrenza nei cataloghi delle biblioteche mondiali
presenti in Internet. Si stabilisce dunque un numero minimo dei riscontri, ossia di copie
effettivamente esistenti, che un testo deve ottenere quando viene inserito il dato
bibliografico nel MetaOPAC prescelto.
11
Nel sesto capitolo viene descritto il programma creato dalla candidata per l’inserimento
dei testi nel MetaMotore di ricerca prescelto e si evidenziano i tempi della ricerca
unitamente ad alcuni problemi sorti durante l’indagine stessa.
Il settimo capitolo riporta la bibliografia selezionata creata con la presente ricerca e
dunque il risultato del lavoro e del sistema sviluppato, utile per la costituzione di una
biblioteca organologica di base (ma anche come si è visto per eventuali applicazioni in
altri campi), mentre nell’ultimo capitolo viene presentato il sito web alla cui
realizzazione la candidata ha personalmente partecipato e che conterrà la bibliografia
stessa.
La validità di questa ricerca consiste infatti nell’essere al tempo stesso un progetto di
studio basato su di un sistema innovativo in grado di consentire la costituzione di una
bibliografia specializzata in un settore ben determinato, in questo caso l’organologia,
ma che può offrire anche la possibilità di numerosi altri impieghi pratici, non da ultimo
quello di avviare un’attività commerciale on-line di compra-vendita dei testi che
formano la bibliografia stessa (a questo riguardo è stato dunque creato
sperimentalmente il sito web presentato nell’ultimo capitolo).
Il lavoro offre così una sorta di “ritorno” in forma selezionata di informazioni già
presenti su Internet in maniera non organizzata. Queste possono essere appunto
indirizzate a fini pratici (un catalogo di base per la costituzione di una biblioteca
specialistica o per dare avvio ad un’attività commerciale on-line), ma volendolo
possono anche prefigurare ulteriori sviluppi del lavoro di ricerca, come ad esempio un
progetto bibliografico di ben più vasta portata quale quello, ad esempio, di dare la
possibilità di leggere direttamente in rete un certo numero dei testi in oggetto.
12
Si è ritenuto opportuno infine circoscrivere la ricerca ai soli testi del XX sec., sia perché
si presuppone che la costituzione ex novo di una biblioteca non possa che partire da
volumi recenti e che risultino più facilmente reperibili sul mercato, sia perché la
disciplina in oggetto ha sviluppato le proprie basi scientifiche e una specifica
produzione editoriale proprio lungo l’arco temporale degli ultimi cento anni.
13
1 Le risorse on-line
1.1 La ricerca in Internet
La rete Internet costituisce oggi un’immensa risorsa informativa e i suoi ritmi di
espansione sono inarrestabili: è un fenomeno di dimensioni così vaste che il rischio di
perdersi, e soprattutto di perdere del tempo nel tentativo di rintracciare ciò che serve tra
milioni di pagine web, sta diventando una realtà con cui bisogna sempre più fare i conti.
Quello di Internet può essere considerato oggi un fenomeno in crescita esponenziale e
l’incremento dei nomi di dominio è sufficiente per farsi un’idea di quale sia l’entità e il
numero di siti costituiti sul web: all’inizio del 1999 si contavano infatti più di 2,8
milioni di siti con estensione .com, a cui si devono aggiungere i domini dei singoli paesi
(per esempio .it), mentre a tutt’oggi se ne contano più di 70 milioni.
Da un’analisi effettuata recentemente dalla società americana “Bright Planet” (The Deep
Web: Surfacing Hidden Value) è risultato che in rete sono disponibili più di 550 miliardi
di documenti, memorizzati in quello che la società stessa ha definito “deep web” (web
profondo). Il “deep web” è rappresentato da tutti quei siti non sempre disponibili
nell’attuale forma ai motori di ricerca tradizionali, ma comunque in qualche modo
accessibili ai navigatori della rete.
Basti pensare che una ricerca effettuata nel gennaio 2000 dal “NEC Research Institute”
insieme a “Inktomi” (pioniere nella tecnologia di ricerca on-line che fornisce a milioni
di utenti in tutto il mondo la più rilevante e attuale esperienza nella ricerca, consultabile
al sito web http://www.inktomi.com), indicava l’esistenza di un miliardo di documenti a
cui oggi “Bright Planet” stessa contrappone la stima di un patrimonio informativo 550
volte maggiore.
14
Questa imponente mole di documenti è racchiusa in milioni di siti che permettono di
accedere dinamicamente ad informazioni strutturate nei propri archivi, ma che, come si
è detto, non sono tutte visibili ai motori di ricerca, i quali censiscono solo le singole
pagine dei siti, e cioè quelle che Bright Planet definisce “surface web”.
Lo studio suddetto ha portato ad una classificazione delle principali categorie di siti :
Archivi in genere: database medici, finanziari, brevetti, ecc.; questa categoria
rappresenta circa il 54% dell’intero “deep web”
Siti aziendali consultabili mediante interrogazioni
Pubblicazioni in genere: libri, giornali, ecc.
Annunci
Portali
Biblioteche, librerie
Pagine Gialle/Pagine Bianche e cataloghi del genere
Per non perdersi in questo mare sterminato di informazioni, l’unico strumento che si ha
a disposizione è quello dei motori di ricerca. Una qualunque ricerca sul World Wide
Web, però, è fortemente legata al momento in cui viene fatta: l’evoluzione della rete è
continua, e questo significa non solo che nuove informazioni vengono aggiunte ogni
giorno, ma anche che alcune possono essere state rimosse o spostate.
Considerando i diversi tipi di informazioni che si intende trovare è necessario illustrare
un concetto fondamentale: non basta solo conoscere l’argomento – sapere cioè su cosa
si vuole trovare l’informazione – ma anche che tipo di informazione si cerca, ossia per
esempio documenti, file, immagini o altro. Questo naturalmente vale in generale per
qualunque tipo di ricerca, ma è particolarmente rilevante nel caso di indagini svolte
attraverso Internet: non si può pensare di effettuare una ricerca in un unico posto o di
15
utilizzare un unico strumento di ricerca. Su Internet infatti bisogna distinguere tra
informazione fortemente strutturata, come il catalogo di una biblioteca, e informazione
“libera”, non strutturata e a volte occasionale. Chiunque infatti può pubblicare in rete
delle notizie, ma non è detto che queste provengano da una fonte autorevole o che siano
state sottoposte ad una revisione editoriale. Le due tipologie di informazioni presentano
vantaggi e difficoltà. Quella “strutturata” di una banca dati è in genere più precisa e
affidabile, ma pur essendo raggiungibile attraverso Internet non è integrata nella grande
ragnatela ipertestuale del Word Wide Web. Per contro, l’informazione “disordinata” è
più difficile da valutare dal punto di vista dell’affidabilità, e per reperirla si è spesso
costretti a navigazioni che possono sembrare quasi casuali e spesso frustranti. Internet
tuttavia non è una sorta di “superorganismo” autocosciente; l’integrazione e
l’organizzazione delle informazioni disponibili in rete dipendono in gran parte dai suoi
utenti, e in primo luogo da chi fornisce informazione e da chi progetta, realizza e rende
disponibili programmi e motori di ricerca.
Senza uno strumento che metta il ricercatore in grado di orientarsi, quindi, il web
sarebbe uno strumento ben meno efficace (se non del tutto inutile), e il ritrovamento di
una pagina interessante sarebbe un evento spesso fortuito e dovuto per lo più al caso.
Occorre, allora, uno strumento sofisticato, il motore di ricerca appunto, che permetta di
effettuare indagini in tempi rapidi, possibilmente tenendo in considerazione anche il
contenuto delle pagine, oltre al solo titolo che le medesime riportano.
Naturalmente bisogna impiegare sistemi in grado di effettuare ricerche veloci, rigorose
ed esaustive su grandi quantità di dati, e occorrono quindi strumenti idonei e algoritmi
adeguati.
16
1.2 I motori di ricerca
Il termine motore di ricerca indica un sistema informatico che si occupa di recuperare
delle informazioni attraverso l’indicizzazione e la classificazione di documenti, nel caso
specifico pagine web che vengono memorizzate in un database, e che permette poi al
navigatore di compiere ricerche in base a parole o soggetti di interesse. Il termine è
precedente all’avvento di Internet: questo sistema di ricerca, infatti, veniva già usato dai
produttori di Cd-Rom per il recupero delle informazioni.
I primi strumenti di ricerca, costruiti espressamente per la rete, ma non ancora
paragonabili agli attuali motori di ricerca, apparvero intorno alla fine degli anni ottanta.
Essi si basavano su strumenti cosiddetti ad “emulazione terminale” (chiamati anche
Remote Login) quali “Telnet” oppure su “FTP” (File Transfer Protocol), collegamenti
che mettevano a disposizione archivi di documentazione costituiti principalmente da file
di testo e più tardi anche da immagini.
I motori di ricerca tradizionali creano i propri indici attraverso lo “spidering”, un
processo che prevede la navigazione del web a cui segue la memorizzazione e
l’indicizzazione di parole chiave, link e testo, oppure il “crawling”, cioè lo stesso
processo effettuato per le pagine del web di superficie. Per essere scoperta, la pagina
deve essere statica, cioè in html dove è possibile vedere solamente i dati e non
modificarli, e collegata al web profondo – quelle pagine che non esistono fino a quando
non vengono create dinamicamente da una ricerca specifica. Poiché i crawler dei motori
di ricerca tradizionali, cioè quella parte dei motori di ricerca che gira sul web alla
ricerca di pagine da memorizzare nei suoi indici, non possono sondare sotto la
superficie, il web profondo è restato fino a qualche anno fa quasi nascosto.
17
Il web profondo è qualitativamente diverso dal web di superficie. Le sue fonti
conservano i propri contenuti in banche dati interpellabili che producono risultati
soltanto dinamicamente, in risposta a richieste dirette.
Le pagine dinamiche, ovvero quelle scritte (oltre che in html) con un linguaggio server-
side (ASP, PHP, JSP, ecc.) contengono anche delle istruzioni che vanno lette ed
eseguite da un server che restituisce una pagina leggibile al browser. Una pagina
dinamica, ad esempio, può non contenere il testo da visualizzare ma un’istruzione che
spiega al server come trovare il testo nel nostro database o come calcolarlo. Se si
utilizzano pagine dinamiche per soddisfare al meglio le esigenze degli utenti, si rischia
però di impedire al motore di ricerca la completa indicizzazione del contenuto. Le
pagine dinamiche sono create in tempo reale a partire dai database e si distinguono
perché contengono nel proprio indirizzo un punto interrogativo (?). Quando un
indicizzatore di un motore di ricerca recupera una pagina di questo tipo ne indicizza il
contenuto ma non ne segue i link, perché li presume collegati ad un infinito numero di
pagine.
La ricerca diretta è comunque molto laboriosa se effettuata singolarmente “una per
volta”. Le nuove tecnologie di ricerca automatizzano il processo di realizzazione di
dozzine di ricerche dirette simultanee utilizzando la tecnologia multiple-thread
(applicazioni di ricerca che interagiscono fra di loro) riuscendo ad identificare,
recuperare, abilitare, classificare e organizzare sia i contenuti “in profondità” che quelli
“di superficie”.
Se il prodotto più richiesto dell’era dell’informazione è l’informazione stessa, allora il
valore dei contenuti del web profondo è immenso. Tenendo in considerazione ciò, sono