Skip to content

Tesauri e classificazioni per i sistemi di ricerca

Spesso gli utenti del web preferiscono la ricerca per parola chiave se hanno un bisogno informativo definito. Qui vedremo come la ricerca attraverso parole chiave sul web può essere migliorata con strumenti di derivazione bibliotecaria (tesauri, indicizzazioni) e tecniche di information retrieval (clustering). Le ricerche mostrano che gli utenti non eccellono in fantasia nell’inserire parole chiave. Come aiutare l’utente a scegliere la parola chiave? Utile può essere un tesauro che, dopo l’inserimento della query, consigli termini utili per migliorare la ricerca, segnalando: sinonimi, narrower term, broader term, related term, la scope note (definizione del termine nello stesso tesauro). Con cose del genere evitiamo i risultati nulli. Poi questa tecnica è più economica delle tecniche di analisi sintattica e semantica delle query.
Excite fornisce consigli tramite algoritmi di clustering che analizzano i risultati recuperati. Un tesauro può servirci anche per realizzare sistemi di navigazione: in siti bibliotecari, invece di navigare una struttura ad albero posso consultare i contenuti tramite tesauri.

I motori di ricerca presentano i risultati nella modalità per ranking, ordinando le risorse per grado di importanza. I criteri di classificazione differiscono a seconda degli algoritmi usati: rilevanza rispetto alle parole chiave della query, frequenza nel testo delle parole chiave - generalmente è l’incrocio di diversi criteri. Svantaggi della presentazione a ranking: ogni risultato fa storia a sé, costringendo l’utente ad esaminare gli item uno per uno; l’utente di solito controlla solo i primi risultati e si fida; poi posso recuperare documenti in cui la parola chiave è usata con altre accezioni. Servirebbero sistemi di ricerca che “spieghino i risultati”  mostrando relazioni e classi di appartenenza. Quando cerco nella sua directory, Yahoo! Per ogni risultato mi indica la classe. La stessa strategia è utile per sistemi di ricerca interni come sul sito della DELL.  Esiste poi una modalità di presentazione che sfrutta la tecnica del document clustering: il document clustering raggruppa gli item e genera in modo automatico una tassonomia per classificarli. Lo vediamo sul sito Clusty (p 137).

Ma tali schemi han svantaggi tra cui categorie saltate, poca intelligenza, illogicità. Una soluzione molto implementata dai sistemi di ricerca è quella di integrare la generazione automatica dei risultati con un lavoro manuale di selezione e indicizzazione, facendo salire nelle liste risultati considerati migliori. Tali sono chiamati i Best bets: si scelgono le query da trattare manualmente e per ognuna si determinano i risultati migliori.

Tratto da ORGANIZZARE LA CONOSCENZA di Dario Gemini
Valuta questi appunti:

Continua a leggere:

Dettagli appunto:

Altri appunti correlati:

Per approfondire questo argomento, consulta le Tesi:

Puoi scaricare gratuitamente questo appunto in versione integrale.