2
CAPITOLO 1
Multimedia Information Retrieval
L insieme dei sistemi di Multi Media Information Retrieval (MMIR)
costituisce la sostanza si una nuova strategia di ricerca dell informazione
che, al di sopra delle metodologie tradizionali term-based, tenta di risolvere
il problema del reperimento content-based dell informazione, nonchØ delle
architetture necessarie nei nuovi grandi database multimediali.
Secondo lo studioso William Grosky, il campo dei database,
soprattutto negli ultimi decenni, si Ł arricchito non solo di nuovi metodi e
tecnologie per la gestione dei dati testuali, ma anche di importanti
innovazioni che riguardano nuovi tipi di dati, come quelli visivi e audiovisivi.
Nei primi esperimenti sulla gestione di documenti multimediali nei
database, gli studiosi svilupparono semplicemente una tecnica di descrizione
basata sulla classica architettura relazionale, dove il documento e il suo
contenuto erano rappresentati come una stringa di termini. Su tale
architettura si definirono tutte le operazioni di indicizzazione, archiviazione e
ricerca.
L esperienza di lavoro con sempre maggiori quantit di nuove tipologie di
dati, per , mostr presto come questo approccio ave sse un intrinseca
debolezza: lo scollamento tra la vera natura dei documenti e la prospettiva
3
solo terminologica in base alla quale, sia il sistema sia l utente, venivano
forzati a operare su di essi.
Non poteva essere efficiente la tecnica basata sulla messa a punto di
surrogati descrittivi dei documenti, quindi i ricercatori cominciarono a
interrogarsi su quale fosse effettivamente il tipo di informazione che poteva
essere estratta da immagini, filmati o registrazioni sonore, e si chiesero come
tali informazioni potessero essere rappresentate e organizzate per supportare
richieste dimostratesi chiaramente orientate ai contenuti concreti.
Si cominci dunque a discutere sulle questioni rel ative a una indicizzazione
multimediale, e ancora sulla natura delle interrogazioni multimediali e sulle
tecniche di ottimizzazione delle ricerche.
Si giunse cos alla definizione del concetto di query multimediale, come
qualcosa di ben differente e diversamente evoluto rispetto alla classica query
terminologica, da impostare con riguardo alle caratteristiche specifiche dei
materiali archiviati nel sistema interrogato.
CAPITOLO 1 Multimedia Information Retrieval
4
1.1 Information Retrieval
Con l’enorme aumento negli ultimi anni dell informazione digitale, e la
conseguente necessit di migliorare le tecniche di reperimento di queste
informazioni, vi Ł stata una forte ripresa di interesse per la ricerca effettuata nel
settore dell Information Retrieval.
Il termine Information Retrieval (IR) fu coniato nel 1952 da Calvin Mooers1
alla fine degli anni 40, che tra l altro formul l a Legge di Mooers , un riferimento
da non perdere mai di vista nella progettazione dei sistemi di IR: Un sistema di
reperimento delle informazioni tender a non essere utilizzato se trovare le
informazioni Ł piø noioso e doloroso che non trovarle .
Gli studi del settore si concentravano soprattutto su come nella mente umana
avvenisse la fase di recupero informativo , cioŁ l a ricerca dell informazione
rilevante per la soluzione di un determinato compito cognitivo.
Oggi invece, quando si parla di IR ci si riferisce esclusivamente all insieme
delle tecnologie adoperate per il recupero dell informazione in formato elettronico (i
motori di ricerca del web sono le applicazioni piø note ed ovvie delle teorie di
Information Retrieval).
Lo stato attuale della tecnologia informatica fa da base e da spinta per lo sviluppo
culturale di una societ sempre piø complessa ed es igente, la cui cultura estesa e
onnicomprensiva Ł pienamente definibile multimediale .
Tutto questo non ha fatto che evidenziare i limiti evidenti dell Information Retrieval
in una situazione culturale e tecnologica in continua evoluzione.
¨ dunque limitativo continuare ad impostare la rice rca informativa nei termini di un
generico information retrieval, riportando ogni tipo di ricerca documentale alle
condizioni di una ricerca tramite linguaggio testuale. ¨ invece necessario considerare
un piø ampio criterio di MultiMedia Information Retrieval (MMIR), dove ogni
1 Era un informatico americano noto per il suo lavoro nell Information Retrieval e per il linguaggio di programmazione TRAC.
CAPITOLO 1 Multimedia Information Retrieval
5
genere di documento digitale venga trattato, immagazzinato e richiamato tramite gli
elementi di linguaggio, o di metalinguaggio, propri dello specifico oggetto digitale.
1.2 Sistemi di IR term-based e content-based
Il distacco principale tra i sistemi di archiviazione e recupero di documenti
testuali e quelli di documenti multimediali si focalizza nel sistema di analisi ed
estrazione degli elementi indicatori del contenuto del documento e dei descrittori
specifici delle sue caratteristiche. Se i sistemi di indicizzazione e ricerca tradizionali
sono basati sui termini, sulla logica delle parole chiave, i sistemi di recupero piø
innovativi, richiedono invece una riflessione piø avanzata sulle caratteristiche
intrinseche dei file digitali, sulla semantica e sulla strutturazione degli elementi che
compongono un documento, sulle modalit di interazi one e restituzione dei risultati
delle query all’utente.
Attualmente si possono distinguere:
• Sistemi di ricerca Term-Based (TBIR), basati su informazioni testuali
(termini estratti dal linguaggio naturale, schemi di classificazione e
soggettazione, thesauri), per la ricerca di documenti testuali (e finora spesso
anche di documenti audiovisivi);
• Sistemi di ricerca Content-Based (CBIR) o Multimedia Information
Retrieval.
I sistemi CBIR si distinguono a loro volta in:
1) Sistemi di Visual Retrieval, in cui i file d’immagine 2D e 3D sono cercati e
recuperati tramite dati visivi interni al file, quali ad esempio colore, texture
e pattern, forma, orientamento e distribuzione spaziale, ecc.;
2) Sistemi di Video Retrieval, dove per il recupero di documenti audiovisivi si
utilizza il linguaggio audiovisivo, cioŁ elementi di ricerca ricavati dalle
CAPITOLO 1 Multimedia Information Retrieval
6
immagini del filmato, dal movimento degli oggetti nelle inquadrature,
dall’analisi degli stacchi di montaggio o della traccia sonora;
3) Sistemi di Audio Retrieval, nei quali l’informazione sonora Ł ricercata in
misure di suoni, ricavando quindi i dati di query dall’analisi dei volumi,
delle sonorit , dei ritmi o delle melodie.
Il senso e il carattere radicalmente rivoluzionario dei sistemi di MMIR consistono
dunque nel fatto che, se negli archivi dove il contenuto dei documenti Ł di tipo
testuale appare appropriato che le chiavi che ne consentono l’accesso siano descrittori
testuali estratti dall’interno del documento, negli archivi multimediali si rivela invece
semplificativo e impreciso attribuire dall’esterno una descrizione testuale a contenuti
che si fondano su un diverso regime di senso.
Tuttavia, per raggiungere un buon livello di precisione nel recupero dei
documenti da una base di dati multimediale, sembra comunque auspicabile la
compresenza dei sistemi di information retrieval term-based e content-based:
l’interrogazione term-based pu costituire un ottimo metodo preliminare per
selezionare una parte della grande quantit di docu menti di un archivio, e per
centrare la ricerca in base a dati quali gli ambiti d’appartenenza, le tipologie, le classi,
i titoli, gli autori; successivamente pu essere un sistema di ripulitura finale
dall’inevitabile rumore specifico di un’interrogazione content-based.
In tutto ci i due procedimenti possono operare sem pre in armonia e in interazione
costante, in un’unica interfaccia utente.
1.3 Rappresentazione dei documenti multimediali
Negli ultimi anni, ricercatori e tecnici hanno ben acquisito la coscienza della
natura dei dati e dei documenti multimediali. Essi consistono di oggetti di ogni
tipo, che per via della loro complessa struttura non sono efficacemente
CAPITOLO 1 Multimedia Information Retrieval
7
rappresentabili con la logica dei sistemi term-based. Questi oggetti, definiti da
William Grosky2 oggetti multimediali , sono ripresi dal mondo rea le, estratti anche
con strumenti di registrazione diretta (fotografica o sonora, magnetica o digitale) e
tradotti in rappresentazioni dell oggetto reale .
Con le tecniche attuali (ad esempio nel campo dell image processing o della speech
recognition) i sistemi elettronici riescono a:
• identificare propriamente gli oggetti reali;
• ottenere il relativo oggetto multimediale;
• estrarre da quest ultimo (magari semi-automaticamente) un insieme di
informazioni.
Tali informazioni sono dette feature e sono contenute in quello che Ł definito il data
model dell oggetto multimediale.
Il data model rappresenta l insieme delle propriet identificativ e dei documenti, le
loro relazioni e le operazioni definite su di esse. Tali concetti astratti sono tradotti in
dati digitali, fisicamente situabili nel sistema del database3.
L intero processo di estrazione Ł chiamato da Grosky Multimedia Data Modeling e
si propone come il nucleo teorico e tecnico del Multimedia Information Retrieval.
Attraverso la mediazione del data model, le query e altre operazioni sugli
oggetti reali possono essere trasformate in operazioni sulle rappresentazioni astratte
di tali oggetti, che sono a loro volta trasformate in operazioni sui dati digitali che
traducono le rappresentazioni astratte nel linguaggio del sistema elettronico.
Per le immagini, ad esempio, i data model possono contenere dati come il formato, la
risoluzione, il numero di pixel, i valori dei colori, i valori caratteristici della struttura,
ecc. essenziale allora sviluppare tali modelli ra ppresentativi, in quanto tutte le
operazioni relative agli oggetti del database multimediale si basano su di essi.
2
William Grosky, professore della Wayne State University di Detroit.
3
Esattamente un data model, per Grosky, Ł un insieme di dati relativi, in ultima analisi, a una sorta di raccolta di abstract
concepts, a una griglia di categorie che pu essere usata p er rappresentare le caratteristiche degli oggetti reali. (William I.
Grosky, Managing multimedia information in database system, op. cit. p. 74-75)
CAPITOLO 1 Multimedia Information Retrieval
8
1.4 La query multimediale
Alla trattazione del data modeling segue il processo di ricerca, anche definito
query processing4. L elaborazione di una query all interno di una da tabase
multimediale rappresenta una proceduta ben piø complessa rispetto a quella operante
in un archivio di dati testuali. A tal proposito la ricerca assume una particolare
importanza.
In una query multimediale, le stringhe di interrogazione possono contenere
direttamente valori del data model o oggetti multimediali di esempio.
Inoltre, i risultati di tali query sono basati solo su certi gradi di similitudine anzichØ
su un esatto matching tra i dati in input e quelli ritrovati.
Solitamente, l utente avvia la ricerca selezionando una parte di documenti
all interno del database, tramite un interrogazione di tipo testuale. In questo caso, le
stringhe testuali rappresentano il metodo piø adatto e veloce per una ricerca
preliminare tra tutto il materiale potenzialmente reperibile.
Si procede, quindi, con un browsing d esplorazione, tramite cui si possono inviare al
sistema delle richieste selezionando con il mouse un oggetto, o una sua parte, sul
display. Cos facendo, si possono inviare all elaboratore diversi data model,
contenenti i dati caratteristici che dovranno essere rintracciati negli oggetti
dell archivio per estrarli come risultati della query.
Questo Ł il metodo piø pratico per stringere la ricerca attorno al documento che si
desidera. Nei database piø avanzati, per , oltre a inviare i parametri di query tramite
la selezione di un oggetto gi posseduto dal sistem a, si possono compilare delle
griglie specificando liberamente tali parametri; oppure il sistema pu dare la
possibilit di inserire dall esterno dei modelli di esempio, che verranno analizzati
derivandone il data model.
Con tale metodologia il database potr , ad esempio, essere in grado di soddisfare
richieste di questo tipo:
4
William I. Grosky, Managing multimedia information in database system, op. cit. p. 76-77.
CAPITOLO 1 Multimedia Information Retrieval
9
• data in input l immagine di una particolare quadro di Van Gogh, ricercare
l intera opera ed altre simili;
• attraverso un identikit, trovare le fotografie di un criminale;
• attraverso la fotografia di una ballerina, rintracciare diversi video in cui
danza;
• con le note principali di un motivo, trovare diverse composizioni che lo
hanno sviluppato.
Come detto pocanzi, i risultati di questo genere di query non sono basati su esatte
corrispondenze tra i parametri della stringa di richiesta e quelli dell oggetto restituito
come risultato, ma solo su un certo grado di similitudine e di vicinanza tra i valori dei
rispettivi dati. ¨ piuttosto raro che due data model rappresentanti lo stesso oggetto
corrispondano perfettamente; Ł piø facile, cioŁ, che due fotografie con la stessa
inquadratura della stessa persona, ad esempio, abbiano valori di colori e forme
solamente vicini.
La misura della similitudine tra due oggetti multimediali Ł solitamente indicata al
sistema come una variabile tra 0 (completamente differente) e 1 (esattamente
corrispondente). Teoricamente, il risultato di una query Ł sempre costituito
dall intero insieme degli oggetti archiviati nel database, nell intervallo da 1 a 0
rispetto al modello della richiesta.
Di fatto, ovviamente, Ł sempre definito un valore minimo, vicino a 1, per cui tutti gli
oggetti il cui valore di similitudine al campione stimato dal sistema non superi tale
soglia non vengono estratti.
Alla base del query processing deve esserci, ovviamente, un metodo di
indicizzazione appropriato alle caratteristiche del materiale multimediale.
Il concetto di indicizzazione v inteso pero, in questo contesto, in senso piø l argo
rispetto alla sua accezione comune. Esso, nell ambito dei documenti multimediali, v
riferito a una tecnica di creazione dell indice del database tramite l estrazione da
documenti non testuali di elementi che non sono termini nØ sono traducibili in
CAPITOLO 1 Multimedia Information Retrieval
10
termini. L indice viene creato, quindi, impostando come collegamenti di accesso ai
documenti i dati costitutivi del loro stesso contenuto multimediale: forme, colori,
suoni, e altri simili elementi.
La tecnica generale indicata da Grosky prevede l estrazione dall oggetto
multimediale di n caratteristiche, valutate e definite numericamente, e rappresentate
in una struttura a n dimensioni. L analisi ed estrazione di tali dati numerici pu
essere effettuata manualmente con l aiuto del computer (computer-assisted), oppure
dal sistema, in modo interamente automatico. Le n caratteristiche possono, poi,
essere valutate e registrate indipendentemente l una dall altra, oppure come parti di
un inscindibile complesso nella struttura del data model. L indice sar infine
utilizzato per valutare la prossimit dei valori nu merici, e quindi stimare e assegnare
un grado di similitudine tra queste n caratteristiche e le n caratteristiche della stringa
di ricerca5.
Il processo della query multimediale Ł dunque vario e complesso; Ł una continua
interazione con l utente ed Ł ancora piø indispensabile che nelle query classiche per
il suo successo. I sistemi piø all avanguardia per dovranno consentire di svolgere le
diverse operazioni di costruzione, gestione e consultazione del database con la
maggiore facilit possibile dinanzi al risultato pi ø completo.
Dall insieme del MultiMedia Information Retrieval si enucleano, comunque,
alcuni aspetti di Retrieval particolari, poichØ nell attuale circuito dell informazione
non circolano solo documenti multimediali in toto, ma fanno parte di esso anche
documenti specificamente visivi, audiovisivi o sonori. Conviene quindi accennare la
Visual Retrieval separatamente.
5
William I. Grosky, Managing multimedia information in database system, op. cit. p. 77.