7individuati dall’accensione e dallo spegimento della telecamera. Tale processo, no-
to come Video Segmentazione Temporale, si basa essenzialmente sulla individuazione
delle transizioni tra shot, che possono essere di tipo brusco o graduale. Le transizioni
graduali comprendono una serie di effetti speciali realizzati in fase di montaggio (dis-
solvenza incrociata, in apertura, in chiusura, tendina, etc.) a supporto della struttura
narrativa e sono particolarmente difficili da individuare a causa della ridotta differen-
za tra i frame che segnano il passaggio tra shot consecutivi e perche´ spesso mascherate
da fenomeni di motion, ovvero da ampi movimenti della telecamera (pan, tilt, zoom,
etc.) o di oggetti presenti all’interno una scena.
Il problema della motion detection costituisce l’oggetto del presente lavoro di tesi,
che si colloca nell’ambito del progetto AVS (Animate Video Segmentation), per la rea-
lizzazione di un sistema di suddivisione automatica in segmenti temporali di sequenze
video, tramite l’individuazione degli shot-change.
Il contributo personale al progetto, illustrato da questo lavoro di tesi, consiste
nella:
Implementazione dell’algoritmo di Motion Detection, per l’individuazione
del movimento in una sequenza video, e integrazione dello stesso nel
sistema Animate Video Segmentation sviluppato presso il Dipartimen-
to di Informatica e Sistemistica di questa Universita` e implementato su
piattaforma Java-Oracle.
8Il presente lavoro, e` organizzato nel modo seguente: nel Capitolo 1 si presenta
una breve introduzione al processo di Video Segmentazione Temporale. Nel Capitolo
2 vengono passati in rassegna alcuni modelli presenti in letteratura per il rilevamento
di cambi di shot graduali e repentini, e per l’individuazione della motion. Nel Capi-
tolo 3 viene definito un modello formale per la video segmentazione, con un cenno
alla tecnica di Visione Attiva su cui esso si basa; infine viene descritto come l’algorit-
mo MDA per l’individuazione della motion, implementato in questo lavoro di tesi, e`
integrato nel sistema di video segmentazione. Nel Capitolo 4, viene presentato l’algo-
ritmo MDA. Infine nel Capitolo 5, viene illustrata l’architettura del sistema di video
segmentazione proposto, il suo funzionamento e una breve descrizione del database
con cui il sistema interagisce.
L’esame dei risultati conseguiti nel rilevamento degli shot-change ha provato la
validita` dell’approccio seguito, incoraggiando a proseguire la ricerca sulla strada
intrapresa.
Capitolo 1
Introduzione al processo di Video
Segmentazione
1.1 Generalita`
Il rapido sviluppo in diversi settori della tecnologia sta conducendo ad una situa-
zione in cui una larga parte delle informazioni viene generata sotto forma di imma-
gini o video digitali. Da questa tendenza deriva una forte crescita nel numero e nella
dimensione di visual information database.
Allo stato attuale la ricerca e il reperimento di informazioni da dati visivi risulta
critica, a causa della loro intrinseca complessita` e varieta` di contenuto e, per man-
canza, al riguardo, di una descrizione standardizzata. L’indicizzazione di immagini
e video risulta tuttavia cruciale in molte applicazioni per consentire un rapido ed
efficiente recupero delle informazioni di interesse.
Una specifica trattazione si richiede, in particolare, per i video digitali. Un video
9
10
e` essenzialmente una sequenza di immagini (frame) visualizzate a frequenza costante,
tipicamente pari a 25 o 30 fotogrammi al secondo, con una traccia audio sincronizzata.
Oltre alla dimensione spaziale tipica delle immagini, un video presenta, dunque, una
dimensione temporale e pertanto una efficace rappresentazione richiede l’estrazione
del contenuto spazio-temporale delle scene. Vari sistemi di organizzazione e gestione
di video database sono stati proposti[43, 44, 45]; in tale contesto un notevole interesse
e` stato rivolto allo studio di tecniche di caratterizzazione automatica di sequenze
video, risultando l’approccio manuale soggettivo e dispendioso in termini di tempo e
costi.
L’approccio comunemente usato in sistemi di video retrieval content-based con-
siste nel definire un sommario a partire da immagini appositamente selezionate per
rappresentare il contenuto di una scena.
Come illustrato in fig. 1.1, la video segmentazione temporale rappresenta la prima
fase nel processo di indicizzazione di video digitali.
L’obiettivo e` suddividere una video sequenza in segmenti temporali (shot) indi-
viduati dall’accensione e dallo spegimento della telecamera, che costituiscono le unita`
di base per l’indicizzazione.
Ogni shot viene, quindi, descritto mediante un fotogramma di riferimento (key
frame) e indicizzato mediante l’estrazione di caratteristiche spaziali (colore, texture,
shape, o relazioni tra oggetti) e/o temporali (moto di oggetti o della videocamera).
11
Figura 1.1: Sistema di video retrieval content-based
Tali informazioni sono, poi, rappresentate, organizzate e memorizzate in un database.
Il recupero delle informazioni di interesse e`, invece, realizzato valutando il gra-
do di ’similitudine’ (basato sulla definizione di una metrica) tra il vettore delle
caratteristiche che esprime la query e quello associato ai video presenti nel database.
1.2 La Video Segmentazione Temporale
Il presupposto fondamentale delle attivita` di organizzazione e gestione dei video
database e` la Video Segmentazione Temporale; riprendiamo, quindi, alcuni dei con-
cetti precedentemente introdotti, soffermandoci su aspetti e problematiche rilevanti
in tale ambito.
Per Video Segmentazione Temporale si intende il processo di scomposizione di una
12
sequenza video in unita` elementari, dette shot. Uno shot e` un insieme di fotogrammi
(frame) catturati senza interruzione da una telecamera e rappresenta un’ azione con-
tinua nel tempo e nello spazio[42]. Una scena e` invece un gruppo di shot adiacenti,
semanticamente legati.
Le transizioni tra shot consecutivi possono essere classificate in due categorie:
transizioni brusche (abrupt transitions o cut), e transizioni graduali (gradual transi-
tions).
Una transizione brusca corrisponde a uno stacco della telecamera e segna un
cambiamento netto tra un frame e il successivo.
Figura 1.2: Esempio di transizione brusca
Le transizioni graduali, come indica il nome, segnano, invece, un passaggio gra-
duale tra shot, distribuito su un intervallo di frame, e comprendono una serie di effetti
speciali (dissolvenza incrociata, in apertura, in chiusura, tendina, etc.) introdotti in
fase di montaggio.
Ulteriori tipi di transizione sono invece attribuibili a movimenti della telecamera
13
(panoramica, carrellata, zoom, etc.) o di oggetti presenti nella scena e non sono gen-
eralmente correlati a cambi di shot. Questi ultimi rendono piu` difficile la rivelazione
delle transizioni graduali[12,46] e possono indurre dei falsi positivi, in quanto in grado
di determinare variazioni temporali con caratteristiche analoghe.
1.2.1 Le transizioni graduali
Le transizioni graduali costituiscono un’importante classe di effetti speciali e cor-
rispondono ad una specifica punteggiatura nel linguaggio cinematografico.
I progressi nelle tecnologie di video editing ne hanno notevolmente aumentato
l’uso e le tipologie disponibili. Gli effetti speciali piu` utilizzati sono, tuttavia, essen-
zialmente i seguenti: dissolvenze incrociate, dissolvenze in apertura, dissolvenze in
chiusura e tendine.
Una dissolvenza incrociata (cross fade o dissolve) e` realizzata a partire da due im-
magini che sfumano l’una nell’altra e contemporaneamente si sovrappongono: l’inten-
sita` della prima viene progressivamente ridotta mentre quella della seconda aumenta,
in modo da realizzare un passaggio graduale tra le due. Questo tipo di transizione e`
generalmente utilizzato per sottolineare uno spostamento nel tempo o nello spazio o
per conferire emozionalita` alla narrazione.
14
Figura 1.3: Esempio di dissolvenza incrociata
Una dissolvenza in apertura (fade in) e` ottenuta a partire da un’immagine monocro-
matica mediante l’inserimento di una nuova immagine di cui si aumenta progressiva-
mente l’intensita`. Si puo`, quindi, vedere come un caso particolare di dissolvenza in
cui l’immagine iniziale sia nera o di un unico colore.
In una dissolvenza in chiusura (fade out) l’immagine di partenza progressivamente
degrada in una monocromatica. In questo caso, la dissolvenza coinvolge una generica
immagine di partenza e una finale uniforme.
Una tendina (wipe) e` una transizione tra scene in cui la nuova immagine e` rivelata
mediante una linea o un modello in movimento. Nella forma piu` semplice essa simula
l’ombra di una finestra che viene disegnata.
15
Figura 1.4: Esempio di fade in
Le transizioni brusche producono una netta discontinuita` visiva nello stream video;
risultano, quindi, relativamente semplici da individuare poiche´ i frame che delimitano
due shot consecutivi sono caratterizzati da un grado di somiglianza estremamente
basso.
Le transizioni graduali sono, invece, molto piu` difficili da identificare in quanto
la differenza tra frame corrispondenti a shot consecutivi risulta ridotta, e quindi il
processo di segmentazione non puo` basarsi sull’assunzione che la somiglianza tra
frame consecutivi sia elevata solo all’interno di uno stesso shot. Inoltre esse possono
essere facilmente mascherate da fenomeni di motion, ovvero da ampi movimenti della
telecamera (pan, tilt, zoom, etc.) o di oggetti presenti in una scena.
16
Figura 1.5: Esempio di fade out
1.2.2 La Motion
Quando osserviamo una video sequenza, possiamo facilmente renderci conto che
alcuni oggetti si muovono sullo sfondo (object motion). Il numero di oggetti, la
velocita` e la direzione del movimento, cambiano da video a video. Ad esempio, in un
film d’azione saranno presenti molti oggetti che si muovono velocemente, mentre in
un film romantico probabilmente gli oggetti in movimento saranno in numero minore
e il movimento piu` lento.
Non solo gli oggetti ma anche lo sfondo di una video sequenza puo` muoversi (back-
ground motion). Quando una videocamera segue un’automobile in movimento, l’auto
17
Figura 1.6: Esempio di object motion
appare piu` o meno stazionaria e lo sfondo sembra muoversi in direzione opposta. Op-
pure quando una videocamera zoomma verso un oggetto, lo sfondo sembra muoversi
verso l’esterno e aumentare di dimensioni.
Figura 1.7: Esempio di background motion
La combinazione di object motion e background motion confluisce in un complesso
set di vettori di movimento per ogni frame di una video sequenza.
Stimare la motion significa estrarre tutte le informazioni sul movimento presenti
in una video sequenza, cioe` determinare la velocita` e la direzione degli oggetti in
movimento, cos`ı come il movimento globale causato dalla videocamera.