Abstract—Nelle scene dove si presentano gruppi di persone,
l'occlusione e la mancanza di visibilità rende difficoltosa la
corretta e costante distinzione delle singole persone. Tale
problema diventa ancora più complesso se si utilizza un
sistema con una singola videocamera. In questa tesi si
presenterà un metodo multivista per la segmentazione di
persone, le quali possono essere parzialmente o totalmente
coperte le une dalle altre, e se ne effettuarà un confronto con
un altro approccio nel quale si utilizza una tecnica simile.
Entrambi i metodi utilizzano viste multiple in sinergia in modo
da combinare le informazioni di tutte le viste per rilevare gli
oggetti nella scena. Per raggiungere l'obbiettivo si utilizza un
vincolo di omografia planare per risolvere le occlusioni, e
determinare la posizione sul piano di terra corrispondente ai
piedi della gente. Per effettuare il tracking degli individui nella
scena, con il primo metodo, si ricavano le regioni dei piedi in
cluster spazialmente coerenti raggruppati mediante tecniche
di segmentazione che sfruttano la potatura dei grafi. Una fetta
del cluster dà la posizione rintracciata in quell'istante di
tempo. Il secondo metodo utilizza iterativamente il vincolo di
omografia planare integrando in questo le informazioni
ottenute dalla segmentazione: questo tracker viene
successivamente esteso verso una soluzione multiipotesi per
inseguire più individui nella scena. I risultati sperimentali di
entrambi gli approcci sono stati notevoli in scene dove
occlusioni complesse sono abbastanza comuni.
Index Terms—tracking multicamera, segmentazione di
uomini, omografia planare, filtri particellari
I.INTRODUZIONE
L tracking di più persone nelle scene fortemente affollate
è un compito arduo soprattutto a causa dell'occlusione
fra la gente. Se una persona è visivamente isolata (cioè non
è occluso e non copre nessun'altra persona nella scena) è
molto più semplice effettuarne il rilevamento ed il tracking.
Ciò è dovuto al fatto che gli attributi fisici della persona in
primo piano, vista come distribuzione di colore, forma e
orientamento, rimangono nella maggioranza dei casi
immutati mentre lui/lei si muove. Con l'aumento di densità
degli oggetti nella scena le sovrapposizioni tra questi
aumentano. Infatti non è garantito che una sagoma in primo
piano appartenga ad una singola persona ed in effetti può
appartenere a più persone nella scena. In casi peggiori, una
persona potrebbe essere completamente coperta da altre
persone. In tali circostanze di visibilità limitata e di
affollamento, potrebbe essere impossibile rilevare ed
inseguire più individui utilizzando soltanto una
videocamera. Il passo logico è di provare ad usare viste
multiple della stessa scena cercando di recuperare le
informazioni che potrebbero mancare in una particolare
vista. In questa tesi si propongono due approcci multivista
per riconoscere ed inseguire più persone in scene affollate.
Sono particolarmente interessanti le situazioni dove le
immagini sono sufficientemente dense di occlusioni parziali
o totali da non garantire che vi siano persone visivamente
isolate. La Figura 1 mostra una scena affollata da quattro
viste differenti. Da notare che nessuna persona osservata è
in situazione di isolamento visivo in nessuna della quattro
immagini ed inoltre vi sono casi in cui si è molto vicini
all'occlusione totale.
Si prenderanno in analisi due metodi presentati durante la
Nona Conferenza Europea sulla Visione Artificiale, tenutasi
all'Università di Ljubljiana nel maggio 2006.
Nel primo algoritmo [1] non si usano i modelli di colore
o proprietà di forma dei singoli individui. Questo metodo di
tracking e di risoluzione dell'occlusione è basato sulle
costruzioni geometriche e richiede soltanto la distinzione tra
ciò che appartiene allo sfondo dell'immagine e tutti gli altri
oggetti presenti nella scena. Il punto cardine è un nuovo
vincolo di omografia planare che combina le informazioni
di probabilità di primo piano (probabilità che un pixel
nell'immagine appartenga ad un oggetto e quindi non allo
sfondo) tratte dalle differenti viste per risolvere le occlusioni
e determinare le posizioni sul piano de terra delle persone.
Il vincolo di omografia implica che soltanto i pixel che
corrispondono alle posizioni rispetto al suolo della gente
(cioè, i piedi) saranno consistentemente trasformati
(attraverso le omografie del piano di terra) in regioni di
primo piano in ogni vista. Il motivo per cui si usano mappe
di probabilità degli oggetti in primo piano anziché le
immagini binarie di esse è di far ritardare il thresholding
step all'ultima fase possibile. Trasformando le mappe di
probabilità del primo piano da tutte le viste su una vista di
riferimento e moltiplicandole, vengono segmentati i pixel
1
Individuazione di persone in video basata su
vincoli di omografia planare
I
A. Di Giacinto, relatore M. La Cascia
pertinenti ai piedi della gente. Per rintracciare queste regioni
otteniamo le forme dei piedi su di una sequenza di
fotogrammi che, sovrapposti, generano un solido in
funzione del tempo e dello spazio. Le regioni dei piedi che
appartengono alla stessa persona formano regioni spazio
temporali contigue che sono raggruppate utilizzando un
metodo di segmentazione basato sulla potatura dei grafi.
Ogni cluster è la traccia di una persona ed una sezione di
questo cluster dà la posizione della persona in
quell'intervallo di tempo.
Il secondo metodo [2] permette di segmentare ed
inseguire le persone sul piano di terra, visto dall'alto ed
osservato da viste multiple sovrapposte, mediante l'utilizzo
iniziale di un modello di apparenza umana basato sulle
regione di colore che viene successivamente integrato con il
vincolo di omografia. Per rendere il tracking più robusto,
sono largamente utilizzati ([24], [23]) trackers multiipotesi
come i filtri particellari [25]. Tuttavia, all'aumentare degli
obiettivi e delle viste, lo spazio degli stati di combinazione
degli “stati obbiettivo” aumenta esponenzialmente. Inoltre, i
processi di osservazione per l'inseguimento visivo sono in
genere computazionalmente costosi. Il tracker utilizzato è
stato sviluppato per risolvere questo problema. Ogni ipotesi
è raffinata dalla segmentazione meanshiftlike multivista
per mantenere principalmente dei “buoni” campioni, con
conseguente diminuzione del costo computazionale.
Da notare che il tracking degli oggetti non viene
effettuato da una singola vieocamera, o da coppie di queste;
piuttosto la prova è ricavata da tutte le videocamere in una
struttura sinergica ed i risultati di tracking e segmentazione
sono propagati di nuovo ad ogni vista. Si presuppone che
l'omografia del piano del suolo fra le videocamere sia
disponibile, e cioè che è necessaria la visibilità del piano di
terra in ogni vista. Ciò è un presupposto ragionevole nelle
installazioni tipiche di sorveglianza che controllano la gente
nei luoghi affollati (in particolare per il secondo approccio,
sono stati ottenuti buoni risultati anche in ambienti indoor).
Solitamente il piano di terra, nell'immagine, occupa una
regione abbastanza grande in modo da essere allineata e
riconosciuta automaticamente usando i metodi robusti di
locking (ancoraggio) al piano di movimento dominante (per
esempio tramite una delle tecniche 2D di valutazione
parametrica come [3], [4]). Inoltre non si suppone che le
informazioni di calibratura della macchina fotografica siano
note. Il resto della tesi è strutturata come segue. Nella
seconda parte si discutono i lavori relativi all'argomento. La
parte III riassume in maniera generale il carattere
geometrico dell'omografia planare (una formalizzazione più
accurata si presenterà nella sezione sucessiva). Nella quarta
parte si presentano gli algoritmi che usano tale vincolo di
omografia per la segmentazione ed il tracking di persone
nella scena. La parte V mostra i punti in comune e le
differenza principali tra i due metodi proposti. La sezione
VI mostra i vantaggi e gli svantaggi di entrambe le tecnice
ed i risultati sperimentali ottenuti da queste. Nella parte
settima, le conclusioni.
Fig. 1. Quattro viste di una scena affollata contenente nove persone. Il piano
di terra è chiaramente visibile. Da notare le occlusioni e l'assenza di persone
visivamente isolate.
II.LAVORI INERENTI
Vi è una vasta letteratura sugli algoritmi di tacking e
detection che utilizzano una singola videocamera, dei quali
la maggior parte incontra difficoltà nel tracking di più
oggetti in presenza di occlusioni. Zhao e Nevatia [5] hanno
presentato un metodo per individuare più persone nella
stessa scena mediante una singola videocamera. Hanno
usato dei modelli 3D degli individui proiettati dietro lo
spazio dell'immagine a sussidio della segmentazione e della
risoluzione di occlusioni. Ogni ipotesi di figura umana
viene rilevata in 3D mediante un filtro di Kalman
utilizzando l'aspetto degli oggetti vincolato dalla relativa
figura. Okuma et al. [6] propongono una combinazione
interessante di Adaboost per l'object detection e filtri
particellari per il tracking di più oggetti. La combinazione
dei due metodi conduce a ridurre gli errori compiuti da i
due metodi utilizzati singolarmente, ancor meglio se le
informazioni di tracking vengono sovrapposte nello stesso
fotogramma. Questi ed altri algoritmi simili [7], [8], [9]
sono stati messi alla prova dagli oggetti della scena che, sia
totalmente che parzialmente coperti, cambiavano
mutandone l'apparenza. Le regioni connesse in primo piano
potrebbero non necessariamente corrispondere ad un
singolo oggetto ma potrebbero appartenere a più oggetti.
Alcuni ricercatori hanno sviluppato algoritmi di tracking
multicamera per sormontare queste limitazioni. Orwell et
al. [10] presentano un'algoritmo di tracking di oggetti
multipli in viste multiple mediante il tracking del 'colore'.
Modelli delle regioni di colore connesse, ottenute dalla
sottrazione dello sfondo, usando tecniche dell'istogramma
del colore, vengono utilizzate per il matching ed il
rilevamento degli oggetti. Krumm et al. [11] utilizzano
videocamere stereo per combinare le informazioni da
videocamere stereo multiple nello spazio 3D. Effettuano la
sottrazione dello sfondo e rilevano le sagome di forma
umana nello spazio 3D. Vengono creati degli istogrammi di
colore per ogni individuo che si utilizzano per identificare e
segmentare le persone. L'M2 Tracker [12], il quale è simile
2