Capitolo 1 – Introduzione
2
L’impatto negativo che le scene di violenza hanno sugli stessi minori è stato
studiato anche all’estero con una serie di esperimenti svolti con minori. I risultati
indicano che i programmi contenenti scene violente producono delle conseguenze
negative sui telespettatori in genere e in particolar modo sui minori, i cui
comportamenti, e la loro variazione, dipendono dalla durata di esposizione alle
immagini televisive. Si è anche puntualizzato che coloro che sono abituati alla
violenza televisiva sopravvalutano il rischio di divenire, essi stessi, vittime di
aggressioni e ciò aumenta la loro ansia e il loro sentimento di insicurezza e fa
diminuire la fiducia verso gli altri.
In uno studio portato a termine dallo psicologo Serge Tisseron è emerso che le
immagini violente provocano effetti diversi dalle altre immagini e precisamente
angoscia, collera, paura, vergogna.
Negli USA diverse ricerche hanno dimostrato che la visione di scene di violenza
in tv aumenta la tendenza dei bambini a comportarsi più aggressivamente, a
litigare con i compagni e a colpire violentemente oggetti inanimati. Da un
indagine richiesta dalla Commissione Europea eseguita dall’Oxford University
Centre of Socio-legal Studies, presso l’Università di Oxford, è emerso che:
- i bambini guardano sempre più spesso la televisione senza alcuna supervisione e
l’esplosione del numero di canali televisivi rende difficile il compito delle
autorità preposte a disciplinare il settore;
- la tecnologia digitale consente agli spettatori di crearsi un palinsesto
personalizzato, mentre la diffusione su Internet rende impossibile il controllo del
contenuto delle trasmissioni.
1.2 Metodi di controllo dei contenuti
Quali sono gli strumenti e le modalità di controllo sul contenuto dei programmi?
In linea generale si può dire che la risposta può essere articolata in termini di
soggetti responsabili del controllo ed in termini di scelta di modalità di esercizio
del controllo. Quanto ai soggetti, i chiamati in causa possono essere le famiglie,
l’autorità pubblica e le stesse emittenti televisive. In merito alle modalità di
controllo la scelta può cadere su un controllo ex ante (prima della messa in onda
del programma con valutazione dei contenuti) o su un controllo ex post (attuato
M
I
VI
A
Laboratorio di Macchine Intelligenti per il riconoscimento di Video, Immagini e Audio
MIVIA
Capitolo 1 – Introduzione
3
generalmente dalla pubblica autorità ed imperniato sul sistema delle sanzioni,
siano esse amministrative o penali).
E’ possibile individuare quattro tipologie di strumenti impiegati nella
salvaguardia dei minori dai pericoli della televisione:
- le norme, le regole ed i principi di condotta
- il rating dei programmi televisivi
- le fasce orarie di trasmissione protetta (watershed)
- i dispositivi tecnologici (ad esempio il V-Chip)
I primi tre punti sono discussi in modo più approfondito nell’Appendice A. Di
seguito verrà posta l’attenzione solo sul V-Chip: oltre ad essere uno strumento
interessante dal punto vista tecnologico per la sua semplicità di utilizzo e per la
sua utilità (almeno a livello teorico), può rappresentare, dopo opportune
modifiche, un mezzo per l’applicazione dei risultati ottenuti in questo lavoro di
tesi.
1.2.1 Il V-chip
Il V-chip, inventato da un giovane ingegnere canadese, Tim Collings, e
utilizzato ad oggi in USA e Canada, è un mezzo di controllo meccanico volto a
limitare la visione di immagini non adatte ai minori. Si tratta di una tipologia di
controllo che rientra nella definizione del cosiddetto “controllo parentale”, per tale
intendendosi non solo l’esercizio dei genitori del controllo e supporto dei minori
nel loro sviluppo psico-fisico e nella fruizione dei media, ma anche l’attività
svolta dagli educatori, formatori e quanti altri si occupino di impedire che i minori
accedano a contenuti televisivi potenzialmente nocivi per il loro sviluppo.
Il V-chip, come suggerisce la V (che in origine indicava “Violence”), fu
inizialmente usato per bloccare le immagini violente. In seguito ai dibattiti nati nei
due paesi del nord America, si decise di estenderne l’uso anche ai programmi
contenenti scene esplicite di sesso. Il V-chip è stato introdotto in USA con il
Telecommunication Act 1996 (Communication Decency Act). Esso non esiste in
nessuno degli Stati membri dell’EU.
M
I
VI
A
Laboratorio di Macchine Intelligenti per il riconoscimento di Video, Immagini e Audio
MIVIA
Capitolo 1 – Introduzione
4
Si tratta di un dispositivo elettronico di filtraggio di contenuti televisivi,
installato direttamente negli apparecchi televisivi, che è in grado di recepire i
segnali utilizzati per la classificazione dei programmi, e consente ai genitori o ad
altri adulti che intendono impedire ai minori di subire passivamente programmi
televisivi a loro non adatti, di scegliere la tipologia di programmi da filtrare. Una
volta attivato, il V-chip impedisce alle trasmissioni indesiderate di essere visibili
nel singolo apparecchio televisivo in cui esso è installato ed esse verranno
automaticamente oscurate. Il meccanismo si basa sull’indicizzazione (o
classificazione) dei programmi da parte delle emittenti televisive, sulla scorta di
un sistema di rating condiviso dall’intero mercato televisivo, e sulla
configurazione di utilizzo del dispositivo da parte degli utenti. L’utilizzo del V-
chip è subordinato all’immissione di un codice personale (PIN) che può essere
modificato dagli utilizzatori.
Il V-chip non può essere certamente definito un sistema infallibile. Si consideri,
infatti, che esso prevede la indicizzazione solo di un certo tipo di programmi da
parte delle emittenti; ad esempio, i programmi di informazione non vengono
indicizzati. Inoltre, i minori con una certa dimestichezza con le nuove tecnologie
possono agevolmente aggirare il dispositivo riprogrammandolo a loro piacimento
o disattivandolo. Valga, infine, una considerazione prettamente economica.
L’obbligo di equipaggiare i nuovi televisori con il V-chip si riferisce agli
apparecchi costruiti e commercializzati successivamente al gennaio 2001. Per
quelli costruiti tra il 1999 ed il 2001, l’obbligo si riferisce esclusivamente agli
apparecchi di dimensioni superiori ai 13 pollici. Per tutti i vecchi televisori è
necessaria l’installazione di un set-top-box (un piccolo dispositivo hardware
aggiuntivo) del costo variabile tra gli 80 ed i 100 dollari.
1.3 Un sistema per il riconoscimento automatico di eventi violenti
L’automatizzazione del riconoscimento della violenza in un video può essere la
base per i futuri sistemi di controllo parentale: dotare, ad esempio, un V-Chip di
un software capace di individuare in una trasmissione televisiva le scene violente
renderebbe questo dispositivo indipendente da segnali “esterni” quale può essere
il segnale di rating trasmesso dall’emittente, e dipendente esclusivamente dai
M
I
VI
A
Laboratorio di Macchine Intelligenti per il riconoscimento di Video, Immagini e Audio
MIVIA
Capitolo 1 – Introduzione
5
risultati dell’elaborazione interna. Un sistema di questo tipo porterà sicuramente a
due vantaggi:
- qualsiasi cosa venga trasmessa può essere elaborata da questo dispositivo,
quindi anche programmi di informazione e pubblicità che normalmente non
sono “etichettati” dall’emittente possono subire questa sorta di filtraggio. Ciò
porta anche il vantaggio, da parte delle emittenti, di non essere costrette ad un
rating di tutto ciò che viene trasmesso;
- è il sistema a decidere se una scena può essere vista o meno, e non l’emittente
che può basare il proprio giudizio su considerazioni di tipo economico (la casa
di distribuzione ha interesse affinché un certo film sia visto) o artistico (un film
considerato di alto contenuto artistico, pur contenente scene violente, potrebbe
“bypassare” questo controllo).
Se, come si accennava, un sistema del genere potrebbe eliminare la necessità
del rating, lo stesso potrebbe essere adoperato nei sistemi di rating automatico o
semi automatico dei film, sgravando gli enti che si occupano della trasmissione e
della distribuzione di opere cinematografiche da un costo in termini di tempo e
risorse umane.
Ma un sistema che riconosca in modo automatico scene violente non è utilizzabile
unicamente nel contesto del controllo parentale. Nelle archiviazioni di grosse
biblioteche digitali c’è sempre la necessità di suddividere le opere per generi e per
contenuti: appare evidente che un sistema del genere, unitamente ad altri sistemi
dello stesso tipo, potrebbe essere utile nell’etichettare in modo automatico i film
in un archivio di grosse dimensioni. Questo, nell’ambito del pattern recognition,
è noto come il problema della classificazione automatica del genere (genre
recognition).
Lo scopo di questo lavoro di tesi è proprio quello di realizzare un sistema per il
riconoscimento automatico di scene violente. I buoni risultati ottenuti indicano
l’effettiva applicabilità di questo sistema nelle situazioni illustrate, comunque
senza escludere ulteriori miglioramenti di cui si discuterà in seguito.
M
I
VI
A
Laboratorio di Macchine Intelligenti per il riconoscimento di Video, Immagini e Audio
MIVIA
Capitolo 2 - Lo stato dell’arte e il sistema proposto
6
Capitolo 2
LO STATO DELL’ARTE E IL SISTEMA PROPOSTO
Il problema del riconoscimento automatico di scene violente in un video è
abbastanza recente e, come si vedrà in questo capitolo, i lavori scientifici che lo
affrontano non sono molti. Poiché la violenza è un concetto che dipende anche dal
contesto in cui è inserito un certo evento è difficile se non impossibile per un
sistema riconoscere ogni aspetto della violenza. Infatti, secondo la psicologia, la
violenza presente in un filmato può essere di molti tipi, raggruppabile in due
categorie:
- Violenza fisica: violenza eccessiva, scene di violenza forte a persone o animali,
violenza vivida, orrore con violenza, lieve violenza vivida, violenza realistica,
operazioni chirurgiche scioccanti, violenza media
- Violenza psicologica: trauma psicologico, relazioni traumatiche tra genitori e
figli, eccessiva indagine di forme patologiche, fenomeni ipnotici.
La violenza psicologica, cioè presente in scene che non contengono un
particolare evento violento, è dovuta alla tensione creata da attori e regista, ed è
questa che rende violenta una sequenza. La maggior parte dei lavori trascurerà
questo tipo di violenza, concentrando l’attenzione sul riconoscimento di alcuni tra
gli eventi legati normalmente alla violenza fisica (es. gli spari), riducendo il
problema di riconoscimento di scene violente al problema del riconoscimento di
eventi violenti.
M
I
VI
A
Laboratorio di acchine IntelliM genti per il riconoscimento di Video, mmaI gini e Audio
MIVIA
Capitolo 2 - Lo stato dell’arte e il sistema proposto
7
Uno degli scopi di questo lavoro di tesi è indagare sulla possibilità di poter
riconoscere in modo automatico suoni violenti analizzando esclusivamente la
traccia audio di un filmato. La scelta dell’utilizzo della traccia sonora è dettata dal
fatto che i metodi di analisi del suono sono ormai abbastanza consolidati mentre
l’elaborazione delle immagini, nonostante il loro elevato contenuto informativo, è
dettata più dalla fantasia che da serie metodologie, e ciò sarà più evidente dopo
questa breve panoramica dello stato dell’arte. Premesso ciò, nella presentazione
degli studi sul problema si focalizzerà l’attenzione su quei lavori che hanno basato
il riconoscimento solo sul segnale audio.
2.1 Lo stato dell’arte
Il gruppo che si è occupato per la prima volta del problema della rilevazione
della violenza nei filmati faceva capo al progetto MoCA (Movie Content
Analysis) dell’università di Mannheim (Germania), progetto nato nel 1994 con lo
scopo di fornire degli strumenti per l’analisi automatica di flussi video e audio.
Nel lavoro [2] presentato nel 1996, si inquadra il problema della violence
detection come un sottoproblema del più generale problema di audio
segmentation. La prima osservazione che fanno gli autori riguarda lo scoglio
iniziale che incontrano tutti quelli che affrontano questo problema: il concetto di
violenza è fortemente dipendente dal contesto socio-culturale e un sistema
computerizzato non può riconoscere la violenza in tutte le sue forme, e poco
probabilmente non sarà mai in grado di riconoscere quella che è definita come
violenza psichica.
Gli autori si concentrano quindi sul riconoscimento di poche forme di violenza per
iniziare ad esplorare questo campo, osservando che esistono comunque una
varietà di suoni (che indicano violenza) che sono indipendenti dal contesto
culturale. Il riconoscimento di suoni violenti, allora, si riconduce al
riconoscimento di suoni di arma da fuoco, esplosione, grida.
Il metodo utilizzato per il riconoscimento è noto come template matching, che si
basa sulla misura della similarità esistente tra il prototipo dell’oggetto da
riconoscere (template) e una parte del segnale in ingresso.
M
I
VI
A
Laboratorio di acchine IntelliM genti per il riconoscimento di Video, mmaI gini e Audio
MIVIA
Capitolo 2 - Lo stato dell’arte e il sistema proposto
8
Questi prototipi rappresentano il data base del sistema formato da suoni
appartenenti alle suddette classi:
- 20 suoni di grida (Cry)
- 18 suoni di arma da fuoco (Shot)
- 15 suoni di esplosioni (Explosion)
I parametri estratti (feature) sia dai suoni del data base che dai suoni in ingresso
sono:
- l’intensità del segnale, o loudness;
- il centroide delle frequenze, o frequenza caratteristica;
- la frequenza fondamentale, ovvero il pitch;
- l’onset, intervallo di salita dell’inviluppo di un segnale sonoro, noto anche col
termine di attacco di un suono;
- l’offset, intervallo di discesa dell’inviluppo di un segnale sonoro, noto col
termine di rilascio di un suono.
- frequency transition, un indice che indica la variazione del contenuto
frequenziale nel tempo.
Sia il data base che i segnali di ingresso sono rappresentati da una serie di vettori
calcolati col seguente criterio:
1) ogni millisecondo sono estratte dal segnale le sei caratteristiche;
2) su un intervallo più ampio (30 ms) per ogni caratteristica sono estratte delle
statistiche combinate poi linearmente secondo pesi diversi (tab.2.1);
Maximum Minimum Mean Variance Median
Σ
33,33 3,33 33,33 20 10 100
Tabella 2.1
3) ogni nuova grandezza, risultato di questa combinazione lineare, viene pesata
poi in maniera diversa a seconda della classe di appartenenza del suono
originale e della feature considerata (tab. 2.2)
M
I
VI
A
Laboratorio di acchine IntelliM genti per il riconoscimento di Video, mmaI gini e Audio
MIVIA
Capitolo 2 - Lo stato dell’arte e il sistema proposto
9
Feature Classe
Shot Cry Explosion
Loudness 10 5 11
Frequenza caratteristica 30 42 27
Pitch 12 21 17
Onset 27 8 26
Offset 9 11 2
Frequency Transition 12 13 17
Σ
100 100 100
Tabella 2.2
Per il test, ogni segnale di ingresso, è quindi trasformato in vettori e confrontato
con i vettori del data base (template): il confronto è fatto calcolando la
correlazione tra i vettori. Il test set è formato da 80 suoni di cui 27 non
appartenenti alle tre categorie di interesse (shot, cry, explosion).
Quando la correlazione tra due vettori è inferiore al 60% allora il sistema
stabilisce che non appartengono a suoni dello stesso tipo, quando è superiore
all’85%, invece, il sistema associa il suono del test a quello del template di
confronto. Quando la correlazione tra un vettore e tutti quelli del data base cade
nel range 60÷85% il sistema si dichiara indeciso su quell’ingresso. In tabella 2.3
sono esposti i risultati ottenuti secondo questi criteri.
Risultati (%) Classe
Correttamente Classificati Indeciso Classificazione Errata
Σ
Shot 81 10 9 100
Cry 51 32 17 100
Explosion 93 7 0 100
Tabella 2.3
Senza considerare i bassi risultati ottenuti nella classificazione delle grida (cry),
questo lavoro può essere considerato un buon esempio del metodo di template
matching, ma è di scarsa utilità dal punto di vista pratico.
Innanzitutto, perché tutti i pesi visti nelle tabelle 2.1 e 2.2, sono stati determinati
in modo sperimentale facendo riferimento al data base e ottenuti in modo da
ottimizzare i risultati su un certo test set, quindi senza giustificazioni analitiche.
L’applicazione dei pesi nella tabella 2.2 presuppone la conoscenza a priori del
M
I
VI
A
Laboratorio di acchine IntelliM genti per il riconoscimento di Video, mmaI gini e Audio
MIVIA
Capitolo 2 - Lo stato dell’arte e il sistema proposto
10
segnale di ingresso, a meno che il confronto di un vettore non venga fatto tre volte
per ogni pattern del data base ogni volta cambiando i pesi delle componenti.
L’anno successivo alla presentazione di questo lavoro Vasconcelos e Lippman
[3] mostrarono la possibilità di poter realizzare una sorta di rating automatico di
un film basandosi esclusivamente sull’analisi del video. In particolare, il sistema
(fig.2.1) prevede l'estrazione, da un filmato in ingresso, di due parametri:
- il tempo medio tra un cambio di inquadratura ed un altro (shot length)
- il grado medio di “azione”presente nel filmato (global activity)
Questi due parametri si basano sul calcolo della local activity, ovvero una
grandezza che indica la “distanza” tra due frame video (fotogrammi) consecutivi
tenendo conto dei possibili cambiamenti dell'immagine dovuti non tanto all'azione
della scena ma ad un movimento di telecamera.
Fig.2.1: Estrazione della Shot Length e della Global Activity
Una volta stabilita la local activity tra ogni coppia di fotogrammi adiacenti, se
questa grandezza supera una certa soglia (determinata in maniera euristica) allora
c’è un cambio di shot: a questo punto si può calcolare il tempo intercorso tra due
cambi di shot. La shot length non è altro che la lunghezza media degli shot in un
filmato, mentre la global activity è la local activity media negli shot.
Il data base è formato da 23 trailer (filmati promozionali) di film di vario tipo
della durata di circa 2 minuti ciascuno, e si è osservato che i trailer di film
classificati, in modo non automatico, di “azione” presentano una bassa shot length
M
I
VI
A
Laboratorio di acchine IntelliM genti per il riconoscimento di Video, mmaI gini e Audio
MIVIA