17
1.2 I sistemi di Motion Capture: tecnologie a confronto.
Nel paragrafo precedente si è tentato di tracciare una breve seppur necessaria linea tem-
porale per identificare i momenti determinanti nello sviluppo della Motion Capture. Dai
primi esperimenti fino ad oggi attorno a questa tecnologia si sono formate e sono cresciute
aziende e professionisti che hanno cercato di offrire al mercato prodotti sempre più
all’avanguardia, precisi, semplici da utilizzare e che rispondessero a budget e ad esigenze
differenti. Oggi abbiamo a disposizione una gamma piuttosto ampia di tecnologie MoCap
che lavorano con vari livelli di risoluzione e precisione, e tra questi i sistemi ad alta e
altissima risoluzione continuano a risultare i più costosi sul mercato, accessibili quindi
solo per un numero ristretto di soggetti interessati; tuttavia, la registrazione di un corpo
in movimento e la sua elaborazione in una copia digitale possono seguire due tipi di ap-
procci
37
: uno che miri ad una riproduzione quanto più vicina possibile al modello reale,
come avviene per il cinema o per la medicina, o al contrario uno che miri ad una riprodu-
zione «non necessariamente realistica, quindi asimmetrica, quando [quest]i dati compartecipano
alla realizzazione di una performance»
38
, e questo secondo approccio caratterizza soprattutto
l’uso della Motion Capture nelle arti performative come la danza o il teatro. Di conse-
guenza decidere se utilizzare una tecnologia piuttosto che un’altra e valutare la possibilità
di «lavorare in alta o bassa risoluzione […] oggi non rappresentano soltanto scelte di carattere
finanziario ma decisioni funzionali alla realizzazione di un progetto artistico o di ricerca»;
39
è
importante quindi che chi decide di avviare un progetto che preveda l’uso della Motion
Capture conosca quali possibilità il mercato oggi offre e i rispettivi pro e contro di ciascun
sistema in termini economici, di risorse necessarie e di possibilità espressive consentite.
Come è naturale che sia, non tutte le tecnologie di Motion Capture hanno avuto lo
stesso successo e diffusione, e di conseguenza possibilità di crescita e sviluppo, tuttavia,
per avere una panoramica quanto più completa possibile, descriveremo qui anche quei
sistemi che oggi vengono considerati piuttosto obsoleti o meno efficienti di altri.
D’ora in avanti l’analisi prenderà in considerazione solo il loro utilizzo in ambito per-
formativo di conseguenza useremo come modello di riferimento per identificare il corpo
37
M.G. Berlangieri, art. cit, pp. 90-91.
38
Ibidem.
39
Ibidem.
18
in movimento da catturare, quello dell’attore/danzatore.
1.2.1. Motion Capture ottico
Il sistema di Motion Capture oggi più diffuso e in grado di raggiungere livelli di altissima
risoluzione è quello ottico; esso consiste nel riconoscimento del movimento del corpo o
delle espressioni facciali da parte di una o più telecamere e può essere di due tipi: marker-
based o markerless.
I sistemi marker-based prevedono l’applicazione sul corpo dell’attore/danzatore di spe-
ciali marcatori, o marker, in grado di scambiare un segnale a infrarossi con le camere che
delimitano il set di cattura; in caso di tracciamento di tutto il corpo i marcatori vengono
applicati su delle speciali tute, o MoCap suite, leggere e confortevoli che consentono
all’attore/danzatore di muoversi liberamente nello spazio di cattura senza impedimenti
per la sua performance. Per poter triangolare i marker nello spazio 3D si possono usare
da un minimo di 3 camere (consigliate) fino ad oltre 150, naturalmente maggiore sarà il
numero di camere utilizzate maggiore sarà il volume di cattura, il numero di soggetti che
si potranno catturare contemporaneamente e sempre minore sarà invece la possibilità che
alcuni marker possono essere occlusi durante i movimenti e quindi non rilevabili. I mar-
catori si distinguono in attivi o passivi e possono essere utilizzati come sistemi distinti o
combinati a seconda delle esigenze di cattura.
Figura 1.14 Andy Serkys su un set cattura per Motion Capture marker-
based: indosso ha una MoCap suite con marcatori ed è circondato da
camere equipaggiate con LED infrarossi.
19
I marcatori attivi sono delle piccole sfere LED che emettono segnali di luce a infrarossi
rilevabili dalle camere con le quali devono essere sincronizzati; oggi sono utilizzati so-
prattutto nelle applicazioni per la realtà virtuale e per il tracciamento di oggetti di scena
ed è piuttosto raro ormai vederli indosso agli attori/danzatori.
I marcatori passivi, attualmente i più diffusi e utilizzati, sono invece delle piccole sfere
o semisfere rivestite di materiale retroriflettente che riflettono la luce infrarossi prove-
niente dal set di LED posizionati attorno all’obiettivo di ciascuna camere.
Alcune tipologie di marcatori passivi molto piccoli (3-4 mm) possono essere applicati
anche sul volto per la cattura delle espressioni facciali; in questi casi la camera viene
posizionata a pochi centimetri difronte al volto grazie ad un caschetto o a un supporto
specifico.
Il sistema ottico marker-based consente di ottenere dei risultati estremamente precisi
grazie a camere che possono raggiungere anche i 26 Megapixel e possono arrivare fino a
2000 FPS; inoltre, se in passato il sistema ottico si potevano utilizzare solo in ambienti
interni, oggi sono disponibili combinazioni di camere e marcatori in grado di funzionare
Figura 1.16 Vicon SuperNova marcatori attivi Figura 1.15 MoCap suite con marcatori LED attivi in
uno studio del 2011. In alexbittner.wordpress.com
Figura 1.18 Una tipologia di marcatori
passivi con superficie retroriflettente.
Figura 1.17 Camera OptiTrack
Prime
x
22.
20
perfettamente anche in ambienti esterni e con luce naturale. Il processo di cattura con
sistema ottico richiede molteplici fasi di lavoro e una imponente infrastruttura hardware
e software per l’acquisizione e l’elaborazione dei dati (e di conseguenza le capacità tec-
niche per utilizzare tali infrastrutture); questo fa si ché scegliere di lavorare con un sistema
ottico marker-based di un certo livello implichi un importante investimento finanziario
40
.
Possiamo farci un’idea approssimativa di quanto costi un sistema Motion Capture ottico
con marcatori grazie ad OptiTrack, una delle aziende leader del settore, che mette a di-
sposizione sul proprio sito un facile configuratore che consente di avere in tempo reale
una previsione di spesa, relativa solo alle camere e agli accessori ad esse correlate, impo-
stando alcuni semplici parametri come il campo di utilizzo ( virtual reality, movement
sciences, robotics, animation), la tipologia di camera tra quelle da loro prodotte e il nu-
mero (da un minimo di 6 ad un massimo di 95 con la possibilità di superare questo numero
contattandoli direttamente); selezionando l’ambito dell’animazione, il preventivo può va-
riare da un minimo di 9.745 dollari per sei camere entry level
41
e quindi per un set minimo
che consente di lavorare con un solo attore/danzatore in un volume ridotto (2 Ø × 2 metri)
, fino ad un massimo di 650.810 dollari per 96 camere top di gamma che consento di
gestire fino a 12 soggetti in un volume estremamente ampio (26 × 26 × 3 metri)
42
.
I sistemi ottici markerless consentono la cattura del movimento senza utilizzo di mar-
catori ma solo grazie ad una o più camere e sono una delle tecnologie sulle quali in questi
ultimi anni si sta puntando maggiormente. I sistemi markerless possono essere di due
tipologie a seconda che richiedano l’uso di camere con tecnologia a infrarossi di rileva-
mento della profondità o che siano supportati da algoritmi di Intelligenza Artificiale.
40
Si sono confrontati i siti di alcune delle più importanti aziende specializzate nei sistemi di MoCap ottico
quali: Vicon https://www.vicon.com/, OptiTrack https://optitrack.com/, Qualisys https://www.quali-
sys.com/ e ART Advanced Real Time Tracking https://ar-tracking.com/en.
41
Configuratore OptiTrack https://optitrack.com/systems/#animation/flex-3/6
42
Configuratore OptiTrack https://optitrack.com/systems/#animation/primex-41/96
Figura 1.19 Configurazione OptiTrack: simulazione con 96 camere per un volume di cattura di 26x26x3 metri.
21
Il primo sistema utilizza camere in grado di produrre una depth map -mappa di pro-
fondità- ovvero un'immagine in cui ogni pixel descrive la distanza di un punto della scena
dalla telecamera. Tra i più famosi sistemi di telecamere a infrarossi con rilevamento della
profondità, indicati spesso anche come telecamere RGB-D poiché catturano sia il colore
che la profondità, troviamo Microsoft Kinect, Intel Realsense, Orbbec e Ultraleap. Questi
sistemi, approdati sul mercato nella seconda metà degli anni Duemila e inizialmente legati
al mondo del gaming, si caratterizzano per i costi contenuti e la facilità di utilizzo; il loro
arrivo, come vedremo, è stato particolarmente importante per il mondo della live perfor-
mance, soprattutto per la danza e in qualche misura anche per il teatro, stimolando l’ela-
borazione di soluzioni creative e inattese
43
soprattutto all’insegna dell’interattività.
Tuttavia questi sistemi presentano anche alcune criticità quali l’impossibilità di essere
usati all’esterno con esposizione alla luce del sole, un raggio di cattura piuttosto corto, la
possibilità di interferenze nel caso si utilizzino più sensori e una precisione nel rileva-
mento del movimento inferiore rispetto ai sistemi marker-based
44
.
I sistemi ottici markerless che sfruttano algoritmi di Intelligenza Artificiale (AI) si
sono sviluppati nel campo della computer vision
45
e hanno aperto la strada a un nuovo
approccio per l’acquisizione del movimento in cui l’input video può essere recepito anche
attraverso hardware a basso costo, come la camera di un cellulare o una webcam. Gli
algoritmi di AI in questione si basano sul cosiddetto machine learning
46
e sono in grado
43
A.M. Monteverdi, Leggere uno spettacolo multimediale, pp.76-81.
44
M. Zago et al., 3D Tracking of Human Motion Using Visual Skeletonization and Stereoscopic Vision, in
«Frontiers in Bioengineering and Biotechnology», 8, marzo 2020, p.2.
45
«La computer vision o visione artificiale è un campo dell'intelligenza artificiale (IA) che permette ai
computer e ai sistemi di ricavare informazioni significative da immagini digitali, video e altri input
visivi -e intraprendere azioni o formulare delle segnalazioni sulla base di tali informazioni. Se l'IA
permette ai computer di pensare, la computer vision permette loro di vedere, osservare e capire» in
Cos’è la computer vision? IBM.com, https://www.ibm.com/it-it/topics/computer-vision.
46
Vedere nota sul Deep Learning.
Figura 1.20 Nintendo Kinect per Xbox360
22
di identificare automaticamente dei punti di riferimento sulle immagini
47
. Tra i più fa-
mosi sistemi di questo tipo troviamo i software OpenPose e DeepMotion Body Tracking;
OpenPose è un sistema in grado di rilevare fino a 135 punti chiave tra corpo, mani e viso
di una o più persone su una singola immagine, è compatibile con webcam e varie tipologie
di camere e dal 2018 è distribuito gratuitamente
48
.
DeepMotion Body Tracking è un sistema software che utilizza una singola camera,
che può essere quella dello smartphon o una camera professionale, per acquisire e rico-
struire il movimento 3D di tutto il corpo in tempo reale; tramite il servizio cloud Animate
3D, DeepMption consente di convertire i video fatti in animazioni da utilizzare per giochi
e altre applicazioni. Va detto che i sistemi markerless risultano particolarmente efficaci
nel Face Motion Capture, ovvero nella cattura delle espressioni facciali e per questo ven-
gono spesso integrati con gli altri sistemi di acquisizione. In questa direzione, ad esempio,
va da anni la ricerca di Digital Domain, una società americana specializzata nella produ-
zione di effetti speciali digitali CGI per il cinema, la pubblicità e i videogiochi, che du-
rante l’ultima convention SIGGRAPH 2022 ha presentato in anteprima un veloce sistema
di acquisizione facciale ibrido che combina algoritmi di machine learning con un approc-
cio di tracciamento basato su marcatori e che consente di ottenere dei risultati di altissima
qualità con una richiesta minima di intervento da parte dell'utente
49
. Questo sistema non
47
M. Zago et al, art. cit.
48
OpenPose 1.7.0, https://cmu-perceptual-computing-lab.github.io/openpose/web/html/doc/index.html.
Cfr. G. Boesh, A guide to OpenPose in 2022, in Viso.ai, https://viso.ai/deep-learning/openpose/.
49
Accelerating Facial Motion Capture with video-driven Animator Transfer, in https://s2022.sig-
graph.org/presentation/?id=gensub_195&sess=sess136
Figura 1.21 OpenPose body tracking. In foto i due creatori del software.
In github.com
23
è ancora commercializzato ed è in corso di implementazione da parte della società pro-
duttrice che lo utilizzerà si presume per i propri progetti.
1.2.2 Motion Capture inerziale
Il sistema di Motion Capture inerziale è il secondo più diffuso ed utilizzato dopo quello
ottico. Esso sfrutta la tecnologia dei sensori miniaturizzati di movimento quali giroscopi,
magnetometri e accelerometri che combinati tra loro consentono di determinare gli spo-
stamenti dell’oggetto a cui sono collegati; i sensori sono alimentati da una piccola batteria
dalla durata variabile (solitamente dalle 6 alle 10 ore) e la loro combinazione consente di
sfruttarne al meglio le funzionalità riducendo al minino gli errori di acquisizione. I punti
di forza di questi sistemi sono molteplici: per prima cosa i sensori di ultima generazione
essendo estremamente piccoli sono perfettamente integrati in speciali MoCap suite total
body o su supporti indossabili come fasce applicabili in varie parti del corpo e guanti,
inoltre sono caratterizzati da tecnologia wireless, quindi l’invio al computer per l’elabo-
razione delle informazioni da loro raccolte avviene tramite una semplice connessione dati,
ad esempio in Wi-Fi; questo fa si che il raggio di tracciamento possa essere ampio anche
fino a 150 metri e possa essere aumentato grazie ai comuni hotspot di segnale disponibili
sul mercato; i sistemi inerziali dunque non necessitano di spazi dedicati e possono essere
utilizzati con facilità sia in interni che in esterni consentendo all’attore/danzatore di muo-
versi liberamente ed eseguire anche movimenti acrobatici in totale comfort. Gli attuali
sistemi di MoCap inerziale consentono di lavorare con uno o più soggetti, prevedono
procedure di calibrazione dei sensori estremante semplici e rapide e consentono di visua-
lizzare la registrazione, e di trasmettere i dati ai personaggi da animare in streaming e in
tempo reale; inoltre grazie agli sviluppi tecnologici nel settore sono state del tutto elimi-
nate le maggiori criticità che in passato hanno afflitto questi sistemi quali le interferenze
magnetiche e gli errori di misurazione nel momento in cui il soggetto variava la sua
Figura 1.22 Anteprima del sistema di acquisizione facciale ibrido di Digital Domain
24
posizione sull’asse dell’altezza ad esempio con un salto o salendo una scala
50
. Le più
importanti aziende oggi sul mercato, come Rokoko e Xsense, mettono a disposizione so-
luzioni adatte a soddisfare le esigenze e i budget sia dei grandi studi di animazione sia di
quelli indipendenti, così come degli artisti che intendono lavorare con Motion Capture ad
alta risoluzione con un investimento finanziario comunque notevole ma più contenuto
rispetto a quello richiesto dai sistemi ottici marker-based. Queste aziende si occupano sia
della parte hardware che software fornendo pacchetti di servizi e supporto. Xsens, ad
esempio propone soluzioni complete per l’animazione a partire da 4.170 dollari
51
mentre
una Smartsuit Pro II di Rokoko, che include tuta, sensori, borsa per il trasporto e abbona-
mento per l’utilizzo della versione base del loro software di registrazione, editing e tra-
smissione viene proposta a 2.745 dollari
52
.
Tuttavia oggi il mercato offre la possibilità a chi ne ha le competenze di creare dei sistemi
MoCap inerziali anche in autonomia: grazie ad una scheda hardware open source
50
Si sono confrontati i siti ufficiali delle due più importa aziende nel settore, Rokoko https://www.ro-
koko.com/ e Xsens https://www.xsens.com/
51
Xsens prodotti, https://www.xsens.com/products/mvn-animate?hsCtaTracking=0031f976-823a-4074-
8cc4-d6f2347422ae%7C584bb7ed-596e-4dd6-992d-245825acf04f
52
Rokoko shop Smartsuit Pro II https://www.rokoko.com/shop/smartsuit-pro
Figura 1.23 Sistemi inerziali Xsens: (a sinistra) una MoCap suite MVN Link High Per-
formance e (a destra) sistema di sensori MVN Awinda Intermediate Performance.
25
chiamata Arduino
53
, acquistabile online ad un costo variabile che va dai 20 a 299 euro a
seconda delle caratteristiche, è possibile realizzare vari progetti che prevedono l’uso di
sensori, anche questi facilmente reperibili sul mercato a costi molto contenuti.
1.2.3 Motion Capture elettromeccanico
Il sistema Motion Capture elettromeccanico, per ciò che riguarda il settore performativo,
risulta oggi una tecnologia alquanto obsoleta e in disuso essendo stato superato, sia sul
piano tecnologico sia sul piano dell’economicità, dalle nuove tecnologie ottiche e dai pro-
gressi della sensoristica miniaturizzata; tuttavia, come vedremo nel prossimo capitolo,
nell’ambito della live performance esso può rappresentare una specifica scelta artistica.
Il MoCap elettromeccanico prevede che il soggetto da catturare indossi un esoscheletro
formato da elementi rigidi, potenziometri ed altri sensori di movimento posizionati sui
giunti delle articolazioni. L’esoscheletro segue il movimento delle ossa durante l’esecu-
zione e consente una rappresentazione in tempo reale dei dati acquisiti. Tuttavia il sistema
elettromeccanico proprio a causa della struttura rigida causa in chi la indossa una limita-
zione dei movimenti e delle possibilità espressive del corpo. Si tratta quindi di un sistema
ingombrante, invasivo e fragile ma che per anni ha rappresentato un’alternativa econo-
mica rispetto agli altri sistemi presenti sul mercato.
54
Integrato dagli studi nel campo della
robotica l’esoscheletro per la cattura del movimento ha trovato applicazioni e possibilità
di sviluppo nell’ambito soprattutto della riabilitazione medica e dell’antinfortunistica
55
.
53
A.M. Monteverdi, Leggere uno spettacolo multimediale, pp.76. cfr. S.R. Kadam, S.N. Pawar, Develop-
ment of Cost Effective Motion Capture System based on Arduino, in «Fourth International Conference on
Computing Methodologies and Communication (ICCMC)», 2020, pp. 1-6.
54
M. Kitagawa, B. Windsor, op. cit., pp.10-11.
55
Mi metto un esoscheletro, in Focus https://www.youtube.com/watch?v=OB1fiJs3M6Q
Figura 1.24 Esoscheletro MoCap per torso e
arti superiori Gipsy prodotto da MetaMotion.