Premessa
10
dell’Informazione (Ingwersen, 1992) o, più recentemente, nelle Scienze Cognitive
(Tabossi, 1988) e nel Connessionismo (Parisi, 1989). La tendenza allo scambio
interdisciplinare sembra frutto della consapevolezza che la psicologia da sola non è
sufficiente a comprendere il comportamento umano o, per lo meno, a comprendere la
complessità del comportamento umano fuori dal laboratorio.
Il desiderio di utilizzare specifiche conoscenze psicologiche nella vita quotidiana
non è prerogativa esclusiva di domini applicativi, quali la HCI. Già Neisser nel suo
Cognition and Reality (1976), auspicava uno spostamento dell’attenzione dalla ricerca di
laboratorio al mondo esterno, alla vita reale delle persone. Lo stesso autore che nove
anni prima aveva praticamente segnato l’inizio ufficiale del cognitivismo (Neisser, 1967),
criticava il progressivo ripiegarsi della ricerca su se stessa e invitava a situare il concetto
di informazione nell’ambiente in cui viene processata. L’interesse psicologico verso la
HCI si basa su queste idee e le applica in un contesto che sempre maggiore importanza
ha nella vita dell’essere umano.
In questa tesi mi propongo di dimostrare la necessità dello sviluppo di una specifica
psicologia della HCI che superi le tradizionali barriere fra le varie aree di studio del
comportamento umano, dando luogo a una psicologia di confine in cui confluisca parte
dell’apparato teorico e metodologico della psicologia dei processi cognitivi,
dell’ergonomia nonché della psicologia sociale. Sicuramente questo è un obiettivo molto
ambizioso e problematico, ma come si cercherà di dimostrare nel corso dell’esposizione,
sembra essere la soluzione più adatta per comprendere l’interazione fra gli utenti e i
sistemi informatici di un futuro che si prospetta abbastanza prossimo.
Postulato fondamentale del lavoro è la natura dinamica della HCI. Il suo oggetto
di studio tende, infatti, a modificarsi parallelamente allo sviluppo tecnologico lungo il
continuum vincolato-flessibile. Ogni generazione di computer è caratterizzata da una
maggiore flessibilità dialogica rispetto a quella precedente. In un dialogo vincolato
l’utente deve adattarsi al sistema; in un dialogo flessibile è il sistema che si adatta
all’utente, proponendo uno scambio più consono alle caratteristiche e alle abilità naturali
dell’essere umano. L’evoluzione si riflette direttamente sul tipo di capacità e conoscenze
richieste all’utente: il dialogo vincolato richiede quasi esclusivamente il coinvolgimento
di abilità cognitive; quello flessibile anche di abilità sociali e comunicative. L’analisi dei
Premessa
11
sistemi interattivi flessibili necessita dunque un approccio e una metodologia più
complessa di quella sufficiente per l’analisi dei sistemi vincolati.
L’approccio globale, sviluppato nelle pagine di questo lavoro, si propone come un
contributo alla valutazione dei nuovi sistemi interattivi. L’idea innovativa della proposta
è la definizione di interazione utente-computer come una gestalt, totalità dinamica
prodotta dall’azione sinergica di quattro entità: utente, computer, compito e ambiente. In
questa prospettiva, lo studio del processo interattivo non può essere ridotto, come
tradizionalmente avviene, all’analisi separata delle entità che lo determinano, ma
necessita la comprensione delle regole secondo cui tali entità danno luogo alla totalità.
L’approccio richiede dunque di combinare alla metodologia ergonomica, adeguata per lo
studio dei processi cognitivi sottostanti l’interazione utente-sistema vincolato, strumenti
della ricerca psicosociale, più idonei a rappresentare e comprendere la complessità
dell’interazione essere umano-sistema flessibile.
La tesi si propone di presentare l’approccio globale da un punto di vista teorico e
dimostrarne l’adeguatezza tramite due studi correlazionali e due esperimenti di
simulazione volti alla valutazione di prototipi di sistemi multimodali. Il lavoro articola in
due parti: una teorica, Verso un nuovo modello, che comprende i primi quattro capitoli, e
una sperimentale Applicazioni del modello, che comprende gli ultimi tre.
Il primo capitolo, di carattere introduttivo, fornisce un quadro generale dello
sviluppo tecnologico e delle sue conseguenze sull’interazione utente-computer. Il
secondo presenta invece la HCI sottolineandone da vari punti di vista la natura dinamica
e dedicando particolare attenzione al contributo della psicologia. Il capitolo successivo
illustra le principali misure e metodologie con cui tradizionalmente è stata valutata la
prestazione del sistema utente-computer. La parte teorica si chiude con la presentazione
dell’approccio globale.
La parte sperimentale presenta due studi correlazionali, finalizzati a comprendere i
reciproci rapporti fra alcune caratteristiche dell’utente che l’approccio ritiene di
fondamentale importanza nell’interazione. I capitoli 6 e 7 descrivono invece due
valutazioni di sistemi multmodali eseguite tramite la metodologia proposta dall’approccio
globale.
Verso un nuovo modello
12
Parte I
Verso un nuovo modello
Verso un nuovo modello
13
1. Utenti e computer
Nella nostra vita quotidiana veniamo spesso a contatto con macchine più o meno
complesse. Ci svegliamo al suono di radio sveglie digitali, ascoltiamo le notizie del
giorno da sofisticati stereo, guidiamo potenti automobili, cuciniamo in forni a microonde,
e infine ci rilassiamo guardando un bel film con il videoregistratore. Nel caso, poi, in cui
svolgiamo un lavoro di ufficio, solitamente passiamo più tempo interagendo con delle
macchine (solo per ricordare le più comuni, computer, fotocopiatrici, fax, telefoni
cellulari e non) piuttosto che con i nostri colleghi.
Se qualcuno si sente contrariato da questa realtà, si rassegni. Il futuro sembra
destinato a una crescente automazione delle attività umane. Nei laboratori di tutto il
mondo sono in fase di studio nuovi sistemi che permetteranno di potenziare le attuali
tecnologie informatiche e di applicarle anche in contesti diversi da quelli attuali (Nielsen
1993; Cole et al., 1995). Solo per fare un esempio, computer di vario tipo entreranno
presto a far parte della normale strumentazione delle automobili. Guideremo allora
macchine che, oltre a permetterci spostamenti rapidi e sicuri, saranno capaci di fornirci
informazioni sempre più affidabili e tempestive sullo stato del traffico, del tempo o sul
percorso ottimale per raggiungere la meta desiderata (Bubb, De Angeli, Ferrante, Haller,
Jacomussi, Toffetti e Varalda, 1994; Varalda, Bray, Morra, Sidoti, Gerbino, De Angeli e
Ferrante, 1994; De Angeli, Fum e Gerbino, 1995; De Angeli, Fum, Gerbino, Pani,
Parisatto e Tognoni, 1996).
L’inserimento pervasivo della tecnologia informatica nella vita di ogni giorno sta
procedendo in due direzioni. Da un lato si cerca di nascondere il computer all’interno di
oggetti d'uso quotidiano, per esempio notes e lavagne elettroniche nonché di progettare
dispositivi meno intrusivi degli attuali, quali telecamere che seguono i movimenti
dell'utente per selezionare automaticamente l'inquadratura ottimale
2
. Dall’altro ci si
2
La nuova tendenza è nota come Ubiquitous Computing (Weiser, per informazioni e bibliografia si
veda http://www.ubiq.com/hypertext/weiser/UbiHome.htlm) o Reactive Environment (Buxton,
http://www.dbp.utoronto.ca/people/BillBuxton/Index.htlm).
Verso un nuovo modello
14
orienta invece verso la costruzione di sofisticate interfacce, capaci di rendere le situazioni
interattive intenzionali sempre più semplici e naturali. In generale, si assiste dunque a un
crescente processo di adattamento dell’elaboratore elettronico alla natura umana.
L’attenzione di questa tesi, comunque, è diretta esclusivamente alle interazioni dirette
con l’elaboratore in cui il comportamento dell’utente è finalizzato a uno scopo
intenzionale.
1.1. Soluzioni di avvicinamento
I computer ci aiutano a svolgere le nostre attività, ma per potere essere utilizzati
necessitano impegno, conoscenze e abilità. Alla crescita della complessità di un sistema è
associato l’aumento dell’impegno richiesto all’operatore. Lo sviluppo informatico, inteso
come produzione di sistemi simbolici sempre più sofisticati e complessi, porta dunque
con sé il problema della loro interazione con l’essere umano.
L’interazione rappresenta una situazione problematica perché i due agenti sono
strutturalmente e concettualmente diversi (Norman, 1986; Hutchins, Hollan e Norman,
1986). L’utente interagisce con il computer al fine di raggiungere determinati obiettivi
che si rappresenta in termini psicologici. Il computer, invece, comunica il suo stato
corrente in termini fisici. Tale differenza rappresenta il principale divario (gulf) che deve
essere superato durante l’interazione
3
. Teoricamente esistono due soluzioni di
avvicinamento: (a) si può addestrare l’utente per renderlo capace di usare il sistema; (b )
si può agire sul sistema costruendolo in modo compatibile alle caratteristiche dell’utente.
La prima alternativa rappresenta l’unica soluzione esplorata fino alla fine degli anni
‘70
4
. Essa era resa necessaria dalla tradizionale metodologia informatica in cui il progetto
del sistema partiva dalle funzionalità da implementare senza considerare il fattore umano
(approccio centrato sul sistema, system-centered).
L’addestramento tipicamente richiede lunghi e faticosi periodi di studio; inoltre
non garantisce il successo. Nel caso in cui un sistema risulti troppo complesso l’utente
3
Dal punto di vista dell’utente, il divario si manifesta sia a livello di esecuzione di una data azione
(gulf of execution), che a livello di valutazione del risultato (gulf of evaluation).
4
Il primo esempio di progettazione centrata sull’utente risale alla realizzazione di OMS Olympic
Message System nel 1984 (Gould, Boies, Levy, Richards, e Schoonard, 1987; Preece, Rogers, Sharp,
Benyon, Holland e Carey, 1994).
Verso un nuovo modello
15
può reagire con due comportamenti: (a) selezione più o meno consapevole di un sotto
insieme di funzionalità su cui concentrare i propri sforzi; (b) rifiuto dello strumento. La
selezione rappresenta un problema, specialmente se è involontaria. Ciò avviene spesso,
non solo nell’interazione con il computer, ma anche nel caso di strumenti elettronici
stereotipicamente ritenuti più semplici e familiari. Fenomeni di sotto utilizzo
inconsapevole sono stati evidenziati anche dopo nove mesi di uso continuativo di
un’autoradio. Eppure le funzionalità sconosciute erano utili, i controlli visibili e le
procedure di utilizzo dettagliatamente descritte nel manuale di istruzioni (van Nes e van
Itegem, 1990). Riflettendo sulla nostra esperienza personale possiamo verificare l’elevata
frequenza di simili comportamenti. Si consideri, per esempio, il videoregistratore di casa
e si paragoni l’elenco di tutte le funzioni conosciute con la lista delle funzioni descritte
nelle istruzioni. Molto probabilmente i due insiemi non coincidono: il videoregistratore
ha più funzionalità di quante ne conosciamo. Il sotto utilizzo è sintomo di errori nella
progettazione. Se le funzionalità sconosciute sono inutili, allora non avrebbero dovuto
essere implementate in quanto potenziali distrattori. Se, invece, sono utili, allora il
sistema risulta inadeguato al compito che deve supportare.
Il comportamento di rifiuto può limitarsi allo specifico sistema o estendersi
all’intera area informatica. Il rifiuto puntuale rappresenta essenzialmente un problema
economico. Lo specifico sistema viene respinto dal mercato. Il rifiuto genarale ha invece
conseguenze più serie. L’esclusione di una parte della popolazione dall’utilizzo di
strumenti informatici, vale a dire dalla possibilità di accesso e gestione di una quota
rilevante dell’informazione, può a lungo andare portare alla formazione di una nuova
classe sociale a rischio: gli emarginati elettronici (De Angeli, 1995).
La presa di coscienza delle difficoltà legate all’addestramento ha portato
all’affermazione di una nuova metodologia di progettazione: l’approccio centrato
sull’utente (user-centered). Tale approccio si propone di superare il divario fra esseri
umani e elaboratori elettronici realizzando sistemi a misura d’utente (De Angeli, 1993).
A questo fine, la progettazione parte dallo studio degli effettivi bisogni dell’essere umano
e continua a riferirsi ad essi attraverso tutto il processo di realizzazione (Gould e Lewis,
1985; Norman e Draper, 1986; Booth, 1989). Ciò implica il superamento del tradizionale
errore nella rappresentazione dell’utente, che consisteva nell’attribuirgli un illimitato o
generalizzato grado di flessibilità e adattabilità (De Angeli, 1993). Al contrario, si fa
Verso un nuovo modello
16
strada l’idea che un’interazione efficace debba sfruttare anche le proprietà dei
comportamenti skill-based (Rasmussen, 1983; Reason, 1990), che per loro natura sono
difficilmente modificabili. La nuova filosofia comporta un netto mutamento nella natura
della progettazione che da attività esclusivamente tecnica e prevalentemente individuale
tende a trasformarsi in attività interdisciplinare e d’équipe.
1.2. Verso il dialogo flessibile
Gli attuali computer sono radicalmente diversi dai primi elaboratori che
quarant’anni fa cominciarono ad apparire sul mercato. La differenza non risiede solo
nella configurazione fisica (si paragoni un attuale portatile con i giganti di una volta), né
nelle prestazioni. Dal punto di vista dell’utente, la differenza risiede soprattutto nella
possibilità di accesso alla tecnologia, vale a dire nella maggiore facilità di utilizzo. I primi
calcolatori erano estremamente difficili da usare e questo per vari motivi (Preece, Sharp,
Benyon, Holland e Carey, 1994): (a) il costo della macchina era talmente elevato che al
suo confronto quello del fattore umano era irrisorio; (b) l’utenza era esclusivamente
composta da esperti, prevalentemente ingegneri, se non addirittura dagli stessi
sviluppatori; (c) non esistevano conoscenze specifiche su come semplificare l’interazione.
Comunque, fin dalle sue origini l’avvento del computer ha profondamente
cambiato il quadro dei sistemi utente-macchina. Da prevalentemente motoria
l’interazione è diventata quasi completamente cognitiva, coinvolgendo accanto ad aspetti
mentali periferici, quali la percezione di stimoli, processi mentali superiori, quali abilità
di problem-solving o di apprendimento (Norman e Draper, 1986; Stock, 1987a). Il
progressivo adeguarsi del computer alle caratteristiche umane tende ad allargare la sfera
dell’interazione includendo anche alcuni fenomeni sociali, caratteristici della
comunicazione fra esseri umani.
Quando un utente interagisce con un sistema informatico ha luogo uno scambio di
messaggi nei due sensi: dall’utente al computer e dal computer all’utente (Airenti, Bara e
Colombetti, 1987). Per comodità esplicativa definiamo tale scambio con il termine
dialogo, pur essendo consapevoli che nessuno dei sistemi attuali permette lo sviluppo di
un vero e proprio dialogo (§ 2.1.1). Al crescere della capacità interattiva dei sistemi
Verso un nuovo modello
17
utente-computer, il processo dialogico tende a trasformarsi lungo il continuum vincolato-
flessibile.
Il dialogo altamente vincolato è la tipica forma di interazione fra utenti e macchine.
Lo scambio è rigidamente determinato dalle capacità interattive del partner più debole: si
svolge sulla base di un numero limitato di azioni che richiedono la conoscenza di una
specifica sintassi e sono caratterizzate da procedure ripetitive. I gradi di libertà
dell’utente sono ridotti a zero: o conosce esattamente sintassi e procedura oppure
l’interazione è destinata a fallire. Prototipo di dialogo flessibile è invece la
comunicazione fra umani. Lo scambio è caratterizzato dalla libertà e dalla creatività del
linguaggio naturale; di conseguenza il suo andamento è funzione di un insieme assai
vasto di variabili.
L’interazione con un sistema a dialogo vincolato rappresenta dunque un tipico atto
strumentale. Il suo andamento è principalmente funzione della compatibilità fra strategie
di soluzione della macchina, capacità cognitive dell’utente e difficoltà del compito. Nel
caso di sistemi flessibili il comportamento umano, invece, è funzione di molte più
variabili, legate alla specifica situazione interattiva e alle caratteristiche individuali
dell’utente.
Verso un nuovo modello
18
1.2.1. Lo sviluppo delle interfacce
Per comprendere come negli anni si sia andato evolvendo il dialogo utente-
computer proviamo a ripercorrere le tappe fondamentali della storia delle interfacce, quei
sistemi informatici che, codificando e traducendo l’informazione scambiata, mettono in
relazione l’utente e la parte esecutiva del sistema informatico (Chignell e Hancock, 1988;
Grundin, 1993). In questo seguiremo la proposta di Nielsen (1993), che identifica cinque
generazioni
5
caratterizzate da un dialogo sempre più flessibile e di conseguenza da
un’utenza sempre più vasta ed eterogenea.
• Prima generazione, (1945-1955). L’utilizzo dei primi computer, i sistemi batch, non
può essere definito propriamente interazione, ma piuttosto operazione su macchina
(Stock, 1987b). Lo scambio veniva costretto in un unico momento temporale in cui
l’utente forniva, in un codice estremamente criptico
6
, tutte le istruzioni e i dati
necessari al raggiungimento del suo obiettivo. L’output era prodotto solo alla fine del
ciclo di elaborazione dell’input. Il controllo e i gradi di libertà dell’utente erano quindi
praticamente nulli. Per la loro estrema difficoltà i sistemi batch furono utilizzati da
un’utenza estremamente limitata, composta prevalentemente da ingegneri.
• Seconda generazione, (1955-1965). Con i sistemi line-oriented si comincia a parlare
di interfacce vere e proprie per quanto ancora estremamente limitate. Gli input
dell’utente venivano prodotti in concomitanza a specifiche linee di comandi
7
.
L’interazione era basata su un modello domanda-risposta altamente vincolato e
completamente diretto dal computer. Questa procedura rende il recupero dall’errore
estremamente difficile perché preclude all’utente la possibilità di modificare
l’andamento del dialogo. L’utenza era composta da tecnici, informatici e ingegneri. In
5
I riferimenti temporali dello schema proposto si riferiscono al momento in cui i pionieri
dell’informatica hanno cominciato ad utilizzare una data generazione di interfacce. Risultano quindi
inadeguati se applicati alla diffusione delle stesse sul mercato.
6
I programmi venivano scritti in linguaggio macchina, sequenze di 0 e 1, con perforatori di schede. Il
mazzo di schede veniva poi messo su un lettore e l’output era stampato su carta.
7
I comandi vennero scritti inizialmente in assembler, un linguaggio di basso livello che manipola i
registri di memoria. Più avanti furono invece utilizzati anche linguaggi di programmazione di alto
livello.
Verso un nuovo modello
19
questo periodo comunque cominciò a delinearsi un primo interesse verso bisogni e
capacità dell’utente, testimoniato per esempio dai lavori di Licklider (1960).
• Terza generazione, (1965-1980). Le interfacce full-screen permettono un’interazione
che riproduce un compito di compilazione di moduli. Vari campi sono compresenti
sullo schermo; Ognuno richiede parte dell’informazione necessaria all’esecuzione del
comando. La scelta della sequenza di compilazione è delegata all’utente.
Caratteristiche distintive di tali sistemi sono menus statici gerarchici
8
(Paap e Roske-
Hofstrand, 1988) e tasti funzione
9
(key-function). L’utilità dei menus deriva da una
caratteristica della memoria umana: il riconoscimento è più semplice del recupero. Il
limite principale è che il passaggio da un menu all’altro nasconde l’interazione
pregressa e rischia dunque di disorientare l’utente. I tasti funzione hanno il vantaggio
di sveltire l’interazione, ma inevitabilmente richiedono apprendimento mnemonico. Le
interfacce full-screen aumentarono i gradi di libertà dell’utente, che poteva scegliere
fra due possibilità di scambio e aveva un minimo di influenza sull’andamento
dell’interazione. Questi sistemi si diffusero particolarmente nel settore dell’informatica
di gestione, dove sono tuttora utilizzati. Tipici utenti sono impiegati e manager a cui
viene richiesto uno specifico periodo di addestramento, ma non approfondite
conoscenze informatiche.
• Quarta generazione, (1980-1995). L’attuale generazione di interfacce è rappresentata
dalle interfacce grafiche (Graphical User Interface o GUI), quelle su cui
probabilmente molti di noi sono soliti lavorare
10
. Le componenti base sono finestre,
icone, menu e dispositivi di puntamento
11
(il più tipico: il mouse). Il principale stile di
interazione è la manipolazione diretta di oggetti grafici tramite mouse (Shneiderman,
8
Rappresentazioni di comandi in cui ogni singolo comando è indicato da un’etichetta linguistica,
selezionando la quale è possibile agire direttamente sullo stato del computer o visualizzare altri
comandi.
9
I tasti funzione permettono di eseguire una sequenza ben definita di comandi premendo un tasto
specifico cui sono associati (per esempio F1).
10
Per quanto la storia di tali sistemi possa essere fatta risalire alla prima metà degli anni ‘60 con i
lavori di Sutherland e gli studi sul mouse di Engelbart; la loro implementazione risale solo al 1980.
Verso un nuovo modello
20
1983; Hutchins, Hollan e Norman, 1985; Hutchins, Hollan e Norman, 1986). La
qualità dell’interazione dipende dunque dall’affordance degli oggetti. È questo un
concetto mutuato dalla teoria ecologica della percezione con il quale si definiscono
proprietà degli oggetti ambientali relative ad un organismo (Gibson, 1979, 1982). Tali
proprietà si riferiscono alle azioni che l’individuo può compiere. La conseguenza
dell’applicazione del concetto di affordance alla manipolazione diretta del sistema è la
filosofia what you see is what you get
12
. In seguito a ogni azione la rappresentazione
dell’interfaccia viene aggiornata permettendo così all’utente un continuo ed elevato
controllo sull’interazione. Anche la flessibilità del dialogo risulta notevolmente
accresciuta: una stessa azione può essere eseguita in più modi a seconda delle
preferenze dell’utente. Per esempio, in un sistema di videoscrittura un file può essere
salvato: (a) cliccando sull’icona che rappresenta il dischetto; (b) selezionando l’item
salva dal menu linguistico; (c) tramite scorciatoia (shortcuts) pigiando
contemporaneamente due tasti specifici. La manipolazione diretta apre il mondo dei
computer a una vasta utenza che, in seguito a un addestramento piuttosto ridotto, può
utilizzare il computer per scopi estremamente eterogenei. Parallelamente all’avvento
delle interfacce grafiche si afferma la HCI.
• Ultima generazione, (1995- ??). L’ultima generazione di interfacce sta cominciando in
questi anni nei laboratori di tutto il mondo. Sarà la prima generazione sviluppata
prevalentemente tramite l’approccio centrato sull’utente e dunque dovrebbe essere in
assoluto la più compatibile con le caratteristiche umane. I cambiamenti in programma
sono molteplici e agiscono su aspetti diversi dell’interazione. È possibile comunque
evidenziare un comune denominatore: le dimensioni dell’interazione tendono ad
aumentare e di conseguenza il dialogo diventa sempre più flessibile. Le interfacce a
manipolazione diretta includono anche il movimento, nella forma di vere e proprie
11
Le interfacce grafiche sono conosciute anche con l’acronimo WIMP (Windows, Icon, Menu, Pointing
device). L’utilizzo delle finestre permette il movimento tra varie attività; le icone sono
rappresentazioni grafiche di oggetti, concetti o comandi; i menu sono dinamici e possono essere di
due tipi: pop-up (appaiono dal nulla in seguito a una specifico input del mouse) e pull-down (si
aprono come saracinesche in seguito a una specifico input del mouse su un’apposita etichetta
linguistica).
12
Abbreviata WYSIWYG e pronunciato come wizzy-wig, la frase si è presto trasformata in una coppia
di parole, con cui vengono identificati tutti quei programmi dove l’output del sistema rappresenta
pienamente e chiaramente il risultato dell’azione dell’utente (Thimbleby, 1990).
Verso un nuovo modello
21
animazioni (Baecker, Small e Mander, 1991) o il suono (Gaver W., 1986; Blattner,
Sumikawa, e Greenberg, 1989; Gaver B., 1993). La modalità di azione sugli oggetti si
sta velocemente modificando verso una maggiore naturalezza. Il mouse è sostituito da
penne elettroniche (Cole et al., 1995) e presto l’attivazione di icone sarà supportata
presto dallo sguardo (Jacob, 1993). I sistemi di realtà virtuale e le interfacce 3D
permettono di ampliare la possibilità di azione fisica. Vari sistemi di riconoscimento
del linguaggio naturale sono già sul mercato e la ricerca è in un momento di
particolare fervore, anche grazie alla rinuncia dell’idea di riprodurre la comunicazione
fra umani (Gentner e Nielsen, 1996). In aumento sono anche le dimensioni cognitive
dell’interfaccia, che viene dotata di moduli intelligenti, vale a dire di appropriati mezzi
per comprendere le esigenze dell’utente e guidarlo nell’esecuzione del compito
(Chignell e Hancock, 1988). Questo filone si sta prevalentemente orientando verso la
costruzione di agenti, personaggi che agiscono nell’ambiente virtuale per aiutare gli
utenti (Laurel, 1991). Tipicamente gli agenti sono caratterizzati da sembianze
umanoidi e da un comportamento estremamente naturale. Ciò produce un aumento
della dimensione emotiva dell’interazione: oltre a comunicare in linguaggio naturale,
gli agenti saranno in grado di riprodurre espressioni facciali e gestuali tipiche degli
stati emotivi (Cassell e Prevost, 1996). La frontiera più estrema dello sviluppo
tecnologico è comunque rappresentata dai sistemi multimodali, strumenti capaci di
condensare più modalità interattive in un’unica interfaccia. La sfida dei nuovi sistemi è
dunque la conquista del mercato degli emarginati tecnologici.
1.3. I sistemi multimodali
I sistemi multimodali sono strumenti informatici che non soltanto supportano
l'interazione attraverso più canali di comunicazione, proprietà comune a tutti i sistemi
multimediali, ma che sono anche in grado di estrarre l'informazione essenziale da
ciascuno di essi per usarla nel comporre un significato unico e coerente. Durante
l’interazione l'utente può parlare o scrivere nella propria lingua madre, gesticolare,
disegnare o attivare icone con lo sguardo. Il sistema è in grado di comprendere il
messaggio indipendentemente dalla modalità in cui viene trasmesso e di fornire vari tipi
Verso un nuovo modello
22
di output, parlato, scritto o tattile, che entro una certa misura risultano equivalenti per
l’essere umano, esempio paradigmatico di sistema multimodale.
Da un punto di vista tecnologico la multimedialità è ormai raggiunta. La
multimodalità invece risente delle disomogeneità tra il livello di sviluppo delle varie
modalità (Arens e Hovy 1990; Mackinlay, Card e Robertson, 1990; Coutaz, Nigay e
Salber, 1993; Ole Bersen, 1993). Accanto a modalità ampiamente analizzate, quali la
grafica bidimensionale, esistono modalità ancora in fase di sperimentazione, quali il
linguaggio naturale scritto o parlato, e altre, quali la gestualità, dove gli studi sono
appena cominciati (Reithinger, 1987; Schmauks, 1987, Schmauks e Reithinger, 1988,
Schmauks e Willie, 1991; De Angeli et al., 1996; Oviatt, 1996; Oviatt et al. 1997).
Inoltre, mentre ci sono stati dei progressi significativi nell'utilizzo delle singole modalità,
meno enfasi si è avuta nell'integrazione e nella coordinazione di più canali.
La multimodalità, oltre ad agevolare l'utente, tende ad agevolare il computer. I
primi tentativi di implementazione derivano dall’esigenza di rendere più robusti gli attuali
sistemi di riconoscimento del linguaggio naturale. La disponibilità di più canali tende
infatti ad aumentare il rapporto segnale-rumore, ossia la quantità di informazione
utilizzabile dal sistema per capire le intenzioni comunicative dell'utente (Maybury, 1993;
Cole et al. ,1995). L’interazione multimodale appare superiore a quella unimodale sia
nella comunicazione diretta di un dato significato, livello dialogico, sia
nell’interpretazione del dialogo, livello meta-dialogico. A livello dialogico la disponibilità
di più canali permette di semplificare la formulazione linguistica di alcuni contenuti (De
Angeli et al., 1996; Oviatt, 1996; Oviatt et al., 1997). È questo il caso per esempio
dell’identificazione di referenti nello spazio, in cui un gesto può sostituire complicate
espressioni verbali (§ 6 e 7). A livello meta-dialogico, invece, l'utilizzo di più modalità
facilita la comunicazione delle capacità comunicative del computer e di conseguenza
dirige il comportamento dell’utente verso tali capacità. Un grafico può comunicare la
coesione che il sistema informatico attribuisce alle parti del dialogo in modo più diretto e
agevole di un atto linguistico. La manipolazione diretta può consentire un più agevole
recupero dall’errore, evitando complessi e noiosi sotto-dialoghi di chiarimento
(Zancanaro, Stock e Strapparava, 1993; Stock, Strapparava e Zancanaro, 1995; Stock,
1995; Zancanaro, Stock e Strapparava, 1994; Zancanaro, Stock e Strapparava, in
stampa).
Verso un nuovo modello
23
1.3.1. Interfacce multimodali
Nell'architettura di un sistema multimodale l'interfaccia assume un ruolo
fondamentale. Tale modulo deve mediare l'interazione in senso ampio, coordinando e
dirigendo le modalità comunicative adottate dai due partner verso livelli di comprensione
ottimali (Walhlster, 1992). La qualità dell’interazione è dunque funzione del grado di
flessibilità e adattabilità dell'interfaccia. Essenzialmente tale modulo deve permettere il
costante processo di mutuo accomodamento tipico della comunicazione fra umani, per
cui il parlante tende a modificare i suoi atti comunicativi sulla base del contenuto
trasmesso, delle caratteristiche dell’ascoltatore e del contesto in cui lo scambio ha luogo
(Grice, 1975).
Flessibilità e adattabilità di un’interfaccia multimodale possono essere differenziate
sulla base di tre livelli crescenti di complessità. Il primo, il livello delle risorse fisiche,
implica che il sistema sia in grado di adattare la presentazione di un contenuto in
funzione della specifica modalità comunicativa utilizzata, ottimizzando così le
caratteristiche intrinseche di ogni canale di comunicazione. Il secondo, il livello delle
preferenze dell'utente, implica che il sistema adegui il suo output sulla base della
modalità di input dell’utente e che renda più facilmente disponibili le modalità di
interazione preferite dall'utente. L'ultimo e più complesso livello di adattabilità è il livello
dei contenuti. L’interfaccia è considerata adattabile se è in grado di scegliere la modalità
di comunicazione più adatta a trasmettere un dato contenuto.
Lo sviluppo di interfacce multimodali è un compito molto complesso, il cui
successo è subordinato alla disponibilità di modelli predittivi della comunicazione che
spieghino i processi cognitivi, percettivi e motori sottostanti l'uso coordinato ed efficace
di varie modalità di I/O, nonché i processi sociali sottostanti la scelta di una determinata
strategia interattiva. Le conoscenze relative all’interazione multimodale attualmente
disponibili sono molto scarse (Oviatt, 1996; Oviatt et al., 1997). Tuttavia si sta
assistendo a un crescente interesse verso l’argomento, sia per obiettivi pratici sia perché
lo sviluppo dei sistemi multimodali rappresenta un’attraente sfida per la HCI. Infatti, esso
è reso possibile in un momento in cui la disciplina può vantare una sostanziosa esperienza
e una vitalità impensabile in passato.