La Item Response Theory si sviluppa per ovviare ai problemi rappresentati dalla Classical
Test Theory e, a partire dal 1960, viene perfezionata e approfondita collocandosi
prevalentemente nella tradizione della teoria dei test educativi e psicometrici (educational
testing). Oggigiorno, la IRT è comunemente utilizzata dalle più grandi compagnie, industrie e
istituti di ricerca negli Stati Uniti e in Europa per la progettazione, assemblaggio e calibratura
dei test in quanto prevede una metodologia estremamente potente e flessibile in grado di
fornire soluzioni adeguate ai problemi di misura e di valutazione. Ciò che distingue
sostanzialmente la IRT dalla CTT è il superamento del concetto di dipendenza tra soggetto e
item ma esistono molte altre differenze: nella IRT l’abilità latente di un soggetto è
indipendente dal tipo di test, ossia il punteggio ottenuto da un soggetto non dipende dal
particolare set di domande somministratigli. Vale anche il contrario: le caratteristiche di un
item non dipendono dal particolare gruppo di soggetti rispondenti. La relazione tra “abilità di
un soggetto” e “probabilità di rispondere correttamente ad un item” è esplicitata da una
funzione di probabilità di forma nota e questo significa che è possibile definire un livello
probabilistico per ogni item piuttosto che un livello probabilistico complessivo di tutto il test.
Per questi ed altri motivi ancora, la IRT ha trovato terreno più fertile rispetto alla CTT.
2) IRT: Concetti principali e modelli teorici
L’approccio più comune per misurare l’abilità di un soggetto è quello di somministrargli un
questionario consistente in un numero di item e di calcolare il punteggio ottenuto. Da un
punto di vista prettamente teorico, ogni item dovrebbe essere strutturato a risposta aperta in
maniera che il soggetto possa esplicitare liberamente la risposta che crede corretta;
generalmente, se la risposta fornita è effettivamente quella corretta allora egli riceve un
punteggio pari ad uno altrimenti riceve un punteggio pari a zero: in questo modo ogni item è
reso dicotomico (0/1). Da un punto di vista pratico, le risposte fornite agli item a risposta
aperta possono essere soggette ad errori di interpretazione o di scrittura; pertanto, è preferibile
utilizzare item a risposta chiusa a scelta multipla nei quali viene presentata una serie di
risposte possibili di cui una sola è la risposta corretta (le altre vengono definite “distrattori”).
Si noti che anche in questo caso ogni item è dicotomico e ciò non significa necessariamente
che le possibili risposte al suo interno devono per forza essere due. Nella IRT sono stati
sviluppati diversi modelli teorici per la specificazione della relazione tra caratteristiche
dell’item e abilità dei soggetti, in modo da poter prevedere probabilisticamente la risposta
4
corretta all’item. La funzione con cui viene formalizzata tale relazione è detta Item Response
Function o anche Item Characteristic Curve (ICC), quest’ultima è generalmente una funzione
monotona crescente: al crescere del livello di abilità latente (θ ) maggiore è la probabilità di
rispondere correttamente all’item j ( )(θ
j
P ). E’ da evidenziare il fatto che se più individui
hanno la stessa abilità, questi avranno la stessa probabilità di rispondere correttamente
all’item. I modelli più noti dell’IRT fanno comunque riferimento ad una serie di ipotesi che
stanno alla base di tutta la teoria: le più importanti sono quelle di unidimensionalità e di
indipendenza locale, ma ne esistono altre che riguardano la ICC e le caratteristiche degli item
e che sono indispensabili per misurare la performance di un soggetto in un item. In questa
breve rassegna prenderemo in considerazione soltanto modelli IRT applicabili in presenza di
item dicotomici (per ogni item esistono due soli possibili punteggi 0/1) ricordando tuttavia
che sono state sviluppate estensioni degli stessi modelli al caso di item politomici (per ogni
item esistono più di due possibili punteggi).
2.1) Assunzioni fondamentali e terminologia
Unidimensionalità: Un presupposto comune di molti modelli dell’IRT è che una sola abilità
latente può essere misurata dagli item che fanno parte del test. Questa assunzione potrebbe
non essere considerata efficace poichè in realtà è noto che esistono diversi elementi che
caratterizzano “l’abilità” individuale, come ad esempio: la capacità logica, la personalità, altri
fattori emotivi che possono influire sulla performance di un individuo. Sebbene non tutti
questi elementi siano direttamente misurabili, ciò che è richiesto è che esista tra essi un fattore
“dominante” che sintetizza l’abilità (latente) del soggetto. Reckase (1979) suggerisce che la
unidimensionalità può essere investigata attraverso la metodologia dell’Analisi Fattoriale: si
può affermare che un test è unidimensionale se rappresentando graficamente gli autovalori
(dal più grande al più piccolo) della matrice di correlazione tra gli item, il primo di essi è ben
discriminato rispetto agli autovalori successivi. Un’altra possibilità è quella di calcolare il
rapporto tra il primo ed il secondo autovalore: se il risultato è al di sopra di un certo valore
critico, allora si considera valida l’ipotesi di unidimensionalità.
Indipendenza locale: Il concetto di fondo è il seguente: la risposta che un soggetto fornisce
in un item (giusta o sbagliata che sia) è statisticamente indipendente dalle risposte che egli
stesso fornisce in ogni altro item nel test. In breve, non esiste alcuna relazione tra l’item in sé
5
e la risposta ad esso associata! Si definisca con
i
θ l’abilità latente di un soggetto i
partecipante al test. Sia { }
jj
yY = la risposta data all’item j (per j = 1,2,… k) dal soggetto i
scelto a caso; sia )|(
ijj
yYP θ= la probabilità che tale soggetto con abilità
i
θ risponda
all’item j. Allora )|1(
ij
YP θ= denota la probabilità che il soggetto risponda correttamente
mentre )|0(
ij
YP θ= denota la probabilità che non risponda correttamente. La probabilità di
ottenere da quel soggetto una certa configurazione di risposte (pattern) in tutti gli item è pari,
per la proprietà di indipendenza locale, a:
∏
=
=
k
j
ijik
YPYYYP
1
21
)|()|,...,,( θθ
Consideriamo ad esempio un test consistente in 3 item ed un soggetto che risponde
correttamente soltanto alle prime due domande: la configurazione delle risposte è perciò
(1,1,0). Per la proprietà di indipendenza locale, la probabilità di ottenere tale pattern è pari a:
321321321
)|0()|1()|1()|0,1,1( QPPYPYPYPYYYP
iiii
======== θθθθ
dove: )|1(
ijj
YPP θ== e
jj
PQ −= 1
Mentre è possibile costruire un numero potenzialmente infinito di modelli teorici, soltanto
pochi sono attualmente utilizzati nella IRT. Un aspetto di primaria importanza che caratterizza
questi modelli risiede nel numero di parametri utilizzati per descrivere la funzione di risposta
agli item. La scelta appropriata del modello spetta al ricercatore, il quale deve tener conto non
solo delle assunzioni fondamentali ma deve anche controllare che il modello in questione si
adatti bene ai dati osservati. I tre modelli più famosi nell’ambito della Item Response Theory
sono detti One - Two - Three Parameter Logistic Model definiti tali a causa del numero di
parametri considerati. Come già riferito precedentemente, questi modelli sono appropriati solo
nel caso di item dicotomici.
6
2.2) One-Parameter Logistic Model (1PL)
Il modello 1PL (anche definito “modello di Rasch” dicotomico, con il contributo di Wright e
Stone dal 1977) è il modello più semplice probabilmente più utilizzato tra tutti i modelli IRT.
Il nome One-PL sta a significare che questo modello è in funzione di un
solo parametro dell’item: la sua difficoltà. Si ipotizza che questa possa essere la sola
caratteristica che influenza la performance di un soggetto. La item characteristic curve (ICC)
di questo modello è esplicitata dalla funzione:
)exp(1
)exp(
)(
ji
ji
ij
b
b
P
−+
−
=
θ
θ
θ j = 1,2, . . .k
La probabilità che un soggetto i risponda correttamente all’item j, )(
ij
P θ , dipende dalla
differenza tra l’abilità del soggetto )(
i
θ e la difficoltà dell’item ( ); visto che questa
differenza
j
b
)(
ji
b−θ è potenzialmente infinita, a fronte di )(
ij
P θ variabile tra 0 e 1, viene
specificato un legame logistico:
ji
ij
ij
ij
b
P
P
Pit −=
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−
= θ
θ
θ
θ
)(1
)(
ln))((log j = 1,2, . . .k
In tale ottica, la misura non è proporzionale alla probabilità di risposta ma alla corrispondente
trasformazione logit.
Fig.1: Rappresentazione della Item Characteristic Curve (ICC)
La fig.1 mostra l’andamento di una generica ICC al crescere del valore di
i
θ .
7
Notiamo che )(
ij
P θ aumenta (non linearmente) all’aumentare di )(
ji
b−θ , vale 0.5 quando
l’abilità del soggetto è uguale alla difficoltà dell’item j. Il parametro è quel valore di
j
b
i
θ
nella scala delle abilità cui corrisponde una probabilità di risposta corretta all’item j pari a 0.5.
Maggiore è il valore del parametro , maggiore dev’essere l’abilità del soggetto per riuscire
a rispondere correttamente all’item. Pertanto, la ICC di un item “difficile” è in genere
posizionata nella parte destra della scala delle abilità, quella di un item “facile” nella parte
sinistra della scala delle abilità. Quando la scala delle abilità viene standardizzata (con media
0 e deviazione standard 1) il valore di varia di solito tra -2.0 e +2.0. Valori di vicini -2.0
si riferiscono ad item molto facili, mentre valori vicini a +2.0 si riferiscono invece ad item
molto difficili.
j
b
j
b
j
b
Com’è possibile notare, il modello 1PL si basa su
assunzioni molto restrittive: non viene infatti
considerata nel modello la possibilità che il soggetto
possa “tirare a indovinare” manca cioè il parametro
cosiddetto di guessing e ne consegue che il valore
asintotico più basso della ICC è zero: questo
significa che i soggetti con abilità bassissima,
Fig.2: ICC ed equivalenza
ji
b=θ tendente a ∞− , hanno probabilità zero di rispondere
correttamente all’item j.
2.2.1) Test Response Function
In un piano cartesiano è ovviamente possibile
rappresentare più di una curva ICC. In fig.3 sono
riportate le curve ICC di 5 differenti item per il
modello 1PL: Ogni curva è caratteristica del
proprio item ed è definita dalla rispettiva item
response function che predice la probabilità che
un soggetto con una certa abilità (diciamo
i
θ )
Fig.3: ICC per 5 item diversi fornisca la risposta corretta all’item corrispondente.
8
[...]
3.1) Stima dell’abilità di un soggetto
Esistono due approcci differenti per stimare
i
θ se i valori dei parametri degli item sono noti:
il primo, quello più intuitivo, consiste nell’uguagliare il punteggio osservato di un soggetto
che risponde a tutti gli item del test con il punteggio teorico (o atteso) ricavabile dalla test
response function. Il secondo approccio consiste nello stimare
i
θ attraverso il metodo della
massima verosimiglianza sulla base della item response function. Dimostreremo in seguito
che i due approcci sono equivalenti poiché conducono agli stessi risultati.
Se si conoscono i valori dei parametri di ogni item, è possibile rappresentare univocamente
sul piano cartesiano la curva ICC di un generico item al variare di
i
θ . Nell’ipotesi di adottare
a titolo di esempio il modello di Rasch 1PL, si consideri un soggetto che deve rispondere a
cinque item. L’idea più semplice che ci permette di giungere alla stima della sua abilità è
prendere in considerazione il punteggio totale da lui realizzato nel test ed infine, attraverso la
test response function, determinare quel valore di
i
θ per cui:
i
k
j
iji
xPX ==Ε
∑
=1
)()( θ dove è il punteggio realmente osservato dal soggetto!
i
x
In altri termini, ad ogni punteggio teorico è associato un livello di abilità
i
θ .
Una proprietà tipica del modello di Rasch è che il punteggio osservato di un soggetto è una
statistica sufficiente per il parametro di abilità. Se due o più soggetti ottengono lo stesso
punteggio, la loro abilità stimata è equivalente. Nell’ipotesi di suddividere, preliminarmente
all’analisi, i soggetti in h gruppi, dove ognuno di essi è costituito da un numero di soggetti
aventi uguale punteggio osservato, ci si aspetterà di stimare h parametri di abilità.
[...]
17
Si dimostra ora che i due metodi di stima forniscono gli stessi risultati. La figura in basso
mostra le funzioni di verosimiglianza (in blu) di quattro soggetti che hanno fornito
rispettivamente le seguenti risposte ai cinque item considerati nell’esempio precedente:
(1,0,0,0,0) (1,1,0,0,0) (1,1,1,0,0) (1,1,1,1,0)
E’ stata anche inserita (in nero) la curva della test
response function utilizzata nell’esempio
precedente. E’ facile osservare che il massimo di
ogni funzione di verosimiglianza coincide
esattamente con i valori di
i
θ trovati con il metodo
precedente. Le stime di massima verosimiglianza
coincidono con quelle ottenute utilizzando il
metodo “diretto”.
Fig.13: Confronto tra i due approcci di stima di
i
θ
3.2) Stima dei parametri di un item
Nel descrivere le procedure di stima di
i
θ si è ipotizzato che i parametri di item fossero noti.
Allo stesso modo, per stimare i parametri di item è necessario considerare come noti i valori
delle abilità. Per stimare i parametri di un item, nell’ipotesi di conoscere i valori delle abilità
individuali, è necessario considerare le risposte all’item analizzato da parte di tutti i soggetti.
Siano i parametri dell’item j nell’ipotesi di un modello 3PL e sia n il numero di
soggetti rispondenti. Come nel caso precedente, si costruisce la funzione di verosimiglianza:
jjj
cba ,,
ii
y
i
n
i
y
ijjjn
QPcbayyyL
−
=
∏
=
1
1
21
),,|,...,,( [...]
21
3.2.2) Proprietà di “Item Invariance” nella stima delle abilità
L’idea centrale della IRT è quella di sviluppare modelli nei quali i tratti di un soggetto e degli
item siano parametrizzati separatamente. Una conseguenza di questo approccio è che i
parametri di un item possono essere stimati indipendentemente dal campione di soggetti
rispondenti (dei quali sia nota la distribuzione di abilità); come abbiamo già visto, questa
proprietà è definita group invariance. Un’altra conseguenza è che, al contrario, le abilità dei
diversi soggetti possono essere stimate indipendentemente dal tipo di test somministrato (di
difficoltà facile, media, difficile) di cui siano noti i valori dei parametri item specifici: questa
proprietà è definita invece item invariance.
3.3) Stima congiunta dei parametri di item e delle abilità dei soggetti
Fino a questo punto, abbiamo ipotizzato noti i valori di un sottoinsieme di parametri
supplementari allo scopo di semplificare le procedure di stima del parametro/i di interesse. In
realtà sia
i
θ (parametro abilità) sia (parametri item
jjj
cba ,, kj ,..,1=∀ ) sono ignoti; quello
che si conosce sono soltanto le risposte di tutti i soggetti agli item del test. Il problema è
valutare se ciò che si conosce è in realtà sufficiente a definire propriamente un modello
statistico che si adatti ai dati raccolti. La funzione di verosimiglianza quando n soggetti
rispondono a k item, sotto l’ipotesi di indipendenza locale e se si adotta un modello 3PL è:
ijij
y
ij
n
i
k
j
y
ij
QPcbayL
−
==
∏∏
=
1
11
),,,|( θ
dove ),...,,...,(
21 kj
yyyyy = è il pattern di risposte fornite ai k item
( ogni componente di y è costituita dal vettore di dimensione n: )',...,,(
21 nj
yyyy = )
dove )',...,,(
21 n
θθθθ = è il vettore delle abilità di tutti i soggetti, ),..,,(
21 k
aaaa = è il vettore
dei valori del parametro a di item, e la stessa cosa vale per i vettori b e c .
Il numero totale di parametri da stimare è quindi 3k + n, i cui valori, ricavati attraverso il
metodo di stima di massima verosimiglianza, non sono univocamente determinati in quanto la
funzione di verosimiglianza non ammette un unico punto di massimo. [...]
25
nessun soggetto risponde correttamente a quell’item. Queste peculiarità possono essere risolte
se nella procedura di stima si utilizzara a priori una distribuzione di probabilità per ogni
parametro: Swaminathan e Gifford (1982, 1985, 1986) hanno sviluppato alcune procedure
Bayesiane che arricchiscono i modelli parametrici 1-2-3PL assegnando ad ogni parametro del
modello una distribuzione di probabilità nota a priori. Se consideriamo che le abilità dei
soggetti rappresentano un campione casualmente estratto da una popolazione di valori che
gode di una certa distribuzione di probabilità nota, è possibile allora integrare le proprietà di
questa distribuzione nella funzione di verosimiglianza ottenendo così la cosiddetta funzione di
verosimiglianza marginale e cioè, relativamente al soggetto i e nell’ipotesi che la sua abilità
)g( ~
ii
θθ :
)(),,,|(),,|(
1
ijjji
k
j
iji
dGcbayfcbayL θθ
∫
∏
Θ
=
=
e più in generale, per tutti i soggetti: )(),,,|(),,|(
11
ijjji
n
i
k
j
ij
dGcbayfcbayL θθ
∫
∏∏
Θ
==
=
Gli stimatori ottenuti attraverso il metodo della massima verosimiglianza marginale godono
della proprietà asintotica di consistenza: al crescere del numero dei soggetti la probabilità che
lo stimatore dei parametri degli item abbia valore coincidente con il valore vero tende a uno.
Esiste però l’inconveniente che l’integrale nella funzione di verosimiglianza marginale spesso
non può essere trattato, ciò è dovuto alle difficoltà algebriche che esso pone. Tuttavia, grazie
alla maggiore disponibilità di risorse informatiche, a partire dagli anni '90, è stato possibile
superare tali difficoltà. È infatti possibile approssimare l’integrale in via numerica, utilizzando
una vasta gamma di applicazioni su un qualsiasi personal computer. Tra i metodi più diffusi vi
è il metodo di Quadratura Gaussiana che consiste nell’approssimare l’integrale con una serie
convergente di somme finite. Esistono altre procedure che intervengono direttamente
sull’integrando: l’idea principale è quella di approssimarlo in modo da rendere l’integrale
trattabile (metodo di Laplace, metodo quasi-likelihood). Secondo l’approccio Bayesiano, il
fatto di assegnare una distribuzione di probabilità a priori all’abilità
i
θ , che si presume
condizioni il vettore delle risposte di un soggetto i )',....,,(
21 ikiii
yyyy = , permette di definire
la distribuzione di probabilità a posteriori della stessa quantità dopo aver osservato l’evento
(teorema di Bayes). [...]
27
L’analisi dei casi disponibili consiste nell’usare il sottoinsieme di casi disponibili per la stima
di parametri distinti (available-case analysis). Il maggiore inconveniente di questo approccio
riguarda la possibile inconsistenza dei risultati di differenti analisi condotte sullo stesso
insieme di dati incompleti a causa del set di variabili usate nelle analisi (ad esempio la stima
della matrice di covarianza potrebbe non essere definita positiva).
L’approccio dell’imputazione singola è sicuramente quello più diffuso nella pratica corrente.
Esso consiste nell’assegnazione di un valore plausibile a ciascun valore mancante in modo da
ottenere un data set completo su cui differenti analisi, effettuate utilizzando strumenti statistici
standard, producono risultati consistenti. Nelle analisi longitudinali un metodo di imputazione
spesso utilizzato è il “Last Value Carried Forward” che consiste nell’assegnare al dato
mancante il valore dell’ultima osservazione nota.
Se si interpreta un test di apprendimento nell’ottica di un insieme di item collocati in ordine
crescente di difficoltà, è lecito prendere in considerazione l’ipotesi che un determinato
soggetto sia in grado di rispondere soltanto ad un numero limitato di item condizionatamente
alle sue conoscenze, riassunte dalla sua abilità. In particolare è possibile pensare di associare
ad ogni livello di abilità un intervallo critico di item entro il quale un determinato soggetto sia
in grado di rispondere con buona probabilità a tutti gli item di tale intervallo e
successivamente smetta di “collaborare”; tale peculiarità viene propriamente definita attrition.
Si suppone per semplicità che l’intervallo critico di item, associato ad ogni livello di abilità,
sia caratterizzato da un ceiling (item soffitto) che viene determinato secondo un criterio
prestabilito, ad esempio nel momento in cui si riscontra un certo numero di risposte errate in
una serie di item consecutivi. Può accadere a volte che non sia possibile determinare il ceiling
per alcuni soggetti con alta abilità: in tal caso l’ultimo item viene considerato
automaticamente come tale. Più formalmente, il problema può essere rappresentato come
segue: sia )',....,,(
21 ikiii
yyyy = il vettore binario delle risposte e delle “non risposte” del
soggetto i ai k item. Quest’ultimo si suppone perciò composto da due vettori:
O
i
y il vettore di
ordine J delle risposte osservate ( dove J è l’item che definisce il ceiling) ed
M
i
y , il vettore
di ordine ( k - J ) delle risposte mancanti. La funzione di verosimiglianza marginale,
nell’ipotesi che
i
θ goda di una certa distribuzione di probabilità )(
i
g θ , è definita sulla base
del vettore delle risposte osservate e mancanti: [...]
30