La Item Response Theory si sviluppa per ovviare ai problemi rappresentati dalla Classical 
Test Theory e, a partire dal 1960, viene perfezionata e approfondita collocandosi 
prevalentemente nella tradizione della teoria dei test educativi e psicometrici (educational 
testing). Oggigiorno, la IRT è comunemente utilizzata dalle più grandi compagnie, industrie e 
istituti di ricerca negli Stati Uniti e in Europa per la progettazione, assemblaggio e calibratura 
dei test in quanto prevede una metodologia estremamente potente e flessibile in grado di 
fornire soluzioni adeguate ai problemi di misura e di valutazione. Ciò che distingue 
sostanzialmente la IRT dalla CTT è il superamento del concetto di dipendenza tra soggetto e 
item ma esistono molte altre differenze: nella IRT l’abilità latente di un soggetto è 
indipendente dal tipo di test, ossia il punteggio ottenuto da un soggetto non dipende dal 
particolare set di domande somministratigli. Vale anche il contrario: le caratteristiche di un 
item non dipendono dal particolare gruppo di soggetti rispondenti. La relazione tra “abilità di 
un soggetto” e “probabilità di rispondere correttamente ad un item” è esplicitata da una 
funzione di probabilità di forma nota e questo significa che è possibile definire un livello 
probabilistico per ogni item piuttosto che un livello probabilistico complessivo di tutto il test. 
Per questi ed altri motivi ancora, la IRT ha trovato terreno più fertile rispetto alla CTT. 
 
2) IRT: Concetti principali e modelli teorici 
 
L’approccio più comune per misurare l’abilità di un soggetto è quello di somministrargli un 
questionario consistente in un numero di item e di calcolare il punteggio ottenuto. Da un 
punto di vista prettamente teorico, ogni item dovrebbe essere strutturato a risposta aperta in 
maniera che il soggetto possa esplicitare liberamente la risposta che crede corretta; 
generalmente, se la risposta fornita è effettivamente quella corretta allora egli riceve un 
punteggio pari ad uno altrimenti riceve un punteggio pari a zero: in questo modo ogni item è 
reso dicotomico (0/1). Da un punto di vista pratico, le risposte fornite agli item a risposta 
aperta possono essere soggette ad errori di interpretazione o di scrittura; pertanto, è preferibile 
utilizzare item a risposta chiusa a scelta multipla nei quali viene presentata una serie di 
risposte possibili di cui una sola è la risposta corretta (le altre vengono definite “distrattori”). 
Si noti che anche in questo caso ogni item è dicotomico e ciò non significa necessariamente 
che le possibili risposte al suo interno devono per forza essere due. Nella IRT sono stati 
sviluppati diversi modelli teorici per la specificazione della relazione tra caratteristiche 
dell’item e abilità dei soggetti, in modo da poter prevedere probabilisticamente la risposta 
 4
corretta all’item. La funzione con cui viene formalizzata tale relazione è detta Item Response 
Function o anche Item Characteristic Curve (ICC), quest’ultima è generalmente una funzione 
monotona crescente: al crescere del livello di abilità latente (θ ) maggiore è la probabilità di 
rispondere correttamente all’item j ( )(θ
j
P  ). E’ da evidenziare il fatto che se più individui 
hanno la stessa abilità, questi avranno la stessa probabilità di rispondere correttamente 
all’item. I modelli più noti dell’IRT fanno comunque riferimento ad una serie di ipotesi che 
stanno alla base di tutta la teoria: le più importanti sono quelle di unidimensionalità e di 
indipendenza locale, ma ne esistono altre che riguardano la ICC e le caratteristiche degli item 
e che sono indispensabili per misurare la performance di un soggetto in un item. In questa 
breve rassegna prenderemo in considerazione soltanto modelli IRT applicabili in presenza di 
item dicotomici (per ogni item esistono due soli possibili punteggi 0/1) ricordando tuttavia 
che sono state sviluppate estensioni degli stessi modelli al caso di item politomici (per ogni 
item esistono più di due possibili punteggi). 
 
2.1) Assunzioni fondamentali e terminologia 
 
Unidimensionalità: Un presupposto comune di molti modelli dell’IRT è che una sola abilità 
latente può essere misurata dagli item che fanno parte del test. Questa assunzione potrebbe 
non essere considerata efficace poichè in realtà è noto che esistono diversi elementi che 
caratterizzano “l’abilità” individuale, come ad esempio: la capacità logica, la personalità, altri 
fattori emotivi che possono influire sulla performance di un individuo. Sebbene non tutti 
questi elementi siano direttamente misurabili, ciò che è richiesto è che esista tra essi un fattore 
“dominante” che sintetizza l’abilità (latente) del soggetto. Reckase (1979) suggerisce che la 
unidimensionalità può essere investigata attraverso la metodologia dell’Analisi Fattoriale: si 
può affermare che un test è unidimensionale se rappresentando graficamente gli autovalori 
(dal più grande al più piccolo) della matrice di correlazione tra gli item, il primo di essi è ben 
discriminato rispetto agli autovalori successivi. Un’altra possibilità è quella di calcolare il 
rapporto tra il primo ed il secondo autovalore: se il risultato è al di sopra di un certo valore 
critico, allora si considera valida l’ipotesi di unidimensionalità. 
 
Indipendenza locale: Il concetto di fondo è il seguente: la risposta che un soggetto fornisce 
in un item (giusta o sbagliata che sia) è statisticamente indipendente dalle risposte che egli 
stesso fornisce in ogni altro item nel test. In breve, non esiste alcuna relazione tra l’item in sé 
 5
e la risposta ad esso associata! Si definisca con 
i
θ  l’abilità latente di un soggetto i 
partecipante al test. Sia { }
jj
yY =  la risposta data all’item j (per j = 1,2,… k) dal soggetto i 
scelto a caso; sia )|(
ijj
yYP θ=  la probabilità che tale soggetto con abilità 
i
θ  risponda 
all’item j. Allora )|1(
ij
YP θ=  denota la probabilità che il soggetto risponda correttamente 
mentre )|0(
ij
YP θ=  denota la probabilità che non risponda correttamente. La probabilità di 
ottenere da quel soggetto una certa configurazione di risposte (pattern) in tutti gli item è pari, 
per la proprietà di indipendenza locale, a: 
 
∏
=
=
k
j
ijik
YPYYYP
1
21
)|()|,...,,( θθ  
 
Consideriamo ad esempio un test consistente in 3 item ed un soggetto che risponde 
correttamente soltanto alle prime due domande: la configurazione delle risposte è perciò 
(1,1,0). Per la proprietà di indipendenza locale, la probabilità di ottenere tale pattern è pari a: 
 
321321321
)|0()|1()|1()|0,1,1( QPPYPYPYPYYYP
iiii
======== θθθθ   
dove: )|1(
ijj
YPP θ==  e 
jj
PQ −= 1  
 
Mentre è possibile costruire un numero potenzialmente infinito di modelli teorici, soltanto 
pochi sono attualmente utilizzati nella IRT. Un aspetto di primaria importanza che caratterizza 
questi modelli risiede nel numero di parametri utilizzati per descrivere la funzione di risposta 
agli item. La scelta appropriata del modello spetta al ricercatore, il quale deve tener conto non 
solo delle assunzioni fondamentali ma deve anche controllare che il modello in questione si 
adatti bene ai dati osservati. I tre modelli più famosi nell’ambito della Item Response Theory 
sono detti One - Two - Three Parameter Logistic Model definiti tali a causa del numero di 
parametri considerati. Come già riferito precedentemente, questi modelli sono appropriati solo 
nel caso di item dicotomici. 
 
 
 
 
 6
2.2) One-Parameter Logistic Model  (1PL) 
 
Il modello 1PL (anche definito “modello di Rasch” dicotomico, con il contributo di Wright e 
Stone dal 1977) è il modello più semplice probabilmente più utilizzato tra tutti i modelli IRT. 
Il nome One-PL sta a significare che questo modello è in funzione di un 
solo parametro dell’item: la sua difficoltà. Si ipotizza che questa possa essere la sola 
caratteristica che influenza la performance di un soggetto. La item characteristic curve (ICC) 
di questo modello è esplicitata dalla funzione: 
 
)exp(1
)exp(
)(
ji
ji
ij
b
b
P
−+
−
=
θ
θ
θ                          j = 1,2, . . .k 
 
La probabilità che un soggetto i  risponda correttamente all’item j, )(
ij
P θ , dipende dalla 
differenza tra l’abilità del soggetto )(
i
θ  e la difficoltà dell’item ( ); visto che questa 
differenza 
j
b
)(
ji
b−θ  è potenzialmente infinita, a fronte di )(
ij
P θ  variabile tra 0 e 1, viene 
specificato un legame logistico: 
 
ji
ij
ij
ij
b
P
P
Pit −=
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
−
= θ
θ
θ
θ
)(1
)(
ln))((log                           j = 1,2, . . .k  
 
In tale ottica, la misura non è proporzionale alla probabilità di risposta ma alla corrispondente 
trasformazione logit. 
 
Fig.1: Rappresentazione della Item Characteristic Curve (ICC) 
 
La fig.1 mostra l’andamento di una generica ICC al crescere del valore di 
i
θ . 
 7
Notiamo che )(
ij
P θ  aumenta (non linearmente) all’aumentare di )(
ji
b−θ , vale 0.5 quando 
l’abilità del soggetto è uguale alla difficoltà dell’item j. Il parametro  è quel valore di 
j
b
i
θ
 
nella scala delle abilità cui corrisponde una probabilità di risposta corretta all’item j pari a 0.5. 
Maggiore è il valore del parametro , maggiore dev’essere l’abilità del soggetto per riuscire 
a rispondere correttamente all’item. Pertanto, la ICC di un item “difficile” è in genere 
posizionata nella parte destra della scala delle abilità,  quella di un item “facile” nella parte 
sinistra della scala delle abilità. Quando la scala delle abilità viene standardizzata (con media 
0 e deviazione standard 1) il valore di  varia di solito tra -2.0 e +2.0. Valori di  vicini -2.0 
si riferiscono ad item molto facili, mentre valori vicini a +2.0 si riferiscono invece ad item 
molto difficili. 
j
b
j
b
j
b
 
Com’è possibile notare, il modello 1PL si basa su 
assunzioni molto restrittive: non viene infatti 
considerata nel modello la possibilità che il soggetto 
possa “tirare a indovinare” manca cioè il parametro 
cosiddetto di guessing e ne consegue che il valore 
asintotico più basso della ICC è zero: questo  
significa che i soggetti con abilità  bassissima,   
Fig.2: ICC ed equivalenza 
ji
b=θ      tendente a ∞− , hanno probabilità zero  di rispondere  
                                                     correttamente all’item j. 
 
2.2.1) Test Response Function 
 
In un piano cartesiano è ovviamente possibile 
rappresentare più di una curva ICC. In fig.3 sono 
riportate le curve ICC di 5 differenti item per il 
modello 1PL: Ogni curva è caratteristica del 
proprio item ed è definita dalla rispettiva item 
response function   che predice la probabilità che 
un soggetto con una certa abilità  (diciamo 
i
θ ) 
 Fig.3:  ICC per 5 item diversi                  fornisca la risposta corretta all’item corrispondente. 
 
 8
[...]
 
3.1) Stima dell’abilità di un soggetto 
 
Esistono due approcci differenti per stimare 
i
θ  se i valori dei parametri degli item sono noti: 
il primo, quello più intuitivo, consiste nell’uguagliare il punteggio osservato di un soggetto 
che risponde a tutti gli item del test con il punteggio teorico (o atteso) ricavabile dalla test 
response function. Il secondo approccio consiste nello stimare 
i
θ  attraverso il metodo della 
massima verosimiglianza sulla base della item response function. Dimostreremo in seguito 
che i due approcci sono equivalenti poiché conducono agli stessi risultati. 
 
Se si conoscono i valori dei parametri di ogni item, è possibile rappresentare univocamente 
sul piano cartesiano la curva ICC di un generico item al variare di 
i
θ . Nell’ipotesi di adottare 
a titolo di esempio il modello di Rasch 1PL, si consideri un soggetto che deve rispondere a 
cinque item. L’idea più semplice che ci permette di giungere alla stima della sua abilità è 
prendere in considerazione il punteggio totale da lui realizzato nel test ed infine, attraverso la 
test response function, determinare quel valore di 
i
θ  per cui:  
i
k
j
iji
xPX ==Ε
∑
=1
)()( θ    dove  è il punteggio realmente osservato dal soggetto! 
i
x
 
In altri termini, ad ogni punteggio teorico è associato un livello di abilità 
i
θ . 
 
Una proprietà tipica del modello di Rasch è che il punteggio osservato di un soggetto è una 
statistica sufficiente per il parametro di abilità. Se due o più soggetti ottengono lo stesso 
punteggio, la loro abilità stimata è equivalente. Nell’ipotesi di suddividere, preliminarmente 
all’analisi, i soggetti in h gruppi, dove ognuno di essi è costituito da un numero di soggetti 
aventi uguale punteggio osservato, ci si aspetterà di stimare h parametri di abilità.
    [...]
 17
Si dimostra ora che i due metodi di stima forniscono gli stessi risultati. La figura in basso 
mostra le funzioni di verosimiglianza (in blu) di quattro soggetti che hanno fornito 
rispettivamente le seguenti risposte ai cinque item considerati nell’esempio precedente: 
(1,0,0,0,0)  (1,1,0,0,0)  (1,1,1,0,0)  (1,1,1,1,0) 
 
 
E’ stata anche inserita (in nero) la curva della test 
response function utilizzata nell’esempio 
precedente. E’ facile osservare che il massimo di 
ogni funzione di verosimiglianza coincide 
esattamente con i valori di 
i
θ  trovati con il metodo 
precedente. Le stime di massima verosimiglianza 
coincidono con quelle ottenute utilizzando il 
metodo “diretto”. 
Fig.13: Confronto tra i due approcci di stima di 
i
θ  
 
 
 
 
3.2) Stima dei parametri di un item 
 
Nel descrivere le procedure di stima di 
i
θ  si è ipotizzato che i parametri di item fossero noti. 
Allo stesso modo, per stimare i  parametri di item è necessario considerare come noti i valori 
delle abilità. Per stimare i parametri di un item, nell’ipotesi di conoscere i valori delle abilità 
individuali, è necessario considerare le risposte all’item analizzato da parte di tutti i soggetti. 
Siano  i parametri dell’item j nell’ipotesi di un modello 3PL e sia n il numero di 
soggetti rispondenti. Come nel caso precedente, si costruisce la funzione di verosimiglianza:  
jjj
cba ,,
 
ii
y
i
n
i
y
ijjjn
QPcbayyyL
−
=
∏
=
1
1
21
),,|,...,,(                                                                                  [...]
 
 21
3.2.2) Proprietà di “Item Invariance” nella stima delle abilità 
 
L’idea centrale della IRT è quella di sviluppare modelli nei quali i tratti di un soggetto e degli 
item siano parametrizzati separatamente. Una conseguenza di questo approccio è che i 
parametri di un item possono essere stimati indipendentemente dal campione di soggetti 
rispondenti (dei quali sia nota la distribuzione di abilità); come abbiamo già visto, questa 
proprietà è definita group invariance. Un’altra conseguenza è che, al contrario, le abilità dei 
diversi soggetti possono essere stimate indipendentemente dal tipo di test somministrato (di 
difficoltà facile, media, difficile) di cui siano noti i valori dei parametri item specifici: questa 
proprietà è definita invece item invariance. 
 
 
3.3) Stima congiunta dei parametri di item e delle abilità dei soggetti 
 
Fino a questo punto, abbiamo ipotizzato noti i valori di un sottoinsieme di parametri 
supplementari allo scopo di semplificare le procedure di stima del parametro/i di interesse. In 
realtà sia 
i
θ  (parametro abilità) sia   (parametri item 
jjj
cba ,, kj ,..,1=∀ ) sono ignoti; quello 
che si conosce sono soltanto le risposte di tutti i soggetti agli item del test. Il problema è 
valutare se ciò che si conosce è in realtà sufficiente a definire propriamente un modello 
statistico che si adatti ai dati raccolti. La funzione di verosimiglianza quando n soggetti 
rispondono a k item, sotto l’ipotesi di indipendenza locale e se si adotta un modello 3PL è: 
 
ijij
y
ij
n
i
k
j
y
ij
QPcbayL
−
==
∏∏
=
1
11
),,,|( θ  
dove ),...,,...,(
21 kj
yyyyy =  è il pattern di risposte fornite ai  k  item 
( ogni componente di y  è costituita dal vettore di dimensione n: )',...,,(
21 nj
yyyy =   ) 
dove )',...,,(
21 n
θθθθ =  è il vettore delle abilità di tutti i soggetti, ),..,,(
21 k
aaaa =  è il vettore 
dei valori del parametro a di item, e la stessa cosa vale per i vettori b e c . 
 
Il numero totale di parametri da stimare è quindi 3k + n, i cui valori, ricavati attraverso il 
metodo di stima di massima verosimiglianza, non sono univocamente determinati in quanto la 
funzione di verosimiglianza non ammette un unico punto di massimo.     [...]
 25
nessun soggetto risponde correttamente a quell’item. Queste peculiarità possono essere risolte 
se nella procedura di stima si utilizzara a priori una distribuzione di probabilità per ogni 
parametro: Swaminathan e Gifford (1982, 1985, 1986) hanno sviluppato alcune procedure 
Bayesiane che arricchiscono i modelli parametrici 1-2-3PL assegnando ad ogni  parametro del 
modello una distribuzione di probabilità nota a priori. Se consideriamo che le abilità dei 
soggetti rappresentano un campione casualmente estratto da una popolazione di valori che 
gode di una certa distribuzione di probabilità nota, è possibile allora integrare le proprietà di 
questa distribuzione nella funzione di verosimiglianza ottenendo così la cosiddetta funzione di 
verosimiglianza marginale e cioè, relativamente al soggetto i e nell’ipotesi che la sua abilità 
)g( ~
ii
θθ : 
)(),,,|(),,|(
1
ijjji
k
j
iji
dGcbayfcbayL θθ
∫
∏
Θ
=
=    
 e più in generale, per tutti i soggetti: )(),,,|(),,|(
11
ijjji
n
i
k
j
ij
dGcbayfcbayL θθ
∫
∏∏
Θ
==
=  
 
Gli stimatori ottenuti attraverso il metodo della massima verosimiglianza marginale godono 
della proprietà asintotica di consistenza: al crescere del numero dei soggetti la probabilità che 
lo stimatore dei parametri degli item abbia valore coincidente con il valore vero tende a uno. 
Esiste però l’inconveniente che l’integrale nella funzione di verosimiglianza marginale spesso 
non può essere trattato, ciò è dovuto alle difficoltà algebriche che esso pone. Tuttavia, grazie 
alla maggiore disponibilità di risorse informatiche, a partire dagli anni  '90, è stato possibile 
superare tali difficoltà. È infatti possibile approssimare l’integrale in via numerica, utilizzando 
una vasta gamma di applicazioni su un qualsiasi personal computer. Tra i metodi più diffusi vi 
è il metodo di Quadratura Gaussiana che consiste nell’approssimare l’integrale con una serie 
convergente di somme finite. Esistono altre procedure che intervengono direttamente 
sull’integrando: l’idea principale è quella di approssimarlo in modo da rendere l’integrale 
trattabile (metodo di Laplace, metodo quasi-likelihood). Secondo l’approccio Bayesiano, il 
fatto di assegnare una distribuzione di probabilità a priori all’abilità 
i
θ , che si presume 
condizioni il vettore delle risposte di un soggetto i )',....,,(
21 ikiii
yyyy = ,  permette di definire 
la distribuzione di probabilità a posteriori della stessa quantità dopo aver osservato l’evento 
(teorema di Bayes).                                            [...]
 
 
 27
L’analisi dei casi disponibili consiste nell’usare il sottoinsieme di casi disponibili per la stima 
di parametri distinti (available-case analysis). Il maggiore inconveniente di questo approccio 
riguarda la possibile inconsistenza dei risultati di differenti analisi condotte sullo stesso 
insieme di dati incompleti a causa del set di variabili usate nelle analisi (ad esempio la stima 
della matrice di covarianza potrebbe non essere definita positiva).  
 
L’approccio dell’imputazione singola è sicuramente quello più diffuso nella pratica corrente. 
Esso consiste nell’assegnazione di un valore plausibile a ciascun valore mancante in modo da 
ottenere un data set completo su cui differenti analisi, effettuate utilizzando strumenti statistici 
standard, producono risultati consistenti. Nelle analisi longitudinali un metodo di imputazione 
spesso utilizzato è il “Last Value Carried Forward” che consiste nell’assegnare al dato 
mancante il valore dell’ultima osservazione nota. 
 
Se si interpreta un test di apprendimento nell’ottica di un insieme di item collocati in ordine 
crescente di difficoltà, è lecito prendere in considerazione l’ipotesi che un determinato 
soggetto sia in grado di rispondere soltanto ad un numero limitato di item condizionatamente 
alle sue conoscenze, riassunte dalla sua abilità. In particolare è possibile pensare di associare 
ad ogni livello di abilità un intervallo critico di item entro il quale un determinato soggetto sia 
in grado di rispondere con buona probabilità a tutti gli item di tale intervallo e 
successivamente smetta di “collaborare”; tale peculiarità viene propriamente definita attrition. 
Si suppone per semplicità che l’intervallo critico di item, associato ad ogni livello di abilità, 
sia caratterizzato da un ceiling (item soffitto) che viene determinato secondo un criterio 
prestabilito, ad esempio nel momento in cui si riscontra un certo numero di risposte errate in 
una serie di item consecutivi. Può accadere a volte che non sia possibile determinare il ceiling 
per alcuni soggetti con alta abilità: in tal caso l’ultimo item viene considerato 
automaticamente come tale. Più formalmente, il problema può essere rappresentato come 
segue: sia )',....,,(
21 ikiii
yyyy =  il vettore binario delle risposte e delle “non risposte” del 
soggetto i ai k item. Quest’ultimo si suppone perciò composto da due vettori: 
O
i
y  il vettore di 
ordine J  delle risposte osservate ( dove J è l’item che definisce il ceiling) ed 
M
i
y , il vettore 
di ordine ( k - J ) delle risposte mancanti. La funzione di verosimiglianza marginale, 
nell’ipotesi che 
i
θ  goda di una certa distribuzione di probabilità )(
i
g θ , è definita sulla base 
del vettore delle risposte osservate e mancanti:                           [...]
 30