Capitolo 1
Introduzione
In molte attivit` a umane ci si trova nella situazione di dover mi-
surare una caratteristica di un soggetto. Spesso questa quantit` a
non ` e immediatamente visibile e per valutarla si ricorre ad un
test a risposta multipla; situazioni tipiche sono le seguenti:
• nellascuola,quandogliinsegnantidevonovalutarelaprepa-
razione degli studenti e le loro capacit` a nella maniera pi` u
oggettiva possibile, l’utilizzo di un test rende le cose pi` u
semplici;
• in ambito medico, soprattutto in psicologia o psichiatria,
dove i medici devono scoprire le condizioni mentali dei pro-
pri pazienti e cosa meglio di una serie di domande o di
un test scritto che dia delle risposte oggettive (es. dopo
aver mangiato come ti senti? a) depresso,b) nella norma,c)
felice);
• nel mondo del commercio o di chi offre dei servizi si stu-
dia il livello di soddisfazione del consumatore o di chi ha
4
usufruito di un servizio, e tramite un test si raggiunge
questo obbiettivo.
L’obbiettivodiquestatesi` edidiscuterecomesivalutanoirisul-
tatidiunteste, inparticolare,comeapartiredaquestirisultati
sipossonoricavareinformazioniutilisugliitemchecompongono
il test stesso.
Nelseguitochiameremosoggettigliindividuichevengonosot-
toposti al test, item i quesiti che compongono il test stesso e
punteggio grezzo il punteggio totale al test ottenuto dai sogget-
ti e rispettivamente il numero di risposte esatte ottenute dagli
item fra i vari soggetti a cui il test ` e stato sottoposto.
Ma come si leggono i risultati di un test? Come si ricavano
le informazioni sulle abilit` a dei soggetti? Come si pu` o valutare
se un item ` e significativo per stabilire l’abilit` a dei soggetti?
Prima di rispondere a queste domande bisogna capire quale
tipologiaditestandremoastudiare. Itestsonodiduetipologie,
dicotomica e politomica; nel primo caso la risposta ad un item
pu` o prendere solo due valori (corretta o sbagliata), mentre nel
secondo la risposta pu` o prendere pi` u di due valori. Quest’ulti-
mo caso ` e, ad esempio, molto utilizzato in ambito medico o di
valutazione di un servizio, dove, supponiamo, di voler sapere da
un utente se ` e molto, mediamente, poco o per nulla soddisfatto
dal servizio appena usufruito. Si tratta quasi sempre di situa-
zioni in cui la scala di risposte ` e graduata secondo una scala di
valori. Questasituazionesipresentararamenteinambitodidat-
tico, dove in genere si considera che una risposta possa essere
5
o giusta o sbagliata e difficilmente ci si avventura a supporre
diversi gradi di errore. Per questo motivo in questa tesi ci occu-
peremo soprattutto dei test dicotomici, anche se nel Capitolo 4
discuteremo brevementeiprincipalimodellipolitomici esistenti.
Le teorie esistenti che si occupano di analizzare le risposte ad
untestsonodue, quellaclassica(CTT)el’ItemResponseTheo-
ry (IRT). Nel caso di un test con risposte dicotomiche (giusta-
sbagliata) l’analisi dei risultati di un test basata sulla CTT si
basa su due coefficienti, p e r. p ` e la proporzione di risposte
corrette e viene usato per valutare le abilit` a dei soggetti. Di
fatto,aparteilfattochep` enormalizzatoperprenderevaloritra
0e1,non` ealtrocheilclassicovoto. Ilsecondo,r,` eilcoefficiente
dicorrelazioneempiricochemisuralacorrelazionetralarisposta
ad un singolo item ed il risultato globale. Questo parametro
viene usato per valutare la significativit` a di un particolare item.
La IRT si basa invece sull’ipotesi che un dato soggetto dia
una data risposta ad un dato item con una certa probabilit` a
che dipende da un parametro (l’abilit` a) del soggetto e da alcuni
parametri propri dell’item.
`
E infatti ragionevole supporre che ci
siano item pi` u difficili a cui ` e pi` u improbabile che un soggetto
siaingradodidarerispostesoddisfacentiesoggettipi` uabiliche
sono in grado di rispondere correttamente ai vari item. Per le
abilit` a diun soggetto abbiamosolamenteunparametrochiama-
to anche tratto latente, mentre per gli item i parametri variano
da uno a tre.
6
θ rappresenta il tratto latente, cio` e l’abilit` a di un soggetto di
rispondere correttamente agli item presenti in un test. Il para-
metroadidiscriminazionediunitemcheindicaquantounitem
` eingradodifareselezionefraivaricandidati,pi` u` ealtoilvalore
dia, pi` u a piccole variazioni delle abilit` a corrisponde un’elevata
variazione delle probabilit` a di dare una risposta soddisfacente.
Il parametro b, il pi` u importante, che indica la difficolt` a di un
item, pi` u` e alto il valore dib pi` u l’item` e difficile. Infine, il para-
metro c che esprime la possibilit` a che qualcuno con bassi valori
diθ possa rispondere positivamente, ma a caso, ad un item, pi` u
` e alto il valore dic, meno attendibile ` e l’item per la valutazione
delle risposte associate.
La teoria IRT fornisce anche degli strumenti grafici che ren-
dono lo studio pi` u semplice e pi` u immediato.
L’ItemCharacteristicCurve(ICC),adesempio,` elacurvapi` u
importante della teoria IRT, in quanto descrive la probabilit` a di
rispondere correttamente ad un prefissato item al variare della
variabile θ. Dalla ICC si pu` o calcolare direttamente il valore
del parametro b di difficolt` a di un item. Come vedremo, la
ICC permette un immediato confronto fra due item. Infatti dal
confronto delle ICC di due item differenti si pu` o osservare se
questi hanno una diversa difficolt` a e chi dei due ` e pi` u difficile
e se questi hanno una diversa discriminazione e chi dei due ha
una capacit` a discriminatoria pi` u alta.
Il Test Characteristic Curve (TCC) non ` e altro che la som-
ma delle probabilit` a di rispondere correttamente a pi` u item al
7
variare della variabileθ, in altre parole sarebbe l’ICC di un test.
Infine c’` e la Information function che ` e una funzione che
fornisce un intervallo delle abilit` a dei soggetti dove l’item in
questione ` e in grado di effettuare una maggiore selezione. In
altre parole dal massimo della funzione di informazione rica-
viamo il valore medio delle abilit` a dei soggetti in cui l’item fa
selezione. Pi` u ` e grande il valore del massimo della funzione di
informazione maggiore sar` a la capacit` a di discriminazione del
test nell’intervallo delle abilit` a corrispondenti.
Aconfermadiquestoruolodicontrollodell’Informationfunc-
tion, ` e la definizione della funzione dello Standard error esti-
mation (SEM) di un test, che ` e definito come l’inverso della
radice della funzione di informazione. Pi` u` e grande il valore del-
la funzione di informazione minore ` e l’errore commesso durante
i processi di stima.
La IRT ha vari modelli che variano a seconda di quanti pa-
rametri intervengono.
Il modello logistico semplice di Rasch ` e, come dice il nome,
il pi` u semplice; i parametri da stimare sono solamente due le
abilit` adelsoggetto(θ)eledifficolt` adegliitem(b). Ilparametro
di discriminazione ` e fissato e rimane costante per tutti gli item
come a = 1.
Il One-parameter logistic model (1PL) ` e un modello molto
simile a quello di Rasch anche se qui i parametri da stimare
sono tre le abilit` aθ, il parametrob delle difficolt` a e il parametro
della discriminazione a, che ` e ancora uguale per tutti gli item
8
di un test, ma, a differenza del modello di Rasch, pu` o assumere
qualsiasi valore reale maggiore o uguale a zero.
IlTwo-parameterlogisticmodel(2PL)` eprobabilmenteilpi` u
usato; i parametri da stimare sono sempre tre, le abilit` a θ, il
parametro b delle difficolt` a e il parametro a di discriminazione
che per` o, in questo caso, varia fra item ed item.
Il Three-parameter logistic model (3PL) dove i parametri
sono quattro, le abilit` aθ, il parametrob delle difficolt` a, il para-
metro a di discriminazione e il parametro c di risposta casuale.
Nel Capitolo 2 viene introdotto come primo esempio di modello
basato sull’IRT, il modello logistico di Rasch. In esso, parti-
colarmente semplice, compaiono solo i parametri θ
i
(abilit` a del
soggettoi-esimo)eb
j
(difficolt` adell’itemj-esimo). Nevienefat-
ta un’analisi approfondita, mettendone in evidenza le propriet` a
statistiche, come la presenza di statistiche sufficienti (che sono i
punteggi grezzi). Vengono descritti i metodi per la derivazione
degli stimatori introducendo il classico metodo della Massima
Verosimiglianza(MV)equellicos` ıdettidellaMassimaVerosimi-
glianza Condizionata (CMV) e il metodo della Massima Verosi-
miglianzaMarginale(MM),motivandonel’usograzieairisultati
sulla consistenza e sulla normalit` a asintotica di questi stimatori
che abbiamo trovato nella letteratura.
Nel Capitolo 3 viene descritta la teoria generale dell’Item Res-
ponse Theory (IRT), prima in generale, parlando dei due pos-
tulati o assunzioni della teoria e dei grafici che permettono un
9
migliorestudiodeirisultatiottenuti. IlmodellodiRaschstudia-
tonelprimocapitolorisultaquindiessereunesempioparticolar-
mente semplice di modello statistico basato sull’IRT. Possiamo
ora quindi introdurre modelli pi` u complessi che cercano di mo-
dellizzarenonsololadifficolt` adegliitem,ma,adesempio,anche
lelorocapacit` adidiscriminazione. Sitrattadeimodellilogistici
(1PL), (2PL) e (3PL) descritti precedentemente.
Si tratta comunque sempre di modelli dicotomici particolar-
menteadattiadunusopervalutazioniinambitodidattico. An-
che in questo caso, il passo successivo ` e quello di trovare un
metodo per la stima dei parametri e nuovamente si fa ricorso
al metodo della Massima Verosimiglianza, anche se ora i pun-
teggi grezzi non sono pi` u statistiche sufficienti, il che implica in
particolare che, con questi modelli, soggetti che prenderebbero
lo stesso voto, si possono veder attribuire dal modello abilit` a
differenti.
Nel Capitolo 4, per completezza, vengono descritti in modo in-
troduttivo alcuni fra i modelli politomici pi` u utilizzati. Come
indicato precedentemente questi modelli sono usati soprattutto
in ambito medico e commerciale.
I modelli politomici vengono presentati in due paragrafi, nel
primo quelli che si sono sviluppati a partire dal 1961 dopo la
presentazione a Berkeley di Rasch; nel secondo quelli classici
basati sulla teoria generale dei modelli IRT.
Questadivisionepu` osembrarebizzarra, vistochei modelli di
Rasch sono dei casi particolari dei modelli IRT, ma le differenze
10
sono legate al ruolo che hanno i punteggi grezzi che nel primo
paragrafo, come per il modello logistico semplice di Rash (Capi-
tolo2),sonostatistichesufficienti,mentrenelsecondo,comeper
i modelli IRT del Capitolo 3, non lo sono pi` u.
Nel Capitolo 5 passiamo in rivista alcuni dei software statistici
presenti sul mercato (o su internet) quali, Winsteps, Param-
3PL, Bilog e il software statistico R che sfrutta la routine ltm;
successivamente li confronteremo utilizzandoli per l’analisi di
due test proposti nel 2005 e nel 2006 agli studenti neo inscritti
alla Facolt` a di scienze dell’Universit` a di Tor Vergata. Infine
abbiamo provato a dare delle linee guida per l’analisi dei vari
esercizi in base ai parametri stimati dai software e, grazie al
testo di questi esercizi riportato in Appendice, abbiamo cercato
di classificarli anche per argomento trattato.
11
Capitolo 2
Il modello logistico semplice di
Rasch
In questo capitolo introduciamo e studiamo un primo modello
statistico fondato sull’Item Response Theory, che descriveremo
dettagliatamente nel capitolo successivo.
2.1 Introduzione al modello
In un problema di statistica siamo in presenza di alcune osser-
vazionix
1
,x
2
,...,x
n
che si modellizzano come valori assunti da
una famiglia X
1
,X
2
,...,X
n
di variabili aleatorie la cui legge
dipende da un parametro μ che varia in un insieme Θ. Per
dare un significato rigoroso a quanto appena detto definiamo il
modello statistico come,
Definizione 1 Un modello statistico ` e uno spazio
(Ω,A,(P
μ
)
μ∈Θ
), doveΩ` e un insieme,A` e unaσ-algebra di parti
su Ω e P
μ
` e una probabilit` a di A che dipende da un parametro
μ.
12