Introduzione
2
giudizio poggia su elementi ritenuti validi e attendibili. Ma perché
questa diversità di giudizio? Che cosa si valuta? Come si valuta? Quali
strumenti si utilizzano?
Per tentare di rispondere a tali domande, con la guida del Professor
Benedetto Vertecchi, è stata da me realizzata una ricerca sul campo,
finalizzata a fornire informazioni utili su come evitare o ridurre errori di
giudizio e di valutazione dovuti alla componente soggettiva
dell’esaminatore.
Di fatto l’oggetto di studio di questa tesi è la metrologia della
valutazione, ovvero la scienza che studia i problemi inerenti la
misurazione e quindi la scelta delle unità di misura e dei sistemi di
misurazione. In campo valutativo rappresenta il momento
dell’accertamento delle prestazioni, seguito dalla valutazione vera e
propria che porta all’emissione del giudizio. Essa consente di
rappresentare al più basso livello possibile di ambiguità una certa realtà,
facilitando così la conoscenza e l’interpretazione dei fenomeni.
Nel primo capitolo, Metrologia della valutazione: cos’è, perché, si
analizzano i termini metrologia e docimologia, mettendone in evidenza
la forte connessione in campo educativo. Si continua il discorso sulla
docimologia e le sue origini: dove e quando nasce, la prima ricerca
docimologica, chi ha coniato il temine. La Francia è il paese di origine
della scienza della valutazione, ed Henri Piéron è considerato
Introduzione
3
generalmente il padre della docimologia avendone appunto coniato il
termine. In una ricerca da lui condotta nel 1922 insieme alla moglie e
all’amico Laugier, emerse che i voti riportati dagli allievi agli esami di
scuola elementare presentavano una correlazione quasi nulla con i
risultati degli scrutini finali. Si dimostrava che gli esami così concepiti
verificavano altro dalle abilità e dai saperi che si intendevano sottoporre
a controllo. In seguito, con l’inchiesta internazionale del 1931 promossa
dalla Carnegie Corporation di New York sull’affidabilità degli esami e dei
concorsi, si affrontò anche il problema della fedeltà dei voti in caso di
ripetizione dell’esame o di cambiamento di esaminatori.
In Italia uno studio sperimentale denominato Metrologia generale
delle prove scritte è stato coordinato dal Prof. Raimondo Bolletta
nell’ambito delle attività di studio e di ricerca condotte sulla sessione
2000 degli Esami di Stato all’interno dell’ONES, Osservatorio Nazionale
degli Esami di Stato, istituito presso il CEDE – Centro Europeo
Dell’Educazione – ora INValSI – Istituto Nazionale per la Valutazione del
Sistema dell’Istruzione – con D.P.R. 323 del 23 luglio 1998, con il
compito di monitorare, verificare e valutare l’applicazione della nuova
disciplina degli Esami di Stato conclusivi dei corsi di studio di istruzione
secondaria superiore e di costituire un supporto permanente per le
commissioni di esame per quanto riguarda la predisposizione della terza
prova scritta. Obiettivi dello studio sono: quantificare l’errore di misura
Introduzione
4
delle operazioni di assegnazione di punteggi alle prove scritte
dell’esame di stato; determinare i fattori che influenzano l’ampiezza di
tale errore; individuare strategie di miglioramento della precisione delle
valutazioni, compatibili con le modalità di esecuzione degli esami.
In definitiva scopo degli studi e delle indagini appena descritte è la
verifica della validità e dell’attendibilità delle misurazioni, e docimologia
e metrologia rappresentano le discipline di riferimento indispensabili per
la conduzione e lo sviluppo della ricerca educativa.
Conclude il capitolo la spiegazione del perché di uno studio sulla
metrologia, ovvero del perché porre l’attenzione alla misurazione come
momento propedeutico ed indispensabile del controllo scolastico volto
all’emissione di giudizi il più possibile oggettivi.
Il secondo capitolo, Valutazione e metrologia, è dedicato alla
valutazione e alla metrologia nel loro continuo intrecciarsi nel corso della
scelta e della costruzione degli strumenti valutativi. Si precisano
innanzitutto i significati dei termini di verifica e valutazione,
rispettivamente l’insieme delle operazioni di rilevazione e misurazione di
un evento, l’apprendimento, e le attività di analisi, elaborazione,
interpretazione di dati, registrati con strumenti di rilevazione adeguati; si
pone poi l’attenzione alle funzioni della valutazione – iniziale o di
ingresso, intermedia o formativa, finale o sommativa - specificandone i
momenti e gli scopi.
Introduzione
5
Nell’attività didattica quotidiana ci si può trovare a dover assumere
decisioni sulla base di rilevazioni poco affidabili, assunte tramite
strumenti non adeguati a far emergere le reali competenze possedute
dagli alunni, e dove le caratteristiche soggettive dell’esaminatore
influenzano negativamente la formulazione del giudizio.
Stiamo parlando della validità e della attendibilità delle prove di
verifica, due elementi da tenere costantemente presenti nella scelta e
nella costruzione delle prove stesse. Infatti dalla qualità degli stimoli e
delle risposte deriverà il grado di validità e di attendibilità dei dati e delle
informazioni fornite da una certa prova. Sia gli stimoli sia le risposte
possono presentarsi con un differente grado di strutturazione, che
diventa il criterio di classificazione delle prove stesse: dalla forma
totalmente chiusa, massima oggettività, a quella completamente aperta,
accentuata soggettività; dalle prove aperte - le prove cosiddette
tradizionali, il tema, interrogazioni orali, ecc. - alle prove oggettive o
strutturate - item vero/falso, corrispondenze, completamenti, a scelta
multipla - a quelle semistrutturate – domande strutturate, a saggio
breve, ecc. – nelle quali gli stimoli sono chiusi e le risposte aperte, in
modo però che rispettino vincoli tali da renderle confrontabili con criteri
di valutazione predeterminati. E qui si parla dell’attribuzione dei punteggi
da assegnare per la correzione delle prove, al fine di rendere costanti le
misurazioni anche dopo ripetute correzioni. Le scale di misurazione -
Introduzione
6
nominale, ordinale, a intervalli, di rapporti – costituiscono quattro modi di
procedere a confronto fra oggetti. Da una misurazione valida e
attendibile deriveranno giudizi altrettanto validi e attendibili.
Il terzo capitolo, Costruzione degli strumenti valutativi in rapporto alla
metrologia, tratta dell’aspetto pratico della costruzione di una prova di
verifica, e della definizione delle misure da assegnare per ottenere
rilevazioni precise e costanti. È importante stabilire innanzitutto il che
cosa si vuole sottoporre a misurazione, in termini di comportamento
accertabile e controllabile. Tale momento è essenziale perché l’atto
valutativo esercitato dal docente sia caratterizzato dall’oggettività delle
rilevazioni: infatti uno strumento di misurazione, come già ripetuto, deve
essere valido e attendibile. Valido perché deve poter misurare
effettivamente ciò che si vuol misurare; attendibile perché deve produrre
misurazioni fedeli e costanti, indipendenti cioè da chi le effettua. Si
profila quindi l’esigenza di definire il criterio a cui uniformarsi per
l’attribuzione dei punteggi; a titolo esemplificativo viene riportato il
criterio di attribuzione presentato dal Gattullo, il quale fornisce delle
indicazioni di massima da seguire nelle operazioni di misurazione. Altro
argomento presente nel capitolo si riferisce alla necessità della
condivisione dei criteri valutativi da parte dei docenti, per realizzare
processi formativi fondati sull’acquisizione di informazioni valide e
attendibili, utili a progettare percorsi didattici efficaci ed efficienti.
Introduzione
7
Il quarto capitolo, L’attività di sperimentazione, riporta in modo
dettagliato le fasi di progettazione e di realizzazione dell’indagine
oggetto della presente tesi.
Innanzitutto viene sottolineata la difficoltà da me incontrata nel
trovare una scuola il cui capo di istituto e i docenti fossero disponibili ad
attuare la sperimentazione. Sono grata, pertanto, al Prof. Vincenzo
Mattei, Dirigente Scolastico del 2° Circolo di Sezze (LT) per la
disponibilità dimostrata, permettendomi di realizzare la ricerca.
Preso atto del disegno sperimentale da me illustrato, il suddetto capo
di istituto mi mette subito in contatto con l’insegnante coordinatrice dei
dipartimenti costituitisi all’interno del collegio dei docenti del circolo.
Con lei abbiamo proceduto alla individuazione delle classi quinte come
gruppo dell’indagine, con il coinvolgimento di circa 110 alunni. Agli
accordi preliminari stabiliti con la collega incaricata come Funzione
Obiettivo per pianificare il lavoro, sono seguiti ulteriori incontri con un
gruppo ristretto di docenti con cui ho lavorato per l’implementazione
dell’attività di ricerca. In special modo abbiamo esaminato le tipologie di
prove, già concordate con il Professor Vertecchi:
¾ prove con stimolo aperto e risposta aperta, con contenuti di
tipo descrittivo e produttivo;
¾ prove a saggio breve, con contenuti di tipo descrittivo e
produttivo.
Introduzione
8
Le prove, aperte o a saggio breve, svolgono, in questo caso, la
funzione diagnostica, poiché si verifica la situazione iniziale relativa al
possesso delle principali regole morfo-sintattiche e lessicali.
Le prove a saggio breve rappresentavano una tipologia che non era
stata utilizzata dai docenti e quindi risultava estranea agli alunni. A
questo scopo le insegnanti hanno ritenuto necessario avere a
disposizione circa un mese di tempo al fine di abituare gli allievi a tale
tipologia.
Per la costruzione delle prove con stimoli e risposte aperte abbiamo
accuratamente selezionato gli argomenti da sottoporre agli alunni, dal
punto di vista della motivazione e dell’interesse.
Per quanto concerne le prove a saggio breve, dopo averne
esaminato la struttura, si è proceduto alla loro costruzione.
La difficoltà maggiore è stata quella di cercare di superare
l’ambiguità linguistica relativa sia alla premessa sia alle domande e/o
consegne, in modo da non provocare equivoci interpretativi negli
alunni.
Il capitolo prosegue con l’illustrazione delle modalità di
somministrazione delle prove, con le relative indicazioni da seguire da
parte dalle insegnanti.
Introduzione
9
Per quanto concerne la correzione delle prove, essa costituisce il
momento più delicato e allo stesso tempo strategico dell’intera
sperimentazione, in quanto l’attendibilità, oggetto di studio di questo
lavoro, rimanda alla possibilità di interpretare in modo univoco gli esiti
della rilevazione, di avere misure costanti in successive rilevazioni
compiute nel tempo da più operatori.
Ciascun docente di lingua italiana delle classi coinvolte deve
correggere tutti i compiti di tutti gli alunni. Le correzioni sono di due
tipologie, una correzione libera ed una correzione precodificata,
entrambe da ripetersi a distanza di due settimane l’una dall’altra.
Per la correzione libera ogni insegnante fa riferimento al proprio
modo di valutare. Per la correzione precodificata ciascuna docente
deve attenersi alle indicazioni-criterio fornite tramite apposita griglia in
dotazione. Per entrambe le correzioni si ricorre ad una scala di giudizio,
con punteggio da 1 a 50, da tenere presente per attribuire il punteggio a
ciascuna prova di ciascun alunno, per ogni competenza verificata
(ortografica, sintattica, lessicale). Una particolare raccomandazione è
contenuta nella lettera di presentazione indirizzata alle docenti riguardo
le modalità di somministrazione e di correzione delle prove: effettuare la
correzione a livello individuale, evitando di scrivere giudizi sui compiti
corretti e tantomeno di comunicare tra di loro.
Introduzione
10
Dopo la somministrazione e l’esecuzione delle prove di verifica da
parte degli alunni, segue il lavoro delle docenti per la correzione dei
compiti e la registrazione dei punteggi in apposite tabelle.
È necessario, infatti, disporre di un quadro riassuntivo dei dati
raccolti, per avere una visione panoramica e poter operare confronti tra
le misure attribuite dai vari correttori alle stesse prove.
Solamente in un momento successivo si otterrà un quadro completo
delle correzioni, libere e codificate, effettuate dai 5 correttori sulle
stesse 4 prove relative alla verifica delle 3 competenze (ortografia,
sintassi, lessico), risultanti dalla 1^ e 2^ correzione.
L’elaborazione dei dati è mirata alla rilevazione del grado di fedeltà
dei correttori nell’attribuzione dei punteggi assegnati alle prove nelle
correzioni libere e in quelle codificate, sia nella prima sia nella seconda
correzione. Pertanto è necessario valutare la correlazione tra i
correttori, vale a dire il loro grado di concordanza nell’attribuzione dei
punteggi alle prove considerate.
Si continua poi con il calcolare la media degli scarti fra le correzioni,
al fine di valutare le differenze di punteggio rilevate per ogni correttore
nelle correzioni delle prove di verifica. Per analizzare l’andamento delle
correzioni in relazione alle diverse tipologie di prove, si procede ad una
ulteriore elaborazione dei dati.
Introduzione
11
Per ciascun correttore si delinea, così, un profilo del comportamento
valutativo assunto nell’ambito di questo lavoro, e si potranno così
confrontare i risultati delle operazioni di misurazione attuate nella 1^ e
nella 2^ correzione, libera e codificata, riferita alle diverse prove.
Si valutano infine i risultati emersi dall’indagine, i quali diventano
oggetto di riflessione da parte di tutti i docenti.
Nel quinto capitolo, Valutazione oggi: problematiche e prospettive
nella scuola elementare, vengono riportati i risultati di un’indagine sulle
modalità di verifica adottate dagli insegnanti di una scuola elementare,
quale esemplificazione di come viene vissuto il problema della
valutazione in una delle realtà scolastiche italiane.
Cap. 1 Metrologia della valutazione: cos’è, perché.
12
CAPITOLO 1
LA METROLOGIA DELLA VALUTAZIONE NELLA
SCUOLA ELEMENTARE.
CAPITOLO 1
METROLOGIA DELLA VALUTAZIONE: COS’È, PERCHÉ.
1.1 Metrologia e docimologia: analisi dei termini. 1.2 Excursus storico
della metrologia: l’inchiesta sul <baccalauréat > di H. Piéron;
ONES di R. Bolletta. 1.3 Perché uno studio sulla metrologia.
1.1 Metrologia e docimologia: analisi dei termini.
Ne “Il grande dizionario Garzanti della lingua italiana” al lemma
“Metrologia” si legge < scienza che studia i problemi inerenti alla
misurazione e quindi alla scelta delle unità di misura e dei sistemi di
misurazione >. Composto di metro- dal greco métron ‘misura, verso’;
vale ‘misura’ e –logia- ‘discorso, studio, scienza’.
Il termine “Docimologia” nello stesso dizionario viene spiegato così:
< disciplina di carattere psico-pedagogico che studia i metodi e i criteri di
valutazione del profitto scolastico e delle prove d’esame >. Dal francese
Cap. 1 Metrologia della valutazione: cos’è, perché.
13
docimologie, composto del greco dokim(àzein) ‘esaminare’ e –logie ‘-
logia’.
Si evince una forte connessione tra i due concetti, poiché entrambi
rimandano al tema della misurazione (metrologia) in correlazione con i
metodi e criteri di valutazione scolastica (docimologia).
La docimologia come scienza nasce in Francia da una riflessione
sull’insegnamento in generale e su quello matematico in particolare: il
sapere matematico non è costituito dallo sforzo di memoria, il quale, più
che dilatarle, restringe le facoltà. Appare quindi del tutto ingiustificata la
prassi di un esame orale e mnemonico per appurare la capacità dei
giovani che si dedicano allo studio delle scienze.
1
È proprio dall’analisi del grado di validità dei giudizi valutativi espressi
dai docenti impiegando le prove tradizionali di accertamento del profitto
che è venuta sviluppandosi la docimologia, la scienza della valutazione.
A Piéron, considerato il padre della docimologia avendone coniato il
termine, si deve la prima ricerca docimologica svolta in Francia nel
1922, riguardante l’esame di licenza elementare nella sessione estiva.
1
Henri Piéron, Esami e docimologia, Armando Editore, Roma, 1965 p. 9
Cap. 1 Metrologia della valutazione: cos’è, perché.
14
1.2 Excursus storico della metrologia: l’inchiesta sul
<baccalauréat > di H. Piéron; ONES di R. Bolletta.
L’inchiesta sul <baccalauréat >
Henri Piéron, con la consorte e l’amico Laugier, diresse la ricerca
sull’esame di licenza elementare, somministrando a 117 alunni che
sostenevano l’esame, una batteria di 6 test concernenti diverse
capacità; furono rilevate le valutazioni attribuite in sede di scrutinio finale
e i voti riportati nelle varie prove d’esame, suddividendoli in 3 gruppi:
A. Acquisizioni mnemoniche (storia, geografia, recitazione,
ortografia).
B. Capacità intellettuali (composizione, lettura espressiva,
aritmetica).
C. Capacità extra-intellettuali o qualità diverse (disegno,
calligrafia, canto, ginnastica, cura del quaderno).
2
Come ipotesi ci si attendeva una correlazione debole tra il terzo
gruppo e gli altri due, più forte fra i primi due (capacità mnemoniche ed
intellettuali). Risultato: tutte le correlazioni furono di valore medio, così
come quelle concernenti la valutazione di scrutinio finale e l’esame.
Praticamente nulla fu la correlazione di ciascuno dei test col risultato
conseguito all’esame.
2
Piéron, op. cit., p. 12
Cap. 1 Metrologia della valutazione: cos’è, perché.
15
Conclusione della ricerca docimologica: la licenza elementare, esame
scolastico, può fornire indicazioni circa l’attitudine scolastica, seppur in
modo insufficiente. Ma quando si vuole accedere agli studi medio-
superiori, tale esame di tipo tradizionale risulta del tutto limitativo e
fuorviante.
Non era però stato affrontato il problema della fedeltà dei voti in caso
di ripetizione dell’esame o di cambiamento degli esaminatori.
Henri Laugier e D. Weinberg intrapresero una ricerca sulla fedeltà dei
voti in occasione di una duplice correzione di prove scritte di alcuni
concorsi, da parte di due correttori.
Si riscontrarono importanti divergenze tra i due esaminatori: un
medesimo candidato che era classificato secondo con un correttore,
diventava penultimo con l’altro.
Appariva evidente il fattore soggettivo nelle valutazioni.
I due ricercatori seguirono altre sperimentazioni, ma tutte le ricerche,
pubblicate dal 1927 al 1930, evidenziarono lo stesso problema: la
validità degli esami tradizionali e conseguentemente la qualità della
formazione scolastica.
Il prof. Benedetto Vertecchi in un suo scritto così commenta a tal
riguardo:
Si incominciava a dubitare sulla qualità dei risultati, a porsi
domande come: quanto ci si può fidare dei giudizi che
formulano le commissioni? Le prove sono tecnicamente