IL RICAMPIONAMENTO _______________________________________________________________________________ 33A partire dagli anni 60, derivati concettualmente dai metodi Monte Carlo che generano numeri casuali, si sono diffusi i metodi di ricampionamento (resampling methods), fondati sull utilizzazione ripetuta dell unico campione osservato. Gi nel 1967, George Snedecor e William Cochran scrivevano che l estrazione di numeri casuali da tabelle o la loro generazione mediante computer, che era gi chiamata metodo Monte Carlo, era diventata una tecnica importante per risolvere problemi complessi di stima delle probabilit , la cui soluzione matematica non fosse nota. BenchØ proposto dalla fine della seconda guerra mondiale, come illustrato in altra parte, tale nome compare per la prima volta nel 1965 per un problema di fisica (Barker A. A., 1965, pp. 119-133). Il principio sul quale sono costruiti questi test Ł detto della sostituzione o principio plug-in. Il concetto di base Ł elementare: sussiste una buona attendibilit statistica se, alla funzione di ripartizione della popolazione (quali la tabella della distribuzione Z , del 2g , della gT o di 21 ,ggF ), Ł sostituita la funzione di ripartizione del campione, ottenuta costruendo una distribuzione di frequenza di tutti i valori che esso pu assumere in quella situazione sperimentale. Sono procedure concettualmente elementari, ma che richiedono un numero elevato di calcoli ripetitivi. Di conseguenza, il loro uso Ł divenuto frequente solo dall inizio degli anni 80, con la diffusione dei computer, che ne ha permesso la verifica e l utilizzazione.
IL RICAMPIONAMENTO _______________________________________________________________________________ 34Secondo il parere di molti esperti, hanno aperto un nuovo settore della ricerca statistica inferenziale. Dopo i metodi classici sviluppati tra il 1920 e il 1950 da scienziati quali R. A. Fisher (per la varianza), J. Neyman (per la teoria delle ipotesi) e H. Hotelling (per la statististica multivariata), si possono avere nuovi sviluppi promettenti, con le metodologie che utilizzano intensivamente le possibilit di calcolo del computer (Bradley Efron e Robert Tibshirani, 1991, pp. 390-395). Nei test inferenziali di statistica univariata e bivariata, queste procedure sono applicate alla stima dell intervallo di confidenza di medie, mediane e quantili, varianze, coefficienti di regressione e di correlazione. Sono utilizzate anche per il confronto tra due o piø medie, varianze, coefficienti di correlazione e di regressione. Piø recentemente, sono stati proposti metodi piø complessi per il confronto tra indici di similarit , affinit o distanza e la costruzione dei diagrammi ad albero (trees o dendrogrammi); nella statistica multivariata, sono state proposte tecniche per l analisi dei cluster e le componenti principali. Un uso semplice e frequente, al quale ricorrere per spiegare e confrontare i risultati delle varie metodologie proposte, Ł il calcolo dell errore standard per medie e mediane in distribuzioni non normali e per il coefficiente di correlazione, che appunto segue una distribuzione normale solamente quando = 0. In un articolo del 1981, con un esperimento Monte Carlo, Bradley Efron (1981) effettua un confronto dettagliato tra queste metodologie nuove. In esso, Efron illustra e confronta i risultati dei metodi:
IL RICAMPIONAMENTO _______________________________________________________________________________ 35- jackknife, - bootstrap, - campionamento a met , - teoria del sottocampionamento, - repliche bilanciate e ripetute, - jackknife infinitesimale, - metodi con funzioni d influenza, - metodo delta. Di ognuno fornisce ampia indicazione bibliografica, descrive sinteticamente la procedura, mostra come tutte derivino dalla stessa idea di base ed evidenzia le connessioni piø specifiche tra alcune di esse; infine, confronta i risultati nella stima dell errore standard del coefficiente di correlazione semplice . BenchØ siano tutti asintoticamente equivalenti, Efron conclude che il jackknife e il bootstrap forniscono risultati simili, ma che quelli del bootstrap appaiono migliori coincidendo con quelli asintotici per il jackknife. In un lavoro successivo, sostiene che il bootstrap fornisce i valori esatti e tutti gli altri metodi determinano soluzioni piø o meno approssimate. Uno degli scopi fondamentali della inferenza statistica Ł la stima di un parametro. In relazione al caso piø semplice, la media di un campione, vengono ricordati i concetti fondamentali, utili per la comprensione dei metodi che saranno successivamente discussi in questo capitolo.
IL RICAMPIONAMENTO _______________________________________________________________________________ 36 Per quanto riguarda la stima intervallare, quando i dati sono distribuiti in modo normale e la deviazione standard della popolazione Ł nota, usando la distribuzione normale Z nXZŁ possibile conoscere la media della popolazione stimandone l intervallo di confidenza intorno alla media di un campione x di n dati; alla probabilit 1 , con la distribuzione Z si stima l intervallo mediante la relazione: nzxnzx 2/2/Pr1 Inversamente, quando sono noti la media della popolazione e la sua deviazione standard , ogni media campionaria x di n dati con probabilit 1 Ł compresa nell intervallo nzxnz 2/2/Pr1 sempre stimato con la distribuzione normale Z .
IL RICAMPIONAMENTO _______________________________________________________________________________ 37 Quando la distribuzione dei dati della popolazione Ł normale e la deviazione standard della popolazione Ł ignota, a partire da nsXTn 1 Ł possibile conoscere la media della popolazione stimandone l intervallo di confidenza intorno alla media di un campione x di n dati, ricorrendo alla sua deviazione standard s ; alla probabilit 1 , la media della popolazione Ł compresa nell intervallo determinato con la distribuzione gT mediante la relazione: nstxnstx nn 2/,12/,1Pr1 Inversamente, quando Ł nota la media della popolazione e la sua deviazione standard Ł ignota, ogni media campionaria x di n dati, di cui sia calcolata la deviazione standard s , con probabilit 1 Ł compresa nell intervallo
IL RICAMPIONAMENTO _______________________________________________________________________________ 38 nstxnst nn 2/,12/,1Pr1 stimato con la distribuzione gT di Student. Per determinare l intervallo di confidenza di un qualsiasi parametro della popolazione Ł richiesta la conoscenza della sua variabilit , associata ad uno stimatore del parametro. In modo piø generale, analogo al caso della media e quindi con e x Ł possibile pervenire alla stima del parametro della popolazione quando Ł noto l errore standard della popolazione oppure del campione o almeno la distribuzione del rapporto )(se Ma quando non Ł la media della popolazione e non Ł la media del campione, ma rispettivamente un parametro e una statistica che non godono delle stesse propriet , pu essere difficile o addirittura impossibile ottenere la stima dell errore standard e la sua distribuzione. In queste situazioni, per trovare una soluzione Ł possibile ricorrere alla simulazione, quando si disponga, caso piø teorico che reale, dei dati di una popolazione. In sua assenza, l unica alternativa possibile Ł l uso dei dati campionari.
IL RICAMPIONAMENTO _______________________________________________________________________________ 392.2 - MONTE CARLO E PRINCIPIO PLUG-IN La potenzialit e la tecnica dei metodi Monte Carlo sono meglio illustrate con un esempio. Si supponga di avere una popolazione di dati e di voler stimare il suo 75 percentile, con campioni formati da 20 dati (la distribuzione del 75 percentile non Ł nota e ovviamente non pu essere normale e simmetrica come quella della media). I passaggi richiesti possono essere schematizzati in 5 fasi: 1 - estrarre dalla popolazione un campione delle dimensioni desiderate (20 dati); 2 - calcolare , identificando il 75 percentile (cioŁ il 15 valore nella serie dei 20 dati, ordinati in modo crescente); 3 - estrarre un altro campione e calcolare il suo , ottenendo 100021 ,...,, , fino al numero desiderato di repliche, che deve essere alto, per esempio 1000; 4 - calcolare la media dei mille (che sar l indicatore migliore di , il 75 percentile della popolazione) e la sua deviazione standard; 5 - l intervallo di fiducia Ł facilmente costruito dalla distribuzione di frequenza dei mille : per la probabilit 05.0 Ł sufficiente escludere il 2,5% dei valori nei due estremi (in altri termini, tra 2/ e 2/1 ). Le tecniche di ricampionamento seguono una logica simile, ma disponendo solo dei dati di un campione. La loro validit , la loro maggiore
IL RICAMPIONAMENTO _______________________________________________________________________________ 40diffusione nella letteratura statistica e la possibilit di utilizzarli Ł stata offerta dai programmi informatici, in questo capitolo sono presentati solamente il Jackknife e il Bootstrap. 2.3 - IL JACKKNIFE E IL BOOTSTRAP Il Jackknife (chiamato anche Tukey s jackknife) serve per ridurre le distorsioni sistematiche, che dipendono dai dati campionari, nella stima delle statistiche di una popolazione, fornendone l errore standard. Permette quindi di calcolare l intervallo di confidenza per la statistica in esame. E essenziale comprendere che l assunzione di normalit riguarda la statistica elaborata con il metodo jackknife, non la distribuzione delle misure campionarie. Il termine jackknife in inglese indica il coltello a serramanico; per estensione, il coltello degli esploratori che contiene varie lame e molti altri strumenti, come apribottiglie, lime, forbici, cacciavite. E funzionale in situazioni di emergenza; Ł inutile quando si disponga degli strumenti specifici, piø solidi e professionali. Secondo Garhwaite et al. (1995), il termine Ł stato scelto opportunamente, poichØ il metodo ha una applicazione appropriata quando non Ł possibile utilizzare il metodo classico, per l inferenza e la stima del parametro della popolazione. L idea di base del metodo jackknife, come proposta da Tukey nel 1958 sviluppando l idea proposta da Quenouille nel 1949, serve anche per costruire intervalli di confidenza intorno alla media.
IL RICAMPIONAMENTO _______________________________________________________________________________ 41La metodologia Ł bene evidenziata dalla serie di operazioni richieste, che possono essere schematizzate in 7 passaggi. 1) Calcolare la statistica tS desiderata (per esempio la varianza 2s o la correlazione r ) utilizzando le n osservazioni del campione raccolto. 2) Dividere il campione in sottogruppi; se il campione Ł di grandi dimensioni, i sottogruppi sono formati da k unit ; se il campione Ł di piccole dimensioni, come spesso succede, i sottogruppi possono essere formati da una sola unit . 3) Calcolare il valore della statistica desiderata senza un sottogruppo, ignorando ogni volta un sottogruppo diverso itS ; si ottengono kn / differenti stime della statistica. 4) Calcolare i cosiddetti pseudovalori i (chiamati in questo modo perchØ cercano mediamente di stimare il parametro riproducendo le variabili originarie) per ogni stima di itS , mediante la differenza itti SnSn )1( 5) La stima tS con il jackknife della statistica in oggetto Ł semplicemente la media aritmetica di questi valori inS it
IL RICAMPIONAMENTO _______________________________________________________________________________ 426) L errore standard es di tS Ł )1( )( 2nnes iSt e la deviazione standard Ł )1( )( 2Ns iSt7) Con il valore della gT di Student al livello di probabilit prescelta e per 1n gradi di libert (g.d.l.) , si stimano i limiti di confidenza )()1,2/( tSnt estSentro i quali al livello di significativit prefissato si trover il parametro della popolazione. Il Bootstrap Ł stato proposto da Bradley Efron nel 1979 come evoluzione del metodo jackknife, fondato sull uso del computer per stimare l errore standard di un parametro della popolazione. In pochi anni, questa procedura ha avuto una evoluzione rapida e una serie di approfondimenti da parte dello stesso autore e dei suoi colleghi, che la hanno resa la tecnica di ricampionamento piø nota e diffusa. Una presentazione completa ed
IL RICAMPIONAMENTO _______________________________________________________________________________ 43aggiornata Ł riportata nel volume recente e a carattere divulgativo di Bradley Efron e Robert J. Tibshirani (1998). Il nome bootstrap (letteralmente stringhe o lacci da scarpe), per dichiarazione dello stesso autore, Ł derivato dall espressione inglese to pull oneself up by one s bootstrap (sollevarsi tirando i lacci delle proprie scarpe), tratto dal romanzo del diciottesimo secolo Adventures of Baron Munchausen di Rudolph Erich Raspe. Evidenzia, in modo scherzoso, il fatto paradossale che l unico campione disponibile serve per generarne molti altri e per costruire la distribuzione teorica di riferimento. Per il grande impegno scientifico e divulgativo dei suoi proponenti, il metodo bootstrap ha il vantaggio di fornire una serie ampia di esemplificazioni, in articoli pubblicati su riviste a diffusione internazionale, in merito all inferenza anche per funzioni molto complesse. Oltre agli esempi indicati nella presentazione generale di questi metodi, sono casi ulteriori d applicazione il calcolo dei momenti, dei coefficienti di variazione, dei rapporti tra valori medi e fra varianze, dei coefficienti di correlazione, degli autovalori delle matrici di varianze e covarianze. L uso del bootstrap non Ł possibile quando si dispone solo di quantili e non dei valori reali o di dati incompleti, non indipendenti o alterati da errori grossolani. Come il jackknife, questa tecnica permette di ricavare gli errori standard e i limiti di confidenza di varie misure statistiche, che hanno distribuzioni non note o molto complesse. E un metodo generale per ottenere informazioni circa la variabilit e la distribuzione di statistiche campionarie , quindi permette di stimare i limiti di confidenza del
IL RICAMPIONAMENTO _______________________________________________________________________________ 44parametro della popolazione, quando non si possiedono informazioni sulla sua distribuzione. Se il campione Ł formato da k dati, l idea di base Ł di estrarre da esso, mediante campionamento semplice con ripetizione, molti campioni di k osservazioni, allo scopo di trovare la probabilit che la misura in oggetto cada all interno di intervalli predeterminati. Il campione bootstrap Ł nient altro che il campione originario nel quale, per effetto dell estrazione con ripetizione, alcuni dati sono ripetuti ed altri, per mantenere lo stesso numero d osservazioni, sono assenti. E proprio la modalit di estrazione, fondata sulla ripetizione, a generare la variabilit nelle stime; poichØ Ł richiesto che i campioni abbiano tutti lo stesso numero d osservazioni, se si estraesse senza ripetizione sarebbero tutti identici. Ognuna di queste stringhe di k osservazioni pu contenere due o piø valori identici, con l ovvia esclusione d altri valori che sono contenuti nel campione originale. Sono chiamati campioni di bootstrap, ognuno dei quali permette di ottenere una stima della statistica desiderata. La distribuzione della misura statistica calcolata Ł trattata come una distribuzione costruita a partire da dati reali (cioŁ della popolazione) e fornisce una stima dell accuratezza statistica. Per esempio, se con 15 coppie d osservazioni Ł stato calcolato un r uguale a 0,782, con 10 mila stringhe Ł possibile stimare che il 90% (quindi con esclusione dei 500 valori minori e i 500 maggiori) variano tra 0,679 e 0,906. L ampiezza dell intervallo (0,227) Ł la misura dell accuratezza
IL RICAMPIONAMENTO _______________________________________________________________________________ 45fornita dal bootstrap, per il valore r calcolato sul campione delle 15 osservazioni raccolte. Vari autori hanno dimostrato che, molto spesso, l ampiezza dell intervallo stimato in questo modo corrisponde all intervallo calcolato su campioni reali dello stesso numero d osservazioni k . Tuttavia, anche il bootstrap pu fornire risposte fuorvianti, in una percentuale ridotta di campioni possibili, senza che sia possibile sapere in anticipo quali siano.