2
tale realtà era effettivamente mutata nel corso degli anni (nello specifico, sono stati presi in
considerazione gli anni 2007 e 2008).
Nella seconda parte del lavoro, sono state individuate le determinanti del salario di riserva e delle
ore lavorate settimanalmente. Inoltre sono stati proposti modelli di stima delle probabilità di
permanenza negli stati occupazionali, e si è cercato di ricostruire le transizioni tra stati
occupazionali degli individui; oltre a ciò, si è stimato un modello atto a spiegare tali transizioni in
base a un set di opportune variabili. In tale contesto hanno preso poi corpo alcune considerazioni a
proposito degli effetti dell’attuale crisi.
Infine, nell’appendice alcuni approfondimenti tematici e ulteriori considerazioni sulla bontà dei
modelli stimati chiudono il presente elaborato.
3
CAPITOLO 1: I DATI
1.1 La rilevazione continua delle forze di lavoro
Nel presente lavoro saranno utilizzati i dati trimestrali provenienti dalla rilevazione continua delle
forze di lavoro (RCFL). Tale indagine, intrapresa dall’ISTAT, è la principale fonte di informazione
riguardante aspetti strutturali e congiunturali del mercato del lavoro nazionale; da essa, ad esempio,
sono desunti i tassi di occupazione, inattività e disoccupazione poi divulgati a mezzo stampa e
televisione in tutto il paese. La prima rilevazione trimestrale sulle forze di lavoro risale al 1959, e da
allora le caratteristiche dell’indagine sono mutate notevolmente, sia per tenere conto di nuove e più
efficienti metodologie di indagine, sia per rilevare nuove caratteristiche emerse nel mercato del
lavoro. In particolare, dal 2004 la precedente rilevazione trimestrale (RTFL) è stata sostituita dalla
rilevazione continua delle forze di lavoro, avente nuove caratteristiche e metodi d’indagine; tale
passaggio è stato dettato da specifiche direttive amministrative provenienti dalle istituzioni europee
(in particolare Eurostat), nell’ottica di un’armonizzazione delle rilevazioni statistiche dei paesi
membri dell’Unione Europea. Questa revisione dei contenuti e dei metodi è stata anche intrapresa
per rilevare al meglio alcune nuove e importanti caratteristiche del mercato del lavoro nazionale,
come ad esempio la crescente complessità delle tipologie contrattuali, la terziarizzazione
dell’economia e il progressivo invecchiamento della popolazione (alleviato in parte da consistenti
flussi migratori).
1.1.1 Caratteristiche salienti della RCFL
Nella RCFL le interviste vengono svolte durante le 13 settimane del trimestre in questione (e non
nella sola prima settimana, come avveniva in precedenza). In particolare, poi, la prima rilevazione
per chi entra nell’indagine è di tipo CAPI (Computer Assisted Personal Interviewing), e consiste in
un intervista faccia a faccia svolta con questionario elettronico; dalla seconda rilevazione in poi
l’intervista è di tipo CATI (Computer Assisted Telephonic Interviewing) e viene svolta via telefono.
Il campionamento avviene in due stadi:
4
ξ Primo stadio: si estraggono i comuni dalle cui liste anagrafiche saranno individuate le
famiglie da intervistare. In particolare, i comuni possono essere classificati come
autorappresentativi (AR) se superano una certa soglia demografica, variabile da provincia a
provincia, ed entrano automaticamente nel campione. I rimanenti vengono raggruppati in
strati dai quali viene estratto casualmente un solo comune, che entrerà a far parte del
campione (con probabilità proporzionale alla sua popolazione). Data la natura continua della
rilevazione, i comuni AR saranno rilevati con cadenza settimanale, mentre tutti gli altri una
sola volta al mese.
ξ Secondo stadio: si estraggono le famiglie dalle liste anagrafiche dei comuni selezionati. Per
ogni famiglia, inoltre, ne vengono individuate altre 3 che fungeranno da sostitute, nel caso
non sia possibile, per vari motivi, intervistare la prima.
Una caratteristica molto importante è che ad ogni famiglia viene assegnato un determinato codice,
che rende possibile identificarla univocamente anche nelle rilevazioni successive. Oltre a ciò, ogni
individuo appartenente alla famiglia è identificato dal rapporto di parentela con la persona di
riferimento e dall’età.
Tutti questi elementi sono fondamentali nella ricostruzione della componente longitudinale del
campione: sarà infatti possibile effettuare l’abbinamento delle rilevazioni con criteri deterministici.
La struttura della rotazione del campione è di tipo “2-2-2”: ciò significa che ogni famiglia viene
intervistata per due trimestri consecutivi, dopodiché la successiva intervista avviene ad almeno a 6
mesi di distanza; il campione viene organizzato quindi in gruppi di rotazione secondo il seguente
schema:
Figura 1.1 Schema di rotazione dell'indagine RCFL
Sezione di Sequenza di indagini
rotazione t.I t.II t.III t.IV t+1.1 t+1.2
A X
B X X
C X X
D X X
E X X
F X X X X
G X X X
H X X
I X X
L X X
Fonte: propria elaborazione
5
Di conseguenza il 50% delle famiglie intervistate a 3 e a 12 mesi di distanza sono le stesse, mentre
un abbinamento con 3 o 4 rilevazioni dovrebbe comprendere il 25% delle famiglie.
1.1.2 Tecniche di rilevazione
L’ISTAT si avvale di una rete di rilevazione composta da circa 300 intervistatori professionisti,
mentre la gestione e il monitoraggio dell’indagine sono affidati ai singoli Uffici regionali
dell’ISTAT.
Il disegno organizzativo dell’indagine prevede che la prima intervista venga effettuata faccia a
faccia da un rilevatore Istat presso il domicilio della famiglia con tecnica CAPI, cioè con l’ausilio di
un personal computer che gestisce il questionario elettronico. Le successive interviste vengono
realizzate con intervista telefonica assistita da computer (tecnica CATI) da rilevatori di una società
esterna.
I vantaggi della rilevazione CATI-CAPI si sostanziano in risparmi economici e temporali, dovuti
alla snellezza della procedura, supportata da una massiccia informatizzazione del sistema. Inoltre
questa tecnica permette un controllo di coerenza delle risposte praticamente in tempo reale, fattore
decisivo per la qualità dei dati rilevati.
Una importante novità è l’introduzione della modalità “non sa” in alcuni quesiti, al fine di limitare
risposte troppo “forzate” o “di rifugio” da parte dell’intervistato.
Infine, i rilevatori sono vincolati da un maggiore controllo sul loro operato, in quanto obbligati a
compilare una specifica scheda di rifiuto nel caso in cui il questionario s’interrompa in maniera
definitiva.
1.1.3 Il questionario
Il questionario che viene somministrato nelle interviste si compone di ben 12 sezioni principali
(dalla “A” alla “N”), precedute da una sezione generale in cui vengono raccolte notizie anagrafiche
riguardanti la famiglia di riferimento. Nel presente lavoro si utilizzeranno estesamente la sezione
generale per quanto riguarda le notizie anagrafiche, e le sezioni B e F, nelle quali si stabilisce se
l’individuo in questione può rientrare nella definizione di occupato (come sarà spiegato più
6
dettagliatamente nel paragrafo 3.4), inattivo o disoccupato e se e quali azioni di ricerca di lavoro sta
intraprendendo. Inoltre nel presente lavoro si farà riferimento alla sezione C (attività lavorativa
principale), nonché alle variabili ricostruite dall’ISTAT e riguardanti un po’ tutte le sezioni (ad
esempio età, istruzione, stato occupazionale etc.).
1.2 La procedura di abbinamento e la costruzione del campione “pooled”
Sin qui si sono elencate alcune delle caratteristiche più importanti dell’indagine campionaria
condotta dall’ISTAT sulle forze di lavoro. Altra cosa, naturalmente, è leggere e utilizzare le
informazioni contenute nei file di dati elementari, tenendo sempre bene a mente le finalità del
presente lavoro. Un primo passo, in questo senso, è costituito dalla procedura di abbinamento dei
record, cioè la ricostruzione della parte longitudinale del campione.
1.2.1 Ricostruzione della parte longitudinale
Come si è già evidenziato in precedenza, una caratteristica saliente dei dati qui trattati è la
possibilità di ricavare da essi una componente longitudinale; questa può essere derivata
dall’abbinamento di successive rilevazioni, fino a comprendere un massimo di quattro episodi.
Come già detto in precedenza, una delle caratteristiche della RCFL è la possibilità di individuare
univocamente gli individui intervistati in base ad una stringa identificativa: questo permette di usare
tecniche di abbinamento deterministiche, e altresì di evitare una lunga serie di problemi che in
passato si dovevano affrontare con l’utilizzo di tecniche probabilistiche (come accade, ad esempio,
in A. Paggiaro e N. Torelli, 1999).
In termini pratici, per ogni individuo si deve formare una nuova stringa caratteristica derivata
dall’accostamento delle variabili che identificano l’anno di estrazione, la regione, la provincia e il
comune di residenza, la quartina di estrazione, la famiglia e infine il codice che identifica il soggetto
all’interno della famiglia stessa. Nel presente studio ci si è posti in un’ottica di tipo congiunturale:
ciò ha determinato la scelta di utilizzare abbinamenti a due episodi, collegando le rilevazioni
trimestri consecutivi nei dei due anni presi in esame (2007 e 2008). I campioni così estratti sono in
grado di cogliere la mobilità dei lavoratori nel breve periodo (a distanza di tre mesi) e possono così
essere utili nel comprendere se, nel corso dell’ultimo anno, l’impatto dell’attuale crisi economica
7
sia stato significativo o meno per quanto riguarda le transizioni di stato. Purtroppo la mancata
disponibilità dei codici delle province e dei comuni di residenza ha reso necessaria la circoscrizione
del lavoro di abbinamento longitudinale alle unità della sola regione Marche, per la quale erano
disponibili i suddetti codici, senza i quali, vale la pena ricordarlo, nessun abbinamento
deterministico è possibile.
Nel presente lavoro sono stati eseguiti abbinamenti a due episodi riguardanti gli anni 2007 e 2008.
Nello specifico, tali abbinamenti si riferivano ai seguenti periodi:
A) Primo-secondo trimestre
B) Secondo-terzo trimestre
C) Terzo-quarto trimestre
1.2.2 Il campione “pooled”: procedura di costruzione e motivazioni teorico-pratiche
Gli abbinamenti di cui si parlava poc’anzi, seppur interessanti sotto il profilo congiunturale,
presentano il grave difetto della bassa rappresentatività, generato dal basso numero di osservazioni.
Per ovviare a questo grave problema sì è costruito un campione “pooled” per ciascun anno,
semplicemente sommando i tre campioni ottenuti precedentemente. Questa operazione è
statisticamente lecita, considerando che sono state sommate osservazioni provenienti da gruppi di
rotazione diversi e, per questo, disgiunte e indipendenti (come accade, ad esempio, in De Angelini e
Giraldo, 2003). Al termine di tale operazione si ottengono i seguenti campioni “pooled” per gli anni
in esame (tabelle 1.1 e 1.2):
8
Tabella 1.1 Numerosità del campione “pooled” 2007
Trimestre di Provincia di residenza
intervista Pesaro-Ur. Ancona Macerata Ascoli P. Totale
Primo trimestre 379 556 513 300 1,748
Secondo trimestre 751 1,061 998 634 3,444
Terzo trimestre 736 1,055 1,038 831 3,660
Quarto trimestre 364 550 553 497 1,964
Totale 2,230 3,222 3,102 2,262 10,816
Fonte: campione “pooled” del 2007
Va pertanto detto che tutto il lavoro che seguirà sarà basato su questi campioni “pooled”,
ovviamente classificabili come panel debolmente bilanciati. Si noti che il campione “pooled” del
2008 annovera più osservazioni rispetto all’omologo campione del 2007; inoltre nel 2008 le
osservazioni inerenti alla provincia di Ascoli Piceno sono aumentate sensibilmente, mentre quelle
relative alle altre province sono in calo.
Tabella 1.2 Numerosità del campione “pooled” 2008
Trimestre di Provincia di residenza
intervista Pesaro-Ur. Ancona Macerata Ascoli P. Totale
Primo trimestre 354 517 503 522 1,896
Secondo trimestre 665 1,006 971 979 3,621
Terzo trimestre 590 970 969 1,092 3,621
Quarto trimestre 279 481 501 635 1,896
Totale 1,888 2,974 2,944 3,228 11,034
Fonte: campione “pooled” del 2008
Queste caratteristiche del campione “pooled” nascono da due esigenze diverse:
1. Cogliere le transizioni di stato dei lavoratori all’interno dello stesso anno: questo intento
conduce al mancato impiego di un possibile abbinamento a due episodi, quello cioè tra il
quarto trimestre dell’anno t e il primo trimestre dell’anno t+1.
2. Vincoli burocratici: nelle statistiche descrittive non è stato possibile usare il dataset
completo di ogni trimestre a causa di alcuni vincoli sui dati originali (file di microdati)
ISTAT.
9
Per completezza, si propone nella tabella 1.3 la numerosità del campione totale, dove le
osservazioni non sono distinte in base all’anno a cui si riferiscono.
Tabella 1.3 Numerosità del campione “pooled” totale
Trimestre di Provincia di residenza
intervista Pesaro-Ur. Ancona Macerata Ascoli P. Totale
Primo trimestre 733 1,073 1,016 822 3,644
Secondo trimestre 1,416 2,067 1,969 1,613 7,065
Terzo trimestre 1,326 2,025 2,007 1,923 7,281
Quarto trimestre 643 1,031 1,054 1,132 3,860
Totale 4,118 6,196 6,046 5,490 21,850
Fonte: campioni “pooled” del 2007 e 2008
Quest’ultimo campione, in particolare, sarà utilizzato per la maggior parte delle statistiche
descrittive (si veda il capitolo 3).
Infine va detto che questi campioni, in ogni caso, non sono esenti da molteplici problemi di c.d.
“selection bias”. Infatti possono uscire dal campione individui che cambiano residenza tra una
rilevazione e l’altra, o famiglie irreperibili o che interrompono l’indagine per altri motivi. È dunque
probabile che non sia rilevata una parte della popolazione campionaria con delle caratteristiche
peculiari anche molto interessanti. Tali insidie non sono state verificate empiricamente nel presente
lavoro, ma se ne dovrà tenere conto in sede di analisi.
1.2.3 Incoerenze nei dati
I dati abbinati con la procedura di cui sopra presentano alcuni problemi legati ad incoerenze di
fondo: sono state effettivamente riscontrate alcune incoerenze nelle c.d. “informazioni invarianti”
presenti nel campione; questo fatto può essere dovuto principalmente alla generica problematica del
”misreporting”, perciò, allo scopo di depurare i dati da queste osservazioni incoerenti, sì è costruita
una variabile filtro che identifica i casi con valori incoerenti nella variabile “sesso” ed “età”. Di
seguito vengono elencati i risultati di tale operazione:
10
Tabella 1.4 Osservazioni coerenti e incoerenti, divise per gruppi di abbinamento (in corsivo le frequenze relative)
Anno 2007 2008
Campione A B C A B C
Oss. incoerenti 20 10 18 3 4 9
0.57% 0.29% 0.46% 0.08% 0.12% 0.24%
Oss. coerenti 3,476 3,382 3,910 3,789 3,446 3,783
99.43% 99.71% 99.54% 99.92% 99.88% 99.76%
Totale 3,496 3,392 3,928 3,792 3,450 3,792
Fonte: campioni “pooled” del 2007 e del 2008
Come ci si poteva lecitamente aspettare, le osservazioni incoerenti rappresentano una quota assai
marginale dei dati a disposizione; nel seguito del lavoro, comunque, tutte le statistiche e le stime
effettuate prescinderanno da queste osservazioni, che dunque vengono considerate come spurie.
Infine, una nota tecnica per una lettura più agevole dei dati: in tutto il presente lavoro si utilizza la
virgola come separatore delle migliaia e il punto come separatore dei decimali. Questa scelta è stata
effettuata principalmente per preservare un certo grado di compatibilità con il software utilizzato
per le elaborazioni (si veda in proposito il paragrafo I.4 dell’appendice).