La cluster analysis: aspetti teorici ed applicazione nel settore turistico
Gratis
L'anteprima di questa tesi è scaricabile gratuitamente in formato PDF.
Per scaricare il file PDF è necessario essere iscritto a Tesionline. L'iscrizione non comporta alcun costo: effettua il Login o Registrati.
5
INTRODUZIONE
Questo elaborato nasce dall’esigenza di rappresentare alcuni concetti teorici riguardanti
aspetti di Statistica Multivariata mediante un particolare software statistico. Infatti si tratterà
di cluster analysis e della sua applicazione nel settore del turismo mediante l’utilizzo di R. I
dati presenti provengono da fonti Istat, Eurostat e Regione Veneto.
Nel primo capitolo saranno descritti concetti teorici riguardanti la cluster analysis.
La cluster analysis o analisi dei gruppi è una tecnica di statistica multivariata attraverso la
quale vengono selezionati e raggruppati in gruppi elementi simili tra loro in modo tale che
tali unità risultino omogenee al loro interno e eterogenee tra loro. L’obiettivo dell’analisi dei
gruppi sarà quello di classificare le unità in gruppi, in modo che le unità attribuite ad un
gruppo siano tra loro simili, cioè ci sia una coesione interna, e in modo che i gruppi siano tra
loro ben distinti.
Per applicare la cluster analysis sarà necessario:
1. innanzitutto effettuare la scelta delle variabili e delle unità statistiche;
2. in secondo luogo effettuare la scelta della misura di dissomiglianza o distanza tra le
componenti;
3. provvedere alla scelta dell’algoritmo di raggruppamento:
a. gerarchico
b. non gerarchico
4. valutare le partizioni ottenute e scegliere il numero ottimale di gruppi;
5. interpretare i risultati ottenuti.
L’analisi dei cluster, come vedremo poi nel terzo e ultimo capitolo, verrà applicata al settore
del turismo in particolare prendendo in esame alcune variabili per ogni regione Italiana.
Prima di arrivare all’analisi specifica si è voluto fare un quadro generale del turismo
nell’euro zona negli anni 2000 e 2006, evidenziando i fattori che hanno favorito la crescita e
quelli che hanno causato perdite. I fattori positivi e negativi che hanno portato allo sviluppo
del turismo internazionale in Europa sono fattori demografici, politici, economici, sociali,
sanitari, meteo, mercato e accessibilità, tecnologici, altri fattori.
6
Inoltre, grazie ai dati forniti dall’Eurostat, si è potuto stilare una classifica degli stati europei
che rientrano nella top ten per quanto riguarda il turismo in uscita e le destinazioni leader del
turismo. Da questa classifica si può evincere che l’Italia rientra tra gli Stati Europei più
sviluppati dal punto di vista del turismo.
In seguito a questa indagine si è voluto nel terzo capitolo prendere in esame l’Italia e
applicare l’analisi dei cluster alle regioni italiane in relazioni a quattro variabili diverse,
ossia: l’occupazione nel settore alloggi e ristorazione, gli aggregati dei conti territoriali nel
settore alloggi e ristorazione, gli esercizi ricettivi e il numero delle presenze dei turisti.
L’obiettivo sarà quello di individuare dei raggruppamenti di regioni, ossia dei cluster, che
sono accumunati da tratti di similarità relativamente alle variabili suddette.
7
CAPITOLO
I
CLUSTER ANALYSIS
1.1 Introduzione al cluster
Per cluster analysis s’intende una tecnica statistica multivariata, mediante la quale è possibile
raggruppare più unità simili tra loro in un certo numero di gruppi attraverso procedure atte
ad ottenere da una popolazione di dati una struttura a gruppi.
La cluster analysis è un metodo empirico di classificazione, infatti, non decide e non realizza
nulla a priori, diversamente da altre tecniche statistiche multivariate.
Tale tecnica si propone di formare un certo numero di classi in modo tale che le osservazioni
siano il più possibile omogenee al loro interno ed eterogenee tra loro, ciò significa che le
unità all’interno dei gruppi dovranno essere “vicine tra loro” e che le unità attinenti a gruppo
diversi saranno “più lontane”.
Esistono vari motivi per la definizione dei gruppi, tra i quali ci sono la stratificazione di
popolazioni sottoposte a campionamento, ricerca e individuazione di gruppi di unità con
caratteri diversi, definizione di sistemi di classificazione, la sintesi delle osservazioni e la
ricostruzione di valori mancanti grazie ad informazioni dedotte da dati disponibili.
Nell’ambito economico-aziendale l’utilizzo della cluster analysis consente l'identificazione -
sulla base di comportamenti, preferenze o dell’importanza attribuita a varie categorie di
prodotti o servizi - dei consumatori, di strutture di servizi, di marche di un certo prodotto e di
aziende.
Storicamente il pioniere della cluster analysis fu R.C. Tyron, psicologo e statistico
statunitense, il quale nel 1939 coniò il termine cluster analysis nell’ambito dei suoi lavori in
psicometria e la presentò come variante dell’analisi fattoriale. In seguito, negli anni sessanta,
il biostatistico austro-americano R.R. Sokal e il microbiologo inglese P.H.A. Sneath dettero
un ulteriore impulso alla cluster analysis.
Nel 1963 lo statistico Ward affrontò problemi riguardanti la classificazione di posizioni
occupazionali, mediante l’introduzione della tecnica di clustering da lui elaborata. Altro
esponente fu lo studioso R.A. Johnson il quale riteneva la cluster analysis utile a tracciare la
struttura della matrice di similarità fra i diversi casi.
8
1.2 Le fasi dell'applicazione
L'applicazione della cluster analysis si articola in alcune fasi:
1. Scelta delle variabili, delle unità statistiche osservate, e organizzazione dei dati: questa
scelta di solito riflette le idee del ricercatore e comporta un alto grado di soggettività. Per
quanto riguarda le variabili, esse devono essere espresse nella stessa unità di misura, in
caso contrario è necessario standardizzare le variabili.
2. Scelta di una misura della dissomiglianza o distanza tra le osservazioni.
In generale si dice distanza una qualsiasi funzione d tale che:
= 0 (identità)
≥ 0 (definita positiva)
=