Valmontone e Segni. Il set di dati di partenza è stato fornito da TradeLab, società
di consulenza rivolta alle imprese industriali e distributive.
L’indagine è stata realizzata intervistando, nella seconda metà di ottobre del
2003, 1000 consumatori responsabili degli acquisti, residenti nei comuni di
Colleferro (40% degli intervistati), Segni (16%), Artena (21%) e Valmontone
(23%).
Il campione è casuale, la popolazione di riferimento è costituita da “famiglie
attive” (costituite da non meno di due componenti, di cui almeno uno impiegato)
e “pensionati” (nuclei in cui il capofamiglia è un pensionato), residenti nei
comuni precedentemente elencati.
Il questionario originale, sottoposto agli intervistati, comprende 15 macro-
domande. Per il nostro lavoro abbiamo posto l’attenzione su alcune domande che
riguardano il processo d’acquisto dei prodotti grocery nelle diverse forme
distributive (tradizionali e moderne), l’importanza degli attributi del servizio
commerciale, la soddisfazione dei punti vendita frequentati ed infine i dati socio-
demografici.
Il Campione di acquirenti intervistato è formato prevalentemente da donne
(75,1%). Nel 63,8% dei casi si tratta di famiglie attive e per il restante 36,2% di
pensionati. Le famiglie mono-nucleari rappresentano il 7,2% del campione,
mentre nel 25,9% dei casi gli acquirenti appartengono a famiglie composte da
due persone, nel 26,4% da tre persone, nel 30,4 % da quattro persone (moda di
questa variabile) e nel 10,1% da cinque o più persone.
Scorrendo i contenuti del presente lavoro la prima parte, che comprende i primi
due capitoli, è di natura teorica.
Il primo capitolo espone in maniera dettagliata le diverse tecniche di analisi
statistica dei dati multivariata (in cui viene preso in considerazione l’andamento
congiunto di p variabili) che verranno applicate nella seconda parte del lavoro.
Le tecniche statistiche descritte sono tre: la cluster analysis è una tecnica di
classificazione automatica in gruppi internamente omogenei e disomogenei
esternamente; l’analisi delle componenti principali consente, partendo da una
4
matrice dei dati di dimensioni n X p, di sostituire alle p variabili un nuovo
numero ridotto di variabili, chiamate componenti principali, che “spieghino” gran
parte della varianza (ovvero del contenuto informativo) delle variabili originali;
la regressione logistica dicotomica si configura come un particolare modello di
regressione nel quale la variabile dipendente è binaria, questa tecnica permette di
stimare in quale misura più variabili indipendenti influiscono sulla probabilità
che un evento si verifichi (variabile dipendente).
Il secondo capitolo vuol dare una sintetica visione del settore distributivo
italiano, soffermandosi sui notevoli cambiamenti che il servizio commerciale al
dettaglio sta subendo, sia per quanto riguarda la struttura delle forme distributive,
sia per il numero di punti vendita moderni e tradizionali. Inoltre, viene analizzata
la diversa evoluzione della distribuzione moderna nelle quattro macroaree
geografiche del nostro paese (nord-ovest; nord-est; centro; sud) e offre un
confronto con Francia, Germania e Regno Unito.
Particolare attenzione è posta anche al tema della store loyalty e alle leve
manovrabili dall’azienda commerciale per sviluppare fedeltà: lo sviluppo della
marca-insegna; lo sviluppo della marca commerciale; le carte fedeltà; il
micromarketing; la qualità del servizio.
La seconda parte, che comprende il terzo, il quarto e il quinto capitolo, è dedicata
alla ricerca di marketing.
Il terzo capitolo, in cui viene applicata la cluster analysis, ha come obiettivo
quello di riuscire a raggruppare i consumatori in gruppi omogenei in base alle
forme distributive utilizzate (Super/Iper, negozi tradizionali, mercati e discount)
per gli acquisti di beni grocery (frutta/verdura, salumi e formaggi, carne, pesce,
pane, alimentari confezionati, prodotti per l’igiene della persona e per la pulizia
della casa).
Dopo aver individuato le tipologie di consumatori l’analisi si concentra sulle
variabili utilizzate nella cluster analysis al fine di approfondire il peso che le
singole variabili hanno avuto nella segmentazione.
5
Il quarto capitolo, attraverso l’analisi delle componenti principali, ha tre obiettivi
principali: analizzare l’importanza degli attributi commerciali per i consumatori;
ottenere un numero n di componenti principali (con n<< m; m = 27 attributi
commerciali sui quali gli intervistati hanno espresso un giudizio di importanza),
che possano rappresentare delle macrocategorie o dimensioni del servizio
commeciale; raccogliere informazioni sul grado di customer satisfaction degli
acquirenti di uno specifico ipermercato di Colleferro utilizzando lo stesso set di
27 attributi ai quali gli intervistati hanno espresso un giudizio di soddisfazione.
Il quinto capitolo con l’ausilio della regressione logistica vuol essere uno
strumento operativo di supporto alle strategie di fidelizzazione della clientela
individuando i fattori che maggiormente sono in grado di spiegare la scelta da
parte dei consumatori di beni grocery di uno specifico punto vendita di
Colleferro.
La variabile dipendente del modello è ricondotta ad una risposta binaria:
acquirenti del punto vendita di Colleferro (Y = 1) e non-acquirenti del punto
vendita (Y = 0).
Come fattori esplicativi sono state inserite le seguenti variabili: variabili socio-
demografiche; le tipologie di consumatori ottenuta con la cluster analysis; 27
attributi commerciali della grande distribuzione commerciale ai quali gli
intervistati hanno espresso un giudizio personale di importanza; 22 attributi
commerciali della grande distribuzione organizzata ai quali gli intervistati hanno
espresso un giudizio di soddisfazione rispetto al punto vendita frequentato.
6
CAPITOLO 1 Metodi statistici applicati al marketing
1.1 L’analisi dei gruppi
L’interesse per la costruzione di tipologie è via via cresciuto nel tempo e la
possibilità di definire un tipo o classe di elementi è uno degli obiettivi generali
dell’analisi dei fenomeni complessi. Il problema della segmentazione, infatti, si
presenta ogni volta che si ha a che fare con una popolazione eterogenea (ad
esempio di clienti) e si vogliono intraprendere azioni mirate ad elementi della
popolazione con caratteristiche specifiche.
La finalità della cluster analysis è quella di pervenire a g gruppi omogenei
partendo dalle n unità osservate (g<<n), con il vantaggio di una notevole
parsimonia nella descrizione e di una interpretazione più semplice
1
.
Un medesimo insieme di unità statistiche può essere classificato in molti modi
diversi in base allo scopo della segmentazione. Il ricercatore deve, quindi,
effettuare una serie di scelte che condizionano i risultati della classificazione. Le
più importanti riguardano la scelta delle variabili, la scelta della distanza, la
scelta del metodo di formazione dei gruppi e la scelta del numero dei gruppi.
La scelta delle variabili: la selezione dipende dalle finalità assegnate ad una
cluster analysis . A questo riguardo la metodologia statistica è di scarso aiuto.
Sarà il ricercatore, in base al problema in esame, a decidere le variabili da
inserire nel modello.
La classificazione dovrebbe fondarsi su tutte le variabili che si ritengono
importanti per gli scopi prefissati. Ciò potrebbe indurre ad utilizzare un numero
1
S. Zani, Analisi dei Dati Statistici Vol II, Giuffrè Editore, 2000.
7
elevato di fenomeni rilevati ma bisogna tener presente che l’uso di variabili con
scarso potere di discriminazione tra i gruppi può peggiorare i risultati.
Scelta della distanza o dell’indice di similarità: molte tecniche statistiche di
analisi multivariata, come la cluster analysis, partono da una matrice di distanze
o di prossimità tra coppie di casi. È sulla base di queste misure che vengono
formati i gruppi a partire da n osservazioni (per un approfondimento si rimanda
al sottoparagrafo 1.1.1).
La scelta di quale utilizzare si basa sulle proprietà della misura, tenendo conto
del tipo di dati di cui si dispone e sulla tecnica di clustering prescelta.
Scelta del metodo di formazione dei gruppi: l’obiettivo dei metodi è quello di
classificare n unità statistiche in gruppi con le caratteristiche di coesione interna
2
e di separazione esterna
3
.
I metodi di formazione dei gruppi vengono distinti in gerarchici e non gerarchici:
i metodi gerarchici (che tratteremo nell’approfondimento) consentono di ottenere
una famiglia di partizioni con un numero di gruppi da n a 1, partendo da quella in
cui tutte le unità sono distinte per giungere a quella in cui tutti gli elementi sono
riuniti in un unico gruppo; i metodi non gerarchici forniscono un’unica
ripartizione delle n unità in g gruppi, con g fissato a priori.
Individuazione del numero ottimo di gruppi: la cluster gerarchica non indica il
numero di gruppi ottimali ma spetta al ricercatore scegliere la soluzione migliore.
Un aiuto è dato dai coefficienti di agglomerazione che riportano la distanza
(secondo la misura prescelta) fra i due gruppi che sono stati aggregati,
solitamente si ferma l’aggregazione in corrispondenza di una variazione
consistente della distanza e cioè quando si dovrebbero unire due gruppi troppo
disomogenei.
2
Con coesione interna si intende che le unità assegnate ad un medesimo gruppo devono essere
tra loro simili.
3
Con separazione esterna si intende che i gruppi ottenuti devono essere il più possibile distinti.
8
Un altro aiuto per questa decisione è dato dal dendogramma
4
, il quale riporta le
distanze sull’asse orizzontale (trasformate in modo da rientrare in una scala da 1
a 25), consentendo di effettuare questa valutazione visivamente.
Occorre infine precisare che una classificazione di unità statistiche può ritenersi
valida quando essa rimane approssimativamente stabile al variare degli algoritmi
utilizzati per ottenerla, poiché in tal caso essa riflette una struttura realmente
presente nei dati e non generata semplicemente dalla procedura utilizzata. Nelle
applicazioni concrete è bene utilizzare diversi metodi e distanze e confrontare tra
loro le varie classificazioni ottenute.
1.1.1 Un approfondimento: la distanza tra unità statistiche
In statistica il concetto di distanza è mutuato dalla geometria: si dice distanza tra
due punti corrispondenti ai vettori A, B ∈ R una funzione d (A, B) che gode
delle seguenti proprietà:
• non negatività d (A, B) 0 ≥ ∀ A, B ∈ R
• identità d (A, B) = 0 ⇔ A = B
• simmetria d (A, B) = d (B, A) ∀ A, B ∈ R
• disuguaglianza triangolare d (A, B) ≤ d (A, C) + d (B, C) ∀ A, B, C ∈ R
Di seguito esporremo solo i tipi di distanze che verranno utilizzate nel terzo
capitolo per ottenere le tipologie di consumatori.
4
La partizione ottenuta con un metodo gerarchico può essere rappresentata graficamente
mediante un albero n-dimensionale detto dendogramma.
9
Distanza euclidea: con riferimento a due sole dimensioni, è la distanza
misurabile con una linea che congiunge due punti A e B su un grafico. La
formula di calcolo è la seguente:
d (A, B) =
()()
22
baba
YYXX −+−
Utilizzando un numero superiore di dimensioni, che indicheremo con K, la
formula può essere così generalizzata:
d (A, B) =
()
∑
=
−
k
i
biai
XX
1
2
Distanza euclidea quadratica: si tratta della precedente distanza elevata al
quadrato
d (A, B) =
()
∑
=
−
k
i
biai
XX
1
2
Distanza della città a blocchi (city-block)
d (A, B) =
2
1
∑
=
−
k
i
biai
XX
Nella figura 1.1 questa distanza corrisponde alla somma dei due cateti ed il nome
deriva proprio dal fatto che essa è la lunghezza che si deve percorrere per
spostarsi da A a B qualora sia consentito muoversi solo nelle direzioni parallele
agli assi, come avviene in una città a griglie regolari.
10
Fig. 1.1 - Tipi di distanze tra due punti A, B
XX
Y
Y
Distanza euclidea Distanza city-block
A
B
A B
A
B
(Fonte: SPSS training, analisi statistica multivariata applicata alla ricerca sociale e al marketing)
1.1.2 Un approfondimento: metodi di raggruppamento
I cluster sono formati raggruppando i casi in gruppi sempre più numerosi,
partendo con tanti gruppi quanti sono i casi e terminando con un unico gruppo
contenente tutti i casi. Ad ogni passo si uniscono i due gruppi (formati da uno o
più casi) più vicini in base ad un certo criterio.
Le differenze tra i vari metodi gerarchici consistono nel criterio utilizzato per
calcolare la distanza tra due gruppi di unità.
Anche in questo caso analizzeremo i metodi che verranno successivamente
utilizzati.
Metodo del legame completo (complete linkage) o del vicino più lontano (furthest
neighbour): se consideriamo due gruppi (cluster) C1 e C2 con n1 e n2 le
rispettive numerosità, la distanza è definita come il massimo delle n1n2 distanze
11
tra ciascuna delle unità di un gruppo e ciascuna delle unità dell’altro gruppo, cioè
considera la distanza tra i punti più lontani dei due cluster:
d (C1, C2) = max (d
rs
) , per R
∈
C1 S
∈
C2
Metodo di Ward o della minima devianza: dato che lo scopo della classificazione
è quello di ottenere gruppi con la maggiore coesione interna, ad ogni passo della
procedura gerarchica si aggregano tra loro i gruppi che comportano il minore
incremento della devianza nei gruppi, cioè che assicurano la maggiore coesione
interna possibile.
La minimizzazione dell’incremento della devianza ad ogni passo della procedura
gerarchica è equivalente all’impiego della seguente distanza tra due gruppi:
d (C1, C2) =
2
21
21
21
XX
nn
nn
−
+
Essa corrisponde al quadrato della distanza euclidea tra i centroidi dei due
gruppi, moltiplicato per una quantità che è funzione del numero di unità dei due
gruppi.
1.2 Analisi delle componenti principali
Quando le variabili considerate sono numerose, si pone il problema se sia
possibile rappresentare le osservazioni, anziché nello spazio originario R
p
, in uno
spazio di dimensioni ridotte con una perdita limitata di informazioni.
Se le variabili sono tra loro correlate, le dimensioni d’interesse possono essere in
realtà minori di p variabili, sostituendo ad un R
p
spazio un nuovo spazio R
k
con
k<<p.
12