Considerazioni generali sul metodo delle k-medie
Il metodo delle k-medie è semplice da capire e implementare ed è la tecnica statistica preferita. Tuttavia ci sono diversi punti da considerare:
- L’algoritmo può operare solo con valori reali. Se nel dataset è presente una variabile categorica, questa deve essere eliminata oppure trasformata in valori numerici equivalenti.
- Si deve scegliere a priori un valore per il numero di cluster da generare. Un metodo per superare questo problema consiste nell’eseguire più volte l’algoritmo con valori diversi di k, in modo da acquisire un’idea più precisa sul numero di cluster presenti nei dati.
- L’algoritmo funziona meglio quando i cluster presenti nei dati hanno approssimativamente la stessa dimensione. In caso contrario l’algoritmo non è sempre in grado di trovare la soluzione ideale.
- Non c’è modo di sapere quali variabili siano significative per determinare i cluster. Per questo motivo, la presenza di molte variabili irrilevanti può condurre a risultati insoddisfacenti.
- La mancanza di spiegazione sulla natura dei cluster generati lascia al ricercatore la responsabilità di interpretare i risultati ottenuti. Tuttavia, è possibile utilizzare le tecniche di data mining supervisionato per capire meglio tale natura.
- Oltre ai metodi di partizione, a cui appartiene l’algoritmo delle k-medie, esistono altri metodi di clustering:
- METODI GERARCHICI : Prevedono molteplici suddivisioni in sottogruppi, basate su una struttura ad albero e caratterizzate da diverse soglie di omogeneità all’interno di ciascun gruppo e disomogeneità tra cluster distinti.
- METODI BASATI SULLA DENSITÀ : Sviluppano i cluster in relazione al numero di osservazioni localmente presenti in un intorno di ciascuna osservazione.
- METODI A GRIGLIA : Prevedono una preventiva discretizzazione dello spazio delle osservazioni, ottenendo una griglia costituita da celle. Le successive operazioni di raggruppamento vengono sviluppate in relazione alla struttura a griglia.
Continua a leggere:
- Successivo: Introduzione ai metodi di preparazione dei dati per le business analysis
- Precedente: Esempio applicativo di clusterizzazione non supervisionata
Per approfondire questo argomento, consulta le Tesi:
- Un analisi statistica su come le recensioni possono influenzare la scelta di acquisto dei consumatori
- Sistemi web-based di analisi strategica: Business Intelligence e Big Data
- Il Data mining a supporto dei processi decisionali in azienda
- L'evoluzione dei sistemi informativi e di controllo aziendali
- Analisi dei processi di CRM nel web: electronic customer relationship management
Puoi scaricare gratuitamente questo appunto in versione integrale.