Clusterizzazione non supervisionata - Introduzione algoritmo della k – medie
L’algoritmo delle k-medie (Lloyd, 1982) è una tecnica di clusterizzazione statistica semplice ma efficace.
- Vediamo come tale algoritmo suddivide un insieme di dati in cluster disgiunti:
1. Scegliere un valore arbitrario di k (numero totale di cluster nel dataset).
2. Scegliere in modo casuale k osservazioni nel dataset, che saranno i centri dei cluster.
3. Utilizzare una semplice distanza euclidea per assegnare le osservazioni ai cluster i cui centri sono più vicini.
4. Utilizzare le osservazioni presenti in ogni cluster per calcolare le nuove coordinate medie dei cluster.
5. Se tali coordinate sono idendiche alle precedenti il processo termina, altrimenti si utilizzano le nuove coordinate medie come centri dei cluster e si ripetono i passi da 3 a 5.
Continua a leggere:
- Successivo: Esempio applicativo di clusterizzazione non supervisionata
- Precedente: Esempio applicativo di regole associative
Per approfondire questo argomento, consulta le Tesi:
- Un analisi statistica su come le recensioni possono influenzare la scelta di acquisto dei consumatori
- Sistemi web-based di analisi strategica: Business Intelligence e Big Data
- Il Data mining a supporto dei processi decisionali in azienda
- L'evoluzione dei sistemi informativi e di controllo aziendali
- Analisi dei processi di CRM nel web: electronic customer relationship management
Puoi scaricare gratuitamente questo appunto in versione integrale.