Esempi di diverse prospettive nel data mining
Ipotizziamo di avere tre casi di cluster:
CASO 1
REDDITO ANNUO = € 32.000
ANNI NELLA STESSA AZIENDA = 6
PROPRIETARIO DI CASA
CASO 2
REDDITO ANNUO = € 52.000
ANNI NELLA STESSA AZIENDA = 16
INQUILINO
CASO 3
REDDITO ANNUO = € 28.000
ANNI NELLA STESSA AZIENDA = 11
PROPRIETARIO
- Come per la prospettiva probabilistica, anche la prospettiva casistica può associare una probabilità di appartenenza ad una determinata categoria.
Nel data mining le regole possono essere analizzate da almeno tre punti di vista (le tre prospettive classica, probabilistica, casistica).
Inoltre, le regole possono essere create in vari modi. La tecnica più semplice per sviluppare regole è l’APPRENDIMENTO SUPERVISIONATO, che rappresenta il metodo più chiaro di apprendimento dei concetti ed è la tecnica più largamente utilizzata per il data mining. Significa avere una data set di osservazioni in cui una colonna rappresenta la classe di appartenenza di queste osservazioni. Abbiamo un attributo che indica la classe di appartenenza delle osservazioni. Questo non è valido nell’analisi clustering.
I modelli e le regolarità (pattern) identificati possono assumere forme diverse, quali equazioni lineari e non lineari, sequenze di regole nella forma “if … then …”, cluster, grafici, alberi.
Il processo di data mining ha un carattere iterativo (con numerose retroazioni e conseguenti ripetizioni di fasi) e richiede di essere condotto in chiave collaborativa tra esperti dell’ambito applicativo di riferimento (knowledge worker) e esperti di analisi dei dati (analisti). Il processo di data mining solo dopo molti cicli produce delle regole produttive per l’assunzione si certe decisioni.
Per altro è un processo collaborativo perché richiede competenze diverse all’interno dell’azienda, che vanno dagli esperti del dominio applicativo, che sanno tutto su quell’ambito applicativo, agli esperti di analisi dei dati. La preparazione dei dati implica delle conoscenze informatiche non trascurabili.
Le attività di data mining possono essere distinte in base a DUE ORIENTAMENTI DI INDAGINE:
- INTERPRETAZIONE DI UN FENOMENO : è volta a identificare schemi di regolarità (pattern) presenti nei dati e ad esprimerli attraverso regole e criteri che risultino comprensibili agli esperti del contesto applicativo.
Significa arrivare a una regola, se esiste una regola che consente di rappresentare una tendenza presente nei dati, e fermarsi a questo costruendo un modello di interpretazione di un fenomeno.
Come abbiamo visto, per un’azienda finanziaria di credito al consumo può essere utile raggruppare i sottoscrittori di prestiti personali in base ad alcune caratteristiche del profilo anagrafico e socio-demografico. Le categorie così generate possono rivelarsi utili per evidenziare nuove opportunità di mercato (identificazione di segmenti target di clientela) e guidare le successive azioni promozionali.
- PREDIZIONE : è volta a prevedere il valore che una variabile casuale assumerà in futuro, oppure a stimare la probabilità di accadimento di eventi futuri (è spesso conseguente ad un’attività di interpretazione). In generale, la predizione viene ricavata sulla base del valore di alcune variabili associate alle entità presenti in un data warehouse.
Si utilizza la regola per prevedere un comportamento futuro. Questo orientamento implica l’utilizzo di una regola in chiave previsionale.
Ad esempio, per un operatore di telefonia è possibile sviluppare un’analisi orientata a stimare la probabilità di abbandono a favore di concorrenti da parte dei propri clienti. Tale analisi può essere condotta in relazione a caratteristiche quali l’età, l’anzianità di attivazione del contratto, il volume percentuale di chiamate verso altri operatori.
PRINCIPALI AREE DI APPLICAZIONE
- MARKETING : product targeting, cross selling, segmentazione della clientela, CRM, customer retention.
- FINANZA : supporto a investimenti, gestione di portafogli, rilevamento frodi.
- BANCHE / ASSICURAZIONI : istruzione pratiche di credito / istruzione pratiche assicurative.
- SICUREZZA : rilevazione di intrusioni, controllo degli accessi.
- SCIENZE : progettazione di farmaci, studio di fattori genetici, astrofisica.
- MEDICINA : supporto a diagnosi e prognosi, valutazione di cure, scoperta di relazioni fra malattie (epidemiologia).
- PRODUZIONE : modellazione dei processi produttivi, controllo di qualità, allocazione delle risorse.
- INTERNET : smart search engine, web marketing, web site design.
MODELLI DI APPRENDIMENTO
Anche il termine data mining è sostituito da altri termini.
Metodologie di apprendimento di natura informatica (machine learning, KDD - Knowledge Discovery in Database), aventi un prevalente carattere empirico (affrontate in parte in questo modulo).
Modelli matematici di apprendimento caratterizzati da un’impronta più rigorosa (alcuni si collocano al crocevia tra teoria della probabilità, teoria dell’ottimizzazione e statistica, affrontati in parte nel modulo di statistica).
APPROCCI
Indipendentemente dalla specifica metodologia di apprendimento, lo sviluppo di un modello di data mining segue alcuni passi ricorrenti:
1. quando arriviamo ad avere un data set, che è pronto per essere utilizzato, bisogna provvedere alla scelta della classe di modelli da impiegare e della forma di rappresentazione delle regolarità eventualmente presenti nei dati;
2. definizione di una metrica per la valutazione di efficacia e accuratezza dei modelli generati;
3. progettazione di un algoritmo di calcolo per elaborare i modelli in modo da ottimizzare le metriche di valutazione (o meglio, i valori delle metriche).
Continua a leggere:
- Successivo: Confronto con statistica classica e OLAP
- Precedente: Prospettiva casistica nella definizione di regole nel data mining
Per approfondire questo argomento, consulta le Tesi:
- Un analisi statistica su come le recensioni possono influenzare la scelta di acquisto dei consumatori
- Sistemi web-based di analisi strategica: Business Intelligence e Big Data
- Il Data mining a supporto dei processi decisionali in azienda
- L'evoluzione dei sistemi informativi e di controllo aziendali
- Analisi dei processi di CRM nel web: electronic customer relationship management
Puoi scaricare gratuitamente questo appunto in versione integrale.