Quanto il data mining è adatto a risolvere un problema
Per stabilire se il data mining sia la strategia più appropriata alla risoluzione di un particolare problema bisogna porsi alcune domande:
1. siamo in grado di definire chiaramente il problema:
2. esistono dati significativi:
3. i dati contengono informazioni nascoste o hanno soltanto una finalità di reporting:
4. il costo di analisi dei dati sarà minore o maggiore dell’incremento di profitto ottenibile applicando le nuove conoscenze ricavate dal progetto di data mining:
Non è possibile rispondere, a questo stadio di conoscenza della materia, alle prime due domande e alla quarta (ciò apparirà più chiaro al termine del corso).
E’ invece possibile rispondere alla terza domanda utilizzando pochi (e semplici) esempi.
Possono essere definite tre tipologie generali di conoscenza in grado di aiutarci a determinare le situazioni nelle quali risulta generalmente utile utilizzare un approccio di data mining.
- CONOSCENZA SUPERFICIALE : è evidente in natura e può essere facilmente acquisita e manipolata in un database. Gli strumenti di interrogazione, come il linguaggio SQL, sono eccellenti per estrarre una conoscenza sommaria dei dati.
- CONOSCENZA MULTIDIMENSIONALE : è anch’essa evidente, anche se i dati sono raccolti in strutture multidimensionali. Gli strumenti OLAP sono efficaci con questo tipo di dati.
- CONOSCENZA NASCOSTA : è rappresentata da modelli (pattern) o regolarità nei dati che non possono essere facilmente evidenziati con gli strumenti di interrogazione tradizionali o multidimensionali. Gli algoritmi di data mining sono invece in grado di trovare tali modelli con una certa facilità.
Come abbiamo visto, linguaggi di interrogazione e gli strumenti OLAP sono molto efficaci nel trovare e riportare le informazioni presenti all’interno di un database quando il ricercatore sa esattamente cosa sta cercando come, ad esempio:
- una lista di tutti i clienti della ACME Department Store che hanno utilizzato la carta di credito per acquistare un barbecue;
- una lista di tutti gli impiegati con più di 40 anni che hanno usufruito di 5 o più giorni di malattia nell’ultimo anno;
- una lista di tutti i pazienti che hanno avuto almeno un infarto e il cui colesterolo è inferiore a 200;
- una lista di tutti i possessori di carta di credito che hanno utilizzato la loro carta per spendere oltre 300 € in generi di drogheria nel mese di giugno.
Il risultato di queste query può fornire informazioni preziose anche in chiave prospettica.
Il data mining, tuttavia, ci fa compiere un passo in avanti perché ci fornisce informazioni potenzialmente utili anche quando abbiamo soltanto una vaga idea di quello che stiamo cercando.
In pratica, il data mining ci fa trovare risposte a domande che non eravamo in grado di formulare:
- sviluppare un profilo generale dei possessori di carte di credito che aderiscono alle promozioni offerte con la loro carta;
- trovare le differenze tra persone con un basso rischio di credito e persone che sono solite pagare per tempo i loro debiti;
- classificare gli oggetti fievoli che si trovano nelle immagini della volta celeste;
- determinare quando (cioè dopo quanti giorni) è probabile che un paziente ritorni a lavorare dopo un intervento di ernia del disco.
RIEPILOGO
Il data mining è una strategia di apprendimento di natura induttiva che costruisce modelli per identificare regolarità (pattern) nascoste nei dati.
Un modello creato da un algoritmo di data mining è una generalizzazione concettuale dei dati.
Tale generalizzazione può assumere la forma di un albero, di una rete, di un’equazione o di un insieme di regole.
Il data query può aiutarci a trovare le risposte a domande che ci poniamo in merito alle informazioni immagazzinate nei dati.
Il data mining ci offre risposte a domande che non avremmo mai pensato di porci.
Il data mining è un processo costituito dalle fasi di definizione degli obiettivi, raccolta dei dati e integrazione, analisi esplorativa, selezione degli attributi, sviluppo e validazione dei modelli, predizione e interpretazione, retroazione.
Le analisi di data mining possono essere di tipo supervisionato o non supervisionato.
Nelle analisi supervisionate, i casi di cui è nota la classificazione (attributo target) sono utilizzati per costruire un modello generale di rappresentazione dei dati mediante il quale classificare nuovi casi la cui classificazione non è nota a priori.
Nelle analisi non supervisionate, non esistono classi predefinite ma i casi sono raggruppati in base ad uno schema di similitudine costruito dal modello.
Continua a leggere:
- Successivo: Tecniche di data mining – introduzione
- Precedente: Esempio 2 – Apprendimento non supervisionato clustering
Per approfondire questo argomento, consulta le Tesi:
- Un analisi statistica su come le recensioni possono influenzare la scelta di acquisto dei consumatori
- Sistemi web-based di analisi strategica: Business Intelligence e Big Data
- Il Data mining a supporto dei processi decisionali in azienda
- L'evoluzione dei sistemi informativi e di controllo aziendali
- Analisi dei processi di CRM nel web: electronic customer relationship management
Puoi scaricare gratuitamente questo appunto in versione integrale.