I processi di data mining
Un PROCESSO ITERATIVO, nel quale i modelli e le tecniche di apprendimento svolgono un ruolo centrale ma non esaustivo.
Fasi del processo:
- DEFINIZIONE DEGLI OBIETTIVI : il problema da analizzare viene adeguatamente identificato e descritto, sulla base di una stretta collaborazione tra esperti del contesto applicativo e analisti di data mining.
Un possibile obiettivo potrebbe essere formulato come: “analizzare i dati riferiti al passato e identificare un modello che consenta di raggruppare i sottoscrittori di prestiti personali sulla base delle loro caratteristiche, allo scopo di individuare nuovi segmenti di clientela”.
A differenza delle analisi campionari della statistica classica, i dataset per gli studi di data mining, vengono estratti in modo casuale, o meglio, senza conoscerne la logica di distribuzione.
- RACCOLTA DEI DATI E INTEGRAZIONE : la raccolta dei dati può avvenire da fonti interne e fonti esterne e richiedere un intervento di integrazione e arricchimento con nuove dimensioni descrittive (eventualmente non presenti nell’ambito del sistema informativo aziendale).
In alcuni casi, i dati possono risultare già strutturati in data warehouse e data mart rivolti ad analisi OLAP e, più in generale, ad attività di supporto decisionale. In tali situazioni favorevoli (purché i dati non siano stati eccessivamente aggregati e consolidati), ci si può limitare a selezionare gli attributi ritenuti rilevanti per la analisi di data mining.
- ANALISI ESPLORATIVA : analisi preliminare dei dati, avente il duplice scopo di conoscere in modo più appropriato le informazioni disponibili e realizzare una validazione dei dati (data cleansing). Per ciascun attributo, si studia la distribuzione dei valori (mediante istogrammi per quelli categorici, indicatori statistici per quelli numerici). In questo modo vengono evidenziati eventuali anomalie e valori mancanti.
Mentre i dati presenti in un data warehouse subiscono un trattamento rivolto a eliminare inconsistenze di natura sintattica, nel processo di data mining la validazione dei dati si sviluppa su un piano semantico, ciò che richiede la collaborazione di esperti applicativi.
- SELEZIONE DEGLI ATTRIBUTI : valutazione di rilevanza dei diversi attributi in relazione agli obiettivi dell’analisi. Gli attributi che si rivelano di scarsa utilità vengono rimossi, mentre si procede alla definizione di nuovi attributi ottenuti a partire dalle variabili originali mediante opportune trasformazioni.
L’analisi esplorativa e la selezione degli attributi costituiscono passaggi critici (e spesso molto impegnativi) nel processo di data mining e possono determinarne il successo o l’insuccesso.
- SVILUPPO E VALIDAZIONE DEI MODELLI : una volta predisposto un dataset di elevata qualità, si procede allo sviluppo dei modelli di apprendimento.
Generalmente, si effettua il training dei modelli utilizzando un campione limitato di record (training set) estratti dal dataset originale per poi valutarne l’accuratezza predittiva sulla rimanente parte dei dati (test set). Si procede generando diversi modelli e scegliendo il modello che esprime l’accuratezza più elevata nei confronti del test set.
- PREDIZIONE E INTERPRETAZIONE : il modello prescelto viene recepito e utilizzato per realizzare gli obiettivi originariamente formulati.
Deve, inoltre, essere incorporato nelle procedure di supporto ai processi decisionali in modo che i knowledge worker lo possano utilizzare per ricavare predizioni e ottenere una comprensione approfondita del fenomeno utilizzato.
- RETROAZIONE : il processo di data mining prevede cicli di retroazione che sulla base dello sviluppo di fasi successive possono condurre a ripercorrere in modo diverso alcune delle fasi precedenti.
Uno degli obiettivi delle analisi di clustring è quello di identificare quegli individui che non stanno all’interno dei cluster, perché quelli possono essere gli elementi ad alto contenuto informativo. Quindi trattiamo gli esiti del data mining in modo asettico. Se non esiste la regola possono comunque trarre un’informazione importante.
Continua a leggere:
- Successivo: Standardizzazione del processo di data mining
- Precedente: Rappresentazioni dei dati in ingresso nelle analisi di data mining
Per approfondire questo argomento, consulta le Tesi:
- Un analisi statistica su come le recensioni possono influenzare la scelta di acquisto dei consumatori
- Sistemi web-based di analisi strategica: Business Intelligence e Big Data
- Il Data mining a supporto dei processi decisionali in azienda
- L'evoluzione dei sistemi informativi e di controllo aziendali
- Analisi dei processi di CRM nel web: electronic customer relationship management
Puoi scaricare gratuitamente questo appunto in versione integrale.