Criteri per stabilire l’opportunità di una tecnica di riduzione dei dati
Esistono tre criteri principali per valutare l’opportunità di una tecnica di riduzione dei dati, in relazione ai modelli generati:
- EFFICIENZA:
L’applicazione degli algoritmi di apprendimento ad un dataset di dimensioni ridotte rispetto a quelle originarie comporta tempi di calcolo solitamente inferiori con incrementi di efficienza dell’intero processo anche molto significativi.
Gli algoritmi, soprattutto quelli empirici, sono algoritmi che convergono più o meno velocemente verso una soluzione. Questi assorbono un’enorme quantità di risorse informatiche di elaborazione.
- ACCURATEZZA:
Nella maggior parte delle applicazioni, l’accuratezza dei modelli generati rappresenta un fattore critico di successo e, di conseguenza, il principale criterio per selezionare una classe di modelli di apprendimento rispetto ad altre.
Le tecniche di riduzione dei dati non devono, quindi, compromettere in modo significativo l’accuratezza del modello generato. In realtà, può anche accadere che alcune tecniche di riduzione dei dati, basate sulla selezione degli attributi, conducano a modelli dotati di migliore capacità di generalizzazione.
La riduzione non deve necessariamente implicare una diminuzione di accuratezza della regola che estraggo dal data set. Bisogna tenere sempre conto dell’accuratezza della regola.
Bisogna lavorare molto sull’ispezione dei dati, prima di preparare i data set. Molto spesso le tecniche di data mining indicano loro stesso quali sono gli attributi poco significativi, che non vengono utilizzati nella produzione di regole.
- SEMPLICITÀ:
In alcune applicazioni di data mining, rivolte più all’interpretazione che alla predizione, è importante che i modelli generati siano facilmente traducibili in regole semplici e comprensibili agli esperti dell’ambito applicativo, talvolta anche a fronte di una limitata diminuzione di accuratezza.
Molto più complesso è limitare il numero di osservazioni, perché non riesco a definire a priori che impatto potrà avere questo tipo di operazioni, inoltre devo mantenere la significatività statistica del campione.
Poiché difficilmente si riesce a sviluppare una tecnica di riduzione dei dati che risulti ottimale rispetto ai tre criteri enunciati, gli analisti cercano di raggiungere un compromesso tra le diverse esigenze indicate.
Continua a leggere:
- Successivo: Logiche di riduzione dei dati all'ingresso
- Precedente: Trasformazione dei dati in ingresso
Per approfondire questo argomento, consulta le Tesi:
- Un analisi statistica su come le recensioni possono influenzare la scelta di acquisto dei consumatori
- Sistemi web-based di analisi strategica: Business Intelligence e Big Data
- Il Data mining a supporto dei processi decisionali in azienda
- L'evoluzione dei sistemi informativi e di controllo aziendali
- Analisi dei processi di CRM nel web: electronic customer relationship management
Puoi scaricare gratuitamente questo appunto in versione integrale.