Logiche di riduzione dei dati all'ingresso
La riduzione dei dati si sviluppa secondo quattro logiche distinte:
- RIDUZIONE DELLE OSSERVAZIONI mediante campionamento (che deve essere significativo dal punto di vista statistico).
- RIDUZIONE DEGLI ATTRIBUTI MEDIANTE SELEZIONE, che mira a eliminare dal dataset un sottoinsieme di variabili ritenute non rilevanti per le analisi di data mining.
- RIDUZIONE DEGLI ATTRIBUTI MEDIANTE PROIEZIONE, che si propone di sostituire un sottoinsieme di attributi numerici originari con un numero inferiore di nuovi attributi ottenuti come loro combinazione lineare.
- RIDUZIONE DEI VALORI DEGLI ATTRIBUTI MEDIANTE DISCRETIZZAZIONE O AGGREGAZIONE, che si propone di ottenere una diminuzione nel numero di valori distinti assunti da uno o più attributi.
Ad esempio, il valore settimanale della spesa di un cliente di un supermercato può essere discretizzato in 3 classi: bassa (< 50€), media (tra 50 e 150€), alta (> 150€); la variabile categorica Provincia (circa 100 valori) può essere sostituita con Regione (circa 20 valori).
Continua a leggere:
- Successivo: Introduzione all'esplorazione dei dati oggetto di un'analisi di business
- Precedente: Criteri per stabilire l’opportunità di una tecnica di riduzione dei dati
Per approfondire questo argomento, consulta le Tesi:
- Un analisi statistica su come le recensioni possono influenzare la scelta di acquisto dei consumatori
- Sistemi web-based di analisi strategica: Business Intelligence e Big Data
- Il Data mining a supporto dei processi decisionali in azienda
- L'evoluzione dei sistemi informativi e di controllo aziendali
- Analisi dei processi di CRM nel web: electronic customer relationship management
Puoi scaricare gratuitamente questo appunto in versione integrale.