Rappresentazioni dei dati in ingresso nelle analisi di data mining
I dati in ingresso alle analisi
di data mining assumono in genere la forma di una tabella a due
dimensioni, detta dataset, del tutto analoga a quelle definite
nell’ambito di data warehouse e data mart.
Esempio: dataset dei clienti persi dalla banca negli ultimi tre anni.
Dati in ingresso alle analisi di data mining assumono in genere la forma di una tabella a due dimensioni, detta dataset, del tutto analoga a quelle definite nell’ambito di data warehouse e data mart.
Esempio: dataset dei clienti persi dalla banca negli ultimi tre anni.
Le righe sono le osservazioni, le colonne gli attributi.
La modalità di rappresentazione dei valori degli attributi è fondamentale per l’analisi di data mining. L’età è un attributo numerico, la fascia di reddito è una fascia e così come il sesso è un attributo categorico che indica delle categorie di appartenenze.
In base ai valori assunti, gli attributi presenti in un dataset possono essere distinti in:
- CATEGORICI : assumono un numero finito e solitamente non molto elevato di valori distinti (es. la provincia di residenza o una variabile binaria che indica se il cliente ha abbandonato o meno l’azienda). Rappresenta generalmente una categoria di appartenenza.
- NUMERICI : assumono un numero finito o infinito di valori e si prestano a operazioni aritmetiche (tipicamente volte a calcolare differenze e rapporti).
Ulteriore classificazione:
- CATEGORICI
- CONTEGGI : sono attributi rispetto ai quali una specifica proprietà può risultare vera o falsa. Possono quindi essere rappresentati come variabili booleane [true, false] oppure binarie [0, 1].
- NOMINALI : sono attributi che non presentano un ordinamento naturale, come le province di residenza.
- ORDINALI : sono attributi che si prestano ad un ordinamento naturale ma per i quali non ha senso calcolare differenze o rapporti tra valori, come nel caso del livello di scolarità degli individui.
- NUMERICI
- DISCRETI : sono attributi che assumono un numero finito o un’infinità numerabile di valori, come i numeri interi compresi in un intervallo.
- CONTINUI : sono attributi che assumono un’infinità non numerabile di valori, come i numeri reali compresi nell’intervallo [0, 1].
Continua a leggere:
- Successivo: I processi di data mining
- Precedente: Confronto con statistica classica e OLAP
Per approfondire questo argomento, consulta le Tesi:
- Un analisi statistica su come le recensioni possono influenzare la scelta di acquisto dei consumatori
- Sistemi web-based di analisi strategica: Business Intelligence e Big Data
- Il Data mining a supporto dei processi decisionali in azienda
- L'evoluzione dei sistemi informativi e di controllo aziendali
- Analisi dei processi di CRM nel web: electronic customer relationship management
Puoi scaricare gratuitamente questo appunto in versione integrale.