Qualità dei dati in ingresso: dati soggetti a rumore
I dati possono contenere errori o valori anomali che si collocano al di fuori della norma (outlier), ossia al di fuori dall’andamento mediamente assunto dagli altri valori.
Occorre, in primo luogo, identificare gli outlier, quindi procedere alla loro rimozione tramite regolarizzazione oppure alla eliminazione dei record che li contengono. Si procede all’eventuale eliminazione dei record che li tengono se si ritiene che l’outlier contenga un errore e se a fronte della valutazione effettuata ho verificato che l’outlier è significativo, quindi lo estraggo dal data set.
- PRIMO METODO : si basa sul concetto di dispersione statistica. In pratica, si calcolano la media e la varianza campionarie dell’attributo numerico analizzato. Quindi, supponendo che l’attributo segua una distribuzione non troppo dissimile dalla normale, i valori che si trovano all’esterno di un intervallo opportuno, centrato intorno al valore medio, sono classificati come outlier. Una volta identificati gli outlier si procede alla loro eventuale correzione con valori ritenuti più attendibili o alla cancellazione dei record che li contengono.
Se siamo in presenza di attributi che assumono valori numerici, il metodo più semplice è quello di calcolare la media e la varianza, ottengo così una fascia all’interno della quale cadono la maggior parte dei valori assunti da qwuell’attributo all’interno del data set. Questo è un metodo tipicamente statistico.
- SECONDO METODO : si basa sull’impiego di metodi di clustering. Una volta costruiti i cluster (raggruppamenti di record aventi distanza reciproca minore, in
relazione ai valori di dati attributi, rispetto alla distanza dai record di altri gruppi), le osservazioni non comprese in alcun gruppo sono classificate come outlier. Il vantaggio di questo secondo metodo consiste nella possibilità di analizzare simultaneamente più attributi.
Questo metodo è basato su un approccio di clustering: prendo le mie osservazioni, le raggruppo, tutto ciò che non sta all’interno è un oulier. Conente di analizzare più attributi contemporaneamente.
- ALTRI METODI : esistono tecniche di regolarizzazione che correggono automaticamente i dati anomali. Ad esempio, i modelli di regressione (semplice o multipla) permettono di predire il valore di un attributo che si vuole regolarizzare, sulla base dei valori di altri attributi presenti nel dataset.
Una volta sviluppato il modello di regressione per un dato attributo e calcolato l’intervallo di confidenza intorno alla curva di predizione, si possono sostituire i valori dell’attributo che ricadono all’esterno dell’intervallo di confidenza con il valore calcolato lungo la curva.
Continua a leggere:
- Successivo: Qualità dei dati in ingresso: dati inconsistenti
- Precedente: Qualità dei dati in ingresso: dati incompleti
Per approfondire questo argomento, consulta le Tesi:
- Un analisi statistica su come le recensioni possono influenzare la scelta di acquisto dei consumatori
- Sistemi web-based di analisi strategica: Business Intelligence e Big Data
- Il Data mining a supporto dei processi decisionali in azienda
- L'evoluzione dei sistemi informativi e di controllo aziendali
- Analisi dei processi di CRM nel web: electronic customer relationship management
Puoi scaricare gratuitamente questo appunto in versione integrale.