Qualità dei dati in ingresso: dati incompleti
Alcuni record possono presentare valori mancanti in corrispondenza di uno o più attributi. In presenza di dati incompleti si possono adottare diversi accorgimenti correttivi:
- ELIMINAZIONE : si può decidere di ignorare tutti i record per i quali uno o più attributi sono mancanti (difficile da applicare quando la distribuzione dei valori mancanti varia in modo irregolare per i diversi attributi). Ad esempio mi manca il CF del cliente, elimino dal data set di informazioni quel dato. Ciò è possibile se l’incompletezza impatta solo su un numero limitato di record e di attributi. Se no la rimozione delle osservazioni affette da questo dato, mi porterebbe ad avere un data set inadeguato.
- ISPEZIONE : si può ricorrere ad un’ispezione dei valori mancanti da parte degli esperti di dominio per avere suggerimenti sui possibili valori sostitutivi (soggetta ad arbitrio e onerosa in presenza di dataset voluminosi). Questa tecnica è affetta dall’arbitrarietà della sostituzione, è il dominio che sulla base del suo giudizio dice quale valore può sostituirne un altro. Quindi è sconsigliabile anche questa.
- IDENTIFICAZIONE : si può utilizzare un valore convenzionale per identificare i valori mancanti e segnalarli opportunamente ai modelli e agli algoritmi.
Al posto del valore mancante, inserisco un elemento identificativo che mi dice che quel dato era mancante, ma all’interno della tecnica che utilizzo non genera un blocco dell’algoritmo.
- SOSTITUZIONE : è possibile sostituire dati mancanti mediante criteri diversi; ad esempio, utilizzando la media dell’attributo calcolata per le altre osservazioni (vale solo per attributi numerici e può essere poco accurato). È la tecnica più utilizzata. È analoga a quella dell’ispezione, ma si basa su tecniche statistiche, quindi riduce l’incertezza. Rendo così l’osservazione utilizzabile da parte dello strumento.
Continua a leggere:
- Successivo: Qualità dei dati in ingresso: dati soggetti a rumore
- Precedente: Introduzione ai metodi di preparazione dei dati per le business analysis
Per approfondire questo argomento, consulta le Tesi:
- Un analisi statistica su come le recensioni possono influenzare la scelta di acquisto dei consumatori
- Sistemi web-based di analisi strategica: Business Intelligence e Big Data
- Il Data mining a supporto dei processi decisionali in azienda
- L'evoluzione dei sistemi informativi e di controllo aziendali
- Analisi dei processi di CRM nel web: electronic customer relationship management
Puoi scaricare gratuitamente questo appunto in versione integrale.