Tecniche di data mining – parte avanzata
Negli algoritmi di classificazione i dati in input (training set) sono record caratterizzati da attributi multipli.
Inoltre, ogni record è etichettato con una speciale etichetta di classe detta attributo target (quando l’attributo target è categorico si parla di alberi di classificazione, quando è numerico, di alberi di regressione).
Se l’attributo è numerico con un numero elevato di valori o continuo si utilizza una tecnica differente, si entra nel campo degli alberi di regressione, dove l’obiettivo è quello di prevedere i valori dell’attributo target, trovare una regola che indica quale sarà il valore dell’attributo target e con quale probabilità assume tale valore.
Obiettivo della classificazione è quello di analizzare i dati in input e sviluppare un’accurata descrizione o modello per ogni classe, usando le caratteristiche (espresse attraverso gli attributi A1, A2, . . . , Ap) presenti nei dati. Il modello deve consentire di spiegare perché ogni osservazione appartiene ad una certa classe, in relazione al valore assunto dagli attributi. Devo identificare una regola che dica che se gli attributi assumono un certo valore, allora l’osservazione ricade in una certa classe di appartenenza. La regola sarà sempre del tipo Se è vera una certa condizione del primo attributo, e se è vera la condizione sul secondo attributo, allora la classe di appartenenza è questa.
Siamo nell’ambito delle tecniche di tipo supervisionato.
Gli algoritmi di classificazione portano all’identificazione di schemi (o insiemi di caratteristiche, cioè valori degli attributi) che definiscono la classe cui appartiene un dato record.
Tassonomia dei modelli di classificazione:
- MODELLI EURISTICI : utilizzano procedure basate su schemi semplici e intuitivi, per lo più di natura empirica. Tra questi, rientrano gli alberi di classificazione.
- MODELLI DI SEPARAZIONE : ricavano nello spazio degli attributi una collezione di regioni distinte che permettono di separare le osservazioni in base alla classe di appartenenza. Si basano su una logica di ottimizzazione di una funzione di perdita. Tra questi rientrano le reti neurali. Ragionano con una logica di affinità tra i valori assunti tra gli attributi, si cerca di classificare con una logica di separazione e funzione di perdita.
- MODELLI DI REGRESSIONE : si ipotizza l’esistenza di un legame lineare tra la variabile dipendente e i predittori e si determina il valore dei coefficienti di regressione. Tra questi rientra la regressione logistica.
- MODELLI PROBABILISTICI : si formula un’ipotesi circa la forma funzionale delle probabilità condizionate delle osservazioni data la classe target di appartenenza.
Continua a leggere:
- Successivo: Definizione di alberi decisionali
- Precedente: Punti fondamentali dell'attività di data mining
Per approfondire questo argomento, consulta le Tesi:
- Un analisi statistica su come le recensioni possono influenzare la scelta di acquisto dei consumatori
- Sistemi web-based di analisi strategica: Business Intelligence e Big Data
- Il Data mining a supporto dei processi decisionali in azienda
- L'evoluzione dei sistemi informativi e di controllo aziendali
- Analisi dei processi di CRM nel web: electronic customer relationship management
Puoi scaricare gratuitamente questo appunto in versione integrale.