Criteri per la costruzione degli alberi decisionali - controllo della crescita
La struttura di un albero di decisione può diventare molto complicata, soprattutto nei casi derivati da database contenenti centinaia di attributi e un attributo target, se pure categorico, con differenti classi.
In situazioni del genere, lasciar “crescere” l’albero senza stabilire un limite, di qualsiasi natura, può far sì che l’albero ottenuto diventi (a) difficilmente interpretabile e crei (b) un numero troppo elevato di regole, di fatto sovra adattando i dati al training set (overfitting).
Siccome devo avere la capacità di attribuire una classe di appartenenza ad attributi che non rientrano nel mio data set, non devo adattare l’albero a questi attributi, ma devo de specializzare l’albero, per evitare di ottenere un sovradattamento.
Gli alberi di classificazione sono sensibili alla variazione degli attributi.
Esistono delle modalità di controllo della crescita di un albero, basate sui seguenti criteri:
- MASSIMO NUMERO DI REGOLE : ottenibili dalla classificazione;
- MASSIMA PROFONDITÀ : raggiungibile dall’albero;
- NUMERO MINIMO DI RECORD :che devono essere presenti in ogni nodo per poter effettuare la divisione (splitting) in quel nodo;
- POTATURA DELL’ALBERO (pruning) : finalizzata ad ottenere il più piccolo “sottoalbero” che non comprometta l’accuratezza della classificazione resa possibile dall’albero madre (ad esempio, un ramo, o un sottoalbero, che l’utilizzatore giudica irrilevante perchè ad esso corrisponde un numero esiguo di casi, potrebbe essere rimosso).
Continua a leggere:
- Successivo: Scelta dei nodi: entropia e guadagno di informazione
- Precedente: Esempio di albero decisionale
Per approfondire questo argomento, consulta le Tesi:
- Un analisi statistica su come le recensioni possono influenzare la scelta di acquisto dei consumatori
- Sistemi web-based di analisi strategica: Business Intelligence e Big Data
- Il Data mining a supporto dei processi decisionali in azienda
- L'evoluzione dei sistemi informativi e di controllo aziendali
- Analisi dei processi di CRM nel web: electronic customer relationship management
Puoi scaricare gratuitamente questo appunto in versione integrale.