Indice di Gini e indice di misclassificazione
Sono entrambi basati, come l’entropia, sulla percentuale di osservazioni di classe target contenute in un determinato nodo.
Possiamo adesso applicare queste considerazioni al nostro esempio, con l’obiettivo di identificare il nodo di partenza per la costruzione dell’albero.
In particolare, ci chiediamo quale dei due attributi, Età o Tipo di Autoveicolo, sia in grado di garantire il maggior guadagno di informazione (ovvero la maggior diminuzione dell’entropia rispetto a quella del training set).
Passo 1: calcolo dell’entropia del training set:
- i dati del training set sono classificati in due classi, B = Rischio Basso, A = Rischio Alto rispetto all’attributo rischio;
- la percentuale di record classificati nella classe A è pari a 6/12 = 0,5 (50%), quella di record classificati nella classe B è pari, anch’essa, a 6/12 = 0,5 (50%);
- già dovremmo sapere (in caso di classi equiripartite) che l’entropia (misura del disordine del training set) è massima è cioè pari a 1, ma calcoliamola:
H(S) = - (0,5*Log20,5) - (0,5*Log20,5) = - (0,5*-1) - (0,5*-1) = 1
Il Log deve essere in base 2. Nella formula non c’è scritto, ma ci deve essere!
Passo 2: calcolo dell’entropia dei due set di dati ottenuti ripartendo il training set rispetto all’attributo Età (due set corrispondenti a Età = 23 e Età > 23):
- Età = 23 contiene 4 record riparti, rispetto all’attributo target, come B (rischio basso) = 0 elementi, A (rischio alto) = 4 elementi
H(S, Età = 23) = - (0*Log20) - (1*Log21) = - (0) - (1*0) = 0
- Età > 23 contiene 8 record riparti, rispetto all’attributo target, come B (rischio basso) = 6 elementi, A (rischio alto) = 2 elementi
H(S, Età > 23) = - (0,75*Log20,75) - (0,25*Log20,25) = - (0,75*- 0,415) - (0,25*-2) = 0,311 + 0,5 = 0,811
Il Log deve essere in base 2.
Passo 3: calcolo del guadagno di informazione ottenuto utilizzando l’attributo Età:
- In realtà, la formula utilizzata nella pratica per il calcolo dell’information gain è una somma pesata (sulla percentuale di record del training set appartenenti alle partizioni ottenute per i diversi valori dell’attributo) del tipo:
G (S, A) = H (S) – P1 * H (S, A) – P2 * H (S, A)
dove P1 è la percentuale di record del training set appartenenti alla prima partizione (Età = 23), P2 è la percentuale di record del training set appartenenti alla seconda partizione (Età > 23).
Quindi: G (S, Età) = 1 – (4/12 * 0) – (8/12 * 0,811) = 0,46
Passo 4: calcolo dell’entropia dei tre set di dati ottenuti ripartendo il training set rispetto all’attributo Tipo di Veicolo (tre set corrispondenti ai valori S, FA, AU):
- Tipo di Veicolo = S contiene 2 record ripartiti, rispetto all’attributo target, come B (rischio basso) = 0 elementi, A (rischio alto) = 2 elementi
H(S, Tipo = S) = - (0*Log20) - (1*Log21) = - (0) - (1*0) = 0
- Tipo di Veicolo = FA contiene 7 record riparti come B (rischio basso) = 4 elementi, A (rischio alto) = 3 elementi
H(S, Tipo = FA) = - (0,57*Log20,57) - (0,43*Log20,43) = - (0,57*-0,81) - (0,43*-1,22) = 0,46 + 0,52 = 0,99
- Tipo di Veicolo = AU contiene 3 record riparti come B (rischio basso) = 2 elementi, A (rischio alto) = 1 elemento
H(S, Tipo = AU) = - (0,67*Log20,67) - (0,33*Log20,33) = - (0,67*-0,58) - (0,33*-1,58) = 0,39 + 0,53 = 0,92
Passo 5: calcolo del guadagno di informazione ottenuto utilizzando l’attributo Tipo di Veicolo:
G (S, A) = H (S) – P1 * H (S, A) – P2 * H (S, A) – P3 * H (S, A)
diventa:
G (S, Tipo di Autoveicolo) = 1 – (2/12 * 0) – (7/12 * 0,99) – (3/12 * 0,92) = 0,20
Passo 6: confronto tra i valori del guadagno di informazione ottenuti utilizzando come primo nodo dell’albero rispettivamente gli attributi Età e Tipo di
Veicolo:
G (S, Età) = 0,46 (massimo guadagno informativo)
G (S, Tipo di Autoveicolo) = 0,20
Risulta quindi effettivamente più conveniente, sotto il profilo informativo, selezionare come primo nodo l’attributo Età. In presenza di più attributi, il procedimento viene applicato ricorsivamente a tutti i nodi dell’albero (rif. tabella excel con esempio di calcolo in BlackBoard).
Continua a leggere:
- Successivo: Algoritmi per gli alberi decisionali
- Precedente: Scelta dei nodi: entropia e guadagno di informazione
Per approfondire questo argomento, consulta le Tesi:
- Un analisi statistica su come le recensioni possono influenzare la scelta di acquisto dei consumatori
- Sistemi web-based di analisi strategica: Business Intelligence e Big Data
- Il Data mining a supporto dei processi decisionali in azienda
- L'evoluzione dei sistemi informativi e di controllo aziendali
- Analisi dei processi di CRM nel web: electronic customer relationship management
Puoi scaricare gratuitamente questo appunto in versione integrale.