Comparison of Data Mining Techniques for Insurance Claim Prediction
Decision Tree
Decision tree algorithms, as the name suggests, are algorithms that can be represented graphically by a tree with many branches and leaves. Instances are classified going down from the root to the leaf nodes [WKRQ+08]. The nodes in the tree are tests for specific attributes. The leaves contain the predictions for the response variable.
Trees can be used for both classification and regression problems. In a classification tree the predicted value is one of the possible levels of the response variable.
The Tree construction may be seen as a variable selection method [GE03]; at each node the issue is to select the variable to divide upon and how to perform the split.
Decision tree algorithms differ in fact from the method of selecting the attribute used to test the instances at each node.
The attribute that alone classifies best the data is used at the root, then descending the tree the second best attribute is used to split further the data and so on.
The term Entropy is used to measure the \impurity" of the training dataset and can be computed for binary classification problem as well as for classification with the target attribute taking more levels. If for each node i of a classification tree, the probability of the instance to belong to the k class is pik, the entropy is then calculated as Σ P piklog pik.
The reduction of entropy can be itself a measure of the information gained partitioning on an attribute [VR02b].
Given a tree, to predict a new instances the classification begins at the root and the instance go down the tree testing different attributes until a leaf is reached. In general a decision tree model works well when:
-Each attribute of the dataset takes a small number of different levels.
-Learning rules do not overlap.
When the tree algorithm is applied, some common issues are the size of the tree, how to handle missing values/outliers and the appropriate attribute selection at each node.
Noise in the data can easily lead to an over fitted tree on the training set giving a model that does not perform well in the test set. The size determines the complexity of the tree and has to be neither too simple or too big leading to over fitting.
In order to avoid over fitting classical approaches are:
-Stop growing approaches.
-Post-pruning approaches.
In general, post pruning approaches have been preferred since it may be difficult to detect when to stop the tree growing. Regardless of the method used to avoid over fitting,the most important thing is to the determine the correct final size of the tree. There are many ways to get the correct tree size, including the use of a separate set to determine when the further split improves the model and the use of a measure of complexity. The use of a separate set to compute the correct size consists in considering each node in the tree as a candidate for pruning. Whenever the tree applied in the test set performs worse than the original give by the training set, the node is removed and it becomes a leaf.
The accuracy of the model applied to the test set increases with the proceeding of pruning.
Questo brano è tratto dalla tesi:
Comparison of Data Mining Techniques for Insurance Claim Prediction
CONSULTA INTEGRALMENTE QUESTA TESI
La consultazione è esclusivamente in formato digitale .PDF
Acquista
Informazioni tesi
Autore: | Andrea Dal Pozzolo |
Tipo: | Laurea II ciclo (magistrale o specialistica) |
Anno: | 2010-11 |
Università: | Università degli Studi di Bologna |
Facoltà: | Scienze Statistiche |
Corso: | Statistica economica, finanziaria ed attuariale |
Relatore: | Gianluca Moro |
Lingua: | Inglese |
Num. pagine: | 81 |
FAQ
Come consultare una tesi
Il pagamento può essere effettuato tramite carta di credito/carta prepagata, PayPal, bonifico bancario.
Confermato il pagamento si potrà consultare i file esclusivamente in formato .PDF accedendo alla propria Home Personale. Si potrà quindi procedere a salvare o stampare il file.
Maggiori informazioni
Perché consultare una tesi?
- perché affronta un singolo argomento in modo sintetico e specifico come altri testi non fanno;
- perché è un lavoro originale che si basa su una ricerca bibliografica accurata;
- perché, a differenza di altri materiali che puoi reperire online, una tesi di laurea è stata verificata da un docente universitario e dalla commissione in sede d'esame. La nostra redazione inoltre controlla prima della pubblicazione la completezza dei materiali e, dal 2009, anche l'originalità della tesi attraverso il software antiplagio Compilatio.net.
Clausole di consultazione
- L'utilizzo della consultazione integrale della tesi da parte dell'Utente che ne acquista il diritto è da considerarsi esclusivamente privato.
- Nel caso in cui l’utente che consulta la tesi volesse citarne alcune parti, dovrà inserire correttamente la fonte, come si cita un qualsiasi altro testo di riferimento bibliografico.
- L'Utente è l'unico ed esclusivo responsabile del materiale di cui acquista il diritto alla consultazione. Si impegna a non divulgare a mezzo stampa, editoria in genere, televisione, radio, Internet e/o qualsiasi altro mezzo divulgativo esistente o che venisse inventato, il contenuto della tesi che consulta o stralci della medesima. Verrà perseguito legalmente nel caso di riproduzione totale e/o parziale su qualsiasi mezzo e/o su qualsiasi supporto, nel caso di divulgazione nonché nel caso di ricavo economico derivante dallo sfruttamento del diritto acquisito.
Vuoi tradurre questa tesi?
Per raggiungerlo, è fondamentale superare la barriera rappresentata dalla lingua. Ecco perché cerchiamo persone disponibili ad effettuare la traduzione delle tesi pubblicate nel nostro sito.
Scopri come funziona »
DUBBI? Contattaci
Contatta la redazione a
[email protected]
Parole chiave
Tesi correlate
Non hai trovato quello che cercavi?
Abbiamo più di 45.000 Tesi di Laurea: cerca nel nostro database
Oppure consulta la sezione dedicata ad appunti universitari selezionati e pubblicati dalla nostra redazione
Ottimizza la tua ricerca:
- individua con precisione le parole chiave specifiche della tua ricerca
- elimina i termini non significativi (aggettivi, articoli, avverbi...)
- se non hai risultati amplia la ricerca con termini via via più generici (ad esempio da "anziano oncologico" a "paziente oncologico")
- utilizza la ricerca avanzata
- utilizza gli operatori booleani (and, or, "")
Idee per la tesi?
Scopri le migliori tesi scelte da noi sugli argomenti recenti
Come si scrive una tesi di laurea?
A quale cattedra chiedere la tesi? Quale sarà il docente più disponibile? Quale l'argomento più interessante per me? ...e quale quello più interessante per il mondo del lavoro?
Scarica gratuitamente la nostra guida "Come si scrive una tesi di laurea" e iscriviti alla newsletter per ricevere consigli e materiale utile.
La tesi l'ho già scritta,
ora cosa ne faccio?
La tua tesi ti ha aiutato ad ottenere quel sudato titolo di studio, ma può darti molto di più: ti differenzia dai tuoi colleghi universitari, mostra i tuoi interessi ed è un lavoro di ricerca unico, che può essere utile anche ad altri.
Il nostro consiglio è di non sprecare tutto questo lavoro:
È ora di pubblicare la tesi