2
condurre e da qui successivamente discende l’estensione alla
pubblicità non desiderata.
Come già detto, il principale scopo dello spamming è la pubblicità, il
cui oggetto può andare dalle più comuni offerte commerciali a
proposte di vendita di materiale pornografico o illegale, da discutibili
progetti finanziari a veri e propri tentativi di truffa.
Questi indirizzi sono spesso raccolti in maniera automatica dalla rete
mediante spambot ed appositi programmi ottenuti da database o
semplicemente usando liste di nomi comuni.
È definito spammer l’individuo autore dei messaggi spam, il quale
invia messaggi identici (o con qualche personalizzazione) a migliaia
di indirizzi e-mail. Per definizione lo spam è inviato senza il permesso
del destinatario e questo comportamento è generalmente considerato
inaccettabile dagli Internet Service Provider (ISP) e dalla maggior
parte degli utenti di Internet. Mentre questi ultimi trovano lo spam
fastidioso e con contenuti spesso offensivi, gli Internet Service
Provider vi si oppongono anche per i costi del traffico generato
dall'invio indiscriminato.
Alcuni sondaggi hanno indicato che al giorno d'oggi lo spam è
considerato uno dei maggiori fastidi di Internet; l'invio di questi
messaggi costituisce una violazione del contratto "Acceptable Use
Policy" (condotta d'uso accettabile) di molti ISP.
La maggioranza degli ISP proibisce esplicitamente ai propri utenti di
fare spam e in caso di violazione essi vengono espulsi dai loro servizi.
Rintracciare l'ISP di uno spammer e denunciarlo spesso porta alla
chiusura dell'abbonamento.
3
Un gran numero di spammer utilizza intenzionalmente la frode per
inviare i messaggi, come l'uso di informazioni personali false (come
nomi, indirizzi, numeri di telefono) per stabilire account disponibili
presso vari ISP. Per fare questo sono usate informazioni anagrafiche
false o rubate, in modo da ridurre ulteriormente i costi.
Lo spamming è considerato un reato in vari paesi e in Italia l'invio di
messaggi non sollecitati è soggetto a sanzioni.
Lo Spam è un reato anche negli Stati Uniti e in Australia, inquisito
anche all'estero con richieste di estradizione. Tra gli spammer più
famosi, si ricordano Laura Betterly, Brian Haberstroh, Leo Kuvayev,
Jeremy Jaynes e Sanford Wallace.
Si ritiene che il primo spam via e-mail della storia sia stato inviato il
1° maggio 1978 dalla DEC per pubblicizzare un nuovo prodotto, e
inviato a tutti i destinatari della ARPAnet della costa ovest degli Stati
Uniti.
Lo spamming è a volte definito come l'equivalente elettronico della
posta-spazzatura (junk mail). Comunque, la stampa e i costi postali di
questa corrispondenza sono pagati dal mittente mentre nel caso dello
spam, il server del destinatario paga i costi maggiori, in termini di
banda, tempo di elaborazione e spazio per immagazzinamento.
Siccome lo spam è economico da inviare, un ristretto numero di
spammer possono saturare internet con la loro spazzatura. Nonostante
solo un piccolo numero dei loro destinatari sia intenzionato a
comprare i loro prodotti, ciò consente loro di mantenere questa pratica
attiva.
È disponibile un certo numero di servizi e software che i server e-
mail e gli utenti possono utilizzare per ridurre il carico di spam sui
4
loro sistemi e caselle di posta. Alcuni di questi rifiutano i messaggi
provenienti dai server conosciuti come spammer. Altri analizzano in
modo automatico il contenuto dei messaggi e-mail ed eliminano quelli
che possono essere classificati come spam. Questi due approcci al
problema sono talvolta definiti come bloccaggio e filtraggio.
Ognuna delle tecniche ha i suoi difensori e vantaggi; mentre
entrambe riducono l'ammontare di spam inviata alle caselle postali
degli utenti, il bloccaggio permette di ridurre la banda sprecata,
rifiutando i messaggi prima che siano trasmessi al server dell'utente. Il
filtraggio tende ad essere una soluzione più accurata, poiché può
esaminare tutti i dettagli del messaggio. Molti sistemi di filtraggio si
avvantaggiano delle tecniche di apprendimento del software, che
permettono di aumentare la propria accuratezza rispetto al sistema
manuale.
A parte l'installazione di software di filtraggio dalla parte degli
utenti, essi possono proteggersi dall'attacco dello spam in molti altri
modi.
Un modo in cui gli spammer ottengono gli indirizzi e-mail è il
setaccio del Web e di Usenet per stringhe di testo che assomigliano a
indirizzi. Perciò, se l'indirizzo di una persona non è mai apparso in
questi posti, non potrà essere trovata. Un sistema per evitare questa
raccolta di indirizzi è falsificare i nomi e indirizzi di posta.
Fino a poco tempo fa, le tecniche di filtraggio facevano affidamento
agli amministratori di sistema che specificavano le liste di parole o
espressioni regolari non permesse nei messaggi di posta. Perciò se un
server riceveva spam che pubblicizzava ad esempio "herbal Viagra",
l'amministratore poteva inserire queste parole nella configurazione del
5
filtro. Il server avrebbe scartato tutti i messaggi con quella frase. Lo
svantaggio di questo filtraggio "statico" consiste nella difficoltà di
aggiornamento e nella tendenza a generare un elevato numero di falsi
positivi: è sempre possibile che un messaggio non-spam contenga
quella frase.
Vi sono differenti possibili strumenti di filtraggio, che possono essere
ricondotti a due classi principali: metodi euristici e metodi statistici.
Il filtraggio euristico si basa nell'assegnare un punteggio numerico a
frasi o modelli che si presentano nel messaggio. Il punteggio può
essere positivo, se la frase è potenzialmente associata a spam e
negativo in caso contrario. Ogni messaggio è analizzato e viene
valutato il punteggio complessivo, in base al quale viene accertato o
segnalato come spam (se quest' ultimo è superiore ad un valore
fissato). In ogni caso, il compito di mantenere e generare le liste di
punteggi è lasciato all'amministratore.
Il filtraggio statistico, proposto per la prima volta nel 1998 nel
AAAI-98 Workshop on Learning for Text Categorization, e reso
popolare da un articolo di Paul Graham nel 2002 usa metodi
probabilistici per predire se un messaggio è spam o no, basandosi su
raccolte di email ricevute dagli utenti.
Da qualche tempo stanno crescendo vari sistemi di filtraggio che
impiegano svariate tecniche di riconoscimento dello spam; tali sistemi
si sono sviluppati con l’obiettivo da un lato di minimizzare il rischio
di falsi positivi (ovvero email regolari scambiate erroneamente per
spam), dall'altro di aumentare l'efficienza del filtraggio.
6
È ben noto che alcuni spammer considerano le risposte ai loro
messaggi - anche a quelle del tipo "Non fare spam" - come conferma
che l'indirizzo è valido e viene letto. Allo stesso modo, molti messaggi
di spam contengono indirizzi o links ai quali viene indirizzato il
destinatario per essere rimosso dalla lista del mittente. In svariati casi,
molte persone che combattono lo spam hanno verificato questi
collegamenti e confermato che non portano alla rimozione
dell'indirizzo, ma comportano uno spam ancora maggiore.
Sfortunatamente, questo può essere difficile e anche se ci sono degli
strumenti che possono aiutare, non sempre sono accurati.
Gli Internet Service Provider spesso mettono in atto misure
preventive per impedire l'invio di spam, quali un limite massimo agli
indirizzi di posta ai quali inoltrare la stessa e-mail, e un limite
dell'ordine delle migliaia di unità alle e-mail inviabili in un giorno.
Il presente elaborato si occupa di analizzare alcune tecniche statistiche
che possono essere utilizzate per la classificazione dei messaggi e-
mail e in primo luogo si cerca di definire il problema della
classificazione.
In questa tesi sono discusse due metodologie statistiche per risolvere
problemi di classificazione legate al fenomeno discusso in precedenza.
Contestualmente ne è data un applicazione pratica al problema di
classificazione dei messaggi di posta elettronica. L’obiettivo è di
utilizzare modelli statistici stimati su un insieme di prova in cui le
osservazioni sono opportunamente classificate, per il filtraggio dei
messaggi di un utente. Il dataset di prova consta di 4601 messaggi di
posta elettronica di cui sono riportate oltre alla corretta classificazione
7
(email-spam), le frequenze relative di 57 parole considerate principali
e la punteggiatura che maggiormente occorrono.
L’insieme delle 57 variabili esplicative di tipo quantitativo rappresenta
la frequenza di parole chiave di caratteri distinte come di seguito
elencate:
9 48 predittori (quantitativi) che rappresentano, all’interno
messaggio la percentuale di parole più frequenti nel corpus,
quali ad esempio:
“business”, “address”, “internet”, “free”, “Gorge”.
9 6 predittori (quantitativi) che rappresentano, all’interno del
messaggio la percentuale di caratteri, quali ad esempio:
“;”, “(”, “[”, “!”, “$”, “#”.
9 La lunghezza media delle sequenze ininterrotte di lettere
maiuscole.
9 La lunghezza della più lunga sequenza ininterrotta di lettere
maiuscole.
9 La somma totale delle lunghezze delle sequenze ininterrotte di
lettere maiuscole.
I due metodi illustrati nell’ambito della tesi sono:
¾ Regressione logistica
¾ Alberi di classificazione
Con queste metodologie affronteremo in dettaglio il problema della
classificazione dei messaggi e di come si comportano i due metodi per
verificare quale di essi è il più efficace.
In generale, avendo due classi predefinite 1
e 2 e vettori di
osservazioni x
1
, x
2 ,
…,x
n
, relativi a n soggetti del campione, il
problema di classificazione consiste nel costruire una funzione detta
8
regola di assegnazione, che a ciascun vettore x
i
osservato sull’ unità i-
esima associ, sulla base di un ragionevole criterio discriminatorio, o la
classe 1 o 2. La regola chiaramente è soggetta ad errore e deve essere
costruita con l’obiettivo di minimizzare la probabilità di errore.
La regressione logistica è un metodo parametrico, metodo in cui
bisogna selezionare in maniera semi-automatica le variabili che
conducono alla selezione del modello migliore . Gli alberi decisionali,
sono invece un metodo non parametrico: che si basa sulla partizione
ricorsiva dello spazio dei dati osservati.
Trattandosi di metodi di classificazione supervisionata, ambedue i
modelli, necessitano la costruzione di un classificatore che richiede
l’esistenza di una base di dati.
CAPITOLO I In questo capitolo affronteremo il problema della
classificazione in presenza di 2 classi (nel nostro caso spam-non
spam) e si spiega come si costruisce un classificatore attraverso
l’individuazione di un campione di apprendimento.
Si è provveduto a spiegare i tre metodi che determinano la stima
dell’accuratezza di un classificatore:
1. Stima di risostituzione
2. Stima con campione test
3. Stima di cross-validazione
Infine si definiscono le misure per valutare l’ottimalità dei
classificatori.
CAPITOLO II In esso stimiamo un modello logistico sui dati
“spam” e ne commenteremo i risultati in termini di capacità
esplicativa e performance per la classificazione.
9
Il modello logistico verrà introdotto nell’ambito dei modelli lineari
generalizzati (GLM), che rappresentano un’estensione del modello
lineare classico.
Il modello di regressione logistica tratta variabili dicotomiche e ne
modella la probabilità di appartenere a 2 classi attraverso funzioni
lineari in x, mentre nello stesso tempo garantisce che la loro somma è
uguale a 1.
CAPITOLO III In questo capitolo ci occuperemo di costruire un
classificatore per il filtraggio dei messaggi di posta elettronica, con il
secondo metodo enunciato, oltre che a descrivere in modo dettagliato
gli alberi di classificazione (CART) come caso generale della
segmentazione binaria.
Selezionata una variabile di risposta (denotata con Y), si procede alla
scelta delle variabili esplicative che maggiormente sono in relazione
con tale variabile e che, quindi, saranno utili per descrivere le
caratteristiche dei nostri segmenti.
Un albero decisionale prende in input un individuo descritto da un
vettore x= (x
1
, x
2
,…,x
p
) contenente i p variabili esplicative ed emette
in uscita una “decisione” del tipo sì/no.
In questo caso si considera un campione di n unità statistiche su cui
sono state osservate:
-variabile dipendente Y che identifica la classe di appartenenza.
-variabili esplicative X=(X
1
, X
2
…,X
s
,…,X
p
) denominate anche
predittori.
L’analisi della segmentazione permette di “determinare”
l’appartenenza di ogni unità statistica alle classi definite da Y,
mediante suddivisione progressiva del collettivo in gruppi via via più
10
omogenei al loro interno rispetto alla variabile dipendente Y;
suddivisione che viene effettuata sulla base delle variabili esplicative.
Al primo passo del procedimento l’insieme di n unità è suddiviso in
due o più sottoinsiemi, definiti dalle modalità di una fra le variabili
esplicative presenti in X. I passi successivi si realizzano suddividendo
ulteriormente i sottoinsiemi ottenuti al passo precedente.
La segmentazione migliore viene individuata in base a un criterio di
ottimalità, che generalmente tiene conto dell’omogeneità entro i
sottoinsiemi e dell’eterogeneità tra i sottoinsiemi, valutate secondo la
variabile risposta.
Si possono valutare anche tutte le segmentazioni possibili per ciascuna
variabile esplicativa, scegliendo infine la variabile che origina la
segmentazione migliore.
Ogni gruppo può essere poi ulteriormente suddiviso negli stadi
successivi, fino a, quando tale processo viene portato a termine con
riferimento a una prefissata regola di arresto.
CONCLUSIONI Quest’ultima parte dell’eleborato affronta il
confronto dei due modelli cercando di stabilire quale metodo ha la
migliore capacità discriminatoria per la classificazione dei messaggi .
Una volta implementati i modelli si è testato, infatti, il loro grado di
precisione classificando una serie di individui dei quali già era nota la
classificazione.
Tale valutazione è basata sui concetti introdotti nel capitolo I, cioè
sulle probabilità di falsi positivi e falsi negativi.
L’applicazione è stata effettuata tramite il pacchetto statistico R.
I dati sono resi disponibili al sito http//ftp.ics.uci.edu/pub/machine-
learning-databases/spam.
11
Coloro che hanno costruito la base dei dati e che hanno realizzato la
classificazione sono: Mark Hopkins, Erik Reeber, George Forman,
Hewlett Packard Labs.
12
CAPITOLO I
IL PROBLEMA DELLA CLASSIFICAZIONE
1.Introduzione
Il problema della classificazione riguarda l’individuazione delle
variabili di un insieme di oggetti : sulla base di misurazioni condotte,
si vuole stabilire a quale classe appartiene ciascun elemento.
È un processo che consiste, quindi, nell’assegnare ogni elemento-
record a una classe scelta in un insieme di classi predefinito. Il criterio
di assegnazione di un record a una classe si basa sugli attributi
disponibili per ciascuna osservazione.
Con il termine supervisionato si intende uno schema caratterizzato
dalla presenza di un campione in cui è presente una variabile di
risposta che guida il processo iterativo di apprendimento nella
costruzione e nella valutazione di un classificatore in questo caso
raggiungendo l’obiettivo della classificazione. Si ha a disposizione un
campione di apprendimento che consiste nelle osservazioni degli input
(i predittori) e dell’ output (la variabile di risposta) su un insieme di
unità statistiche. Obiettivo di un processo di apprendimento
supervisionato è quello di “apprendere” dai dati la costruzione di un
modello che sia in grado di spiegare le relazioni tra gli input e l’output
e predire il valore dell’output per una nuova osservazione.
Al contrario, quando il campione consiste unicamente nelle
misurazioni dei predittori allora ci si trova di fronte a un tipico
problema di apprendimento non supervisionato.
In tal caso, l’obiettivo è quello di descrivere la struttura sottostante i
dati e quindi individuare i gruppi che caratterizzano gli stessi.
13
Se ci sono j classi, per n oggetti si hanno j
n
classificazioni possibili.
L’obiettivo di uno studio di classificazione è duplice. Infatti, se da un
lato è desiderabile produrre un classificatore accurato, dall’altro la
classificazione fornisce gli strumenti per mettere in luce la struttura
predittiva dei dati. Un classificatore consente di comprendere quali
variabili e quali interazioni fra le stesse governano il fenomeno; quindi
una regola di classificazione permette di valutare in modo semplice
quali condizioni determinano l’appartenenza di un oggetto ad una
classe piuttosto che ad un’altra.
Nel processo di classificazione alcuni algoritmi danno un risultato fra j
possibili casi e quindi in modo immediato una classificazione; altri
algoritmi non forniscono come risultato direttamente una
classificazione ma un criterio per sceglie la classe. Il criterio può dare:
-un scoring (un punteggio per ogni classe)
-un ranking (un ordine di preferenza tra le classi)
Vi sono numerosi metodi statistici utilizzabili per la classificazione.
Nel presente lavoro, data la natura del nostro problema, utilizziamo
tecniche di classificazione binaria per l’attribuzione dei messaggi a
una delle categorie spam-mail. A questo scopo, analizziamo dapprima
un modello di regressione logistica, poi un albero di classificazione.
Nel caso della regressione logistica, è possibile utilizzare la stima
delle probabilità di appartenenza alle classi come uno score
(punteggio). Gli score sono delle probabilità, e una regola di
classificazione può essere basata sul criterio di massimizzazione della
probabilità di appartenenza alla classe.
Gli alberi di classificazione, invece, assegnano una risposta a ogni
foglia dell’albero. Ogni caso viene classificato in una e una sola