CAPITOLO 1
Introduzione
1.1 Cos’Ł lo spamming
Con il termine spamming si identifica l’invio di grandi quantit di messaggi indesiderati, chiamati
spam, attraverso un qualunque mezzo. Il piø utilizzato Ł internet ed in particolare attraverso l’e-
mail, motivo per cui questo termine Ł sovente utilizzato esclusivamente in questo contesto.
Su internet i mezzi piø frequentemente utilizzati per l’attivit di spamming sono:
● E-mail: il piø conosciuto.
● Newgroups Spam: simile a quello relativo alle e-mail, con il vantaggio che spedendo un
solo messaggio, molte persone lo leggeranno. E’ uno dei motivi per cui nessuno legge piø i
newsgroups.
● Chat rooms: dei bot, ossia programmi che partecipano alle chat fingendo di essere normali
utenti, pubblicizzano automaticamente dei siti web, solitamente pornografici, pretendendo
di essere degli utenti normali.
● Messaggeria istantanea: conosciuto come SPIM (Instant Messenger Spam); come per le
chat room esistono dei bot che spediscono messaggi non sollecitati agli utenti.
● Popups: quando si visitano delle pagine web, si aprono automaticamente dei popup.
● Motori di ricerca:
○ Link Spam: i motori di ricerca assegnano un ranking alle pagine web indicizzate
controllando il numero di link che fanno riferimento ad essa. Una tecnica usata dagli
spammer Ł inserire link al proprio sito in giro per internet, cos da apparire tra i primi
risultati di una ricerca.
○ Word Spam: gli spammers inseriscono nel loro sito alcune parole chiavi che vengono
indicizzate dai motori di ricerca, anche se il contenuto del loro sito Ł totalmente diverso
(ad esempio inseriscono termini tecnici nelle loro pagine, quando il sito Ł di carattere
pornografico).
○ Blog spam: alcuni siti permettono a chiunque di inserire dei commenti. Gli spammer li
utilizzano per inserire link alle loro pagine web.
In sostanza, se qualcuno pu farsi pubblicit gratu itamente, lo far !
Altri termini utilizzati per indicare lo spamming attraverso la posta elettronica sono unsolicited
bulk e-mail abbreviato in UBE, per evidenziare il carattere relativo alle grandi quantit (bulk)
1
oppure, nel caso di spam di carattere commerciale, unsolicited commercial e-mail abbreviato in
UCE. Un altro termine molto in vigore Ł Junk e-mail, dove si sottolinea il fatto che lo spam Ł
effettivamente spazzatura.
Il principale scopo dello spamming Ł la pubblicit , il cui oggetto pu andare dalle piø comuni
offerte commerciali a proposte di vendita di materiale pornografico o illegale, come software pirata
e farmaci senza prescrizione medica, da discutibili progetti finanziari a veri e propri tentativi di
truffa. Uno spammer, cioŁ l’individuo mittente dei messaggi spam, invia messaggi identici (o con
qualche personalizzazione) a migliaia di indirizzi e-mail. Questi indirizzi sono spesso raccolti in
maniera automatica dalla rete mediante appositi programmi o semplicemente indovinati usando
liste di nomi comuni.
Per definizione lo spam viene inviato senza il permesso del destinatario ed Ł un
comportamento ampiamente considerato inaccettabile dagli Internet Service Provider (ISP) e dalla
maggior parte degli utenti di Internet. Mentre questi ultimi trovano lo spam fastidioso e con
contenuti spesso offensivi, gli ISP vi si oppongono anche per i costi del traffico generato dall’invio
indiscriminato.
Oggi lo spam Ł considerato uno dei maggiori fastidi di Internet; l’invio di questi messaggi
costituisce una violazione del contratto "Acceptable Use Policy" (condotta d’uso accettabile) che
molti ISP adottano e pertanto pu portare all’inter ruzione dell’abbonamento del mittente. Un gran
numero di spammer utilizza intenzionalmente la frode per inviare i messaggi, come l’uso di
informazioni personali false (come nomi, indirizzi, numeri di telefono). Situazioni piø gravi di
spamming sono quelle in cui si cercano di ingannare i destinatari delle e-mail non sollecitate: un
esempio recente Ł il fenomeno del phishing, situazione in cui lo spammer finge di essere un ente o
un’azienda (molto spesso una banca) per carpire dati sensibili di utenti ignari.
Quale tipo di attivit costituisca spamming Ł mater ia di dibattiti, e le definizioni divergono in
base allo scopo per il quale le e-mail sono inviate, oltre che dalle diverse legislazioni. Ad esempio
molte aziende o associazioni inviano messaggi pubblicitari ai loro clienti, tuttavia solitamente i
destinatari delle e-mail sottoscrivono una delibera in cui si d l’esplicito permesso al mittente di
mandare loro tale tipologia di posta.
Lo spamming Ł considerato un reato in vari paesi e in Italia l’invio di messaggi non sollecitati Ł
soggetto a pesanti sanzioni.
1.2 Spamming e numeri relativi
Il 24 gennaio del 2004, Bill Gates presuntuosamente annunci che il problema dello spam
sarebbe stato risolto entro il 2006. Tuttavia, nØ Microsoft nØ nessun’altra compagnia Ł riuscita
finora a trovare una soluzione definitiva; non solo: statistiche del 2006 dell’autorevole spam-filter-
review (vedi http://spam-filter-review.toptenreviews.com/spam-statistics.html per maggiori dettagli)
2
mostrano dati preoccupanti: il 40% del traffico globale di e-mail Ł costituito da spam. Considerando
che ogni giorno vengono spediti 31 milioni di e-mail ci significa che ben 12,4 milioni di esse sono
spam. Nella medesima statistica, si stima che ogni anno ogni utente di internet riceva 2200
messaggi di spam, e che il 16% dei cambi di indirizzo e-mail sia dovuto alla ricezione di posta non
sollecitata.
Si stima inoltre un incremento significativo del volume di spam per i prossimi anni.
A fronte di questi dati, sono solamente 26 gli stati al mondo che hanno una legislazione
dedicata al problema dello spam.
Le tipologie piø frequenti, in percentuale rispetto al totale dello spam quotidiano sono mostrate
nel grafico 1.1
Per quanto riguarda i costi, lo spam crea un serio problema: MSSP Survey del 2006 stima che
le e-mail non sollecitate consumino approssimativamente 819 terabyes di banda al giorno,
rappresentando l’85% del traffico globale di posta elettronica.
Le fonti autorevoli che presentano studi sul fenomeno dello spamming non sono tutte quante
concordi, ma al contrario riportano dei dati che differiscono piø che sensibilmente tra loro,
soprattutto a causa del fatto che non Ł possibile controllare con precisione il traffico globale delle
e-mail, sia per motivi tecnici che per motivi legali, in quanto si andrebbe a ledere la privacy degli
utenti. Le stime delle fonti principali sono riportate in tabella 1.1 e sintetizzato nel grafico 1.2.
Fonte Totale Spam Data di riferimento
spam-filter-review 40% Fine 2006
postini.com 85% Settembre 2007
rhyolite.com 55% Settembre 2007
spam-o-meter.com 88,4% Settembre 2007
ieinternet.com 60% Agosto 2007
Tabella 1.1: Stime di fonti autorevoli relative al volume dello spam rispetto al totale delle e-mail inviate
quotidianamente e periodo di riferimento per tali stime
3
Grafico 1.1: Categorie dei caratteri delle e-mail di spam, in percentuale rispetto al volume totale dello spam
Prodotti Commerciali Materiale per adulti Salute Internet Svago Spirituale Altro
2,
5
5
7,
5
10
15
20
25
25
20 19
9
7 7 6
4 3
% carattere di spam rispetto
al volume totale
In tabella 1.2 inoltre viene mostrata una classifica stilata dall’agenzia Sophos riguardante i
principali paesi speditori di spam, aggiornata al novembre 2006.
Posizione Paese Percentuale di spam spedito
1 Stati Uniti 21,6%
2 Cina (compresa Hong Kong) 13,4%
3 Francia 6,3%
4 Corea del Sud 6,3%
5 Spagna 5,8%
6 Polonia 4,8%
7 Brasile 4,7%
8 Italia 4,3%
9 Germania 3,0%
10 Taiwan 2,0%
11 Israele 1,8%
12 Giappone 1,7%
Altri 24,3%
Tabella 1.2: Classifica mondiale stilata dalla Commissione Europea riguardante i principali Paesi speditori di spam.
Nonostante i dati presentati per il volume globale delle e-mail non sollecitate soffrano, come gi
sottolineato in precedenza, di una elevata variabilit , il volume dello spam rimane comunque molto
elevato, rappresentando un problema diffuso e generale.
4
Grafico 1.2: Stime delle fonti piø autorevoli relative al volume dello spam rispetto al traffico totale di e-mail inviate
quotidianamente
spam-filter-review postini.com rhyolite.com spam-o-meter ieinternet.com
40
42,5
45
47,5
50
52,5
55
57,5
60
62,5
65
67,5
70
72,5
75
77,5
80
82,5
85
87,5
90
40
85
55
88,4
60
% spam sul totale del vo-
lume di e-mail
Una cos elevata fluttuazione dei dati dipende da diversi parametri, quali il campione di server
su cui Ł fatta l’analisi, il numero di mailboxes presenti e il loro grado di esposizione (la presenza o
meno di un indirizzo, ad esempio, su una pagina web o comunque il grado con cui essa Ł resa
pubblica), ed altri fattori rilevanti ancora.
1.3 Metodi per combattere lo spamming
Al giorno d’oggi esistono una moltitudine di mezzi diversi per combattere il problema dello
spamming. Tali metodi rientrano in tre tipologie diverse:
● Metodi legali
● Metodi tecnici
● Metodi di riconoscimento automatico dello spam.
1.3.1 Metodi legali
Nel mondo solamente 62 stati dispongono di una legislazione che regolamenti lo spam; tuttavia
tali leggi si sono rivelate altamente inefficienti. Ad esempio la societ americana di filtraggio di
posta elettronica Postini rivela che negli Stati Uniti dopo l’entrata in vigore del Can-Spam Act, il
volume di spam Ł rimasto sostanzialmente invariato (si Ł abbassato di un un punto percentuale,
dall’80% al 79%).
In linea generale il bisogno sarebbe quello di disporre di leggi globali, visto che le e-mail
possono essere spedite da ogni parte del mondo verso qualsiasi altra destinazione; altre
complicazioni sorgono inoltre dal fatto che sovente gli spammer spediscono la posta come mittenti
anonimi, o con indirizzi fasulli, e quindi ben piø difficili da rintracciare.
Al momento sono al vaglio pure diverse proposte che puntano a ridurre il fenomeno imponendo
il pagamento delle e-mail spedite o, piø efficacemente, delle sole e-mail sospettate di essere
spam.
1.3.2 Metodi tecnici
I metodi tecnici utilizzati ricadono sotto diversissime categorie. Tra i piø utilizzati si trovano:
● Blacklists: sono semplicemente liste di domini o indirizzi e-mail, dai quali la posta viene
rifiutata. E’ praticamente impossibile mantenerli aggiornati a causa della continua
variazione di indirizzo utilizzato dagli spammer.
● Whitelists: sono liste di domini o indirizzi e-mail autorizzati ad inviare posta elettronica. Non
sono una adeguata soluzione a causa della continua creazione di domini e indirizzi e-mail
5
su internet. Utilizzando solamente le whitelists si instaurerebbe un circuito chiuso.
● Sender Policy Framework, Sender ID e sistemi di reputazione: sono dei sistemi che
certificano che da un determinato server si pu acc ettare la posta elettronica, con scarsa
possibilit che essa sia spam. Sender ID in partico lare Ł una metodo non standard creato
da Microsoft, utilizzato quasi esclusivamente da Hotmail e la sua licenza non Ł pubblica,
quindi non Ł un metodo universalmente accettato.Per quanto riguarda Sender Policy
Framework, esso Ł un metodo standard basato su un sistema di autocertificazione attuato
per mezzo del servizio DNS: si dichiara che il server che risponde ad un dato indirizzo Ł
autorizzato ad inviare e-mail per conto di un certo dominio.
● Regole decisionali: sono regole statiche che valutano predicati binari. Ad esempio, si pu
controllare la presenza di determinate parole o frasi all’interno del corpo dell’e-mail da
analizzare, oppure nell’header.
● Metodi basati sui punteggi: definendo delle caratteristiche, ad esempio la presenza di una
parola chiave o il server di provenienza, per le e-mail di spam (e per le legittime), e
assegnando ad ogni caratteristica un punteggio (positivo per le caratteristiche dello spam,
negativo per quelle delle e-mail legittime) e facendone la somma algebrica, si pu stabilire
il grado con cui un messaggio di posta elettronica Ł spam. Se supera una certa soglia, l’e-
mail va scartata.
1.3.3 Metodi di riconoscimento automatico dello spam
Uno dei principali caratteri dello spam Ł la variabilit dei contenuti: per ogni possibile metodo
tecnico illustrato, esiste il modo per eluderlo. Se, ad esempio, un filtro anti-spam si basasse sulle
regole decisionali, esse dovrebbero essere aggiornate molto frequentemente, e con nessuna
sicurezza di comprendere tutti i caratteri rappresentanti la globalit delle e-mail non sollecitate ch e
girano per internet.
Esistono dei metodi di filtraggio automatico della posta elettronica, chiamati metodi di content
filtering, i quali analizzano la posta in ingresso e, con un certo grado di confidenza, valutano se
essa sia spam o meno.
Tali metodi hanno la caratteristica peculiare di adattarsi al campione di osservazione, ed hanno
solitamente bisogno di subire una fase di training, in cui i classificatori vengono allenati a dividere
lo spam dalle e-mail legittime, imparando da un campione pre-classificato (ovvero la decisione Ł
stata presa in precedenza da un umano). Tale campione risponde al nome di corpus ed Ł formato
da e-mail legittime e spam. Ovviamente la bont del lavoro classificatore, oltre alle performance
dell’approccio utilizzato, dipende pure dalla qualit del corpus e ogni classificatore riporter
efficacia diversa dipendentemente dell’ambiente in cui opera.
Ad esempio, un argomento comune dello spam sembra essere il commercio di prodotti
6
farmacologici senza ricetta. Se il filtro anti-spam utilizzato da un medico Ł stato allenato su un
corpus comprendente messaggi di tale tipo, allora esso potrebbe commettere molti errori sulle e-
mail relative alla professione, ma potrebbe invece comportarsi perfettamente se utilizzato in un
contesto diverso, ad esempio da un utente domestico, a causa del fatto che quest’utilmo non tratta
prodotti farmacologici, e quindi la distinzione tra spam ed e-mail legittime Ł molto piø netta.
Esistono diversi approcci per costruire dei classificatori. Molto comuni sono quelli derivati dalla
disciplina del text categorization, ove la decisione viene ristretta a due categorie possibili; altri
approcci derivano dal machine learning, altri ancora provengono da altri orientamenti.
Tra i vari approcci utilizzati in letteratura, tra i piø significativi si trovano:
● Metodi probabilistici (Naive Bayes)
● Support Vector Machines
● Boosted Trees
● Metodi Example-Based (k-NN)
● Metodo di Rocchio
● Alberi decisionali
● Reti neurali
Alcuni di questi metodi sono tuttavia obsoleti, e non piø utilizzati nei software anti-spam
commerciali.
In Tutorial for Junk E-mail Filtering (Joshua Goodmann e Geoff Hulten, 2004), effettuano uno
studio relativo ai metodi di content-filtering utilizzati nei software commerciali attualmente
disponibili in commercio. I risultati di tale ricerca sono riportati nel grafico 1.3.
Attualmente, come mostrato nel grafico, il metodo principe Ł il metodo probabilistico Naive
Bayes, essendo esso molto semplice ed estremamente efficace.
7
Grafico 1.3: quantit di software commerciali dispo nibili che utilizzano i metodi di content-filtering citati
Naive Bayes SVM Boosted Trees k-nn Rocchio Decision Trees Stacking
1
2
3
4
5
6
7
8
9
10
11
Software anti-spam che uti-
lizzano il metodo