2
Introduzione
Il presente lavoro ha come obiettivo quello di fornire una panoramica dell’attuale tema dei Big Data
e di sviluppare una strategia di analisi di grandi quantità di dati a portata di un personal computer.
Nella prima parte verrà definito il concetto di Big Data e le implicazioni scientifiche e metodologiche
che questo tema porta con sé. Come è noto infatti, Big Data è l’argomento degli ultimi dibattiti, la
comunità scientifica sembra spaccarsi in due diverse prospettive sull’utilizzo e lo sfruttamento dei
Big Data. Verranno forniti esempi di campi applicativi: le aziende infatti possono sfruttare il
potenziale che deriva dall’analisi dei dati ed estrarre quelle informazioni utili in grado di indirizzare
chi deve prendere le decisioni. Il problema è come estrarre l’informazione significativa dai vasti
giacimenti di dati che si presentano di fronte a noi. Gli strumenti forniti dalla tecnologia e
dall’informatica possono supportare gli analisti nella gestione di un informazione così sparsa e poco
strutturata: in questa direzione si muovono i software e le tecniche di data e text mining che, con costi
e tempi ridotti, possono ridurre la complessità informativa e contribuire a catturare il senso che c’è
dietro una tale vastità di dati.
Nella seconda parte verrà fornita una strategia di analisi per raccogliere, pulire, trattare ed elaborare
grandi quantità di dati testuali anche da un personal computer. A questo scopo, si è scelto di fare un
semplice esperimento di scaricamento degli annunci di lavoro “postati” dalle imprese sul sito
Subito.it. Big Data vuol dire analizzare grandi quantità di dati con l’intento di studiare l’intero
fenomeno piuttosto che un campione ristretto. In questa applicazione sarebbe stato possibile scaricare
tutti gli annunci, ma si è scelto di interrompere il download per un limite dimensionale dato dal
software di analisi testuale dei dati.
3
Nella terza parte si è cercato di estrarre, senza ipotesi a priori, delle informazioni per andare a
catalogare gli annunci sulla base di certe caratteristiche riferite alla posizione lavorativa e vengono
fornite delle statistiche sui risultati ottenuti.
Nell’ultimo capitolo viene proposto un caso specifico dove vengono messe a sistema tutte le
informazioni precedentemente individuate, con riferimento alle figure operanti nel settore
immobiliare.
Una delle critiche che viene mossa all’utilizzo dei Big Data è che possano in qualche modo sostituire
il lavoro degli scienziati: infatti c’è chi sostiene che gli algoritmi possano in toto sostituire il lavoro
delle persone in “carne ed ossa”. Si vuole dimostrare, attraverso l’applicazione agli annunci di lavoro,
che una conoscenza teorica del fenomeno che si vuole analizzare è la premessa per poter capire ed
interpretare i dati. Se qualcuno sostiene che i dati “parlino da soli” è necessario che chi ascolta i dati
“parli la stessa lingua”.
4
Capitolo 1
Big Data
1.1. Cosa sono i Big Data
Cosa vuol dire Big Data? Letteralmente significa Grandi Dati, ovvero una grande quantità di dati. Ma
grandi rispetto a cosa? Qual è il termine di paragone per arrivare a definire un insieme di informazioni
dei Big Data? La risposta non è semplice, nel senso che oggi, quelli che consideriamo Big Data, un
giorno potrebbero essere considerati “Small Data”; tutto dipenderà dalle capacità di elaborazione
fornita dalla tecnologia e dallo sviluppo del web.
Ad oggi il web viene definito 2.0 per indicare uno stadio di evoluzione rispetto ad una fase precedente,
in cui una sterminata mole di dati viene immessa quotidianamente dagli utenti, grazie alle applicazioni
e a varie piattaforme di interazione come i social network, i forum, le chat, e di condivisione media,
come YouTube, Fickr e così via.
È difficile immaginare di quali grandezze stiamo parlando. Se si ragiona sul fatto che una pagina di
testo contiene mediamente 50 righe e 500 parole, per un totale di circa 3.000 bytes (considerando la
lunghezza media della parola intorno a 6,1 caratteri per l’italiano), 2.000 pagine di testo
corrispondono a un file txt di 6 megabytes
1
, mentre quando parliamo del web abbiamo a che fare con
ordini di grandezza dello Zettabytes e dello Yottabytes, numeri rispettivamente a 21 e 24 zeri.
Ma il web non è formato solo da file di testo: esso è composto da file di testo, video, audio, immagini
ecc.
1
Bolasco S., L’analisi automatica dei testi, Roma, Carocci, 2013, pp. 42
5
E grazie alle piattaforme di condivisione e di interazione, gli utenti continuano ad alimentarlo
quotidianamente. Pensiamo a quando carichiamo un video su Youtube, o scriviamo uno stato sul
profilo Facebook, o ancora scriviamo un “tweet”.
Ogni giorno miliardi di utenti alimentano questo bacino digitale e senza rendersene conto, lo
arricchiscono di informazioni utili per chi sa come sfruttarle. Si stima che in internet venga immesso
un flusso di informazioni pari a 150 exabytes ogni mese
2
. Per rendersi conto degli ordini di grandezza
dei quali parliamo, ecco una tabellina con i multipli del bytes.
FONTE: HTTPS://IT.WIKIPEDIA.ORG/WIKI/BYTE
Lo Yottabytes corrisponde a un quadrilione di bytes, ovvero a un milione di miliardi di miliardi di
bytes, scritto in cifre: 1.208.925.819.614.629.174.706.176 bytes, un numero che è anche difficile da
pronunciare oltre che da immaginare.
Big Data, oltre a indicare l’insieme dei dati ad oggi esistente che continuamente va a ingrossare
l’universo del web 2.0, va anche a definire un campo informatico, in pieno sviluppo, che si pone come
obiettivo di estrarre dai vasti giacimenti di dati, informazioni utili per i propri scopi.
2
Bolasco, 2013, pp. 78
Multipli del byte
Prefissi SI
Prefissi binari
Nome Simbolo Multiplo Nome Simbolo Multiplo
kilobyte kB 10
3
kibibyte KiB 2
10
megabyte MB 10
6
mebibyte MiB 2
20
gigabyte GB 10
9
gibibyte GiB 2
30
terabyte TB 10
12
tebibyte TiB 2
40
petabyte PB 10
15
pebibyte PiB 2
50
exabyte EB 10
18
exbibyte EiB 2
60
zettabyte ZB 10
21
zebibyte ZiB 2
70
yottabyte YB 10
24
yobibyte YiB 2
80
6
Big data è la keyword di questi ultimi anni, anche se grandi aziende come Google li utilizzano già da
tempo grazie a tecnologie molto avanzate in grado di elaborare grandi quantità di dati.
Quello che prima era appannaggio di grandi società, oggi sembra sempre più essere alla portata dei
molti, grazie al grado di apertura di internet e alla condivisione delle informazioni. Oggi è possibile
elaborare grandi quantità di dati anche da un personal computer: tutto dipende dalle capacità e dalle
caratteristiche tecniche della macchina.
Il termine Big Data, sta anche a indicare una rivoluzione storica che sta prendendo piede velocemente
e sta modificando il nostro modo di vivere e di vedere il mondo. Sta quindi cambiando la prospettiva,
la finestra dalla quale osserviamo l’ambiente che ci circonda. Cosa sta succedendo?
Nel contesto in cui viviamo si è continuamente travolti dalle informazioni. Si viene “investiti” da
queste, se non si è in grado di cogliere i segnali più importanti, la struttura che c’è dietro il
sovraccarico informativo. Se allora non abbiamo gli strumenti giusti per sollevare il “velo di maya”
che copre l’essenza vera e intrinseca dei dati, prendono il sopravvento la confusione e
disorientamento
3
.
Possiamo immaginare i Big Data come l’universo che contiene stelle, asteroidi, pianeti, satelliti e altri
elementi più singolari, come i buchi neri, i quasar ecc. Visto da uno shuttle l’universo appare caotico,
pianeti che girano su se stessi, che a loro volta girano intorno a stelle, buchi neri che inghiottiscono
tutto quello che incontrano, le super nove, le reazioni nucleari, gli impatti e le esplosioni. Noi viviamo
sul pianeta Terra, se immaginiamo di allontanarci progressivamente dalla nostra Casa, andando in
alto (un po’ come quando sullo smartphone, con le dita facciamo per rimpicciolire, facendo
convergere le dita verso il centro, uno zoom inverso), vedremmo dapprima la nostra casa che si
allontana, per poi vedere il nostro quartiere e mano a mano che saliamo, la città, l’Italia, il continente
Europa, il pianeta Terra e poi uscendo dall’atmosfera osserveremmo il pianeta che ruota su sé stesso
e ancora orbita intorno al Sole. Continuando nel nostro viaggio immaginario usciremmo dal sistema
3
Cukier K. e Shönbergerger V.M., Big Data: Una rivoluzione che trasformerà il nostro modo di vivere e già minaccia la
nostra libertà, Milano, Garzanti, 2013, pp. 53
7
solare e vedremmo altre stelle più lontane come α Centauri che dista dalla Terra 4,36 anni luce
4
, per
poi guardare la nostra galassia, la Via Lattea, allontanarsi da noi, e vedere poi tutto intorno a noi altre
miliardi di galassie splendere. Questo esempio è per far comprendere che l’ottica da cui eravamo
partiti è quella di dettaglio. Ci trovavamo in casa nostra, con i mobili e gli oggetti di arredo. Poco a
poco allontanandosi abbiamo potuto apprezzare un punto di vista diverso, più generale, più
focalizzato sulle relazioni significative. I Big data studiano la complessità, la grandezza, le relazioni
fondamentali. L’ottica di studio e di ricerca non è più improntata sul dettaglio ma sul sistemico.
Tornando all’esempio precedente, sarebbe inutile andare sulle montagne in seguito ad un’alluvione e
non accorgersi del meteorite che sta per impattare sulla Terra. Se avessimo avuto un’ottica più
generale forse ci saremmo accorti dell’asteroide che stava arrivando. E l’analisi dei Big Data consente
di studiare il fenomeno nel suo complesso, di comprendere il tutto. Si passa quindi dallo studio del
campione statistico allo studio della popolazione nel suo complesso. E da qui cambiano anche le
metodologie e gli strumenti con cui affrontiamo lo studio e l’analisi.
Secondo l’analista aziendale Doug Laney, i Big Data possono essere definiti attraverso 3 fattori:
Volume: si è assistito a un incremento esponenziale della quantità di informazioni grazie allo
sviluppo di internet e l’accesso a un grande numero di utenti
Velocità: oltre la mole informativa, i dati vengono alimentati velocemente considerando
l’unità di tempo.
Varietà: il web si compone di tanti tipi di dati. Oltre i dati strutturati nei database tradizionali,
questi si presentano nella forma video, audio, documenti di testo non strutturati, dati
provenienti dalle transazioni finanziarie ecc.
5
Queste tre variabili, se opportunamente governate e gestite, sono fonte di grande valore ed è in questo
verso che si stanno muovendo gli investimenti delle aziende che hanno capito l’importanza e il
4
https://it.wikipedia.org/wiki/Alfa_Centauri_A
5
http://www.sas.com/it_it/insights/big-data/what-is-big-data.html
8
potenziale dei dati. Quando sentiamo parlare di Mining, viene subito in mente l’immagine del
minatore che, faticosamente, lavora per estrarre il materiale prezioso incastonato nella roccia.
Analogamente al minatore, il data miner o il text miner, “scavano” nella mole di dati (roccia) per
estrarre informazioni utili (minerali).
1.2. Un breve excursus storico
L’umanità ha sempre considerato l’interazione con i dati qualcosa di complesso, di negativo, un
problema complicato dai limiti della tecnologia che caratterizzavano i vari periodi. Nel 5.000 a.C. si
utilizzavano palline di argilla per indicare il numero dei pezzi che formavano il carico. Lo Stato
attraverso il censimento raccoglieva tutte le informazioni anagrafiche da inserire nei registri
dell’epoca. Ma i censimenti sono costosi e richiedono molto tempo. E il rischio era quello di non
essere al passo con i cambiamenti della popolazione e le informazioni rimanevano approssimative.
6
Pensiamo anche ai bambini che quando gli si richiede di fare un semplice calcolo contano sulle dita
(capita anche di vedere molti adulti) come metodo più semplice.
Ancora oggi capita di vedere dei sistemi manuali per gestire enormi quantità di dati, con conseguenze
rilevanti in termini di costi. Recentemente c’è stato il Referendum Costituzionale (2016) e nonostante
siamo in un’epoca in cui la gestione dei dati è sempre più sofisticata, vengono reclutati cittadini in
tutta Italia per scrutinare manualmente ogni singola scheda.
Dal metodo del “censimento uno ad uno” si passò alla statistica. Circa 350 anni fa, un mercante e poi
intellettuale di nome John Graunt, che oggi è considerato il precursore della statistica moderna e della
demografia storica, capì che poteva desumere, a partire da un campione, il comportamento della
popolazione statistica. Calcolò la prima tavola di mortalità osservando i decessi suddivisi per età,
6
Cukier K. e Shönbergerger V.M, 2013, pp. 35