Skip to content

Big Data: un’applicazione di text mining a partire dallo scraping di un sito web sulle richieste di lavoro

I data analytics

Una parola che viene accostata spesso ai Big Data è Analytics, che indica quegli strumenti software che consentono di trovare le correlazioni tra i dati, determinare i trend, segmentare i clienti e in generale condurre attività di data e text mining utili per estrarre (mining) le informazioni significative.
È chiaro che i due concetti non possono essere separati, in quanto la disponibilità di grandi quantità di dati non può essere utile di per sé, se non attraverso l’implementazione di tecniche e analisi specifiche.

Dopo una prima fase della raccolta dei dati ad esempio dal web, che può avvenire attraverso un software di crawling o di scraping, ne segue una di estrazione delle informazioni, con le modalità che discendono dall’obiettivo che ci si è posti. Se i dati sono di carattere testuale, allora è possibile utilizzare delle tecniche di text mining che presuppongono di non leggere il testo e permettono di effettuare delle analisi quantitative secondo un approccio di tipo metrico. I dati contenuti nel testo sono dati di tipo non strutturato. Infatti i dati si possono classificare entro 3 categorie:

- Dati strutturati: sono quei dati codificati in database secondo campi e tabelle
- Dati non strutturati: sono dati conservati senza alcuno schema. L’esempio tipico è il file di testo
- Dati semi-strutturati: sono dati che incontrano caratteristiche sia di quelli strutturati, che di quelli non strutturati: esempio di file semi-strutturato è l’Html, dove informazioni di carattere testuale o immagini ecc. sono contenute all’interno di un tag. Per esempio prova.html, visualizzabile in figura 3, restituisce un sorgente con la seguente struttura:




Tesi Magistrale


Tesi Magistrale
Big Data
Andrea Kanneworff




Il Testo “Tesi Magistrale… Kanneworff” è contenuto nel tag “Body” e allo stesso tempo l’immagine è anch’essa inserita nella stessa struttura ma con un ulteriore tag “img src” che racchiude il file .jpg.

Questo tipo di struttura può essere sfruttata anche nei processi di scraping, in cui si va a definire da quali tag estrarre i dati e in tal modo si può procedere ad uno scaricamento di tipo automatico (vedi infra paragrafo scraping).
Quando i dati si trovano nella forma non strutturata o semi strutturata, è necessario procedere nell’analisi andando ad associare a questi delle informazioni strutturate.
In questa sede si tratterà solamente delle tecniche afferenti ai dati di tipo testuale.
Se si possiede un corpus formato da migliaia di articoli di diversi quotidiani, l’informazione strutturata è quella che associa a ogni articolo il nome della testata del giornale, ma è possibile associare altre informazioni rispetto a ulteriori criteri. Questo processo di estrazione dell’informazione non strutturata, codifica e archiviazione in un database strutturato, attiene alle tecniche di text mining di ETL (Extraction, Transformation, Loading). L’analisi automatica dei testi si fonda su due diversi tipi di unità di analisi: le unità lessicali e le unità testuali.
Nel primo caso l’oggetto di studio è il lessico del corpus di riferimento, ovvero l’insieme delle parole contenute nel vocabolario e parliamo quindi di microsegmentazione del corpus. Nel secondo caso avviene una macrosegmentazione del corpus e quindi l’oggetto di studio, l’unità di analisi è “l’individuo” dal punto di vista statistico, che può essere un frammento, una frase, un documento. Quindi a seconda dell’unità di analisi di riferimento avremo un’analisi di tipo lessicale o di tipo testuale, con tutte le conseguenze per ciò che attiene agli strumenti che si andranno ad attivare. Le due analisi possono integrarsi tra di loro: l’analisi lessicale può essere propedeutica ad alcune analisi sulle unità testuali.

L’informazione estratta sia a livello lessicale e a livello testuale, può essere esportata sotto forma di matrice che può essere del tipo:
- Parole x testi
- Frammenti x parole selezionate

Queste matrici possono essere analizzate con sofware statistici come Spad, R, Sas ecc. per scoprire quali siano le relazioni significative fra gli elementi di riga e di colonna contenuti nella matrice, utilizzando ad esempio un’analisi di fattoriale di tipo esplorativo. Le tecniche fattoriali, sintetizzano la variabilità della matrice sugli assi fattoriali, ovvero rappresentano in sottospazi ottimali, la multidimensionalità del fenomeno oggetto di studio. Le due tecniche fondamentali sono:
- L’analisi in componenti principali (si applica nel caso di variabili quantitative)
- L’analisi delle corrispondenze semplice e multipla (si applica nel caso di variabili qualitative rispettivamente con 2 e con n caratteri).

L’utilizzo di tecniche di text mining e data mining attraverso software specialistici è fondamentale per quelle aziende che vogliono ricavare dal mercato e dal settore di riferimento le informazioni storiche, operative e strategiche utili per dare un supporto al proprio processo decisionale. Lo sfruttamento di queste informazioni disponibili in tempi giusti e alle persone giuste, possono favorire e supportare processi decisionali con chiave preventiva o proattiva nel business.

Questo brano è tratto dalla tesi:

Big Data: un’applicazione di text mining a partire dallo scraping di un sito web sulle richieste di lavoro

CONSULTA INTEGRALMENTE QUESTA TESI

La consultazione è esclusivamente in formato digitale .PDF

Acquista

Informazioni tesi

  Autore: Andrea Kanneworff
  Tipo: Laurea II ciclo (magistrale o specialistica)
  Anno: 2016-17
  Università: Università degli Studi di Roma La Sapienza
  Facoltà: Economia
  Corso: Scienze dell'economia
  Relatore: Maria Felice Arezzo
  Lingua: Italiano
  Num. pagine: 87

FAQ

Per consultare la tesi è necessario essere registrati e acquistare la consultazione integrale del file, al costo di 29,89€.
Il pagamento può essere effettuato tramite carta di credito/carta prepagata, PayPal, bonifico bancario.
Confermato il pagamento si potrà consultare i file esclusivamente in formato .PDF accedendo alla propria Home Personale. Si potrà quindi procedere a salvare o stampare il file.
Maggiori informazioni
Ingiustamente snobbata durante le ricerche bibliografiche, una tesi di laurea si rivela decisamente utile:
  • perché affronta un singolo argomento in modo sintetico e specifico come altri testi non fanno;
  • perché è un lavoro originale che si basa su una ricerca bibliografica accurata;
  • perché, a differenza di altri materiali che puoi reperire online, una tesi di laurea è stata verificata da un docente universitario e dalla commissione in sede d'esame. La nostra redazione inoltre controlla prima della pubblicazione la completezza dei materiali e, dal 2009, anche l'originalità della tesi attraverso il software antiplagio Compilatio.net.
  • L'utilizzo della consultazione integrale della tesi da parte dell'Utente che ne acquista il diritto è da considerarsi esclusivamente privato.
  • Nel caso in cui l’utente che consulta la tesi volesse citarne alcune parti, dovrà inserire correttamente la fonte, come si cita un qualsiasi altro testo di riferimento bibliografico.
  • L'Utente è l'unico ed esclusivo responsabile del materiale di cui acquista il diritto alla consultazione. Si impegna a non divulgare a mezzo stampa, editoria in genere, televisione, radio, Internet e/o qualsiasi altro mezzo divulgativo esistente o che venisse inventato, il contenuto della tesi che consulta o stralci della medesima. Verrà perseguito legalmente nel caso di riproduzione totale e/o parziale su qualsiasi mezzo e/o su qualsiasi supporto, nel caso di divulgazione nonché nel caso di ricavo economico derivante dallo sfruttamento del diritto acquisito.
L'obiettivo di Tesionline è quello di rendere accessibile a una platea il più possibile vasta il patrimonio di cultura e conoscenza contenuto nelle tesi.
Per raggiungerlo, è fondamentale superare la barriera rappresentata dalla lingua. Ecco perché cerchiamo persone disponibili ad effettuare la traduzione delle tesi pubblicate nel nostro sito.
Per tradurre questa tesi clicca qui »
Scopri come funziona »

DUBBI? Contattaci

Contatta la redazione a
[email protected]

Ci trovi su Skype (redazione_tesi)
dalle 9:00 alle 13:00

Oppure vieni a trovarci su

Parole chiave

analisi
web
data mining
dati
mining
analytics
taltac
big data
crawling
scraping

Tesi correlate


Non hai trovato quello che cercavi?


Abbiamo più di 45.000 Tesi di Laurea: cerca nel nostro database

Oppure consulta la sezione dedicata ad appunti universitari selezionati e pubblicati dalla nostra redazione

Ottimizza la tua ricerca:

  • individua con precisione le parole chiave specifiche della tua ricerca
  • elimina i termini non significativi (aggettivi, articoli, avverbi...)
  • se non hai risultati amplia la ricerca con termini via via più generici (ad esempio da "anziano oncologico" a "paziente oncologico")
  • utilizza la ricerca avanzata
  • utilizza gli operatori booleani (and, or, "")

Idee per la tesi?

Scopri le migliori tesi scelte da noi sugli argomenti recenti


Come si scrive una tesi di laurea?


A quale cattedra chiedere la tesi? Quale sarà il docente più disponibile? Quale l'argomento più interessante per me? ...e quale quello più interessante per il mondo del lavoro?

Scarica gratuitamente la nostra guida "Come si scrive una tesi di laurea" e iscriviti alla newsletter per ricevere consigli e materiale utile.


La tesi l'ho già scritta,
ora cosa ne faccio?


La tua tesi ti ha aiutato ad ottenere quel sudato titolo di studio, ma può darti molto di più: ti differenzia dai tuoi colleghi universitari, mostra i tuoi interessi ed è un lavoro di ricerca unico, che può essere utile anche ad altri.

Il nostro consiglio è di non sprecare tutto questo lavoro:

È ora di pubblicare la tesi