Big Data: un’applicazione di text mining a partire dallo scraping di un sito web sulle richieste di lavoro
I data analytics
Una parola che viene accostata spesso ai Big Data è Analytics, che indica quegli strumenti software che consentono di trovare le correlazioni tra i dati, determinare i trend, segmentare i clienti e in generale condurre attività di data e text mining utili per estrarre (mining) le informazioni significative.
È chiaro che i due concetti non possono essere separati, in quanto la disponibilità di grandi quantità di dati non può essere utile di per sé, se non attraverso l’implementazione di tecniche e analisi specifiche.
Dopo una prima fase della raccolta dei dati ad esempio dal web, che può avvenire attraverso un software di crawling o di scraping, ne segue una di estrazione delle informazioni, con le modalità che discendono dall’obiettivo che ci si è posti. Se i dati sono di carattere testuale, allora è possibile utilizzare delle tecniche di text mining che presuppongono di non leggere il testo e permettono di effettuare delle analisi quantitative secondo un approccio di tipo metrico. I dati contenuti nel testo sono dati di tipo non strutturato. Infatti i dati si possono classificare entro 3 categorie:
- Dati strutturati: sono quei dati codificati in database secondo campi e tabelle
- Dati non strutturati: sono dati conservati senza alcuno schema. L’esempio tipico è il file di testo
- Dati semi-strutturati: sono dati che incontrano caratteristiche sia di quelli strutturati, che di quelli non strutturati: esempio di file semi-strutturato è l’Html, dove informazioni di carattere testuale o immagini ecc. sono contenute all’interno di un tag. Per esempio prova.html, visualizzabile in figura 3, restituisce un sorgente con la seguente struttura:
Tesi Magistrale
Big Data
Andrea Kanneworff
Il Testo “Tesi Magistrale… Kanneworff” è contenuto nel tag “Body” e allo stesso tempo l’immagine è anch’essa inserita nella stessa struttura ma con un ulteriore tag “img src” che racchiude il file .jpg.
Questo tipo di struttura può essere sfruttata anche nei processi di scraping, in cui si va a definire da quali tag estrarre i dati e in tal modo si può procedere ad uno scaricamento di tipo automatico (vedi infra paragrafo scraping).
Quando i dati si trovano nella forma non strutturata o semi strutturata, è necessario procedere nell’analisi andando ad associare a questi delle informazioni strutturate.
In questa sede si tratterà solamente delle tecniche afferenti ai dati di tipo testuale.
Se si possiede un corpus formato da migliaia di articoli di diversi quotidiani, l’informazione strutturata è quella che associa a ogni articolo il nome della testata del giornale, ma è possibile associare altre informazioni rispetto a ulteriori criteri. Questo processo di estrazione dell’informazione non strutturata, codifica e archiviazione in un database strutturato, attiene alle tecniche di text mining di ETL (Extraction, Transformation, Loading). L’analisi automatica dei testi si fonda su due diversi tipi di unità di analisi: le unità lessicali e le unità testuali.
Nel primo caso l’oggetto di studio è il lessico del corpus di riferimento, ovvero l’insieme delle parole contenute nel vocabolario e parliamo quindi di microsegmentazione del corpus. Nel secondo caso avviene una macrosegmentazione del corpus e quindi l’oggetto di studio, l’unità di analisi è “l’individuo” dal punto di vista statistico, che può essere un frammento, una frase, un documento. Quindi a seconda dell’unità di analisi di riferimento avremo un’analisi di tipo lessicale o di tipo testuale, con tutte le conseguenze per ciò che attiene agli strumenti che si andranno ad attivare. Le due analisi possono integrarsi tra di loro: l’analisi lessicale può essere propedeutica ad alcune analisi sulle unità testuali.
L’informazione estratta sia a livello lessicale e a livello testuale, può essere esportata sotto forma di matrice che può essere del tipo:
- Parole x testi
- Frammenti x parole selezionate
Queste matrici possono essere analizzate con sofware statistici come Spad, R, Sas ecc. per scoprire quali siano le relazioni significative fra gli elementi di riga e di colonna contenuti nella matrice, utilizzando ad esempio un’analisi di fattoriale di tipo esplorativo. Le tecniche fattoriali, sintetizzano la variabilità della matrice sugli assi fattoriali, ovvero rappresentano in sottospazi ottimali, la multidimensionalità del fenomeno oggetto di studio. Le due tecniche fondamentali sono:
- L’analisi in componenti principali (si applica nel caso di variabili quantitative)
- L’analisi delle corrispondenze semplice e multipla (si applica nel caso di variabili qualitative rispettivamente con 2 e con n caratteri).
L’utilizzo di tecniche di text mining e data mining attraverso software specialistici è fondamentale per quelle aziende che vogliono ricavare dal mercato e dal settore di riferimento le informazioni storiche, operative e strategiche utili per dare un supporto al proprio processo decisionale. Lo sfruttamento di queste informazioni disponibili in tempi giusti e alle persone giuste, possono favorire e supportare processi decisionali con chiave preventiva o proattiva nel business.
Questo brano è tratto dalla tesi:
Big Data: un’applicazione di text mining a partire dallo scraping di un sito web sulle richieste di lavoro
CONSULTA INTEGRALMENTE QUESTA TESI
La consultazione è esclusivamente in formato digitale .PDF
Acquista
Informazioni tesi
Autore: | Andrea Kanneworff |
Tipo: | Laurea II ciclo (magistrale o specialistica) |
Anno: | 2016-17 |
Università: | Università degli Studi di Roma La Sapienza |
Facoltà: | Economia |
Corso: | Scienze dell'economia |
Relatore: | Maria Felice Arezzo |
Lingua: | Italiano |
Num. pagine: | 87 |
FAQ
Come consultare una tesi
Il pagamento può essere effettuato tramite carta di credito/carta prepagata, PayPal, bonifico bancario.
Confermato il pagamento si potrà consultare i file esclusivamente in formato .PDF accedendo alla propria Home Personale. Si potrà quindi procedere a salvare o stampare il file.
Maggiori informazioni
Perché consultare una tesi?
- perché affronta un singolo argomento in modo sintetico e specifico come altri testi non fanno;
- perché è un lavoro originale che si basa su una ricerca bibliografica accurata;
- perché, a differenza di altri materiali che puoi reperire online, una tesi di laurea è stata verificata da un docente universitario e dalla commissione in sede d'esame. La nostra redazione inoltre controlla prima della pubblicazione la completezza dei materiali e, dal 2009, anche l'originalità della tesi attraverso il software antiplagio Compilatio.net.
Clausole di consultazione
- L'utilizzo della consultazione integrale della tesi da parte dell'Utente che ne acquista il diritto è da considerarsi esclusivamente privato.
- Nel caso in cui l’utente che consulta la tesi volesse citarne alcune parti, dovrà inserire correttamente la fonte, come si cita un qualsiasi altro testo di riferimento bibliografico.
- L'Utente è l'unico ed esclusivo responsabile del materiale di cui acquista il diritto alla consultazione. Si impegna a non divulgare a mezzo stampa, editoria in genere, televisione, radio, Internet e/o qualsiasi altro mezzo divulgativo esistente o che venisse inventato, il contenuto della tesi che consulta o stralci della medesima. Verrà perseguito legalmente nel caso di riproduzione totale e/o parziale su qualsiasi mezzo e/o su qualsiasi supporto, nel caso di divulgazione nonché nel caso di ricavo economico derivante dallo sfruttamento del diritto acquisito.
Vuoi tradurre questa tesi?
Per raggiungerlo, è fondamentale superare la barriera rappresentata dalla lingua. Ecco perché cerchiamo persone disponibili ad effettuare la traduzione delle tesi pubblicate nel nostro sito.
Per tradurre questa tesi clicca qui »
Scopri come funziona »
DUBBI? Contattaci
Contatta la redazione a
[email protected]
Parole chiave
Tesi correlate
Non hai trovato quello che cercavi?
Abbiamo più di 45.000 Tesi di Laurea: cerca nel nostro database
Oppure consulta la sezione dedicata ad appunti universitari selezionati e pubblicati dalla nostra redazione
Ottimizza la tua ricerca:
- individua con precisione le parole chiave specifiche della tua ricerca
- elimina i termini non significativi (aggettivi, articoli, avverbi...)
- se non hai risultati amplia la ricerca con termini via via più generici (ad esempio da "anziano oncologico" a "paziente oncologico")
- utilizza la ricerca avanzata
- utilizza gli operatori booleani (and, or, "")
Idee per la tesi?
Scopri le migliori tesi scelte da noi sugli argomenti recenti
Come si scrive una tesi di laurea?
A quale cattedra chiedere la tesi? Quale sarà il docente più disponibile? Quale l'argomento più interessante per me? ...e quale quello più interessante per il mondo del lavoro?
Scarica gratuitamente la nostra guida "Come si scrive una tesi di laurea" e iscriviti alla newsletter per ricevere consigli e materiale utile.
La tesi l'ho già scritta,
ora cosa ne faccio?
La tua tesi ti ha aiutato ad ottenere quel sudato titolo di studio, ma può darti molto di più: ti differenzia dai tuoi colleghi universitari, mostra i tuoi interessi ed è un lavoro di ricerca unico, che può essere utile anche ad altri.
Il nostro consiglio è di non sprecare tutto questo lavoro:
È ora di pubblicare la tesi