CAPITOLO 1
Sentiment Analysis: la nascita di un fenomeno di crescente importanza
1.1. Sentiment Analysis: quando, come e perché
Con il termine Sentiment Analysis si fa riferimento a quell'insieme di regole, ricerche e
studi volti a raccogliere e ad interpretare le opinioni, positive o negative, contenute
all'interno di documenti, “post” o recensioni, scritti dalle persone prevalentemente online.
Queste opinioni, non vengono quindi ottenute mediante la somministrazione di
questionari o sondaggi da parte di un ente privato ovvero pubblico, bensì vengono raccolte
dal Web.
La materia, chiamata anche Opinion Mining, si compone di quattro aggregati tra loro
distinguibili ma dipendenti; in primo luogo, è opportuno citare la linguistica. Dizionari,
proverbi, analisi grammaticale e logica, sono solo una parte degli aspetti sui quali, in
particolare quando si avvia un progetto di costruzione di modelli per questo tipo di analisi,
bisogna fare grande attenzione.
Possiamo poi valutare come propizia la considerazione di un secondo importante
elemento nello svolgimento pratico-operativo di questa analisi, quale è l'informatica. Come
avremo anche modo di sottolineare, l'applicabilità di adeguate tecniche statistiche, in grado
di assicurare un basso margine di errore, dipende anche dalla dimensione del campione
analizzato; ma se da un lato possedere una consistente mole di dati è auspicabile in termini
di buona inferenza statistica, dall'altro può divenire difficilmente gestibile, manualmente
parlando. La possibilità di disporre di applicativi e pacchetti software disponenti sia di
9
modelli statistici inferenziali sia di dizionari che agevolino la rielaborazione e la
classificazione dei testi, facilita indubbiamente l'analisi.
Non si può però procedere oltre senza prescindere da un terzo aggregato di estrema
importanza: il lavoro e l'intelletto umano. Citando Arthur Bloch, noto umorista statunitense,
“Un programma di un computer fa quello che gli dici, non quello che vuoi”.
Ed è effettivamente questo il concetto cui possiamo fare riferimento.
Contestualizzandosi sul tema, si può supporre di disporre di un software con un
dizionario integrato al suo interno. Indubbiamente, anche un'applicazione primitiva di
questo genere saprà riconoscere una connotazione negativa rispetto alla parola male.
Tuttavia, senza l'intervento di un programmatore, in grado di far riconoscere
all'applicativo la possibilità di incontrare frasi, citazioni o modi di dire che potrebbero
totalmente sovvertire il significato originariamente individuabile rispetto alla singola
parola, l'elaborazione potrebbe portare a risultati totalmente opposti a quelli sperati.
Basti pensare ad esempio al modo di dire niente male!: è facile riconoscere che questa
frase ha una connotazione positiva, ma è anche altamente probabile che un programma
d'analisi rudimentale e privo di questo bagaglio di modi di dire e contraddizioni ricorrenti
nella lingua italiana
1
, attribuisca una valenza negativa alla frase proprio per la presenza
della parola male.
Riassumendo, quando ci si occupa di opinion mining si devono possedere buone doti
linguistiche e di comprensione scritta dei testi costituenti fonte di dati; data la moltitudine
di dati da analizzare ci si dovrà avvalere di tools applicativi in grado di rendere più celere
questa analisi; in questo contesto si inserisce infine l'intervento umano il quale assume il
ruolo di garante della corretta interpretazione telematica.
A questo punto diviene preminente citare il quarto e forse, più importante aggregato di
questa tipologia d'analisi. Il Web 2.0 .
_________________________________________________________________________________________________________
1. L'italiano è di sicuro la lingua di maggiore interesse in questo contesto d'analisi, ma bisogna anche ricordare
che ci sono lingue ancora più complesse, fra le quali il polacco, il russo e il giapponese; i ricercatori e gli studiosi
hanno recentemente avviato progetti di programmazione relativi a “sentiment” tools in molte lingue diverse:
ovviamente un'analisi di questo tipo non può prescindere dall'idioma delle recensioni o dei documenti costituenti la
sorgente dati e per questo si sta procedendo ad ampliare la versatilità linguistica dei software applicativi.
10
Sorgente inesauribile di dati, l'evoluzione più recente e, a dire il vero, ancora in corso del
World Wide Web, è costituita dall'avvento di strumenti d'iterazione quali Social Network,
blog e forum.
Queste nuove interfacce digitali, hanno rivoluzionato Internet e il modo che le persone
hanno di affacciarvisi; con i Social Media, l'utente medio si svincola dal ruolo meramente
passivo di ricerca e lettura di dati che aveva assunto nel corso degli anni '90 e primissimi
anni '00, per vedersi riconosciuta la possibilità di diventare il vero e proprio protagonista di
tendenze, mode, dibattiti e discussioni di qualsiasi materia e paese.
Con il Web 2.0, l'utente ha la possibilità di esternare tramite propri profili personali
online, i propri gusti musicali, le proprie preferenze politiche e, ovviamente anche le
proprie opinioni relativamente a servizi e/o prodotti collocati sul mercato dalle imprese.
Proprio per queste ultime, diviene cruciale essere in grado di cogliere i tantissimi e continui
“segnali” che gli utenti offrono sfruttando un indiscutibile vantaggio che il mezzo conferisce:
la rapidità con cui circolano le informazioni.
Si torna quindi ad evidenziare la possibilità di scomporre la sentiment analysis in quattro
aggregati e, volendo attribuire una certa circolarità agli elementi che la compongono
possiamo schematizzarla come in Figura 1.1: i dati, vengono raccolti online; la
categorizzazione positiva/negativa richiesta dall'analisi viene realizzata tenuto conto delle
peculiarità della lingua italiana e quindi non solo del mero significato di una singola parola.
La mole di dati viene poi inserita e rielaborata da elaboratori informatici che adempiono al
loro ruolo con una precisione tanto maggiore, quanto maggiore è la precisione
dell'intervento (umano) di un programmatore, in grado di consentire alla macchina di
cogliere sfumature e modi di dire dell'idioma trattato.
Figura 1.1: gli aggregati della Sentiment Analysis e la loro circolarità
11
1.2 Sentiment (vs) Content Analysis
Una distinzione che merita di essere fatta è senza alcun dubbio quella fra Sentiment e
Content Analysis.
La Content Analysis, in italiano Analisi del Contenuto, è definibile come una disciplina
che mira alla possibilità di effettuare delle ipotesi e, successivamente ad ottenerne
conferme con l'applicazione di regole statistiche, sulla base dei contenuti di documenti,
messaggi, libri, eccetera.
È invece possibile definire la Sentiment Analysis come quella particolare modalità di
analisi del testo, relativa sostanzialmente allo studio di documenti testuali, che si occupa di
individuare e categorizzare in primis una polarità del commento (positivo/negativo e, in
alcuni casi anche neutrale) e a seguire, l'autore e la data del documento senza dimenticare
l'oggetto di riferimento del discorso.
Ad un primo impatto le due scienze sembrano uguali, tuttavia sono piuttosto diverse e, si
può tranquillamente affermare che una si sia sviluppata a seguito dell'altra.
Decine di anni fa, infatti, l'analisi del contenuto era ritenuta un imprescindibile
strumento di elaborazione di libri, articoli accademici e/o di quotidiani, messaggi
pubblicitari e, addirittura di monologhi di temi politici e di confronti in talk-show televisivi.
È per questo motivo che studiare questa disciplina significava molto spesso disporre di
conoscenze relative allo studio e allo sviluppo di strategie e pianificazioni aziendali ma
anche di partito, conoscere i valori e la cultura insita in alcuni gruppi della società, saper
disporre dei mezzi e delle modalità con cui si attuava un'efficace comunicazione di massa.
L'analisi del contenuto consiste nella definizione di un interrogativo, ad esempio quale
sia la percezione della crisi nazionale, ovvero il livello di credibilità di un rappresentante
politico, in relazione al panorama giornalistico italiano. Il ricercatore procederà quindi a
cercare di identificare quali potrebbero essere i riferimenti giornalistici definenti la
credibilità politica del soggetto, oggetto della sua ricerca, effettuando una sorta di
polarizzazione; tornando all'esempio di cui sopra, potrebbero essere utilizzati i poli
“recessione/ripresa” relativamente alla percezione della crisi mentre per quanto concerne
le opinioni sulla personalità politica potrebbero essere “trasformismo/coerenza”.
12
Scelti i poli, coerentemente con l'oggetto della ricerca e dell'ipotesi, sarà poi necessario
attribuire, ad ogni documento oggetto dell'analisi un punteggio da 1 a 5, i quali questi
ultimi, intuitivamente, costituiranno i punteggi assegnati l'uno ad un polo, l'altro al suo
opposto. Il passo successivo, effettuato su ogni documento da analizzare, sarà quello
relativo alla ricerca di eventuali doppi sensi, artefatti semantici o costruzioni lessicali che,
per la loro posizione alterino la percezione del messaggio al destinatario, e consentano, di
conseguenza al ricercatore di scegliere di polarizzarsi su un significato piuttosto che su un
altro.
Senza entrare ulteriormente nel dettaglio c'è almeno un altro paio di operazioni che
merita di essere citato. In primis, il campionamento che si rivela un elemento
dall'indiscutibile essenzialità, soprattutto quando l'analisi si rifà a testi o comunque a fonti
di dati aventi una mole consistente; in casi come quelli appena citati, l'attività di
categorizzazione e di assegnazione del livello di polarità, infatti viene realizzata solo su una
frazione della popolazione analizzabile, soprattutto perché, molto spesso questa analisi
viene, o meglio, veniva svolta da un condificatore manuale. Un'analisi estesa a tutti gli
elementi della popolazione comporterebbe impatti altamente negativi in termini di risorse
utilizzate per la ricerca senza nemmeno probabilmente apportare altrettanti benefici.
In secondo luogo non va dimenticato che, una volta eseguite le operazioni di
campionamento e, a seguire, quelle di polarizzazione, vengono attuate una serie di
operazioni volte nel complesso, all'analisi dei dati e, infine all'intepretazione dei risultati.
Di seguito, non verranno elencate le caratteristiche e gli elementi operativi della Analisi
del Sentiment, che saranno specificati nel intero Capitolo 3; piuttosto, partendo dalle
peculiarità dell'Analisi del Contenuto si cercherà di mostrare le principali differenze fra i
due approcci di ricerca, motivando infine perché, nell'ambito del Data Management, negli
ultimi decenni ci si stia avvicinando sempre di più alla disciplina del “sentimento”.
Negli ultimi anni, per chi si occupa di analisi dei dati aziendali, la Sentiment Analysis è
divenuta un vero e proprio Must Have, da possedere nel proprio bagaglio di conoscenze e,
13
di conseguenza, da utilizzare nelle applicazioni pratiche della vita d'azienda, sia essa
operante sottoforma d'impresa che di ente no-profit.
Mentre l'analisi del contenuto fonda la sua operatività sostanzialmente su messaggi
pubblicitari, pubblicazioni per lo più scientifiche, e discorsi politici, l'analisi del sentiment
(abbreviando, “SA”), si muove e si plasma di continuo rispetto al Web. Come verrà
approfondito nei capitoli a seguire, infatti, la nascita della SA è strettamente riconducibile
ad un fenomeno che ha letteralmente sconvolto e rivoluzionato il modo di comunicare tra le
persone, ancor prima di quello tra l'impresa e il cliente: il Web 2.0.
Social network, Social Media, blog, forum e chat, oggi dettano e comandano le modalità di
comunicazione e, gli utenti, sono passati da avere un ruolo passivo e di mera consultazione
dei dati negli anni '80 e '90, a detenere un ruolo attivo e di protagonismo assoluto nel nuovo
secolo.
La presenza attiva degli utenti sul Web, che twittano il loro stato d'animo o che mettono
mi piace alla pagina della loro auto preferita, permette alle imprese di cogliere aspetti,
emozioni, sentimenti e opinioni che, sarebbe più difficile e di sicuro più costoso, cogliere
con l'utilizzo di Focus Group o mediante la somministrazione di sondaggi.
L'analisi del contenuto, anche nel picco del suo utilizzo e utilità, studiava molto spesso il
passato: un libro infatti poteva prendere parte all'analisi anche anni dopo la sua
pubblicazione; non così per la Sentiment che consente non solo di ottenere in tempo reale
post e pubblicazioni degli iscritti sui social, ma soprattutto permette alle imprese o agli enti
che si affacciano alla materia, di avere a disposizione un bacino di dati fortemente
potenziato in termini di profili degli autori e di numerosità degli stessi. Questi ultimi due
aspetti meritano un'ulteriore specificazione.
Analizzando quotidiani, trasmissioni in radio o in tv e pubblicazioni nei libri, è piuttosto
palese che, gli autori o coloro i quali esplicitino i concetti poi oggetto d'analisi siano
giornalisti, scrittori, conduttori: più in generale persone che, molto spesso hanno acquisito
specifiche conoscenze e competenze rispetto all'argomento che trattano e si possono
definire una sorta di cultori delle materie argomentate; questo può indubbiamente essere
utile per le aziende, in quanto le opinioni di queste persone possono effettivamente
influenzare le scelte operate dalle consumatori al momento dell'acquisto di un prodotto
piuttosto che di un servizio. Ma è altrettanto fondamentale notare quanto sia importante
14
per l'impresa disporre di documenti, recensioni e giudizi scritti proprio dai passati, reali
oppure potenziali clienti del proprio brand.
Fare SA non significa più quindi etichettare il dato attribuendogli una polarità semantica
ma consiste da un lato, in un'attività più semplificata, ovvero nell'applicazione di proprietà
dicotomiche ai documenti, cui assegnare un valore positivo/negativo e dall'altro, in
un'attività più complessa e ricercata consistente nella spiegazione del dato e nella
possibilità di sfruttarlo non solo per creare mere valutazioni percentuali ma soprattutto per
apprendere dai numeri e correggere il tiro della pianificazione aziendale valutando
costantemente l'effettiva efficacia degli obiettivi e dei programi prefissati.
Ci si può infine soffermare sull'ultimo aspetto: la numerosità.
I testi da cui ci si appresta ad avviare l'analisi del contenuto sono molto spesso presenti in
quantità eccessivamente ampie rispetto al vincolo di risorse a disposizione: l'analista dovrà
quindi molto spesso operare un campionamento delle fonti di dati selezionando quali autori
e di questi ultimi, quali opere, ricomprendere nel campione formatosi. Nell'esempio qui
citato, oltre alla palese necessità di disporre di un elenco indicizzato dei testi disponibili, nel
porzionamento della popolazione, l'analista dovrà fare estrema attenzione a non minare la
rappresentatività del campione e nel far questo, molto spesso si scontrerà con le esigenze di
ottenere un insieme di dati e materiali tra loro omogenei.
Problema, quello del campionamento, che molto spesso non si pone l'analista che
effettua la SA; supponendo di analizzare le recensioni dei prodotti offerti da un sito come
Amazon, il ricercatore dispone innanzitutto di dati sulla medesima piattaforma e che sono
spesso sia ordinati (per data, giudizio delle stelline di valutazione, ecc.), sia affini tra loro, in
quanto scritti tutti da acquirenti di quel prodotto.
A voler essere precisi, si potrebbe dire che indirettamente, anche i dati del WEB sono
assoggettati ad una specie di campionatura, in questo meglio definibile come frazionamento
della popolazione complessiva; infatti, non tutti i soggetti hanno un profilo Facebook,
postano giudizi su Trip Advisor o di più, hanno la possibilità di collegarsi ad internet.
Il capitolo che segue esplicherà quali siano gli ultimi dati relativi al censimento degli
internauti italiani in termini di tempo dedicato al Web, modalità di accesso, siti internet
visitati e andamenti dei trend delle utenze rispetto agli anni precedenti.
15