39
CAPITOLO 2
2.1-La dataficazione
Dall’inizio del nuovo millennio, la rivoluzione digitale e l’avvento delle ICT ci hanno
spinto a diventare utenti attivi, connessi e iperconnessi.
In virtù del fatto che con il web 2.0 ogni utente può creare contenuti e condividerli, c’è
un crescente aumento dei dati prodotti dagli utenti stessi e si consolida il processo di
datafication.
La definizione in Treccani definisce questo nuovo fenomeno della datafication come un
«Processo tecnologico che trasforma vari aspetti della vita sociale o della vita individuale
in dati che vengono successivamente trasformati in informazioni dotate di nuove forme
di valore anche economico». A questo punto, è opportuno analizzare meglio questo
concetto per comprenderne le sfaccettature e le implicazioni pratiche.
La datafication, o dataficazione in italiano, è una conseguenza della
digitalizzazione. Infatti, se con la digitalizzazione si aveva la trasformazione di ogni
informazione analogica in digitale, con la datafication ogni informazione digitale diventa
un dato. Sostanzialmente con la dataficazione si ha la possibilità di prendere tutti gli
aspetti della vita degli individui connessi e trasformarli in dati (Mollona, 2019).
Essendo un fenomeno molto recente, gli studiosi si sono concentrati sulle ultime tendenze
tecnologiche che hanno trasformato il comportamento degli utenti.
La dataficazione, o datafication, si compone di tre fattori essenziali: l’aumento
esponenziale della quantità di dati prodotti nel mondo, la capacità che le macchine hanno
di analizzare i dati per estrarre informazioni e, infine, la nuova capacità delle macchine
di prendere decisioni grazie alle informazioni ottenute dai dati attraverso il cosiddetto
algorithmic decision making (Calzolaio, 2021).
Per quanto riguarda il primo fattore, con la digitalizzazione molti aspetti della vita
quotidiana di ognuno di noi si è traslato sul versante digitale e ogni comportamento online
viene registrato in un database e non viene quindi cancellato. La schedatura di questi dati
online permette ai sistemi informatici di tenere traccia di tutti gli utenti. Queste cosiddette
tracce sono considerate la base per l’estrazione di dati e di informazioni, per cui più la
digitalizzazione progredisce, più noi ci muoviamo online, più lasciamo tracce e più dati
40
generiamo. Da questo assunto di base, nasce il concetto di user generated data, ovvero
l’insieme dei dati generati dagli utenti nell’ecosistema digitale.
A tal proposito, il fondatore dell’azienda McAfee, che si occupa di sicurezza informativa,
John McAfee, ha detto che «ognuno di noi è oggi un walking data generator» perché
generiamo continuamente dei dati volontariamente, usando i nuovi smart digital device,
ma anche involontariamente, perché la realtà che ci circonda è dotata di sensori
interconnessi che producono dati che ci riguardano. Questi sensori vanno dai microfoni e
dalle videocamere degli smartphone o dei personal computer, che ormai tutti possiedono
e usano, alle telecamere sparse per la città che ci riprendono.
Tuttavia, si può affermare che i dati che generiamo da soli non bastano, poiché sono dei
dati grezzi, in gergo informatico sono definiti raw data, e non sono significativi poiché
non portano alla conoscenza. Infatti, il dato informatico è “semplicemente” una serie di
bit, priva di significato per gli utenti singoli che usufruiscono dei servizi online. Questi
dati informatici, invece, acquisiscono significato nel momento in cui vengono
immagazzinati e le macchine addestrate li riconosce perché utilizza il linguaggio binario.
Bisogna specificare, però, che anche per le macchine informatiche i soli dati non sono
sufficienti. Essi sono sicuramente necessari, ma devono essere connessi tra loro per poter
essere trasformati in informazioni, da cui, successivamente, si arriva a una conoscenza
dei fenomeni.
È opportuno precisare che, la conoscenza estratta dalle macchine derivante dalle
informazioni ricavate dall'aggregazione di dati, non va confusa con la saggezza. Ci
troviamo di fronte a due concetti ben distinti per la sfera dell’essere umano. In effetti, la
saggezza degli individui non potrà essere replicata dalle macchine, che si limitano quindi
a raggiungere una conoscenza razionale e limitata. Il concetto di saggezza viene esplicato
nel dizionario come la «capacità di seguire la ragione nel comportamento e nei giudizi,
moderazione nei desideri, equilibrio e prudenza nel distinguere il bene e il male, nel
valutare le situazioni e nel decidere, nel parlare e nell’agire, come dote che deriva
dall’esperienza, dalla meditazione sulle cose, e che riguarda soprattutto il comportamento
morale».
È doveroso sottolineare che, con la conoscenza, la macchina in informatica potrà
rielaborare i dati e le informazioni per ottenere degli output, come risultati di processi
matematici e logici che costituiscono quindi ragionamenti razionali, ma non si otterrà un
ragionamento di astrazione basato su altre componenti che invece caratterizza l’essere
umano.
41
Queste considerazioni sono di fondamentale importanza nel discorso etico che questo
lavoro vuole portare avanti, perché implicano delle criticità e delle difficoltà che gli
strumenti digitali oggi hanno, perché insiti nella loro progettazione, e che vanno gestiti
continuamente dall’essere umano.
Da questo passaggio chiave, si arriva all’ultimo fattore che caratterizza la datafication,
cioè l’algorithmic decision making, ovvero la capacità delle macchine di prendere
decisioni grazie a degli algoritmi. Per descrivere che cos’è un algoritmo si può far
riferimento alla definizione che lo illustra come una sequenza di procedimenti numerici,
che si esprimono in un linguaggio informatico, per giungere alla risoluzione di un
problema.
Gli algoritmi oggi vengono usati dalle macchine per prendere decisioni, classificare,
riconoscere, migliorare l’utilizzo delle risorse esistenti, aumentare il livello di
personalizzazione nei servizi per i clienti, aumentare le capacità delle macchine
ampliando così il loro dominio operativo.
Per poter svolgere tutte queste mansioni, l’algoritmo ha bisogno di dati.
Un insieme di dati, meglio definita come una collezione, determina il dataset che si
compone dei big data.
Il termine big data deriva dall’inglese e significa letteralmente grandi masse di dati. Esso
indica una raccolta molto estesa di dati informativi. Sebbene il concetto stesso di big data
sia relativamente nuovo, le origini di grandi set di dati risalgono agli anni Sessanta e
Settanta, quando il mondo dei dati era appena agli inizi con i primi data center e lo
sviluppo del database relazionale. Intorno al 2005, le persone hanno iniziato a rendersi
conto della quantità di dati generati dagli utenti tramite Facebook, YouTube e altri servizi
online. Con l'avvento dell'Internet of Things, ovvero l'Internet delle cose, più oggetti e
dispositivi sono connessi a Internet, raccogliendo dati sui modelli di utilizzo dei clienti e
sulle prestazioni del prodotto. Si è giunti, quindi, a un’era in cui i dati vengono estrapolati
da qualunque comportamento online. Siccome siamo tutti degli utenti iperconnessi in un
ambiente onlife, generiamo dati in continuazione, diventando così walking data
generator, che letteralmente significa generatore di dati a piedi. Questo concetto
sostanzialmente indica la possibilità di creare dati anche solo camminando, poiché si è
connessi allo smartphone e ai sensori, che catturano movimenti e altre informazioni. I dati
informatici da soli non hanno un grande significato, come abbiamo visto poco sopra,
42
quindi è necessario aggregarli, per raggiungere un grado di conoscenza, ed ecco che si
sviluppano i dataset di big data.
I big data sono stati definiti anche dati che contengono una maggiore varietà, che
arrivano in volumi crescenti e con più velocità. Questa definizione è stata data negli anni
2000 da Doug Laney, un analista di mercato, e delinea quelle che sono le tre proprietà
tecniche che caratterizzano i big data, ovvero varietà, volume e velocità, definite anche
“le 3 V”.
La varietà si riferisce ai molti tipi di dati disponibili. Innanzitutto, i big data dal punto di
vista tecnico possono essere strutturati, non strutturati e semi strutturati e si possono
distinguere in diversi formati, come numeri, testi, immagini, video, audio, transazioni ecc
ecc.
Questa grande varietà di formati derivanti da fonti differenti, porta al volume dei dati che,
generalmente è elevato. Si parla, infatti, di terabyte di dati o, addirittura, di petabyte.
La velocità è una caratteristica che ha a che fare con la grande capacità di
immagazzinamento e di archiviazione dei dati, che vengono raccolti da diverse fonti
eterogenee. Essa si declina anche sulle tempistiche su cui si agisce sui dati stessi e, oggi,
la velocità più elevata funziona in tempo reale, quindi è necessaria una tempestività
nell'azione.
Negli ultimi anni sono emerse altre due proprietà, che sono state aggiunte alle tre V,
diventando dunque “le 5 V”. Queste due caratteristiche sono valore e veridicità.
Il valore si riferisce all’importanza sempre più crescente che i big data assumono in ogni
settore della vita di ogni utente, all'interno del contesto aziendale e al di fuori.
La veridicità si riferisce alla qualità dei dati, in quanto essi devono essere abbinati tra loro
in modo da dare vita a un’informazione chiara e precisa, che può essere utilizzata per
arrivare alla conoscenza della macchina (Oracle, n.d.).
Secondo un’elaborazione dell’AGCM, la filiera dei big data si compone in tre fasi
fondamentali: la raccolta, l’elaborazione e l’interpretazione. Nell’analizzare nel dettaglio
tutte le fasi, si può osservare come esse si scompongono in altri processi (AGCM et al.,
2018).
La prima fase, ovvero quella di raccolta ha inizio con la generazione dei dati, che si
realizza nell’ambito di attività svolte dagli utenti nel contesto informatizzato attuale. I
dati generati dagli utenti vengono poi acquisiti tramite i dispositivi elettronici coinvolti
(come ad esempio smartphones, sensori, videocamere, altri dispositivi e devices ecc.).
43
Successivamente, vi è la fase della memorizzazione, ovvero il processo di trasferimento
del dato dal dispositivo di acquisizione alla memoria di un sistema di elaborazione, in
modo tale da poterlo trattare. In considerazione del grande volume dei dati che vengono
acquisiti, si rendono necessari, per l’attività di memorizzazione, sistemi di elaborazione
dotati di memorie capienti, ad accesso rapido e con tempi di trasferimento veloci. In
merito a questo, oggi si parla di cloud computing, ovvero l’insieme di servizi come
software, database, server e reti che, tramite la connessione a Internet, permettono di
memorizzare tutti i dati degli utenti in ogni momento. La seconda fase è l’elaborazione,
che comporta l’organizzazione dei dati grezzi in informazioni significative per essere
utilizzate per finalità economiche. L’attività di analisi, infatti, consente di estrarre
velocemente conoscenza da grandi moli di dati non strutturati, così da ottenere
informazioni possibilmente in un formato compatto e facilmente interpretabile.
Infine, la terza fase riguarda l’interpretazione delle informazioni per avere conoscenza.
I big data hanno dei vantaggi, come ad esempio la possibilità di ottenere risposte più
complete, perché si hanno a disposizione maggiori informazioni. Questo beneficio è
sinonimo di avere approcci differenti per affrontare e risolvere i problemi. Inoltre,
l'estrazione di dati personali può aiutare ad aumentare il benessere, ridurre i costi di
ricerca e diminuire le inefficienze economiche. Allo stesso tempo, esso può essere fonte
di perdite, di disuguaglianze economiche e di squilibri di potere tra coloro che detengono
i dati e coloro che generano i dati che vengono poi controllati.
I big data, d’altro canto, non sono privi di difetti che generano e portano con sé nuove
sfide. In primo luogo, i big data sono una grande quantità di dati da gestire e si pone il
problema dell’archiviazione. Certamente, il cloud è una soluzione che richiede, però, una
serie di passaggi per applicare in pratica questa tecnologia.
Il processo che permette di estrarre delle informazioni utili da grandi quantità di dati, per
esempio dai database pubblici o privati, è definito data mining e viene utilizzato in diversi
contesti, da un utilizzo scientifico a quello aziendale e industriale, per arrivare a una
conoscenza. Esso lo si può definire come l’insieme di tecniche e metodologie che si
occupano di estrarre delle informazioni utili da grandi mole di dati, come ad esempio
delle banche dati, attraverso metodi automatici. Il data mining viene utilizzato per cercare
correlazioni tra più variabili, il che implica l’uso per prevedere e predire comportamenti
futuri. Oggi, il data mining ha una duplice valenza: da una parte c’è l’estrazione di
44
informazioni nascoste nei dati e dall’altra c’è l’esplorazione per analizzare queste
informazioni e cercare i pattern significativi, ovvero schemi che si ripetono. I fattori
principali che hanno contribuito allo sviluppo del data mining sono: le grandi
accumulazioni di dati in formato elettronico, il data storage poco costoso, ovvero il
sistema di archiviazione dei dati, e i nuovi metodi e tecniche di analisi, fondate su specifici
algoritmi. I pattern identificati possono essere, a loro volta, il punto di partenza per
ipotizzare e quindi verificare nuove relazioni di tipo causale fra fenomeni. In generale,
possono servire in senso statistico per formulare previsioni su nuovi insiemi di dati.
La parola data mining fa la sua comparsa relativamente presto, negli anni Ottanta, e si è
sviluppata in correlazione all’evoluzione di alcuni strumenti software. Il data mining è un
passo importante alla scoperta della conoscenza dei database per poter essere in grado di
applicare algoritmi di analisi dei dati e produrre modelli. Oggi sono disponibili numerosi
metodi standard di data mining e sono adottati in maniera esponenziale dalle aziende,
integrandoli nei sistemi commerciali. Questo settore è cresciuto tra il 2007 e il 2008 con
l'avanzamento di alcune aziende, come attori nel settore della digitalizzazione. Poiché il
numero di strumenti disponibili è in continua crescita, la scelta di uno strumento piuttosto
che un altro diventa sempre più complicato per ogni potenziale utente. In virtù di questo,
è necessario avere un processo decisionale che sia affiancato e supportato da criteri per la
categorizzazione degli strumenti di data mining. Si può affermare dunque che il data
mining è diventato una tecnologia a sé stante soprattutto nell’ultima decina di anni e
continua a mostrare un’importanza sempre maggiore nel settore tecnologico (Azzalini &
Scarpa, 2009).
Con l’incessante sviluppo del data mining, ovviamente, si è sviluppato anche
l’aspetto della standardizzazione dei processi con la presentazione di modelli, interfacce
e applicazioni. Da qui emerge che l’automazione è estremamente importante per le attività
di routine, in particolare con set di dati di grandi dimensioni, e permette di ridurre il carico
di lavoro dell’essere umano.
Il successo del data mining è dovuto altresì alla facilità con cui è possibile
importare dati e modelli e, successivamente, esportarli in diversi strumenti software. In
tal senso, per contribuire al processo di integrazione di questi sistemi di data mining, è
stato sviluppato il “Data Mining Group” che viene supportato da molte aziende operanti
in questo campo, come IMB, per creare collegamenti tra imprese e digitalizzazione.
L’obiettivo è quello di creare un sistema standard utilizzato facilmente da tutti per
45
accedere a risorse aperte, le cosiddette open source, in modo uniforme. Ad esempio,
Microsoft ha sviluppato API (application programming interface) per accedere a diversi
tipi di dati archiviati in modo omogeneo. Tutti possono accedere a tali strumenti poiché
esistono una varietà molto ampia di licenze commerciali e open source, per permettere a
tutti gli utenti di usarli nell’attività commerciale aziendale (Mikut & Reischi, 2011).
La conseguenza diretta della digitalizzazione e della dataficazione è la data driven
innovation, perché le innovazioni sono guidate dai dati, come base per la costruzione di
un nuovo sistema, che interconnette gli esseri umani con le macchine. Sostanzialmente la
data driven innovation è la capacità di creare valore ed innovazione dai dati.
Per ottenere i dati, come materia prima, è fondamentale avvalersi di alcune
tecnologie che ne rendono più semplice la raccolta. Ogni transazione digitale genera dati
e, quindi, diventa più facile raccoglierli in maniera raffinati sul funzionamento
dell’attività economica. Occorre specificare che raccogliere dati non è sufficiente, in
quanto ricordiamo che il dato in sé non ha alcun valore.
Il passaggio di trasformazione prevede la disponibilità sempre più maggiore di dati, che
permette di accedere all’informazione. Da qui poi si passerà ad estrarre le conoscenze
necessarie per guidare appunto l’innovazione, far crescere il valore e migliorare
determinati settori.
Esiste un’innovazione che rende la data driven innovation uno strumento per tutti.
Questa novità consiste negli strumenti di analisi dei dati che stanno diventando open
source, ovvero accessibili e modificabili da chiunque. Insomma, di fatto non esistono più
barriere tecnologiche e qualsiasi organizzazione, istituzione, scuola, può essere data
driven.
Le uniche considerazioni, che vanno rispettate per portare avanti l’innovazione
tramite i dati, riguardano le competenze dei lavoratori per farlo. Infatti, chi lavora e opera
in questo settore, oltre ad avere le competenze tecniche, deve possedere conoscenze etiche
e deve avere l’abilità di integrare conoscenze digitali con quelle sociali, per valorizzare
l’ibridazione delle digital humanities.
Finora, nei discorsi delle ricerche sui servizi relativi all’analisi dei big data, sono stati
evidenziati i vantaggi e i vantaggi potenziali, mentre le implicazioni negative e le
conseguenze non etiche hanno avuto molto meno importanza e impatto. Tutto ciò, però,
rimane inesplorato e da indagare. Andando verso un futuro che vede la dataficazione
46
come un servizio in continua crescita e l’utilizzo dell’intelligenza artificiale come
necessario per lo sviluppo tecnologico e per l’evoluzione, aumentano le possibilità e le
probabilità di incorrere in conseguenze non etiche da affrontare (Breidbach & Maglio,
2020).
In primo luogo, la raccolta, la gestione e la condivisione dei dati non sempre
rispettano il principio di trasparenza. Questo accade perché i fornitori di servizi
necessitano di dati e delineano delle proposte di valore che costringono i clienti ad offrire
i dati per accettarle, nascondendo le vere pratiche nella sezione “termini e condizioni” del
contratto, spesso troppo complicata e lunga, per cui il cliente non ha vera consapevolezza
su come, dove, con chi e perché i dati vengono gestiti e condivisi (Nissenbaum et al.,
2014).
Un altro aspetto importante riguarda la privacy, che non viene rispettata a pieno
quando si parla di big data o dati aggregati, ovvero dati che contengono informazioni
personali collegabili a un individuo. In merito a tale questione, l’Unione Europea ha
delineato i concetti di privacy by design e privacy by default, presenti all’interno del
regolamento europeo in materia di dati personali, emanato nel 2016, ovvero il GDPR
(General Data Protection Regulation). Queste due declinazioni di privacy permettono di
inserire l'importanza della sicurezza e della protezione dei dati personali all’interno della
struttura di archiviazione, fino a far diventare la privacy un'impostazione di base dei
sistemi di raccolta dei dati. Il GDPR definisce un dato personale come «qualsiasi
informazione riguardante una persona fisica identificata o identificabile», è perciò di
fondamentale importanza proteggere queste informazioni personali, tanto più quando
riguardano dei dati sensibili, che appartengono alla categoria particolare di dati personali,
ovvero l'origine razziale o etnica, le opinioni politiche, le convinzioni religiose o
filosofiche, l'appartenenza sindacale, dati genetici, dati biometrici intesi a identificare in
modo univoco una persona fisica, dati relativi alla salute o alla vita sessuale o
all'orientamento sessuale della persona.
I principi normativi devono supportare il ragionamento etico che sta alla base dei servizi
digitali che si fondano sui dati personali degli individui. I principi etici non devono essere
astratti e troppo vaghi, altrimenti si diffonde l’idea che sia tutto teorico e poco concreto.
Invece, la garanzia etica deve essere una valida promessa per supportare le tecnologie
digitali, affinché esse funzionino per promuovere il benessere individuale e sociale (Burr
& Leslie, 2021).
47
L’avvento della datafication e la data driven innovation conducono, ormai, ad un contesto
di data dependance, perché ogni utente ogni secondo di ogni giorno genera tantissimi dati
ed è per questo che, nel ventunesimo secolo, i dati sono preziosi, perché hanno e generano
valore.
I soggetti pubblici e privati hanno bisogno di questi dati altrimenti non possono
portare avanti le loro operazioni e rimangono incomplete. Ne deriva l’imperativo di
raccogliere grandi quantità di dati per estrarre informazioni per aumentare il flusso di dati
che permette una crescita importante sotto tanti punti di vista (economico, politico,
aziendale, scientifico, innovativo ecc ecc).
Il contesto odierno è caratterizzato da quattro storture, come si è potuto
approfondire nel primo capitolo, che lo rendono imperfetto. L’incertezza,
l’incompletezza, l’asimmetria e il costo dell’informazione delineano un quadro
all’interno del quale l’informazione stessa diviene centrale.
Non a caso, già nel 2006, Clive Humby, un importante matematico inglese che si occupa
di data scientist, definiva il dato come il nuovo petrolio che porta avanti l’economia
mondiale. Così come il petrolio ha permesso lo sviluppo socioeconomico mondiale tra la
fine del 1800 e l’inizio del secolo scorso, nel ventunesimo secolo sono le connessioni, le
tecnologie ed i dati a svolgere questo importante ruolo.
Si è sviluppata così la digital economy che vede al centro il dato come fonte potente di
informazioni e di ricchezza. Alla base della digital economy non ci sono più solo i settori
legati all’ICT, ma ci sono le nuove tecnologie innovative come Cloud Computing,
Internet of Things, Big Data & Analytics, Blockchain, Artificial Intelligence, Augmented
Reality & Virtual Reality, Advanced robotics & 3D printing e 5G. grazie a questi nuovi
strumenti è possibile dar vita a una nuova era dello sviluppo economico e sociale
dell’esistenza della vita umana (ITMedia Consulting & Centro di Ricerca ASK Università
Bocconi, 2018).
2.2 L’algoritmo come nuovo strumento di calcolo
Da ciò che si evince dal paragrafo precedente, l’enorme quantità di dati generati, poi
raccolti, aggregati e, infine, utilizzati, è la base di partenza per il funzionamento
dell’algoritmo.
48
L’algoritmo è un procedimento che segue un numero finito di operazioni semplici
per raggiungere un risultato determinato, completando così un task specifico per risolvere
un problema. Questo processo viene utilizzato prima di tutto in matematica, ma è
possibile applicarlo anche in materie informatiche e digitali, poiché necessita di dati in
ingresso come input per giungere al dato di uscita come output. Ecco perché si spiega il
bisogno di avere a disposizione dei dati, in quanto essi muovono il calcolo (Vlacci, 2021).
L’utilizzo di calcolo dell’algoritmo lo fa rientrare nella sezione della razionalità
dei numeri, che si esprime oggi attraverso un linguaggio informatico specifico e
complesso. La storia degli algoritmi evidenzia come il loro sviluppo universale abbia
portato a scoprire infinite possibilità di calcolo numerico.
Nel mondo odierno è l’algoritmo ad avere un grande impatto sulla società, poiché
ha potere nella gestione di flussi di dati e di informazioni rilevanti in tutti i campi della
vita degli individui contemporanei.
Dunque, si può affermare che, con l’esplosione della rivoluzione informatica e digitale,
gli algoritmi vengono considerati come lo strumenti più potente da utilizzare in svariati
campi, dall’economia alla politica, dall’esportazione di informazioni a paesi terzi
all’immigrazione, dalla gestione delle risorse umane al controllo delle risorse finanziarie
(Luigi, 2019).
Dati il potere e le potenzialità di sviluppo degli algoritmi, alcuni studiosi in ambito
delle digital humanities si sono interrogati sulle implicazioni etiche di questo strumento
di calcolo ormai in uso in tutti i settori. In particolar modo, l’emblema del dibattito
controverso riguarda il modo in cui si descrive e si percepisce un algoritmo: o come uno
strumento di calcolo o come uno strumento di controllo.
Da questa problematica, emerge il pensiero critico di Cathy O’Neil, una matematica
statunitense che, attraverso il suo giudizio sfavorevole riguardo gli algoritmi, porta avanti
un movimento di protesta contro la disuguaglianza economica e sociale derivante proprio
dai risultati, non sempre etici e per questo discutibili, ottenuti dal calcolo informatico di
un algoritmo. O’Neil comincia i suoi studi in merito all'argomento degli algoritmi con un
approccio matematico, quindi numerico e razionale. Questo le permette di approcciarsi
allo strumento, delineandone tutte le parti e le componenti, per comprenderlo al meglio,
secondo un'ottica di analista quantitativa e di data scientist. Tuttavia, proprio dall’analisi
preliminare matematica, emergono delle criticità sull’uso non etico degli algoritmi che
portano con sé rischi e pericoli.
49
Innanzitutto, Cathy O’Neil vaglia le problematicità degli algoritmi nel suo libro più
celebre: “Armi di distruzione matematica”, dove definisce gli algoritmi appunto come
armi di distruzione matematica, creando un gioco di parole efficace che porta alla
riflessione. Infatti, il titolo richiama le classiche armi di distruzione di massa, che possono
uccidere le persone. Gli algoritmi come armi non uccidono, ma giudicano, vagliano,
stabiliscono, influenzano, monitorano tutti gli aspetti della vita quotidiana e, per questo,
hanno un grosso impatto. Inoltre, essendo delle armi, molto spesso non ammettono
modalità di replica o possibilità di difesa.
Secondo O’Neil, l’algoritmo, come modello di calcolo utilizzato e adottato
universalmente, crea una sua economia distorta e distopica. L’autrice individua tre
caratteristiche chiave degli algoritmi: essi sono opachi, non sono regolamentati e sono
difficili da contestare. Essi partono da un modello matematico e, quindi, presumibilmente
razionale e oggettivo. Nonostante ciò, sono strumenti creati dall’essere umano che, per
forza di cose, influenza ciò che crea con pregiudizi e bias intrinsechi. La tesi di base della
matematica statunitense è che l’algoritmo, a causa delle sue tre caratteristiche sopra citate,
viene utilizzato secondo una modalità che rafforza le disuguaglianze e le disparità in ogni
ambito.
Si ha quindi la possibilità che un algoritmo possa generare conseguenze gravi sulle
esistenze dei singoli individui, in particolare su quelli più svantaggiati, poiché, a giudizio
dell’autrice, le armi di distruzione matematica consolidano le opportunità delle persone
con status sociale più alto e danneggiano, invece, chi si trova in situazioni svantaggiate.
È evidente che Cathy O’Neil non considera gli algoritmi solo negativamente, ma,
attraverso la sua brillante esposizione dei fatti di disuguaglianza connessi agli algoritmi
non trasparenti, riesce a definirli tanto efficaci quanto incontrollati. Essi sono di per sé
solo degli strumenti matematici utilizzati in ambito informatico. Ad ogni modo, la loro
efficacia e il loro grado di impatto negativo dipendono dall’uso che se ne fa. Uso che
dipende dall’essere umano (O'Neil, 2017).
O’Neil denuncia l’utilizzo degli algoritmi predittivi, ovvero quegli strumenti di calcolo
che, in base ad una grande quantità di dati di input immagazzinati, arrivano a degli output
che predicono il comportamento di un determinato soggetto. È proprio in questo aspetto
che si nascondono i pregiudizi e la possibilità di giungere a decisioni sbagliate.
È doveroso distinguere e descrivere tre categorie di algoritmi: descrittivi, predittivi e
prescrittivi (Souza 2014). La prima categoria ha l’obiettivo di analizzare cosa è successo
50
in passato e come questo influenza il presente, perché si basano su statistiche per misurare
prestazioni, valutazioni, percentuali. Gli algoritmi predittivi vengono utilizzati, per
l’appunto, per prevedere quale potrebbe essere il risultato di determinate osservazioni
passate o in tempo reale su risultati futuri. Essi sono in grado di determinare la probabilità
con cui determinati fenomeni osservati si verifichino. Infine, gli algoritmi prescrittivi
delineano cosa dovrebbe esser fatto, dopo aver analizzato i possibili scenari futuri sulla
base di dati passati e presenti. Essi, per tanto, possono dare un supporto alle decisioni
oppure automatizzarle. I tre tipi di algoritmi offrono una potenza analitica crescente, che
però è la causa della loro opacità e poca chiarezza rispetto ai meccanismi interni, perché
sono nascosti e generano le black box (Burrell, 2016).
Come abbiamo visto in precedenza, uno degli aspetti conseguenti alla datafication è la
possibilità di prendere delle decisioni grazie all’utilizzo degli algoritmi, giungendo così
all’algorithmic decision making. Ciò che la matematica statunitense dimostra, è che
queste decisioni possono rivelarsi sbagliate perché pregiudizievoli e, quindi, dannose per
la società, soprattutto a causa dell’impossibilità di replica.
Per sostenere la sua tesi, O’Neil fa l’esempio di una decisione di condanna in tribunale
per un individuo afroamericano. Se nella struttura di calcolo dell'algoritmo sono presenti
dei pregiudizi razziali, ci saranno più possibilità di condanna per il soggetto in questione.
Un altro esempio ancora riguarda la classificazione per l’ingresso all’università tramite
dei test, che avvantaggiano chi si trova in una situazione socioeconomica elevata,
seguendo il pregiudizio che chi si trova in una famiglia con molti benefici, ha maggiori
possibilità di frequentare e concludere l'università (Verma, 2019).
In Italia, un uso non corretto e trasparente di un algoritmo come strumento di
calcolo era stato utilizzato nel 2015, per l’assegnazione di posti di lavoro per i docenti a
seguito della riforma della “Buona scuola” di Renzi. Il calcolo non aveva tenuto in
considerazione la residenza degli insegnanti per assegnare loro la cattedra e si erano
generati degli errori, poiché i docenti avevano il posto di lavoro lontano da casa,
addirittura in alcuni casi anche in una regione differente. Questo esempio negativo
dell’uso degli algoritmi è utile a comprendere come, per costruire uno strumento di
calcolo robusto ed efficiente, sia necessario tenere in considerazione tantissime variabili.
Inoltre, occorre anche prevedere le possibili conseguenze ed evitare quelle negative,
pericolose e sbagliate.