- CAPITOLO 1 -
FORMAZIONE DI IDENTITA’ DIGITALI
1.1 CODICE BINARIO, IDENTITA’DIGITALI E DATA MINING
L'era dell'informazione digitale è stata creata in seguito alla capacità di tradurre essenzialmente tutte
le informazioni in codice binario. La traduzione dei dati in codice binario è esistita per centinaia di
anni. Già nel sedicesimo secolo, il matematico-filosofo Francis Bacon (1561 -1626) inventò un
codice binario di cifratura della lingua composto da due lettere, A e B, come descritto nel suo libro
“Advancement of Learning”. I fondamenti della logica binaria stabiliti dal filosofo-matematico
tedesco Gottfried Wilhelm von Leibniz (1646 - 1716) sono stati pietre miliari per lo sviluppo di
teorie della logica da parte del matematico-filosofo inglese George Boole (1815 - 1864), tra i
fondatori della logica moderna. La logica booleana risolve problemi complessi dividendoli in unità
basate su semplici strutture. Le strutture logiche di George Boole sono state tradotte in circuiti
elettrici, che hanno portato allo sviluppo dei moderni computer, la base della rivoluzione
informatica. Samuel F.B. Morse (1791 - 1872), inventò il telegrafo e il metodo per inviare messaggi
sulla base del codice binario, punto e linea. Morse, ha migliorato il codice prendendo in
considerazione la struttura statistica della lingua. Il Morse e i codici di Bacon sono stati
successivamente sostituiti da il “bit” binario, che rappresenta un impulso elettrico in una sequenza
di impulsi elettrici che attivano i computer moderni .Comunicazione, memorizzazione ed
elaborazione dei dati sono diventati elementi appartenenti alla scienza grazie a Claude E. Shannon,
che nel 1948 pubblicò il suo classico "A Mathematical Theory of Communication ", che ha dato
alla luce il settore dell’ Information Theory. Un altro contributo importante è il teorema di
campionamento di Shannon-Nyqvist , che dice che qualsiasi segnale analogico può essere oggetto
di campionamento e quindi digitalizzato. L'enorme importanza di questo teorema di
campionamento sorge oggi evidente, quando la musica e le immagini sono regolarmente
campionati; pertanto possono essere determinati come oggetti digitali. Shannon ha anche dimostrato
che un segnale digitale può sempre essere trasferito mediante un canale senza perdita di
informazioni. Questo è importante quanto il teorema del campionamento e consente la
comunicazione digitale. Infatti ci mostra l'importanza della codifica digitale dei dati , la correzione
di errori di compressione, o simili. Con ciò, siamo entrati nell'era digitale, in cui l'informazione
viene campionata in un dominio digitale, immagazzinata, trattata e divulgata con sempre maggiore
facilità ed efficienza.
5
Nicholas Negroponte del MIT chiama la singola cifra, bit, “ il più piccolo elemento atomico nel
DNA delle informazioni ". Il bit è rappresentato dai numeri uno e zero. Oggi i computer possono
effettuare fino a miliardi di calcoli binari al secondo, cifrare azioni di persone in tutti gli aspetti
della vita quotidiana in bit e accumulare dati illimitati nei database. In sviluppi paralleli, la gente ha
iniziato a guardare come i computer possono essere utilizzati per imitare la mente umana e
interagire con essa. Tra le figure chiave dei primi sviluppi di questa scienza cognitiva sono stati
J.C.R. Licklider, un ricercatore in psicoacustica, visto come l'uomo che ha suggerito le basi di
interazione uomo-computer e Norbert Wiener, il matematico che ha inventato la cibernetica. Questa
intelligenza artificiale ha dato inizio al personal computing, che ha fornito una spinta radicale
all'idea che i computer non erano utilizzabili solo per l'automazione, ma anche per "aumentare
l'intelligenza umana", come dice Douglas Engelbart. Engelbart è noto come l'inventore del mouse,
ma dovrebbe essere accreditato con molto di più. Il 9 Dicembre 1968, la squadra di Engelbart al suo
SRI Augmentation Center ha eseguito quella che ora è chiamata "la Madre di tutte le demo"; si
tratta di un prototipo di lavoro di personal computer in rete, tra cui nacque il primo mouse per
computer al mondo e l'introduzione di videoconferenza, teleconferenza e e-mail. La visione di
Engelbart non è stata presa sul serio da tutti al momento. I computer avrebbero dovuto essere più
grandi possibile. Engelbart ha suggerito che dovrebbe essere il più piccolo computer possibile. I
computer avrebbero dovuto sostenere delle attività speciali, coinvolgendo lo stanziamento e
l’investimento di molte risorse, soprattutto economiche, come calcolare traiettorie di missili, la
gestione avanzata di transazioni di business per le organizzazioni di grandi dimensioni o eseguire
delle operazioni per centrali nucleari. Engelbart propose alla gente di usare questa tecnologia per
scrivere lettere o chattare con colleghi o familiari. Il personal computing è ormai una realtà
consolidata. Internet è onnipresente, i personal computer sono ovunque e siamo vicini al punto di
quando tutti gli esseri umani prevedono di utilizzare personal computer per aumentare la loro
intelligenza. Come il nostro personal computer è collegato su Internet e utilizzato per facilitare
l'interazione, la nostra intelligenza collettiva si sviluppa. Ma così anche l'intelligenza del sistema
stesso, l'intelligenza artificiale nei sistemi di computer con le quali interagiamo. Ulteriori
informazioni e altro ancora di analogo si è trasferito nel mondo digitale. Tutto ciò è immagazzinato,
trasferito e processato in miriadi di combinazioni, sostenendo i nostri processi decisionali e facendo
prendere decisioni per noi. Con la crescita sempre più rapida dei dati disponibili su Internet,
l'interesse nella ricerca di modi per creare più possibili valori da tutti questi dati è crescente. Questo
può consistere nel trovare nuove tendenze nelle società di persone che non abbiano avuto
conoscenza, o in altri modi per trovare e abbinare i pezzi di informazioni in luoghi diversi per la
produzione di nuove conoscenze preziose. Non è banale. Si tratta di trovare gli “aghi in pagliai”,
6
cercando di rispondere a domande pertinenti, a volte anche in cerca di risposte senza sapere le
domande. Il data mining affronta queste domande. Può essere definito come un processo di
ottenimento di nuove conoscenze in modo automatico, analizzando database digitali (analisi basata
su codici binari), casualmente costruiti usando algoritmi intelligenti. Un algoritmo è un array di
comandi per il computer per eseguire e definire le azioni secondo un ordine prestabilito. Un
algoritmo intelligente è un algoritmo che non fa la stessa cosa ogni volta, ma varia in modi diversi
senza precedenti. Inserisce l'incertezza nel processo in forma di probabilità. Inoltre, un algoritmo
intelligente "impara dall'esperienza (euristicamente) "e riduce i fattori di incertezza nel corso del
tempo, aumentando così la conoscenza.
Uno degli obiettivi del data mining nell'era di Internet è quello di identificare le caratteristiche
nascoste in qualche personalità per predire il comportamento futuro. L'intelligenza artificiale è
definita come una scienza che si occupa della costruzione di macchine (computer) il cui scopo è
quello di eseguire azioni di calcolo decisionale come alternativa all’ intelligenza umana. La forza e
la peculiarità degli algoritmi intelligenti deriva dalla loro capacità di valutare situazioni complesse,
con molte variabili, pur considerando i diversi livelli di incertezza. A questo proposito notiamo
l'importante contributo del matematico inglese Thomas Bayes (1702 - 1761), che ha sviluppato le
basi per la teoria che incorpora l'incertezza nel processo decisionale e di problem-solving, un
elemento vitale per l'intelligenza artificiale. Così, per la prima volta nella storia dell'uomo, gli
strumenti analitici di data mining e Artificial Intelligence (AI) consentono l'analisi delle situazioni
di incertezza che hanno centinaia e migliaia di variabili. I sistemi costruiti da questi strumenti sono
programmati per imparare euristicamente, cioè ridurre costantemente l'incertezza e aumentare così
la conoscenza. Oggi, gli algoritmi di intelligenza artificiale sono in grado di costruire un’identità
digitale per ogni persona che effettua le azioni su Internet. I robots di data mining sono in grado di
analizzare testi, video, contenuti audio e trasformarli in DNA sociologici che descrivono la
personalità individuale. Costruire un’ identità digitale è un processo dinamico, aggiornato fino a
quando la persona è attiva sul web.
1.2 GESTIONE DELLE IDENTITA DIGITALI, SVILUPPO DI UNO STANDARD
UNIVERSALE
Oggi, l'industria globale della conoscenza investe grandi risorse nello sviluppo e nel miglioramento
di tecniche di gestione delle identità digitali. La gestione di identità digitali si sta sviluppando
rapidamente e si chiama "federated identity management". Il termine "federated identity" si riferisce
alle diverse componenti dei profili degli utenti raccolte durante la navigazione su siti web diversi e
consolidati in profili uniformi secondo uno standard globale. Il termine è usato anche per l'adozione
7
di norme per il processo di identificazione dei consumatori sulle diverse piattaforme. Un consorzio
leader a livello mondiale in questo campo è OASIS: "Organizzation for the Advancement of
Structured Information Standards"; questa NPO (organizzazione non-profit) è associata con oltre un
centinaio di Paesi e seicento organizzazioni, comprese le organizzazioni non governative, istituzioni
educative e società commerciali. Un aspetto importante nello sviluppo di uno standard universale
per la creazione di un identità digitale è il Semantic Web e il Socio-Semantic Web (S2W). L'obiettivo
del Semantic Web è quello di costruire uno standard universale per la codifica di informazioni su
Internet. Tim Berners-Lee, il padre fondatore del World Wide Web, che immagina lo sviluppo di
Internet e il cyberspazio come un mezzo universale per lo scambio di informazioni, testa lo sforzo
di sviluppare il Web Semantico. Il Socio-Semantic Web è sviluppato per consentire al vasto
pubblico di codificare le informazioni sul web cooperativo (Collaborative Tagging Folksonomy),
per sfruttare l’ "Intelligenza collettiva" che caratterizza l'Internet sociale (Web 2.0) e quindi rendere
i motori di ricerca più efficienti.
Lo sviluppo di standard universali per la codifica delle identità digitali e la loro definizione è una
continuazione dello sviluppo del Semantic Web, a fare la codifica universale di componenti di
identità digitali nel modo più efficiente. Attualmente, il più acclamato standard per la costruzione di
identità digitali è chiamato SAML2, "Security Assersion Markup Language 2.0" che consente il
consolidamento delle identità digitali degli utenti su diverse piattaforme. La norma è stata
correttamente assimilata nelle organizzazioni finanziarie, istituti accademici, nell’amministrazione
elettronica americana e altro ancora. L'adozione di standard internazionali per la definizione delle
identità digitali è di significativa importanza per la capacità di seguire i così detti “surfisti” in
qualsiasi sito nel cyberspazio e lo svolgimento diffuso di studi sulla relazione tra identità digitali
degli utenti e la loro personalità, campi di interesse e le capacità cognitive. Dall’ 11 settembre 2001
(il crollo delle Twin Towers, NY) è stato accelerato lo sviluppo di identità digitali
multidimensionali. Il Dipartimento della Difesa Americano ha stanziato molte risorse per il "Total
Information Awareness "(TIA) attraverso il progetto DARPA (Defense Advanced Research Projects
Agency), che ha finanziato anche lo sviluppo iniziale di Internet, che si è concentrato sullo sviluppo
di algoritmi intelligenti per la costruzione di identità digitali di potenziali terroristi, combinati con
dati biometrici della persona (la struttura del viso, impronte digitali, struttura della pupilla,
camminata, ecc), il comportamento e le azioni sul web quali commercio, turismo, medicina,
trasporti e alloggi, così come tutte le azioni relative al governo e dei media. Obiettivo di questo
progetto è quello di prevedere attività di terrorismo con le identità digitali. Questi nuovi strumenti di
ricerca, senza dubbio si integrano nel trend di sviluppo della costruzione delle identità digitali.
Internet è stato avviato dalla DARPA per la guerra di comunicazione digitale, cercando di
8
progettare una rete che potrebbe rapidamente reindirizzare il traffico digitale intorno a stazioni di
switching disabilitate. Se identità digitali possono essere costruite per i terroristi, simulando i loro
modelli di comportamento che consentono di ottenere il sopravvento, lo stesso può essere fatto per
altri target come venditori, negozianti, giurie, parlamentari o membri della famiglia.
1.3 IDENTITA’ DIGITALI E SOCIAL NETWORKS
Oggi, molte persone hanno iniziato a creare le proprie identità digitali. Queste identità digitali
possono corrispondere alla loro reale identità di vita, o possono essere nuove identità
intenzionalmente diverse. Uno dei principali usi di Internet è l'attività nei social networks. Oggi,
milioni di persone appartengono a un social network che, a volte, rappresenta la risposta di molte
necessità, sociali, economiche e politiche. Un social network è un gruppo che mantiene collegati un
insieme di informazioni in formato testo, video, foto o voce per scopi sociali. Ogni membro di
ciascun network deve fornire i propri dati personali e questi sono esposti ad altri membri della rete o
a parte di essi, secondo la scelta dell'utente. I primi studi mostrano che l'appartenenza a vari social
networks aumenta il "capitale sociale" della sua membership. Tuttavia, in questo capitolo non ci
occupiamo di discutere i vantaggi e gli svantaggi dei social networks visti dal punto di vista degli
utenti della società.
Il nostro interesse si trova nella capacità dei social networks di fornire dati personali come un
prerequisito di appartenenza. L'era dell'informazione “friendly” ottiene un nuovo significato:
conoscenza personale, condivisione delle esperienze e reciproca fiducia. Nell'era dell'informazione
"friendly" diminuisce spesso la presenza di utenti appartenenti a una sottogruppo di un social
network, la maggior parte dei quali sono anonimi; la friendship è essenzialmente misurata in base
alla quantità di informazioni trasferite tra i membri della rete mentre la popolarità di ciascun
membro è misurata a volte per il numero di iscritti interessati a ricevere gli aggiornamenti delle
informazioni. Alcune reti limitano la loro membership. La maggior parte dei principali social
networks hanno una simile architettura di base. Chiedono di definire profili personali e nelle
applicazioni offrono vari servizi, compresi l'opzione di caricare contenuti diversi e di fornire
percorsi di comunicazione tra i membri. Per quanto riguarda la compilazione del profilo, gli utenti
sono invitati a inserire in appositi campi i propri dettagli personali (per esempio sesso, stato civile,
aree di interesse, paese di origine, religione, etnia, umore prevalente ecc.). Il numero di campi
obbligatori varia tra i differenti social networks. Tra le applicazioni di comunicazione, i social
networks facilitano l'inoltro della notifica immediata (SMS, e-mail), la creazione di gruppi di
discussione su alcuni temi e offrono opzioni di partecipazione simultanea a forum di discussione
asincroni. Nella zona di upload dei contenuti, la maggior parte delle reti di grandi dimensioni
9
consentono ai membri di caricare testi, video, audio, foto, film, hobby, un feedback su libri, luoghi
di ricreazione e molto altro. Molte persone sono iscritte a diversi social networks allo stesso tempo.
Oggi, la ricerca viene effettuata su cross-membership di riferimento su reti diverse utilizzando
algoritmi intelligenti, analizzando basi di dati e basandosi su principi di comunicazione elettronica
per identificare social networks nascosti e prevedere la prospettiva di creare connessioni tra i vari
membri sulla rete in base alle loro identità digitali. Un altro campo di ricerca si concentra
sull’estrazione di informazioni dalla rete di membri iscritti ad alcuni social networks e sul confronto
incrociato dei dati per prevedere i conflitti di interesse tra i membri scoprendo connessioni
nascoste. I ricercatori Nowell e Klienberg hanno esaminato la rete aperta Friend Of A Friend
(FOAF), e la bibliografia database "Co-autori" DBLP, che comprende i nomi di scienziati che
hanno partecipato a studi e pubblicazioni in scienze informatiche. Le bibliografie di rete sono state
esaminate per scoprire le relazioni di amicizia e la cooperazione tra ricercatori diversi e di
identificare i possibili conflitti di interesse tra i potenziali giudizi di articoli da rivedere. Un ulteriore
esempio di potenziali conflitti di interesse di cui menzionano gli articoli di Nowell e Klienberg si
può trovare sul social network Linkedin.com, forse rilevanti nello studio di IPO (Initial Public
Offering) o le reti come Friendster e MySpace, che contengono informazioni su vaste connessioni
sociali, eventualmente in grado di indicare alcune inclinazioni nel processo decisionale all'interno di
diverse aree. Nel settembre 2007 la rete di Myspace ha informato i propri azionisti sull'intenzione di
effettuare il data mining, utilizzando i profili e i blog di un centinaio di milioni di suoi membri, a
diretta pubblicità e servizi a loro favore. Quindi, questo è l'inizio di un sistema di screening in grado
di fornire servizi e informazioni ai membri secondo la loro identità digitale. L'obiettivo dichiarato è
quello di migliorare l'esperienza di adesione alla rete, per aggiungere valore all'esperienza degli
utenti.
Jon Callas, responsabile per la sicurezza informatica dell’azienda PGP ed esperto in Pretty Good
Algorithm, algoritmo di cifratura (nessun collegamento con il Personal Genome Project), è stato
colpito dalla disponibilità delle persone a rivelare dati personali sul web. La quantità di
informazioni che i social networks accumulano sui membri è molto vasta; ciò risulta essere molto
importante per il data mining e per la costruzione di diverse identità digitali su tutti i membri. La
capacità di collegare i profili personali degli utenti con i loro dati permette la costruzione di
personalità legate a basi di dati ad un livello quasi scientifico. Finora, la conoscenza umana in questi
settori ha utilizzato i modelli classici di ricerca con una portata limitata, con un controllato numero
di variabili. La realizzazione di ricerche che comprendono milioni di persone, con la massima
accessibilità alle informazioni e l'aiuto di strumenti di ricerca che consentono l'esame simultaneo di
10