1. Introduzione
8
gestione, trasformazione, distribuzione e al limite della vendita on-line di
contenuti digitali. Tali applicazioni costituiscono l’oggetto di questa Tesi.
Le caratteristiche principali delle applicazioni dell’On-line Content Industry
possono essere così sintetizzate:
ξ esistenza di vari ed eterogenei canali di distribuzione, mezzi di fruizione e
sorgenti di contenuti;
ξ necessità di riutilizzo degli stessi contenuti per scopi differenti e in diversi
contesti;
ξ necessità di personalizzare i contenuti e la loro presentazione non solo per
i diversi canali distributivi utilizzati, ma anche sulla base delle caratteristiche
dell’utente finale dei contenuti;
ξ riconoscimento del fatto che il digital content costituisce la principale
fonte di valore, che il core process dell’On-line Content Industry è la gestione del
digital content e che l’efficienza e l’efficacia nel processo di gestione dei
contenuti rappresentano il fattore chiave di successo in questa industria.
In questo ambito prende forma il progetto TXT Polymedia®, prodotto di punta
dell’azienda TXT e-solutions basato in parte sui risultati del progetto ESPRIT
W3I3 (World Wide Web Intelligent Information Infrastructure). Obiettivo di TXT
Polymedia® è quello di fornire una piattaforma per la gestione dei contenuti nella
On-line Content Industry tramite un software modulare, integrato ed avanzato che
permetta in modo efficiente di acquisire, processare, manipolare, integrare,
pubblicare e distribuire su vari canali on-line contenuti digitali ricevuti da
molteplici sorgenti.
Nel seguito della tesi verranno descritte con maggiore dettaglio le
caratteristiche, le tecnologie e l’architettura della piattaforma TXT Polymedia®.
Particolare attenzione sarà posta sulle problematiche riguardanti la distribuzione
on-line dei contenuti digitali quando essi vengono richiesti dagli utenti finali delle
applicazioni realizzate con TXT Polymedia®.
1. Introduzione
9
La gestione della pubblicazione on-line richiede estrema flessibilità per poter
effettuare la rappresentazione dei contenuti su canali diversi, quali per esempio
Web e WAP, a seconda del dispositivo (user-agent) utilizzato per fruire dei
contenuti, che può essere per esempio un Web browser o un dispositivo cellulare.
Tale flessibilità è ottenuta in TXT Polymedia® grazie all’utilizzo della tecnologia
XML che permette di ottenere separazione completa fra contenuti e presentazione
degli stessi. I contenuti gestiti da TXT Polymedia® sono documenti XML: essi
possono essere agevolmente presentati su media diversi tramite manipolazione e
trasformazione degli stessi in un formato adatto al canale di distribuzione previsto.
Nel seguito saranno approfondite tematiche riguardanti le tecnologie inerenti la
presentazione di contenuti on-line e lo sviluppo del componente software di TXT
Polymedia® sviluppato per supportare la presentazione on-line dei contenuti, il
modulo Presentation Server.
1.1. Obiettivi della Tesi
La presente tesi si colloca all'interno del progetto TXT Polymedia® e si
prefigge i seguenti obiettivi:
1. analisi delle principali tecnologie per la manipolazione e la trasformazione
di documenti XML con particolare riferimento agli aspetti legati alle prestazioni;
2. analisi dei principali sistemi a supporto della pubblicazione su Web e delle
principali tecnologie per la gestione degli user-agent;
3. progettazione e realizzazione del modulo di presentazione dei contenuti
(Presentation Server), che costituisce il front-end verso gli utenti finali di TXT
Polymedia® sui canali Web, WAP e TeleText. Esso si occupa della presentazione
dei contenuti XML opportunamente “formattati” su questi canali di distribuzione.
1. Introduzione
10
1.2. Risultati conseguiti
La fase di analisi delle principali tecnologie per la manipolazione e la
trasformazione di documenti XML ha portato ad identificare i parser XML e
processori XSLT che offrono le migliori prestazioni in termini di efficienza
computazionale, occupazione di memoria e thread-safety. Gli strumenti che hanno
offerto le prestazioni migliori sono stati utilizzati non solo per la realizzazione del
modulo Presentation Server, che presenta requisiti relativi alle prestazioni
cruciali, ma anche per la realizzazione di altri componenti di TXT Polymedia®
che necessitano di operare su documenti XML con elevate prestazioni, come ad
esempio il modulo di run-time che si occupa di ricuperare i contenuti XML da
database.
L'analisi delle principali tecnologie a supporto della gestione degli user-agent
ha portato all'identificazione delle principali problematiche relative
all'identificazione dei dispositivi di fruizione dei contenuti Web-based. Essa ha
permesso di formalizzare le specifiche del modulo Presentation Server alla luce
dei requisiti di gestione degli user-agent e di progettarlo in modo da poter gestire
in futuro questa possibilità.
La fase di analisi dei principali sistemi di pubblicazione su Web ha permesso di
identificare le caratteristiche più importanti che il modulo Presentation Server
deve possedere e i pattern di progettazione più interessanti per la sua
realizzazione. Inoltre lo studio dell'application server Resin ha permesso di
trovare uno strumento eccellente per una veloce ed efficiente realizzazione
prototipale del modulo Presentation Server.
Questo ha portato ad una realizzazione del modulo Presentation Server basata
sull'application server proprietario Resin opportunamente configurato ed integrato
con componenti esterni per ottimizzarne le prestazioni.
L'analisi dei framework di pubblicazione su Web ha infine permesso la
progettazione del modulo Presentation Server finalizzata allo sviluppo di una
1. Introduzione
11
soluzione indipendente dal particolare application server dotato di servlet engine
utilizzato in un particolare ambiente o applicazione. Questa soluzione concepisce
il modulo Presentation Server come un framework per la gestione della
presentazione dei contenuti su Web da utilizzare con i principali application
server dotati di servlet engine presenti sul mercato.
1.3. Struttura della Tesi
La Tesi è così strutturata:
ξ Capitolo 2: presenta una panoramica sulla On-line Content Industry,
mettendone in luce le caratteristiche, e sui principali strumenti a supporto dell'on-
line content management;
ξ Capitolo 3: descrive le principali caratteristiche, l’architettura e le
tecnologie di TXT Polymedia®;
ξ Capitolo 4: descrive il modulo Presentation Server presentando in
particolare le sue principali caratteristiche, le motivazioni alla base della sua
realizzazione e i suoi requisiti;
ξ Capitolo 5: presenta i linguaggi, i modelli e le interfacce utilizzate nel
modulo Presentation Server; vengono descritte in particolare la piattaforma Java,
i linguaggi XML ed XSL e le interfacce per manipolare documenti XML;
ξ Capitolo 6: descrive l'analisi a livello di prestazioni dei principali
strumenti per la manipolazione di documenti XML (parser XML) e la
trasformazione degli stessi con fogli di stile XSL (processori XSLT);
ξ Capitolo 7: descrive le principali tecniche di gestione degli user-agent,
concentrandosi in particolare sullo standard in corso di sviluppo dal consorzio
W3C;
1. Introduzione
12
ξ Capitolo 8: presenta l'analisi dei principali sistemi di pubblicazione su
Web, concentrandosi in particolare sul framework Cocoon e sull'application
server Resin;
ξ Capitolo 9: descrive il modulo Presentation Server di TXT Polymedia® in
termini di progettazione architetturale e di dettaglio;
ξ Capitolo 10: presenta le conclusioni del lavoro di Tesi e gli sviluppi futuri
da esso derivanti.
13
2. Content Management e
On-Line Content Industry
In questo capitolo vengono descritte le caratteristiche della On-Line Content
Industry, vale a dire di quei settori industriali che fanno della gestione dei
contenuti digitali (content management) e della loro pubblicazione sui diversi
canali on-line (Web, WAP, etc.) i loro processi primari.
Dapprima viene introdotto il contesto del content management, focalizzandosi
in particolare sui moderni sviluppi di questo settore e sui requisiti delle moderne
applicazioni software dedicate alla gestione dei contenuti digitali.
Successivamente saranno descritte le principali applicazioni software esistenti
in commercio a supporto del content management, cercando di evidenziare per
ognuna di esse i punti deboli e le caratteristiche migliori.
Da ultimo verrà descritto il mercato di riferimento di TXT Polymedia®,
cercando di evidenziarne le peculiarità e le problematiche generali, analizzando
poi con maggiore dettaglio i principali settori industriali che costituiscono
l'industria dei contenuti on-line.
2. Content Management e On-Line Content Industry
14
2.1. Moderni sviluppi del content
management
Il termine content management ha iniziato a rappresentare negli ultimi anni una
categoria di attività legate ad Internet assai ampia, in quanto i contenuti digitali e
le transazioni costituiscono la base di ogni processo on-line [Pierce 00]. Mentre le
soluzioni di content management e di commercio elettronico rappresentavano fino
a pochi anni fa mercati distinti, per soddisfare i bisogni delle moderne attività di e-
business si rende oggigiorno necessaria una stretta integrazione fra le funzionalità
di ambedue i tipi di prodotti [White 00]. È infatti sempre più necessario affiancare
in un sito Web alla vendita di prodotti anche contenuti interessanti che stimolino
gli utenti a ritornare nel sito e quindi possibilmente a fare nuovi acquisti.
Forrester Research definisce i siti Web di successo (anche in campo economico)
come “Ultimate Destinations”, ovvero come quei siti nei quali gli utenti possono
trovare tutto ciò che riguarda particolari settori, dalle news di quel settore ad un
nutrito catalogo per acquisti on-line.
Nonostante la convergenza dei processi di content management e del
commercio elettronico, si è assistito all'adozione da parte di molte aziende di
soluzioni distinte per le due attività, col risultato di una cattiva integrazione spesso
risultante fra di esse. Inoltre spesso le soluzioni di content management proposte
sul mercato sono state sviluppate in riferimento a specifiche attività (come la
gestione dei contenuti, la personalizzazione di siti, l’elaborazione di transazioni
elettroniche), ma sono state immesse sul mercato come generiche soluzioni di
content management. Questo ha portato molta confusione sul mercato, in quanto
risulta spesso molto difficile valutare un'applicazione di content management da
parte degli acquirenti.
Molti sforzi sono stati tuttavia compiuti da altre compagnie per espandere ed
integrare simultaneamente i propri prodotti di content management ed e-
2. Content Management e On-Line Content Industry
15
commerce: secondo alcuni analisti [White 00] questi sforzi porteranno alla nascita
delle prime soluzioni integrate complete per il content management entro il 2001.
Per ottenere questo traguardo occorre meglio caratterizzare e segmentare il
mercato del content management e le relative applicazioni, per strutturare
adeguatamente le moderne soluzioni di gestione dei contenuti.
2.1.1. Caratterizzazione del mercato del content
management
Alcuni anni fa, il Web era visto dalle compagnie come un altro canale
attraverso il quale proporre informazioni corporate. Man mano che il volume
delle informazioni da gestire cresceva, iniziarono a diffondersi le prime soluzioni
per il content management.
Oggigiorno i siti Web sono diventati applicazioni on-line complesse ed
interattive, con migliaia di elementi discreti di contenuto, di parti di codice e di
potenziali utenti. In parallelo il concetto di content management è arrivato a
comprendere un grande insieme di attività.
Analisti e produttori di applicazioni per il Web hanno proposto
caratterizzazioni e classificazioni delle applicazioni di content management. In
particolare risulta molto interessante la segmentazione proposta da [Pierce 00],
eXtended Content Management (XCM), presentata di seguito.
La classificazione proposta da XCM descrive la gestione dei processi e dei
contenuti che caratterizzano le applicazioni on-line. Questi processi possono
riguardare la gestione dei contenuti vera e propria, ma anche altri aspetti come la
personalizzazione e il supporto per le transazioni on-line.
I tre segmenti principali che costituiscono il paradigma XCM sono mostrati
nella tabella 2-1, riportata nella pagina seguente.
2. Content Management e On-Line Content Industry
16
eXtended Content Management
Content Development
Mangement
Application Content
Management
Content
Delivery/Acceleration
Management
Content Authoring
Digital Asset Management
Software Configuration
Management
Document Process
management
Metadata Management
Recombination
Personalization
Edge Network Delivery
Streaming Media Delivery
Caching
Tabella 2-1: segmenti dell'eXtendened Content Management.
Di seguito viene fornita una breve descrizione di ogni segmento.
ξ Content Development Management: racchiude i processi che permettono
di portare i contenuti dallo stato di concetto a uno stato digitale organizzato ed
approvato. In particolare si identificano le seguenti attività:
ξ Content Authoring: questa attività prevede la creazione di contenuti
digitali di vario tipo con l'utilizzo di "interfacce" fra gli autori e il mondo
digitale (ad esempio, gli strumenti utilizzati dalle redazioni giornalistiche
per la scrittura di articoli);
ξ Digital Asset Management: le applicazioni in questo segmento
facilitano la digitalizzazione, l'indicizzazione e l'immagazzinamento di
contenuti ottenuti da varie fonti (ad esempio, i sistemi di digitalizzazione ed
indicizzazione di segnali video);
ξ Software Configuration Management: prevede l'estensione delle
tradizionali attività di gestione delle configurazioni per il software alla
gestione dei contenuti digitali;
2. Content Management e On-Line Content Industry
17
ξ Document Process Management: questo segmento comprende quelle
attività che riguardano la gestione della collaborazione di varie persone per
lo sviluppo di documenti. Prevede supporto per le revisioni, per la gestione
di documenti complessi, per la conversione, l'immagazzinamento e la
gestione della sicurezza dei documenti.
ξ Application Content Management: questo segmento si occupa della
gestione di contenuti che vengono distribuiti tramite applicazioni on-line che
collezionano, filtrano, trasformano e presentano i contenuti ad ogni utente
dinamicamente. Le attività previste in questo settore sono le seguenti:
ξ gestione dei metadati: i metadati sono utilizzati per la
rappresentazione dei contenuti (la rappresentazione tramite metadati
permette di separare i contenuti dalla loro presentazione agli utenti finali);
ξ gestione della composizione dei contenuti a partire dai metadati;
ξ personalizzazione dei contenuti presentati agli utenti finali in termini
di quali contenuti vengono presentati e di come vengono presentati.
ξ Content Delivery/Acceleration Management: questo segmento prevede la
gestione della distribuzione dei contenuti precedentemente creati, processati,
approvati e infine preparati per la distribuzione. Le attività più importanti
riguardanti questo settore sono:
ξ la gestione del caching dei contenuti anche tramite
"decentralizzazione" degli stessi su server vicini al bacino di utenza
previsto;
ξ gestione della distribuzione agli utenti finali di contenuti streaming
(audio e video) tramite server specializzati.
2. Content Management e On-Line Content Industry
18
2.1.2. Convergenza tra content management e
commercio elettronico
Le applicazioni di content management e di commercio elettronico
tradizionalmente presentavano caratteristiche differenti (si vedano le tabelle 2-2 e
2-3 riportate qui sotto): mentre le prime erano basate sulla gestione di grandi
quantità di contenuti in applicazioni Web, le altre erano studiate per effettuare
transazioni on-line e per la gestione di cataloghi Web-based [White 00].
Production Functions Delivery Functions
Distributed authoring Personalization
Version control Dynamic page generation
File access control Caching
Automated approval processes Syndication
Workflow Search
Site management Analysis
Tabella 2-2: attributi chiave del content management (da Giga
Information Group).
Front-End Functions Back-End Functions
Profiling and personalization Price negotiation
Customer service Order management
Technical support Electronic bill presenment
Merchandising
Payment processing, including electronic
bill payment
Electronic catalog Digital content distribution
Product configurator
Tabella 2-3: attributi chiave delle applicazioni di commercio
elettronico (da Giga Information Group).
2. Content Management e On-Line Content Industry
19
Tuttavia in questi ultimi anni i creatori di applicazioni di content management
stanno creando applicazioni che vanno oltre alla strutturazione, gestione e
distribuzione dinamica di contenuti, introducendo caratteristiche per la gestione di
siti di e-commerce, come personalizzazione e analisi dei dati. In parallelo, i
creatori di applicazioni per il commercio elettronico stanno arricchendo i propri
prodotti con funzionalità di content management complesse. Questi processi
avvengono spesso tramite acquisizioni e partnership fra diverse compagnie: passi
fondamentali per acquisire le competenze necessarie alla personalizzazione o alla
gestione dei contenuti da parte di aziende che non possiedono il know-how
relativo.
Affinché la convergenza fra applicazioni di commercio elettronico e di content
management porti ad ottenere soluzioni competitive, [Covill 00] segnala alcune
caratteristiche che le nuove piattaforme di sviluppo dovranno possedere:
ξ grande importanza deve essere data all'architettura del sistema come
mezzo per ottenere profittabilità e scalabilità;
ξ altro fattore di successo è dato dal supporto per la composizione (dinamica)
di differenti contenuti, gestiti tramite metadati, in documenti strutturati;
ξ è essenziale la presenza di strumenti per gestire l'editing, la redazione e la
presentazione dei contenuti;
ξ grande importanza rivestono anche gli strumenti a supporto della gestione
della registrazione degli utenti finali delle applicazioni on-line;
ξ risulta essenziale la separazione fra i contenuti e la forma con cui essi
vengono presentati;
ξ si rivela molto importante l'adozione di tecnologie che rappresentano
standard industriali.
2. Content Management e On-Line Content Industry
20
2.2. On-Line Content Industry
Il mercato a cui TXT Polymedia® si rivolge è quello della On-Line Content
Industry, ovvero di quelle aziende il cui principale business è legato alla
pubblicazione di contenuti digitali su canali on-line, ossia su canali la cui
caratteristica principale è quella di dover essere mantenuti costantemente
aggiornati. Quindi, la rapidità di pubblicazione dei contenuti è di importanza
vitale. I modelli economici che sostengono le attività on-line sono legati alla
vendita di pubblicità ma, avendo quest’ultima dimostrato di non essere sempre
sufficiente e di non garantire sempre adeguati livelli di redditività, si assiste
sempre di più ad un aumento della componente di e-commerce per garantire fonti
aggiuntive di guadagni. In questo contesto, si inquadra la necessità di disporre di
strumenti che da una parte offrano la gestione delle transazioni e di cataloghi di
prodotti, dall’altra offrano strumenti per facilitare la produzione, la gestione e la
pubblicazione di contenuti digitali. I principali settori industriali che compongono
questo mercato si possono identificare nei seguenti (si veda la figura 2-1 alla
pagina seguente):
ξ advertising & marketing;
ξ information services
ξ newspapers and publishing;
ξ TV and broadcasting;
ξ Telcos/ISP/ASP and portals;
ξ media, multimedia and entertainment.
Il mercato di riferimento comprende quindi, oltre ai "tradizionali" operatori
dell'industria dei contenuti, che tendono a portare quote sempre più ingenti del
business verso l'on-line, anche le nuove realtà legate al mondo Internet (Internet
Sevice Providers, Application Service Providers e "portali"), che sempre più
devono gestire grandi quantità di contenuti [TXT –1]. Nei settori indicati, la
necessità di strumenti e soluzioni che permettano un'efficiente ed efficace gestione
2. Content Management e On-Line Content Industry
21
dei contenuti on-line è riconosciuta, ed i maggiori analisti (come [Gistic 99]e
[Gartner 99]) prevedono enormi benefici per le aziende che investiranno
significativamente in questo ambito. Inoltre, [Meta 99] stima che il mercato
mondiale del content management supererà i 10 miliardi di dollari statunitensi nel
2004.
ON-LINE CONTENT INDUSTRY
Information Services
(e.g. Lexis-Nexis, Wolters
Kluwe, Bloomberg,Reuters,
Ansa,Nielsen, …)
Newspaper & Publishing
(e.g. The New YorkTimes, Bild, Il
Sole 24 Ore, Repubblica,Rizzoli …) TV & Broadcasting
(e.g. Cnn, Rai, Mediaset,Rtl,
Sky, …)
ISP/ASP & Portals
(e.g. AoL, Yahoo, Lycos,
Excite, Virgilio, Arianna, Tin,
MediasetOn-Line, ..)
Media & Entertainment
(e.g. Time-Warner, Buena Vista,
Bertelsman, Thorn-EMI, Giunti
Multimedia, …)
Advertising & Marketing
(es. Grey, Saatchi&Saatchi, Testa,
AmmiratiPuris Linta, ...)
Fig. 2-1: i principali comparti industriali nella On-Line Content Industry