2 1 L’ambiente del Data Warehouse 1.1 Evoluzione nella gestione dell informazione Lo scenario attuale nelle aziende di medie e grandi dimensioni Ł rappresentato da un buon livello di "meccanizzazione" delle attivit di routine e della gestione aziendale (ciclo passivo: acquisti, contabilit fornitori, pianificazione e controllo delle forniture; ciclo attivo: fatturazione, gestione del credito, contabilit clienti). Questo, se ha portato uno sgravio nel lavoro quotidiano degli impiegati, di fatto non ha rappresentato un reale vantaggio competitivo per l’azienda, la quale deve sempre essere in grado di analizzare dinamicamente il mercato per capirne i meccanismi e prevederne gli andamenti. Sempre di piø, quindi, i manager nella loro attivit decisionale, hanno necessit di accedere in maniera tempestiva a informazioni di sintesi e di analisi dei dati prodotti dai sistemi gestionali. Le basi di dati sono state utilizzate, nei contesti aziendali, al fine di supportare e garantire l operativit dell azienda. Le normali funzionalit da essi assicurate hanno riguardato principalmente attivit basilari quali l emissione di fattura e la gestione degli ordini e delle spedizioni. Gli sforzi evolutivi si sono quindi concentrati su attivit di automazione; i vantaggi che ne sono derivati possono essere principalmente riassunti nella velocizzazione delle attivit e nella maggior accuratezza dei dati rispetto al contesto manuale. Inoltre si Ł riscontrato un abbassamento dei costi che ha contribuito a giustificare gli investimenti fatti. Fig. 1 Il vantaggio competitivo cosi raggiunto si Ł per rivelato deperibile a causa dell elevato grado di similitudine dei processi operativi in industrie dello
3 stesso tipo. In sostanza, rilevata l innovazione di alcuni, le societ concorrenti non hanno avuto grossi problemi nel riprodurne i sistemi. L effetto Ł stato quello di un generale allineamento con conseguente scarso ritorno strategico. La sfida si Ł allora trasformata nel tentativo di utilizzare la scienza dell informazione per integrare quelle attivit che vanno oltre i processi di gestione quotidiani ovvero i processi decisionali. L ingente mole di dati a disposizione dell organizzazione deve essere trasformata in informazioni adatte alle analisi manageriali poichØ i dati devono poter essere interrogati in modo innovativo. Grazie a ci si ottiene un aumento, una maggior accuratezza e aggiornamento della conoscenza della situazione aziendale. Il risultato che ne deriva consiste nel: Prendere decisioni piø coscienti, tempestive ed efficaci; Anticipare le tendenze; Valutare le decisioni prese in passato. Garantendo cosi il raggiungimento degli obiettivi aziendali. La soluzione offerta dai sistemi informativi si traduce quindi nel vantaggio competitivo ottenibile attraverso sistemi per il supporto alle decisioni, dedicati ai decision maker aziendali per le loro attivit di carattere strategico: questi sistemi vengono detti Decision Support System. Tali sistemi devono essere in grado di fornire in tempo reale informazioni, rapporti e consentire analisi di varia natura (What If Analisys, On Line Analitical Processing, Data Mining). La What If Analisys permette previsioni basate su ipotesi sui dati futuri: ad esempio possiamo prevedere cosa succede alla vendita dei coperchi se applichiamo uno sconto del 5% alle pentole smaltate.
4 L’On Line Analitical Processing mette a disposizione del manager un ambiente di dati multidimensionale, nel quale pu eseguire ricerche aggregando i dati in suo possesso: Ł possibile ad esempio ottenere informazioni sulle vendite di prodotti alimentari avvenute in Veneto nell’ultimo mese coinvolgendo le dimensioni del tempo, luogo e prodotti. Il Data Mining applica tecniche di intelligenza artificiale sugli archivi aziendali alla ricerca di quei dati che non sono visibili in un primo istante perchØ immersi in una quantit enorme di dati simili. Gli obiettivi che si prefiggono i DSS sono: fornire un ambiente integrato nel quale sia possibile ottenere dati trasversali a tutte le funzioni aziendali (produzione, amministrazione, finanza e controllo, marketing e vendite); ridurre il tempo di risposta alle query comunque complesse, ottenere semplicit d’uso che produce l’indipendenza dei manager nell’uso dei dati, mantenere la segretezza delle indagini dei manager. L’infrastruttura dei DSS Ł il Data Warehouse. L’idea del data warehouse Ł letteralmente quella di creare un magazzino di dati nel quale vengono registrati dati provenienti da molte fonti correlate e/o non correlate tra di loro. Tale magazzino deve essere fisicamente indipendente dagli altri archivi del sistema, perchØ l’attivit tipicamente molto pesante di interrogazione di un DSS non deve inficiare le prestazioni generali del sistema informativo gestionale. Inoltre deve aggiornarsi solo nei momenti in cui le risorse di sistema sono meno utilizzate e deve essere interrogabile liberamente . Interrogazione libera significa che non esiste uno schema predefinito di domande che Ł possibile istanziare, ma Ł l’utente che di volta in volta costruisce dinamicamente la propria interrogazione con un’attivit di analisi. A differenza di quanto avviene invece nelle applicazioni tipiche dei Data Base dove, escludendo interrogazioni ad-hoc scritte direttamente nei linguaggi dei DBMS (Data Base Management System) dai DBA (Data Base Administrator), i moduli di inserimento ed estrazione dei dati sono gi predefiniti (inserimento o stampa di un ordine cliente, di una fattura, stampa di un report sugli ordini dell’ultimo mese, ecc.).
5 Se ci poniamo in una situazione reale di un manager che deve prendere una decisione vediamo subito che la sua Ł un’attivit di analisi, che innanzitutto cerca di trovare conferma ad un’ipotesi che il suo fiuto imprenditoriale o la sua esperienza del mercato in cui opera gli ha suggerito. Quindi Ł evidente che per decidere dovr porre non una, ma un certo numero di interrogazioni ed ottenere non una, ma un certo numero di risposte. Questo comporterebbe un lavoro eccessivo del DBMS limitando di fatto il personale impiegatizio nello svolgimento delle proprie funzioni. Bisogna riconoscere che il data warehouse non rappresenta una rivoluzione totale rispetto al passato, ma sicuramente consente di ottimizzare la disponibilit di informazioni. 1.2 Problemi nell utilizzo dei dati nei processi decisionali All interno di qualsiasi contesto aziendale i manager, preposti all individuazione ed al raggiungimento degli obiettivi di business, richiedono continuamente report riassuntivi sull andamento dell azienda. Una tipica necessit del direttore vendite di una societ Ł sicuramente quella di valutare la bont del lavoro dei propri agenti. A questo scopo egli richieder (probabilmente con frequenza mensile) un report sui valori di fatturato e degli ordini di ogni agente a partire dall inizio dell anno e, gli stessi valori, relativamente allo stesso periodo temporale ma riferiti all anno precedente. Praticamente di ogni agente vuole valutare i risultati dell anno corrente e confrontare il rendimento rispetto all anno passato. Anche di fronte a una richiesta cosi banale, l incaricato della realizzazione di tale report si trova di fronte a diversi problemi. 1.3 Difficolt nel reperimen to dell informazione I dati richiesti si trovano tipicamente in file diversi (all interno dello stesso sistema) i cui dati devono essere combinati per creare l informazione richiesta. Tipicamente dovranno essere presi in considerazione le tabelle degli ordini, delle fatture (eventualmente combinate con i dati sugli annullamenti) e le associazioni tra agenti e zone. Inoltre gli stessi dati dovranno essere recuperati per l anno precedente.
6 Le informazioni possono risiedere su sistemi diversi (file del sistema gestionale, fogli excel ecc.) e l utente si trova cosi di fronte a formati da convertire per poter essere uniti (questa attivit pu spesso essere piø difficoltosa di quanto si immagini). Inoltre fonti diverse possono essere difficili da integrare. Alcune informazioni possono essere assenti o non utilizzabili. Per esempio i dati sugli anni precedenti possono non essere piø disponibili o trovarsi ad un livello di sommarizzazione non omogeneo con il livello richiesto nel report. 1.4 Problemi di interpretazione del dato Le difficolt d interpretazione possono essere molteplici e dipendono dal contesto aziendale. Tipicamente possiamo avere problemi del tipo: Che tipo di valuta va utilizzata per valorizzare le vendite (quella attuale, quella relativa al momento di budget o quella di inizio dell anno fiscale) Quali valori di ordinato prendere. Tutti o solo quelli confermati (Anche questa scelta pu essere meno banale del previsto, infatti in molte aziende ordini relativi ad accordi a lungo termine sono particolarmente affidabili ma possono non apparire come confermati). Cosa fare nel caso in cui alcuni agenti abbiano subito un cambio di zona (Le analisi su report che non tengono in considerazione tale fattore potrebbero essere ingannevoli, infatti un agente potrebbe sembrare in forte crescita solo perchØ ha ottenuto una zona molto piø redditizia). 1.5 Carenza di tempestivit PoichØ l attivit di creazione del report Ł manuale il completamento dello stesso potr richiedere anche alcuni giorni, specie se si considera che in molte aziende non vi sono impiegati preposti alla creazione di report. In questi casi si ha inoltre che l impiegato viene distratto dalla sua normale operativit (con conseguenze sia sulla sua attivit che sul report stesso). Riassumendo la situazione abbiamo che: Il sistema viene appesantito dalle query piø complesse di quelle operative;
7 Si ha una ripetizione di operazioni manuali. Gli sforzi fatti per rendere omogenei i dati provenienti da fonti diverse vanno ripetuti ogni volta; Se il dato richiesto non Ł attuale (es. anno precedente) pu essere assente e quindi pu essere carente di informazioni fondamentali (non si pu giudicare una situazio ne se non la si pu confrontare ); L informazione viene presentata con un certo ritardo che, anche se inizialmente accettabile, diventa operativamente insostenibile quando sulla base del primo report si innescano richieste a catena per indagare situazioni anomale; Il dato pu essere inaffidabile. Lo stesso report richiesto ad impiegati diversi pu contenere valori diversi a causa delle differenti interpretazioni. Nonostante possa apparire strano, questa situazione, apparentemente forzata, Ł invece molto realistica e diffusa. Se ne deduce l inadeguatezza del livello d informatizzazione attuale a supportare in maniera efficiente l esigenza di conoscenza aziendale. Nasce allora spontanea la necessit di un contesto decisionale dove, in particolare, l attenzione deve essere focalizzata sulla gestione dei dati, poichØ questo problema Ł propedeutico all implementazione di funzioni di supporto.
8 1.6 Confronto tra ambiente decisionale ed operazionale Per poter comprendere meglio quali dovranno essere le caratteristiche di un sistema decisionale vediamo un confronto che rappresenti, in sintesi, i punti di maggior contrasto con un sistema operazionale. I tratti caratteristici di un sistema decisionale sono a tal punto contrapposti a quelli di un sistema operazionale, che diventa indispensabile realizzare i due ambienti separatamente e con tecniche appropriate ai diversi scopi. I due sistemi sono temporalmente conseguenti. Infatti il sistema operazionale deve essere costruito prima di quello decisionale poichØ esso costituisce l ambiente di produzione dei dati che verranno poi estratti e memorizzati in una struttura chiamata Data Warehouse. Su questa struttura verranno poi eseguite le interrogazioni, le aggregazioni e le analisi necessarie per le applicazioni decisionali.
9 1.7 Definizione di data warehouse Le definizioni generiche che sono state fino ad ora utilizzate per prendere familiarit col concetto di data warehouse possono essere ora formalizzate attraverso le seguenti citazioni: Un singolo integrato database che fornisce l infrastruttura necessaria per le applicazioni informative dell azienda (S. Kelly). Una piattaforma sulla quale vengono archiviati e gestiti dati provenienti dalle diverse aree dell organizzazione. Tali dati sono aggiornati, integrati e consolidati dai sistemi di carattere operativo per supportare tutte le applicazioni di supporto alle decisioni (Gartner Group). La definizione piø famosa rimane per quella di Inmond: Una collezione di dati orientata ai soggetti, integrata, non volatile e correlata alla variabile tempo costruita in supporto alle decisioni manageriali (W. H. Inmon). Vediamo di analizzare meglio il significato. Orientata ai soggettiI dati vengono organizzati in funzione dei temi d interesse e non in funzione dei processi aziendali. Trasversalmente rispetto alle funzioni organizzative vengono raccolte tutte le informazioni utili sul soggetto di cui ci
10 si sta occupando. Il DW viene costruito in maniera incrementale soggetto dopo soggetto. Integrata I dati che alimentano il DW provengono generalmente dagli ambienti applicativi di diversi settori aziendali ognuno dei quali ha modalit diverse per identificare e descrivere le stesse entit . PerchØ siano realmente utilizzabili in un contesto piø ampio, questi dati devono essere necessariamente integrati e resi omogenei (es. uniformare sigle, unit di misura, codifica dei dati ecc.). Non volatileI dati operazionali sono continuamente acceduti e aggiornati un record alla volta mentre nel DW essi sono caricati in massa e successivamente analizzati. I dati originali non vengono modificati. E da notare, a tal proposito, che i dati non sono aggiornati perfettamente col sistema operazionale creando un disallineamento controllato accettabile. Correlata nel tempoI dati vengono mantenuti nel sistema per periodi dell ordine dei 5-10 anni (dati storici) allo scopo di eseguire confronti, previsioni e individuare tendenze. La variabile tempo rappresentata, all interno del DW, una chiave di lettura indispensabile. La piø importante delle caratteristiche di un data warehouse Ł l’integrazione. Essa nasce dalla necessit di dare coerenza ai dati provenienti da diverse applicazioni progettate per scopi diversi. PoichØ i manager per poter prendere le loro decisioni bisognano di ogni possibile fonte di dati interna o esterna all’azienda, il problema da affrontare Ł quello di rendere questi dati accessibili ed omogenei in un unico ambiente, ma questo pone delle difficolt come quelle che si possono vedere in fig. 6.