Capitolo 1: Introduzione
2
in un contesto di IP Telephony. L’ETS studia efficaci sistemi di telecomunicazione
che possono facilitare immediate operazioni di intervento in caso di eventi disastrosi
come uragani, inondazioni, terremoti e attacchi terroristici. Poiché tali disastri
possono avvenire ovunque, in qualsiasi momento e inaspettatamente, una rapida
risposta ed un'attenta organizzazione degli interventi di aiuto richiede accesso
immediato ai terminali di telecomunicazione tra cui: telefoni convenzionali, cellulari,
accesso ad Internet attraverso terminali online, telefoni IP e palmari wireless.
L'infrastruttura delle telecomunicazioni si sta rapidamente evolvendo verso una
tecnologia basata su Internet e gli RFC appena citati definiscono i requisiti delle
infrastrutture delle telecomunicazioni IP per supportare al meglio la gestione delle
operazioni di emergenza. Fra questi è opportuno sottolinearne due: i requisiti per una
buona funzionalità della rete e quelli per garantire la sicurezza dei dati che viaggiano
su di essa.
Per quanto riguarda la funzionalità della rete l'attenzione è posta sul compromesso
fra qualità dei servizi offerti e garanzie di sicurezza, dove la qualità si realizza in
termini di riduzione dei pacchetti persi, jitter minimo (varianza nei ritardi della rete) e
ritardo minimo tra i due endpoint; per quanto riguarda la sicurezza, devono essere
garantiti sistemi di autorizzazione (meccanismo per consentire ad un certo utente di
usare un determinato servizio), integrità (assicura che dalla sorgente alla
destinazione i dati non abbiano subito modifiche), autenticazione (assicura che
l’utente che invia i dati sia veramente chi dice di essere) e confidenzialità (cifratura
dei dati per evitare che persone non autorizzate possano intercettare le
comunicazioni). Si tratta quindi di esigenze contrastanti poiché la sicurezza impatta
sulle prestazioni e quindi di riflesso sulla qualità del servizio. Inoltre, al fine di poter
interagire in un sistema di telecomunicazioni ibrido, fatto cioè non solo di reti IP, è
necessario definire l’interoperabilità con le altre reti esistenti, come per esempio la
rete PSTN.
Nei prossimi capitoli esporrò lo stato dell’arte della tecnologia VoIP e l’analisi di
alcuni protocolli di sicurezza che possono essere applicati a tale servizio.
Capitolo 2: VoIP (Voice over IP)
3
2. VoIP (Voice Over IP)
Il VoIP è l’insieme di tecnologie volte a digitalizzare, comprimere e convertire la voce
in pacchetti IP per trasmetterli attraverso reti IP. Quando i pacchetti IP che
contengono dati relativi alla voce vengono inviati sulla rete, due fattori contribuiscono
alla percezione della qualità della voce da parte degli utenti coinvolti nella
conversazione:
1) il ritardo della voce da un capo all’altro della comunicazione;
2) il degrado della qualità della voce.
Il primo problema è dovuto essenzialmente alle caratteristiche della rete Internet che
è, in generale, connectionless, contrapposta alla rete telefonica convenzionale che è
connection oriented. Un servizio connection oriented stabilisce un vero e proprio
canale fisico tra i due utenti in cui scorrono tutti i dati trasmessi, che arrivano nello
stesso ordine in cui sono partiti. Il servizio connectionless invece fa sì che ogni
pacchetto viaggi indipendentemente dagli altri, lungo percorsi stabiliti dai router che
scelgono di volta in volta quello migliore tramite algoritmi di routing che determinano
il percorso più breve e il meno congestionato; quindi non è garantito l’arrivo in ordine
dei pacchetti visto che possono prendere strade diverse più o meno congestionate,
né tantomeno l’arrivo del pacchetto visto che lungo il tragitto esso può perdersi. In
una rete a pacchetto come Internet è comunque possibile simulare un “circuito
virtuale”, come se creassimo un canale fisico all’interno del quale viaggiano i
pacchetti IP, ottenendo un servizio connection oriented e affidabile: questo servizio è
dato dal protocollo TCP (Transmission Control Protocol).
Il degrado della qualità della voce è invece dovuto a fattori quali perdita di pacchetti,
jitter (varianza del ritardo), algoritmi di compressione della voce, qualità dei
trasduttori (microfono e altoparlanti) e algoritmi di cancellazione dell’eco.
La raccomandazione ITU-T G.114 suggerisce i seguenti limiti di tempo per le
trasmissioni one-way:
• 0 – 150 ms: accettabile per la maggior parte delle applicazioni;
• 150 – 400 ms: accettabile per connessioni internazionali;
Capitolo 2: VoIP (Voice over IP)
4
• > 400 ms: non accettabile in generale; tuttavia si riconosce che in alcuni casi
eccezionali questo limite può essere superato.
Quindi in generale una comunicazione che non supera i confini nazionali nell’arco di
150 ms deve:
- digitalizzare il segnale analogico della voce (codifica) secondo uno degli
standard ITU (G.711, G.723, G.729 etc);
- dividere in pacchetti il segnale campionato ed incapsularli in pacchetti IP;
- indirizzare i pacchetti sulla rete Internet e ricostruire a destinazione il flusso
dati originale (poiché come detto prima i pacchetti possono prendere strade
differenti e quindi non è detto che arrivino a destinazione nello stesso ordine in
cui sono stati inviati);
- decodificare i dati della voce ed eseguire il playback.
Ognuno dei punti precedenti introduce un ritardo (dovuto al tempo di elaborazione):
se inoltre si vuole assicurare confidenzialità e segretezza alla comunicazione, si
introduce un ulteriore ritardo sia presso il mittente che presso il destinatario per
cifrare/decifrare i dati in arrivo.
2.1 Indagine sul VoIP: dati statistici
Recenti dati statistici pubblicati su, riportano la percezione del VoIP da parte degli
utenti finali. I dati sono stati poi comparati con i risultati ottenuti dallo stesso
sondaggio effettuato l’anno precedente.
Figura 2.1: demografia del campione statistico
Capitolo 2: VoIP (Voice over IP)
5
Prima di tutto è importante notare la demografia del campione a cui sono state rivolte
le domande: il grafico in figura 2.1 riporta un’alta percentuale di utenti aziendali
(74%) contro un 8% di utenti relativi ad istituzioni e un 5% di quelli relativi
all’istruzione. Il rimanente 13% è stato raggruppato come “Altri” ma rappresentano
consulenti o comunque utenti finali: ogni altro genere di risposta da parte di utenti
non appartenenti a queste categorie non è stato considerato nell’ambito
dell’inchiesta.
In figura 2.2 è rappresentato il grado di soddisfazione degli intervistati riguardo il
servizio VoIP: il raffronto rispetto all’anno 2002, fa capire che la percentuale di
insoddisfatti rimane più o meno la stessa (7% del 2002 contro il 6% del 2003), ma
cresce il numero di quelli “Molto” soddisfatti dal 36% del 2002 al 46% del 2003.
Sicuramente lo sviluppo di nuovi software e hardware, unito alla diffusione della
banda larga, ha portato ad un miglioramento della percezione della comunicazione.
Figura 2.2: grado di soddisfazione nell’uso del VoIP
In figura 2.3 vengono riportati i principali benefici che la tecnologia VoIP introduce;
rispetto al 2002 i due fattori che secondo il campione sono da considerarsi di
maggiore vantaggio rimangono gli stessi e cioè la possibilità di sviluppare nuove
applicazioni (62% del 2003 contro il 48% del 2002) e il controllo dei costi di
cambiamento (60% del 2003 contro il 51% del 2002) nonostante si siano scambiati la
prima posizione. Un dato importante viene dalla terza posizione: la possibilità di
sviluppare nuove funzioni legate alla voce (60% del 2003 contro il 26% del 2002) ha
ottenuto un grande incremento.
Capitolo 2: VoIP (Voice over IP)
6
Questo dimostra come la tecnologia VoIP sia vista come qualcosa in più di una
semplice sostituzione della telefonia tradizionale. Al quarto posto con un 51% si
posiziona il costo delle chiamate: questo indica che l'esclusione dal pagamento di
tributi è ancora un fattore molto sentito, nonostante la continua lotta dei vari gestori
per i prezzi al minuto delle linee tradizionali (PSTN).
Figura 2.3: benefici attesi
Nonostante la percezione di questi vantaggi, la transizione verso il VoIP è ancora
lenta: questo è dovuto a fattori che vengono visti dagli utenti come un motivo per
rimanere in attesa di ulteriori sviluppi in questo campo (figura 2.4).
Anche se i problemi di budget continuano ad essere al primo posto, nuovi dubbi che
nel 2002 non erano stati presi in considerazione, frenano la transizione verso il VoIP:
i sistemi di gestione e verifica della qualità (46%) e la sicurezza (40%); rimane stabile
la preoccupazione riguardo l’interoperabilità tra le apparecchiature dei vari produttori,
mentre scendono di qualche punto percentuale quasi tutte le voci a confronto nei due
anni. Le uniche due preoccupazioni che nel 2003 hanno guadagnato qualche punto
percentuale sono il fatto che l’architettura preesistente deve essere deprezzata (dal
25% del 2002 al 26% del 2003) e che secondo gli intervistati il VoIP non è poi così
facilmente gestibile (dal 20% del 2002 al 25% del 2003).
Capitolo 2: VoIP (Voice over IP)
7
Infine va sottolineato il problema “911”: questo numero corrisponde a quello del
pronto intervento nazionale americano; il “Sistema 911” usa il numero del chiamante
per localizzare la sua posizione interrogando il database Automatic Location
Identifier (ALI). Questo sistema di localizzazione riesce fin quando si tratta di
appartamenti residenziali o piccoli uffici, dove cioè l’indirizzo per la fatturazione
coincide con l’indirizzo fisico; ma il problema sorge nel momento in cui si ha a che
fare con complessi sistemi telefonici in grandi edifici o campus: in questo caso la
localizzazione diventa impossibile.
Attraverso la tecnologia VoIP il problema della localizzazione si pone anche per i
clienti residenziali, “nascosti” da un numero IP che non può essere velocemente
associato al chiamante.
In questo modo può venir meno il fine di “emergenza” del servizio. In pratica nelle
possibili risposte del questionario del 2002 questo problema non era stato preso in
considerazione, ma il 28% degli interpellati l’ha votato nel 2003 come causa
principale di impedimento alla diffusione del VoIP.
Alcune organizzazioni come NENA (National Emergency Number Association) e
APCO (Association of Public-Safety Communication Officials) stanno studiando
soluzioni al riguardo.
Figura 2.4: cause di impedimento alla diffusione
Capitolo 2: VoIP (Voice over IP)
8
Figura 2.5: giudizio sulla sicurezza del VoIP rispetto alla telefonia tradizionale
Nel grafico in figura 2.5 viene presa in esame l’impressione che gli intervistati hanno
riguardo la sicurezza del VoIP rispetto a quella della telefonia tradizionale.
Il 25% ritiene che non ci siano differenze significative, anche se il 24% ritiene il VoIP
poco meno sicuro. Al fronte opposto si attestano al 10% quelli che lo ritengono molto
più sicuro della telefonia tradizionale contro il 22% che invece lo ritiene molto meno
sicuro. Se non consideriamo quindi il 25% di persone che rimangono indifferenti, ed
accorpiamo quelli che si sentono sicuri più col VoIP, otteniamo un 29% contro il 46%
di persone che invece si sentono più sicure con la telefonia tradizionale. La sicurezza
è ancora un argomento a sfavore del VoIP, ma anche un argomento attualmente
molto discusso.
2.2 Digitalizzazione del segnale analogico
Il procedimento che permette di digitalizzare un suono, cioè trasformarlo in un
insieme di numeri binari a partire da un segnale continuo come quello proveniente da
una sorgente audio (microfono, impianto stereo, ecc), si chiama campionamento e
consiste nel prelevare il valore del segnale (un “campione” della sua intensità) ad
intervalli prefissati di tempo.
Un segnale audio in ingresso passa in un convertitore (codec) Analogue-to-Digital
(ADC): questo prende una serie di misurazioni del segnale a intervalli regolari e le
memorizza come un numero. Naturalmente un convertitore (decoder) Digital-to-
Analogue (DAC) legge i numeri ottenuti dalla misurazione del segnale prodotto dalla
sorgente e li usa per costruire un'approssimazione molto vicina al segnale originale,
Capitolo 2: VoIP (Voice over IP)
9
che può essere trasferita ad un amplificatore e quindi ad un sistema di diffusori
acustici per l'ascolto.
Figura 2.6: esempio di rappresentazione di un generico segnale analogico
Il suono può essere rappresentato da linee ondulate: in pratica una forma d'onda è
un tipo di grafico dove l'asse orizzontale rappresenta il tempo e l'asse verticale
rappresenta l'ampiezza (figura 2.6). L'ampiezza è legata al livello del suono: ad
esempio per un microfono posto in un ambiente rumoroso, l'ampiezza dell'onda
corrisponde all'ammontare della pressione dell'aria sul diaframma del microfono e
questa al volume del suono.
La qualità del campionamento (e quindi la fedeltà del suono digitale rispetto al suono
originale) dipende da due fattori: la frequenza di campionamento, ossia l’intervallo di
tempo tra una misurazione e l’altra (figura 2.7), e la profondità di bit, ossia
l'accuratezza con cui è effettuata ciascuna misurazione. La qualità del suono sarà
tanto maggiore quanto maggiori saranno i valori di questi fattori.
Figura 2.7: differenza di campionamento per lo stesso segnale
La frequenza di campionamento descrive il numero di volte che un segnale audio in
ingresso è misurato o "campionato" in un dato periodo di tempo. L’unità di misura è
l’Hertz (Hz, cicli per secondo). La profondità di bit è invece la lunghezza delle parole
binarie usate per descrivere ciascun campione del segnale d'ingresso preso dal
convertitore ADC. Parole più lunghe permettono la rappresentazione di una serie più
ampia di numeri e quindi misurazioni più accurate e riproduzioni più fedeli di un
segnale.
Capitolo 2: VoIP (Voice over IP)
10
Per esempio, in un sistema a 16-bit, ciascun campione è rappresentato come una
parola binaria lunga 16 cifre, quindi sono possibili 2
16
= 65.536 valori per ciascun
campione.
Le frequenze che l’orecchio umano è in grado di percepire vanno dai 20Hz fino ai
20.000 Hz: questa gamma di frequenze è generalmente suddivisa in tre gruppi così
definiti:
• basse frequenze (tra 20 e 400 Hz);
• medie frequenze (tra 400 e 1.600 Hz);
• alte frequenze (tra 1.600 e 20.000 Hz).
2.2.1 Il processo di codifica
Il processo di codifica di un segnale analogico in un segnale digitale adatto per
essere trasmesso attraverso un canale trasmissivo di comunicazione consiste nei
quattro passi illustrati in figura 2.8.
Figura 2.8: Il processo di codifica di un segnale analogico
Il filtro di banda è usato per limitare la portata delle frequenze che vogliamo
campionare, così da poter diminuire il costo del campionamento e allo stesso tempo
il bit rate necessario per digitalizzare il segnale analogico.
La voce umana utilizza una gamma di frequenze che varia dai 200 Hz ai 3400 Hz:
infatti il filtro di banda normalmente usato nei codificatori di voce si basa su una
banda a 4 kHz (1 kHz = 1000 Hz). Un’altra ragione per cui si utilizza il filtro di banda
è che i segnali che provengono dalla sorgente spesso catturano frequenze più alte
(rumori o altri suoni) che vanno oltre le frequenze di nostro interesse, quindi il filtro di
banda “taglia” queste frequenze, cioè le elimina.
Il processo di campionamento prende il segnale analogico, che è un segnale a
valori continui in un tempo continuo e lo trasforma in un segnale a valori continui in
un tempo discreto. In pratica il campionatore prende una misura del segnale ad
intervalli costanti di tempo (che determina la frequenza di campionamento). La
frequenza di campionamento deve essere almeno due volte la frequenza massima
Filtro
di
banda
Campionamento Quantizzazione
Audio
Codifica
1001...
Capitolo 2: VoIP (Voice over IP)
11
(per il teorema di Nyquist): utilizzando una frequenza inferiore si otterrebbe quello
che viene definito effetto aliasing.
La quantizzazione di un segnale è il processo con il quale la serie di campioni,
ottenuti dal processo di campionamento, assumono un valore numerico (o di
quantità, da cui il nome). Ad ogni livello misurato è assegnato uno dei possibili 2
B
valori: il numero di bit (l’esponente B) determina il livello di errore che viene introdotto
durante la quantizzazione. Questo errore (chiamato quantization error) è determinato
dalla differenza fra il segnale analogico originale e l’approssimazione introdotta
selezionando il livello più vicino al reale segnale analogico.
Infine la fase di codifica prende in input i dati prodotti dal processo di quantizzazione
e li elabora per ottenere un risultato migliore, che normalmente equivale ad
abbassare il bitrate del dato campionato attraverso algoritmi di compressione.
L’ITU-T (International Telecommunication Union) è l’ente che si occupa di
standardizzazioni ed ha definito quelli relativi alla codifica audio che vanno sotto il
nome G.7XX. La principale codifica utilizzata per il trasporto della telefonia su linee
digitali (come ISDN) è il PCM (Pulse Code Modulation), descritto nella
Raccomandazione ITU-T G.711: questo converte un segnale alla frequenza di 8 KHz
con 8 bit per campione, generando quindi 64 Kbps. Per cercare di utilizzare al meglio
la banda a disposizione, sono state esaminate a fondo le caratteristiche della voce; il
primo passo è quello di sfruttare la forte correlazione presente in una serie di
campioni in sequenza: su questo principio si basano i codec ADPCM (Adaptive
Differential PCM). Grazie a questa caratteristica della voce, l'ADPCM invia, dopo un
campione completo, una serie di valori differenziali che descrivono i successivi
cambiamenti. Normalmente, la tecnica ADPCM è utilizzata alla velocità di 32 kbps,
ma può servire per produrre flussi voce anche a 24 e 16 kbps, con un'accettabile
perdita di fedeltà; questa categoria di codec è descritta dalla Raccomandazione ITU-
T G.726.
Un impiego ancora migliore della banda passante è reso possibile dallo sviluppo
della codifica CELP (Code Excited Linear Predictive) che si basa su un modello
matematico della voce umana. Il trasmettitore analizza il flusso del parlato
confrontandolo con una serie di modelli e quindi, per ciascun componente della voce,
invia un codice corrispondente al modello appropriato, insieme ad alcune
informazioni per identificare le variazioni della voce reale rispetto a tale modello. Il
ricevitore combina il modello vocale con queste informazioni e sintetizza il flusso del
Capitolo 2: VoIP (Voice over IP)
12
parlato. Un buon codec CELP può produrre una qualità del tutto analoga a quella di
un flusso PCM a 64 kbps, però impiegando 16 kbps. In alternativa, può utilizzare una
banda ancora inferiore, producendo un suono artificiale. I codec CELP di tipo base
usati nelle applicazioni VoIP, detti anche Low Delay CELP o LD CELP, sono
identificati dalla sigla ITU G.728.
Esistono anche sistemi più complessi come il G.729 (Conjugate Structure Algebraic
CELP abbreviato con CS ACELP), che eseguono un'analisi più approfondita del
flusso del parlato prima di codificarlo: la qualità che si ottiene è equivalente a LD-
CELP impiegando la metà della banda. Lo standard che offre la più elevata
compressione, mantenendo una buona qualità della voce, è ACELP (Algebraic-
Code-Excited Linear Prediction) o G.723 che può scendere fino alla velocità di 5,3
kbps.
I codec voce sono spesso implementati su hardware specializzato, nonostante
esistano anche implementazioni software. La complessità di un algoritmo può essere
espressa come potenza di elaborazione richiesta, detta MIPS (Millions of Instructions
Per Second). Un algoritmo che richiede 15 MIPS è visto come un algoritmo di bassa
complessità, mentre un algoritmo che richiede 30 MIPS è complesso.
Algoritmo di
compressione
Bit rate
(kbps)
MIPS MOS
G.711 PCM 64 0.01 4.3
G.726 ADPCM 32 2 4.1
G.728 LD-CELP 16 30 4.0
GSM 13 6 3.9
G.729 CS-ACELP 8 20 4.0
G.729a CS-ACELP 8 11 3.8
G.723.1 MP-MLQ 6.3 16 4.0
G.723.1 ACELP 5.3 16 3.7
Tabella 2.1: dati forniti da [9]
Nella tabella 2.1 vengono confrontati alcuni parametri dei principali algoritmi di
compressione per la voce. Per ogni algoritmo di compressione vengono analizzati il
bit rate (in kbps), il MIPS e il MOS (Mean Opinion Score) che è il parametro usato per
misurare la qualità del segnale riprodotto in una scala da 1 a 5, dove 1 rappresenta il
giudizio peggiore e 5 il migliore.
Chiaramente il numero di operazioni al secondo dipende da come viene
implementato l’algoritmo, quindi sia i valori del MIPS che del MOS in tabella sono da
considerarsi come valori medi.