Analisi tassonomica dei dischi protoplanetari
2
Introduzione
La seguente tesi descrive come l’utilizzo di un metodo statistico:
l’Analisi delle Componenti Principali, permetta di ricavare importanti
considerazioni fisiche per un sistema formato da molti corpi descritti
da molti attributi.
L’elaborato è suddiviso in tre capitoli più un appendice, risultato
del lavoro di tirocinio svolto. Il primo capitolo consente, dopo una
piccola introduzione storica sul metodo della PCA, di definire il
metodo statistico sovra citato attraverso due diversi approcci.
Entrambi risultano essere descritti nel dettaglio con l’aggiunta,
nella seconda parte del capitolo uno, di varie proprietà geometriche e
statistiche. Alla fine del primo capitolo viene proposta una carrellata
di esempi generali in cui l’utilizzo della PCA non solo ha fornito
interessanti risultati scientifici ma ha anche permesso di comprendere
come l’applicazione di tale metodo possa celare particolari problemi e
rischi quando viene applicato senza criterio.
Il secondo capitolo permette di introdurre il metodo della PCA in
ambito astrofisico ed inoltre sono stati proposte due nuove
interpretazioni dei risultati ottenuti con il metodo della PCA: una
riguardante interpretazione fisica dell’equazione che descrive il Piano
Fondamentale delle galassie ellittiche e l’altra del diagramma di
Hertzsprung-Russell come proiezione di una varietà tridimensionale
sul piano Luminosità - Temperatura.
Se da un lato il primo capitolo aiuta a capire come e quante PCs
calcolate vengano scelte per una corretta approssimazione del dato
iniziale, il perché o meglio l’interpretazione di tali correlazioni risulta
essere non sempre immediata ed univoca. Sarà infatti un esempio
proposto nel secondo capitolo che permetterà di rendere tale problema
comprensibile.
Analisi tassonomica dei dischi protoplanetari
3
Il terzo ed ultimo capitolo è l’anima di questa tesi in quanto
presenta: la discussione dei tre articoli di S. Marchi e del gruppo di S.
Ortolani; un metodo analitico che permetta di capire come lo
scattering pianeta-pianeta e la migrazione di tipo II determinino dei
parametri orbitali diversi; lo studio dell’articolo di P.D’Alessio e del
suo gruppo di ricerca in cui paragonando dei dati osservativi ottenuti
con simulazioni numeriche di dischi protoplanetari, è stato posibile,
utilizzando la PCA correlare alcuni di questi parametri osservati con le
proprietà fisiche dei dischi stessi.
Gli articoli studiati utilizzano il metodo della PCA e della HCA
per classificare e studiare i pianeti extrasolari e permettono, tra l’altro,
di osservare come gli Hot Planets, pianeti con semiasse maggiore
molto ristretto, possano essere catalogati in due classi. Tale
classificazione, non presente in nessun altro articolo oltre quelli
appena citati alla data odierna (Dicembre 2010), permette di far luce
su come le due diverse teorie: scattering e migrazione, descrivano due
diversi tipi di pianeti giganti gassosi.
Il risultato finale descritto in questo elaborato: l’amp liamento
degli articoli del gruppo di S. Marchi e di S. Ortolani allo studio delle
SEDs dei dischi protoplanetari, permetterà, una volta raccolto un
campione di dati abbastanza elevato, di scoprire nuove correlazioni tra
i parametri fondamentali dei dischi, di semplificare la costruzione
delle loro SEDs, di identificare oggetti osservati in modo più rapido
senza dover utilizzare il metodo del fitting ed infine di generare una
classificazione fisicamente giustificabile di tali oggetti che, ad oggi,
risulta essere ancora oggetto di ricerca e discussione.
Analisi tassonomica dei dischi protoplanetari
4
Capitolo 1
Teoria sull’Analisi delle Componenti
Principali
L’Analisi delle Componenti Prin cipali (PCA), è tra le prime e più
utilizzate tecniche di analisi multivariata. L’analisi multivariata è
quella branca della statistica che studia un campione descritto da più
attributi o variabili. Prima di introdurre lo studio di tale metodo è stata
proposta un’introduzione di carattere storico per cercare di capire
come lo stesso, si sia sviluppato ed ampliato. E’ stato inoltre
presentato un riassunto sull’evoluzione storica di tale metodo dalle
origini fino ad oggi.
Descrivere in maniera obiettiva l’evo luzione della statistica è
molto difficile soprattutto se si vogliano studiare quelle prime tecniche
introdotte sul finire dell’800 che misero le basi per quella che oggi è
l’analisi multivariata.
Preisendorfer e Mobley (1988) fanno notare come Beltrami per
primo, nel 1873, ed indipendentemente Jordan, nel 1874, derivarono
un metodo che permetteva l’approssimazione di una matrice con
un’altra di rango minore. Tale tecnica oggi usata per la riduzione di
immagine è chiamata singular value decomposition (SVD). Oltre alla
pietra miliare di Pearson che definisce formalmente la PCA (1901
Analisi tassonomica dei dischi protoplanetari
5
cfr.ARTICOLO), anche Erhard Schmidt nel 1907 contribuì, con un
analogo dei valori singolari per gli operatori integrali (operatori
compatti se si assumono alcune deboli ipotesi) allo sviluppo ti tale
metodo. Pare inoltre che durante i suoi studi Schmidt fosse ignaro
dell'esistenza dei risultati sui valori singolari per le matrici finite.
Questa teoria fu ulteriormente sviluppata da Émile Picard nel 1910,
che fu il primo a chiamare i numeri singular values.
Il metodo della PCA, è stato introdotto nel 1901 da Pearson e
sviluppato in seguito da Hotelling (1933). Se Hotelling approccia a
tale analisi con metodo algebrico, Pearson si basa su un metodo
geometrico. Lo stesso Hotelling scrive infatti che può essere definito:
“… un set fondamentale di vettori indipendenti (…) che possono
determinare i dati di partenza”. Si deve infatti a Pearson lo studio di
tale metodo attraverso l’introduzione dei moltiplicatori di Lagrange e
della riduzione ad un problema agli autovalori e relativi autovettori.
Le tre differenze fondamentali che si presentano tra l’articolo
originale di Hotelling e la trattazione presentata in questo elaborato
del metodo della PCA sono: l’utilizzo della matrice di correlazione
piuttosto che quella di covarianza; esprime i dati come una
combinazione lineare degli attributi e non il contrario ed infine non
utilizza la notazione matriciale.
Tra l’articolo d i Pearson e quelli di Hotelling, un passo avanti
importante è stato compiuto solo da Frisch (1929) che sviluppa in
modo indipendente ciò che poi verrà completato ed ampliato da
Hotelling. Una prima applicazione in campo pratico di tale statistica è
quella fatta nel 1923 da Fisher e Mackenzie per lo studio di diversi tipi
di terreni agricoli.
Hotelling stesso cita nel suo articolo del 1933 “Analysis of a complex
of statistical ariables into principal components” solo una fonte oltre
Pearson e cioè Thurstone che nel 1931 stava tentando di studiare
problemi statistici analoghi a quelli di Hotelling. Uno studio
approfondito dello stesso articolo, (cfr. Bryant & Atchley 1975) fa
notare come Thurstone stesse sviluppando un metodo più vicino a
quello dell’analisi fattoriale piuttosto che a quello dell’analisi delle
componenti principali.
Il metodo usato da Hotelling viene poi rielaborato da Girshick
(1936) che descrive una versione analoga ma più semplice di quella
usata da Hotelling per trovare le componenti principali.
Bisogna aspettare il 1963 per osservare un passo avanti
importante nell’utilizzo e comprensione della PCA. E’ infatti in
quell’anno che Anderson , basandosi sul lavoro di Girshick (1939),
descrive la “ asymtotic sampling distributions” dei coefficienti e della
varianza di un campione di PCs.
Analisi tassonomica dei dischi protoplanetari
6
Un altro lavoro fondamentale venne realizzato nel 1964 da Rao
che introduce nuove idee sull’uso , sull’ interpretazione e sul significato
della PCA. Pochi anni più tardi Gower (1966) realizza un interessante
articolo che mette in correlazione le varie tecniche di analisi statistica
con quella delle componenti principali fornendo una serie notevole di
importanti risultati geometrici applicati alla PCA. Infine nel 1967,
Jeffers analizza come il metodo della PCA non solo riesca ad essere
un potente strumento per la riduzione di dati ma riesca ad essere
applicato a casi reali per trovare delle correlazioni oggettive tra gli
attributi presenti. E’ doveroso inoltre citare gli articoli di Devijver &
Kittler (1982) che dimostrano come le prime PCs minimizzino
l’entropia di rappresentazione mentre Diamantaras & Kung (1996)
discutono come le ultime PCs massimizzino la mutua informazione tra
il set iniziale di dati e il nuovo set in cui gli attributi sono sostituiti
dalle componenti principali.
Questo primo capitolo oltre a fornire una descrizione matematica
della PCA cerca di dare il giusto merito, attraverso applicazioni in
diversi settori di ricerca, a questa indagine statistica che, secondo il
Web of Science, nel biennio 1999 – 2000 ha visto pubblicare più di
2000 articoli che presentano il termine PCA all’interno del titolo.
Come molti altri metodi di analisi multivariata, anche la PCA ha
dovuto attendere l’avvento dell’ era informatica per essere utilizzata in
modo estensivo. Lo stesso Pearson afferma nei suoi articoli che i
calcoli possono diventare ingombranti
(1)
se si cercano di studiare
anche solo quattro dati con un numero di attributi modesto. Oggi, ogni
software d’indagine statistica possiede una libreria capace di calcolare
in modo semplice e veloce tale statistica.
L’idea centrale alla base del metodo è quella di ridurre la
dimensionalità di un set di dati ognuno dei quali possiede molteplici
attributi che possono essere correlati tra loro. Se esite una correlazione
tra essi, tali attributi vengono definiti attributi colineari, che possono
essere ottenuti l’uno dall’altro mediante una relazione lineare.
L’informazione comune presente in tali attributi può essere
dunque utilizzata per costruirne di nuovi che vengono definiti latenti.
La colinearità tra attributi è espressa attraverso la matrice di
covarianza. Se esiste infatti una colinearità tra attributi, tale matrice
risulta essere non diagolonale; scopo della PCA risulta essere quello di
diagonalizzare tale matrice per rimuovere la colinearità introducendo
un nuovo set di attributi latenti e poi, in secondo luogo, approssimare
lo spazio inziale con un nuovo spazio di dimensionalità inferiore.
1
cumbersome
Analisi tassonomica dei dischi protoplanetari
7
Tale procedimento è attuato attraverso una trasformazione lineare
che proietta il set di attributi di partenza in un nuovo set in cui i nuovi
attributi, le componenti principali (PCs), sono combinazioni lineari
degli attributi iniziali che hanno la proprietà di essere linearmente
indipendenti o, usando un lessico più strettamente statistico,
scorrelate. Se infatti nella rappresentazione spaziale iniziale gli
attributi descrivono gli assi del sistema di riferimento, dopo l’analisi
della PCA, le PCs diventeranno i nuovi vettori di riferimento con cui è
descritto il nuovo spazio. La riduzione della dimensionalità avviene
scegliendo solo una parte di tutte le PCs, tale scelta è giustificata: per
importanza (intesa come massimo valore di varianza), attraverso
considerazioni algebriche (intese come considerazioni sui valori degli
autovalori) o attraverso considerazioni grafiche (considerazioni che
verranno effettuate su un particolare grafico chiamato Scree Plot). La
scelta del numero di componenti principali verrà trattato in dettaglio
nel capitolo uno.
Se dunque da un lato l’utilizzo di questo metodo statistico
permette di trovare quali tra gli attributi sono correlati, dall’altro
permette di catalogare, per importanza, le varie componenti principali
(PCs) e quindi di approssimare il set iniziale di dati ognuno descritto
da più attributi con un set avente gli stessi dati ma con un numero di
attributi limitato, senza generare un risultato molto lontano da quello
presentato nella matrice di dati iniziali. Il metodo della PCA inoltre,
diversamente da quanto accade con altre tecniche di trasformazione
lineare utilizzate in statistica, permette di determinare i vettori di
trasformazione (le PCs) attraverso l’uso degli stessi attributi iniziali.
Le combinazioni degli attributi (PCs) seguono un ordinamento
statistico decrescente basato sulla varianza attribuita ad ognuna delle
combinazioni in modo che il primo tra le componenti principali
contenga tanta più varianza rispetto la totalità degli attributi di
partenza, il secondo contenga la maggior varianza possibile e sia
linearmente indipendente dal primo e così via. In altri termini, il primo
delle PCs è quel nuovo attributo che contiene la combinazione lineare
di attributi iniziali che più di tutti sono correlati tra loro o che,
utilizzando una definizione geometrica meno formale ma più intuitiva,
descrivono la direzione privilegiata in cui l’insieme degli a ttributi
meglio si distribuisce.
Utilizzando questa definizione si intuisce facilmente che
avvalersi della PCA su un set di dati è l’analogo della riduzione
dimensionale, approssimata, di una matrice che ha come righe i dati e
come colonne gli attributi. Lo studio pratico della PCA dunque si
effettua come uno studio ad un problema agli autovalori e relativi
Analisi tassonomica dei dischi protoplanetari
8
autovettori di una matrice simmetrica semi-definita positiva o
analogamente, attraverso lo studio di un nuovo spazio vettoriale in cui
gli assi cartesiani riescono a descrivere meglio le relazioni che
intercorrono tra gli attributi.
1.1 Il metodo algebrico
Il metodo algebrico è il primo dei due metodi che verrà descritto.
Definiamo inizialmente cosa sono le componenti principali e le loro
proprietà.
Sia un vettore avente componenti, la prima cosa da fare è
definire una combinazione lineare
che trattenga la massima
varianza rispetto tutte le altre combinazioni lineari. In questo caso
denota un vettore di componenti scalari definito come il trasposto
del vettore
:
Ora, si calcoli la seconda combinazione lineare
ortonormale
alla
che trattenga la massima varianza possibile rispetto al totale.
Iterando questo procedimento otteniamo un set di funzioni
linearmente indipendenti che generano lo spazio di partenza e che
descrivono in ordine decrescente la varianza del set iniziale. In pratica
viene applicando un algoritmo di ortogonalizzazione di Gram-Schmidt
che trasforma l’ insieme di vettori iniziali (i nostri dati a cui associamo
degli attributi) nell’insieme di vettori linearmente indipendenti, e
dunque scorrelati, a cui viene attribuita una certa varianza (fig.1).