4
valori ottimale di lipofilia intorno a LogP = 6 per gli agenti strutturalmente aspecifici
attivi contro i gram positivi, mentre per l'attività contro i gram negativi i valori ottimali
sono distribuiti attorno al valore di LogP
= 4.
Hansch e Clayton [Hansch et al. 1973] hanno rivisto tale lavoro e presentato
varie equazioni per un totale di cinquanta sistemi batterici fra i quali il modello
parabolico è quello che complessivamente descrive meglio la relazione attività-lipofilia.
Nel 1971 Hansch e Lien [Hansch et al. 1971] hanno pubblicato i risultati di una
analisi effettuata su cinquantacinque gruppi di dati relativi ad antifungini, sempre
nell'intento di distinguere l'attività specifica da quella aspecifica. Per quanto riguarda le
attività antifungine, si è osservata una notevole eterogeneità nei valori di LogP ottimale
(LogP0), ma, limitando l'indagine alle sostanze neutre, è risultata possibile una indagine
comparativa tra le modalità di azione dei farmaci contro i funghi, i batteri gram positivi
ed i gram negativi. In particolare, per sostanze neutre Hansch e Lien hanno osservato
valori medi di LogP0 di 5.60±1.0, 5.7±0.5 e 4.4±0.4, rispettivamente per le attività
antifungine, contro gram negativi e contro gram positivi. Le differenze di LogP0 per i
diversi sistemi microbiologici sono state spiegate sulla base del modello cinetico
"random walk" secondo il quale esse sarebbero dovute alla maggiore lipofilia della
barriera cellulare dei gram negativi e dei funghi.
Il modello "random walk", tuttavia, non si è rivelato molto convincente in
quanto basato su sistemi all'equilibrio, che generalmente non viene raggiunto nei sistemi
biologici; in questo caso, infatti, la situzione è meglio descritta come uno pseudo-
equilibrio. Per modelli all'equilibrio, inoltre, l'incremento del contenuto lipidico di un
compartimento non recettoriale determinerebbe un calo di LogP0 qualora fosse la
ripartizione a governare la distribuzione, a causa della sottrazione di farmaco che si
accumulerebbe in questo compartimento.
Gli studi sperimentali di Nikaido [1979], relativi alla diffusione delle molecole
attraverso le membrane dei gram batteri negativi, hanno permesso di chiarire meglio in
quale misura il processo di ripartizione possa governare la distribuzione nei sistemi
5
batterici.
Nikaido ha dimostrato che, attraverso la parete cellulare dei batteri gram
negativi, non vi è solo un passaggio lipofilo, la cui accessibilità è legata al coefficiente
di ripartizione, ma anche uno idrofilo rappresentato dalle porine. L'accessibilità di
questo passaggio lipofilo è legata alle dimensioni delle molecole dei farmaci, ed è
inversamente proporzionale alla loro lipofilia.
Nel 1977 Kubinyi ha applicato il suo modello bilineare, descritto di seguito, a
molte delle serie di dati, già analizzate in precedenza, ottenendo i risultati
statisticamente migliori.
In definitiva, soprattutto per farmaci ad azione aspecifica, e comunque quando
l'accesso al sito attivo costituisca la fase limitante dell'azione antibatterica, risultano di
fondamentale importanza le proprietà di lipofilia di un composto e la loro
parametrizzazione.
Il LogP è il parametro idrofobico più utilizzato ed è il coefficiente di ripartizione
ottanolo/acqua (Pott/H2O) per le specie non ionizzate [Gasco et al. 1990].
Il problema centrale per la definizione di questo parametro era costituito dalla
scelta delle due fasi di ripartizione. Mentre la scelta di quella idrofila non presentava
alcuna difficoltà in quanto generalmente rappresentata da una fase acquosa, quella
lipofila presentava una serie di alternative possibili comunque mai completamente
rispondenti alle caratteristiche riscontrabili in un sistema biologico; varie le fasi provate:
etere, cloroformio, benzene, xilene, toluene, n-ottanolo.
Fra tutte il n-ottanolo è stato ed è il più largamente usato. Quest'ultimo infatti,
avendo una testa polare ed una catena alchilica idrofoba, ricorda le strutture lipidiche
delle membrane biologiche. L'ottanolo, inoltre, è dotato di bassa tensione di vapore, è
purificabile, maneggevole, e poco costoso.
A tutto ciò si aggiungono le ricorrenti correlazioni quantitative fra l'attività
biologica e lo stesso P.
Leo e Hansh, analizzando i valori di LogP ottenuti da diversi sistemi biologici,
6
hanno evidenziato che è possibile correlare i valori ottenuti in ottanolo con quelli
relativi ad un qualsiasi altro sistema.
Il logaritmo di P è legato alla ∆G (variazione di energia libera) di trasferimento:
LogP = -2,303 ∆G/RT
Il metodo di misura di riferimento per il LogP è il cosiddetto shake flask ma ne
esistono anche altri (RP-HPLC, estrazione controcorrente).
L'analogo del LogP per le specie ionizzate è il coefficiente di distribuzione
(detto "apparente" per distinguerlo da quello "vero" delle specie non ionizzate),
mediante il quale si considera l'influenza del pH:
D = CtotOtt/CtotW
per un acido:
P = HAott/HAw
D = HAott + Aott-/HAw + Aw-
pertanto,
D = P/(1 + Ka/H+)
Nell'ambito delle sostanze ad azione antibatterica, i derivati del 1,2-
benzotiazolin-3-one rappresentano una classe la cui importanza è testimoniata, tra
l'altro, dall'impiego terapeutico, per applicazioni topiche, di alcuni termini, oltre che dal
loro utilizzo come conservanti industriali.
Con lo scopo di analizzare le relazioni struttura-attività per derivati di questa
classe, sono stati presi in esame gli acidi N-alcanoici (1-3), N-aril ed N-
arilossialcanoici (4-12), e i loro esteri (13-23) ed amidi (24-26) riportati in tabella I.
Queste sostanze hanno già mostrato azioni antiflogistiche, analgesiche ed antipiretiche;
nella presente tesi si riporta lo studio quantitativo delle relazioni struttura-attività
riguardanti le loro azioni antimicrobiche. La tabella I riporta anche le attività
antibatteriche (MIC) riscontrate per questi composti contro due microorganismi gram
positivi, come pure due trasformate di queste MIC, che verranno impiegate per gli studi
7
QSAR (vd. oltre).
8
9
Come si accennava in precedenza, parecchi sono stati gli studi QSAR che hanno
evidenziato la relazione esistente tra la attività antimicrobica di varie classi di composti
e la loro lipofilia. Per verificare tale dipendeza per i composti testati, che si ritengono
attivi in modo piuttosto aspecifico sui gruppi tiolici proteici, è stato determinato il loro
coefficiente di ripartizione ottanolo-acqua.
Le relazioni QSAR sono considerabili in generale come modelli analogici
empirici a validità locale. L'assunzione fondamentale, indispensabile al funzionamento
del modello empirico, è che le serie di composti in esame possano considerarsi
essenzialmente simili, o limitatamente diversi, per poter ottenere una descrizione
strutturale significativa. Tuttavia questi composti, per poter garantire una certa
variazone dell'attività biologica, devono contenere una sufficiente variazione nelle
caratteristiche strutturali importanti per l'attività; ossia una lieve modificazione della
struttura chimica deve causare una certa variazione di attività.
Per questi motivi spesso le serie di composti sottoposte ad analisi QSAR
presentano una struttura fissa, che garantisca un uguale meccanismo d'azione, e un certo
numero di sostituenti responsabili della variazione nelle proprietà chimico-fisiche. La
descrizione di queste proprietà viene fatta attraverso variabili strutturali ( x: di lipofilia,
steriche, elettroniche, pKa...) sulle quali si ricerca una correlazione con la variabile
biologica (y).
Quando si ha di fronte una serie di dati chimici polidimensionali (o multivariati),
si applicano al problema le apposite tecniche di analisi multivariata. Queste fanno parte
della cosiddetta chemiometria, disciplina emergente riguardante l'applicazione della
matematica e della statistica in chimica.
La rappresentazione grafica di un problema ne agevola sempre la comprensione:
nel caso della analisi multivariata la rappresentazione migliore di una serie di dati
polidimensionali è quella che considera ogni dato sperimentale (composto) come un
10
punto in uno spazio K-dimensionale (K = numero delle variabili) le cui coordinate
ortogonali sono definite da ciascuna delle variabili misurate sul campione.
Attraverso l'analisi statistica si giunge a definire le relazioni esistenti fra i punti
nello spazio così definito.
L'eccessiva complessità di un sistema biologico rappresenta il limite maggiore al
raggiungimento del successo in studio QSAR. Al crescere della complessità del sistema
la probabilità di raggiungere risultati positivi viene a dipendere sempre di più dalla
diminuzione della somiglianza tra le molecole della serie considerata.
Tuttavia portare a termine con successo uno studio QSAR non significa
semplicemente stabilire una correlazione con il più alto coefficiente di regressione bensì
ravvisare le implicazioni di tale correlazione ed il suo significato. Uno studio QSAR
efficace supporta, contraddice o suggerisce un meccanismo chimico-fisico che
determina la risposta biologica.
Esistono diversi metodi chemiometrici idonei ad affrontare il problema di
estrarre da una tabella di dati il massimo delle informazioni chimiche contenute; tra
questi, al problema affrontato in questa tesi, sono stati impiegati l'analisi di regressione
lineare multipla (Multiple Regression Analysis, MRA), l'analisi delle componenti
principali ( Principal Component Analysis, PCA), il metodo dei minimi quadrati parziali
(Partial Least-Squares o Projection on Latent Variables, PLS) e la regressione non
lineare.
11
Regressione Lineare Multipla (MRA)
Nel caso in cui la variabile dipendente y
i
sia associata linearmente a due o più
variabili indipendenti (x
i1, xi2...) si parla di regressione multipla; essa non è che una
estensione di quella semplice e la forma della funzione diventa:
y
i
= b0 + b1xi1 + b2xi2...
Per la determinazione dei coefficienti (b0, b1, b2...) è necessario un numero di
osservazioni doppio o triplo rispetto a quello delle variabili, per evitare correlazioni
casuali [Topliss et al. 1979].
Infatti ogni variabile in più permette un migliore adattamento del modello ai
dati, il che rappresenta un pericolo.
Ogni variabile inoltre riduce il numero di gradi di libertà (numero di
osservazioni indipendenti tra cui si distribuisce l'errore puro non spiegato dal modello).
Ogni osservazione può essere descritta come un punto nello spazio delle
variabili, avente tante dimensioni qunte sono le variabili x (p); il modello è un piano a p
dimensioni (se p>2: iperpiano) che si dispone in modo da minimizzare le distanze dei
punti lungo la dimensione della y.
Come per tutti i problemi di regressione si utilizza il metodo dei minimi quadrati
che consiste nel trovare i coefficienti per i quali è minima la sommatoria dei quadrati
degli scarti Σ(y-ycalc)2.
12
Analisi delle Componenti Principali (PCA)
Metodo basato sull'esistenza di modelli matematici capaci di approssimare,
attraverso una serie di assunzioni generali, una qualsiasi matrice di dati [Clementi et al.
1982], condensando l'informazione rilevante in un numero minore di variabili, rispetto a
quelle dell' intera matrice, tra loro ortogonali (perfettamente scorrelate). Queste nuove
variabili vengono chiamate componenti principali.
L'obiettivo della PCA per una matrice di dati X con elementi x
ik (i = oggetti, k
= variabili) è quello di scomporne la variazione totale dei dati in una parte che varia
soltanto con le variabili, una parte che varia solo con gli oggetti ed una casuale, i
residui, che descrive la variazione non sistematica.
In seguito si utilizzeranno le seguenti notazioni:
- carattere normale (x
ik): singolo elemento della matrice dati (dato della
k-esima variabile dell' i-esimo oggetto o composto);
- grassetto maiuscolo (X): intera matrice (N righe, una per oggetto, e K
colonne, una per variabile);
- grassetto minuscolo (x
i
o xk): matrice monodimensionale o vettore
(rispettivamente: x
i
= riga con i valori di tutte le K variabili dell'oggetto i-esimo; xk =
colonna con i valori per tutti gli N oggetti della variabile k-esima).
Ogni elemento della matrice x
ik è rappresentato dalla seguente espressione
matematica del modello:
x
ik = xmean,k+ Σa tia pka + eik
xmean,k = valore medio di ciascuna variabile
X = xmean + TP' + E (forma matriciale)
I loadings (pka) sono i parametri che variano con le variabili mentre gli scores
(t
ia) sono quelli che variano con gli oggetti. I residui sono indicati con eik.
Il numero dei vettori p e t coincide con quello delle componenti necessarie a
13
descrivere il modello.
INTERPRETAZIONE DELLA PCA
In uno spazio a K dimensioni (una per ciascuna variabile), in cui ogni vettore dei
dati relativi a ciascun oggetto è rappresentato da un punto, la PCA si propone di
individuare il miglior iperpiano in A dimensioni (A < K) adatto a descrivere i punti
stessi, con la tecnica dei minimi quadrati .
Per A=0 il modello è puntiforme, per A=1 il modello e' una retta nello spazio k-
dimensionale, per A=2 il modello è un piano a due dimensioni:
variabile
variabile
variabile
1
2
3
modello PC
Xmean
i
t1
t2
punto i
s
I loadings (p) determinando la direzione, rispetto agli assi delle variabili di
partenza, della retta (o piano) passante per il punto xmean (vettore riga dei valori medi di
tutte le K variabili), permettono di passare dallo spazio delle variabili iniziali a quello
delle variabili latenti e servono ad interpretare il modello; il valore pka, infatti è uguale
al coseno dell'angolo tra la variabile k-esima e la componente principale a-esima
(uguale a zero se le due sono ortogonali, quindi indipendenti, e tendente a uno se la due
sono collineari, e quindi contengono la stessa informazione). Gli scores (t), invece,
indicano la posizione della proiezione di ogni oggetto sul modello; essi sono di fatto le
coordinate della proiezione di ciascun punto (oggetto-composto) nel piano delle
componenti principali. Infine la deviazione standard del vettore dei residui (si) fornisce
la distanza perpendicolare fra ogni punto e il piano.
Essendo la PCA sensibile alla mancanza di eterogeneità nella serie dei dati,
14
l'ottenimento di un modello corretto necessita l'esclusione degli outliers dai dati stessi.
Inoltre spesso la serie dei dati intera va suddivisa in sottoclassi minori nelle quali gli
oggetti più simili vengono analizzati separatamente (questo secondo il metodo SIMCA,
descritto in seguito).
La PCA è simile all'MRA in cui una variabile dipendente viene spiegata da una
combinazione lineare di K variabili indipendenti; in quest'ultimo metodo però i valori
delle varibili indipendenti sono assunti noti ed ogni variabile è considerata rilevante
nella descrizione del modello. Nella PCA, invece, si parte dall'assunto che le variabili
indipendenti non siano osservabili direttamente, ma operino in maniera latente a
determinare la serie di variabili x misurate; pertanto ogni vettore x
i
è una particolare
rappresentazione delle combinazioni lineari fra le variabili latenti, che sono a loro volta
indipendenti l'una dall'altra.
Le componenti t sono le variabili latenti della serie dei dati, e sono osservabili
solo indirettamente.
STIMA DEI PARAMETRI
I parametri da stimare per una matrice di dati sono i seguenti:
1) xmean,i cioè le medie di ciascuna variabile
2) A, numero di componenti significative
3) i valori dei vettori p (loadings) e t (components)
NORMALIZZAZIONE DEI DATI
Poichè tutte le variabili devono avere lo stesso peso iniziale i dati vanno prima
normalizzati.
La normalizzazione consiste nel trasformare i dati originali in modo che ogni
vettore x
i
abbia media uguale a zero e deviazione standard unitaria (autoscaling). Le
variabili normalizzate, dette anche autoscalate, (XSC) si ottengono sottraendo prima ad
ogni elemento della matrice la media della variabile corrispondente e dividendo poi la
differenza per la deviazione standard della variabile interessata.
xSC,ik = (xik - xmean,k)/sk
15
sk
2
= Σ
i
(xik - xmean,k)2/ (N -1)
wsk = 1/sk
L'inverso della deviazione standard di ciascuna variabile si indica anche come
peso della variabile (wsk). La normalizzazione dei dati è necessaria a valutare in modo
comparativo il peso delle variabili nella definizione del modello e ad ottenere una
maggiore definizione dei modelli.
COMPONENTI SIGNIFICATIVE
La dimensionalità del modello è data dal numero delle componenti necessarie e
sufficienti all'analisi dei dati. Quattro regole sono usualmente applicate nella PCA per
determinare le componenti significative:
1) Il numero di componenti significative è quello che definisce un
modello capace di descrivere il 95% della varianza totale delle y.
2) Il numero di componenti significative è quello che rende la varianza
dei residui (E) paragonabile all'errore sperimentale dei dati.
3) Il numero dei fattori significativi è quello i cui corrispondenti
autovalori della matrice di correlazione sono minori di 1.
4) Una componente è significativa se la sua inclusione accresce la
capacità predittiva del modello.
La capacità predittiva del modello viene stabilita togliendo alcuni degli elementi
della matrice, calcolando i parametri p e t della matrice ridotta e ricalcolando su questa
base i valori mancanti. La differenza fra valori originali e valori ricalcolati degli
elementi esclusi fornisce la capacità predittiva del modello (vedi paragrafo sulla cross-
validazione). La regola numero 4 è la più adatta per le applicazioni chimiche della PCA.
STIMA DELLE MATRICI P E T
Una volta determinato il numero delle componenti significative A, la stima dei
coefficienti può avvenire sfruttando un qualsiasi tipo di programma di calcolo di analisi
statistica.
Per risolvere la matrice completa dei dati di solito si calcola prima la matrice
16
delle covarianze e quindi la si normalizza per avere la matrice delle correlazioni.
Equazione che dà gli elementi della matrice delle covarianze:
c
jk = Σi (xij - xmean,j) (xik - xmean,k)
equazione che dà gli elementi della matrice di correlazione:
r
jk = cjk / (sk sj)1/2
Nella PCA i loadings sono stimati come gli autovettori di ordine a della matrice
delle covarianze, i vettori pa e ta, per le proprietà degli autovettori sono tutti ortogonali
fra loro. Perciò nella PCA non esiste il problema della collinearità .
INFORMAZIONI RICAVABILI
1) Numero delle componenti significative del modello, ossia numero delle
varibili latenti realmente efficaci.
2) Loadings (bka); descrivono la rilevanza di ciascuna variabile nella
combinazione lineare che definisce ciascuna componente e, dal loro confronto, si può
ricavare il grado di associazione tra le variabili della matrice (xk).
3) Valori dei componenti (t
ia); i vettori ti, geometricamente parlando, forniscono
la proiezione di un oggetto sul piano del modello PCA. Dal grafico della prima
componente principale (t
i1) contro la seconda (ti2) si possono evidenziare eventuali
suddivisioni dei punti in sottogruppi omogenei.
4) I residui (e
ik) descrivono la variazione non sistematica degli elementi della
matrice X, ovvero la differenza tra i dati osservati (x
ik) e i valori stimati dal modello
con A componenti principali (con A<K).
s
i
2=Σk eki2 N/ (K - A) (N - A -1)
Questa equazione descrive la deviazione standard dei residui di ciascun oggetto,
il cui valore è utile ad individuare quegli oggetti che non si adeguano alla struttura dei
dati prevista dal modello; questi vengono chiamati outliers. Un oggetto diventa outlier
se la sua distanza dal modello risulta significativamente superiore alla distanza degli
altri oggetti; ciò può essere valutato applicando un F-test al rapporto tra la varianza s
i
2 e
la varianza totale dei residui (so2):
17
so
2 = Σk Σi eik2 / (K - A) (N - A - 1)
La deviazione standard dei residui per ciascuna variabile (sk) serve invece a
stabilire il potere modellante di ciascuna variabile, che rappresenta la sua rilevanza
relativa nella descrizione del modello:
sk
2 = Σ
i
e2
ik / (N - A - 1)