Post on 02-Dec-2018
1© João Aires de Sousa
Descritores moleculares
para aprendizagem automática
(“Machine learning”)
2© João Aires de Sousa
Pode um computador aprender Química?
3© João Aires de Sousa
Por ex., aprender a prever propriedades a partirda estrutura molecular
Aprender o quê ?
É tóxico ?É tóxico ?
Como reage na presença de uma base ?
Como reage na presença de uma base ?
Como são os seus espectros (IV, RMN,...) ?
Como são os seus espectros (IV, RMN,...) ?
CH3
CH3
O
O
Tem propriedades medicinais ?
Tem propriedades medicinais ?
4© João Aires de Sousa
Com a experiência !
Um computador pode aprender,como os químicos orgânicos aprendem...
Quer dizer: a partir de um conjunto de dados experimentais com estruturas moleculares e as propriedades respectivas.
Encontra relações entre a estrutura e as propriedades.
Aprende! E pode aplicar o conhecimento a situações novas.
5© João Aires de Sousa
Relações estrutura – propriedades
Computadores trabalham com números...
Estrutura
molecular
Estrutura
molecularPropriedadesPropriedadesRepresentaçãoRepresentação
Aprendizagem
automática
Aprendizagem
automática
CH3
CH3
O
NH Descritoresmoleculares
(números!)
• Redes neuronais• Árvores de decisão• Regressões• ...
FísicasQuímicasBiológicas
6© João Aires de Sousa
Relações estrutura - propriedades
Em Química, por exemplo na investigação ou na indústria farmacêutica, produzem-se grandes quantidades de dados. Por exemplo, determinam-se experimentalmente propriedades para grandes conjuntos de compostos.
Importa gerar conhecimento a partir desses dados, por exemplo, derivando modelos que possam fazer previsões de propriedades para compostos novos.
Utilizam-se técnicas de aprendizagem automática (“machine learning”) para produzir relações quantitativas entre estrutura e propriedades.
QSPR – Quantitative Structure-Property RelationshipsQSAR – Quantitative Structure-Activity Relationships
7© João Aires de Sousa
Regressões lineares
Variável x Variável y
Encontrar a equação que exprime a relação linear entre x e y.
y = a · x + b
y = 0.2636x + 1.371
R2 = 0.9093
0
1
2
3
4
5
6
7
8
0 5 10 15 20 25
Encontrar os melhores a e b de modo que a equação dê a melhor previsão possível de y a partir de x.
Isto é feito minimizando a soma dos quadrados das distâncias dos pontos à linha.
8© João Aires de Sousa
8.00
9.00
10.00
11.00
12.00
13.00
14.00
15.00
16.00
8.00 9.00 10.00 11.00 12.00 13.00 14.00 15.00 16.00 17.00
Regressões multilineares
Variáveis x1, x2, x3, x4, … xn Variável y
Encontrar a equação que exprime a relação linear entre x1,… xn e y.
y = a1 x1 + a2 x2 + a3 x3 + a4 x4 + … + an xn + b
Encontrar os melhores a1 … an e b de modo que a equação dê a melhor previsão possível de y a partir de x.
Isto é feito minimizando a soma dos quadrados das distâncias dos pontos à recta num espaço com n dimensões.
experimental
pre
vis
to
9© João Aires de Sousa
Regressões multilinearesAplicação a QSPR
Descritores x1, x2, x3, x4, … xn Propriedade y
Encontrar a equação que prevê a propriedade y a partir dos descritores x1,… xn.
Procurar à partida descritores que estejam relacionados com a propriedade a prever, com base em conhecimentos sobre o problema.
Por exemplo o ponto de fusão está relacionado com o tamanho e com a polaridade dos compostos, se queremos modelar o ponto de fusão devemos calcular descritores que codifiquem o tamanho e a polaridade.
10© João Aires de Sousa
8.00
9.00
10.00
11.00
12.00
13.00
14.00
15.00
16.00
8.00 9.00 10.00 11.00 12.00 13.00 14.00 15.00 16.00 17.00
Regressões multilinearesExemplo: previsão da constante de velocidade da reacção
de um composto com o radical OH na atmosfera
-logk(OH) = 5.00 – 0.68 HOMO + 0.35 nX –
– 0.39 CIC0 + 0.13 nCaH
Conjunto de treino
234 objectos (compostos)
HOMO – energia da orbital molecular ocupada de mais alta energia
nX – nº de átomos halogénio
CIC0 – índice complementar de conteúdo de informação
nCaH – nº de átomos de carbono aromáticos não substituídos
P.Gramatica, P. Pilutti, E. Papa,J. Chem. Inf. Comput. Sci. 2004, 44, 1794-1802 experimental
pre
vis
to
11© João Aires de Sousa
8.00
9.00
10.00
11.00
12.00
13.00
14.00
15.00
16.00
8.00 9.00 10.00 11.00 12.00 13.00 14.00 15.00 16.00
Regressões multilinearesExemplo: previsão da constante de velocidade da reacção
de um composto com o radical OH na atmosfera
-logk(OH) = 5.00 – 0.68 HOMO + 0.35 nX –
– 0.39 CIC0 + 0.13 nCaH
Conjunto de teste
226 compostos
HOMO – energia da orbital molecular ocupada de mais alta energia
nX – nº de átomos halogénio
CIC0 – índice complementar de conteúdo de informação
nCaH – nº de átomos de carbono aromáticos não substituídos
experimental
pre
vis
to
12© João Aires de Sousa
Descritores moleculares
codificam características da estrutura
13© João Aires de Sousa
Descritores constitucionais,propriedades moleculares
• Massa molecular• Nº de átomos, nº de átomos de carbono, …• Nº de ligações, nº de ligações duplas, nº de ligações aromáticas,…• Nº de ligações rotáveis
• Soma de volumes de van der Waals• Carga atómica máxima, ou mínima• Carga atómica máxima num átomo de H• Energia da HOMO, LUMO
• Coeficientes de partição• Índice de insaturação• Factor de hidrofilicidade• Refractividade molar• Contribuição de fragmentos para a área polar da superfície
14© João Aires de Sousa
Descritores de fragmentos
• Nº de C sp3, …• Nº de isocianatos• Nº de amidas aromáticas, Nº de amidas alifáticas• Nº de grupos nitro• Nº de ésteres• Nº de doadores em ligações de H• …
15© João Aires de Sousa
Descritores topológicos
• Índice de Zagreb• Índice de Wiener• Índices de conectividade chi• “Molecular walk counts”• Descritores BCUT• Vectores de autocorrelação 2D• …
16© João Aires de Sousa
Índice de Wiener
É a soma de todas as distâncias entre quaisquer dois átomos de carbono na molécula (distâncias em termos de ligações carbono-carbono).
N – nº de átomos na moléculadi,j – distância entre os átomos i e j
∑∑=
≠=
=N
i
N
ijj
jidGW1 1
,2
1)(
(dá indicação sobre ramificação, é uma aproximação muito simplificada à superfície de van der Waals)
17© João Aires de Sousa
Índice de Wiener
É a soma de todos os números na matriz de distâncias, dividida por 2.
∑∑=
≠=
=N
i
N
ijj
jidGW1 1
,2
1)(
1
2
3
4
5
6
1 2 3 4 5 6
1 0 1 2 3 3 4
2 1 0 1 2 2 3
3 2 1 0 1 1 2
4 3 2 1 0 2 3
5 3 2 1 2 0 1
6 4 3 2 3 1 0
13971191362
W(G) = 31
18© João Aires de Sousa
Vectores de autocorrelação 2D
Para um dado valor de d, o resultado é a soma de tantas parcelas quantos os pares de átomos à distância d entre si. Cada parcela é o produto da propriedade p para os dois átomos.
ij
N
i
N
jji ppddda )()(
1 1, −= ∑∑
= =
δ
≠∀
=∀=
dd
dd
ji
ji
,
,
0
1δ
1
2
3
4
5
6
Considerando p=1:
a(3) = 4
(há 4 pares de átomos com distância 3)
1 2 3 4 5 6
1 0 1 2 3 3 4
2 1 0 1 2 2 3
3 2 1 0 1 1 2
4 3 2 1 0 2 3
5 3 2 1 2 0 1
6 4 3 2 3 1 0
19© João Aires de Sousa
Vectores de autocorrelação 2D
Se calcularmos a(d) para valores de d entre 1 e 5, obtemos 5 descritores.
ij
N
i
N
jji ppddda )()(
1 1, −= ∑∑
= =
δ
≠∀
=∀=
dd
dd
ji
ji
,
,
0
1δ
1
2
3
4
5
6
1 2 3 4 5 6
1 0 1 2 3 3 4
2 1 0 1 2 2 3
3 2 1 0 1 1 2
4 3 2 1 0 2 3
5 3 2 1 2 0 1
6 4 3 2 3 1 0
20© João Aires de Sousa
Descritores geométricos
(exigem coordenadas 3D)
• Índice de Wiener 3D
• Descritores WHIM
• Descritores GETAWAY
• Vectores de autocorrelação 3D
• Descritores 3D-MORSE
• Funções de distribuição radial (RDF)
• Códigos de quiralidade
• …
21© João Aires de Sousa
Funções de distribuição radial (RDF code)
N – nº de átomos na moléculapi – propriedade atómica para o átomo i (ex. carga)rij – distância 3D entre os átomos i e jB – parâmetro ajustável
2)(1
1 1
)( ijrrBN
i
N
ijji epprg −−
−
= +=∑ ∑=
Codifica a estrutura molecular incluindo características atómicas e geométricas 3D.
22© João Aires de Sousa
O
acetofenona
0.7
-0.9
-0.7
-0.5
-0.3
-0.1
0.1
0.3
0.5
0 1 2 3 4 5 6r [Å]
g(r) Carga atómica
δ+
δ–
rij - distância interatómica
O
CB - parâmetro
Ai.Aj – propriedades atómicas
∑ ∑−
>
−−⋅=1
)( 2
)(N
i
N
ij
rrBji
ijeppfrg
Funções de distribuição radial (RDF code)
23© João Aires de Sousa
Programa simples para cálculo dedescritores moleculares –
CDKDescUI
Download a partir dehttp://www.rguha.net/code/java/cdkdesc.html
24© João Aires de Sousa
Web service para cálculo dedescritores moleculares – VCCLAB.ORG
25© João Aires de Sousa
Lista de descritores moleculareshttp://www.disat.unimib.it/chm/Help/edragon/index.html