Representação de sequências de ADN através do Jogo do Caos ... · Representação de...
Transcript of Representação de sequências de ADN através do Jogo do Caos ... · Representação de...
Representação de sequências de ADN através do Jogo do Caos (CGR)Mónica Torres CoelhoDissertação de Mestrado apresentada à
Faculdade de Ciências da Universidade do Porto em
Engenharia Matemática
2019
Re
pre
se
nta
çã
o d
e s
eq
uê
nc
ias
de D
NA
atra
vé
s d
o
Jo
go
do
Ca
os
(CG
R)
Mó
nic
a T
orre
s C
oelh
oM
Sc
FCUP
2019
2.º
CICLO
Representação de
sequências de ADN
através do Jogo do
Caos (CGR)Mónica Torres CoelhoMestrado em Engenharia MatemáticaDepartamento de Matemática
2019
Orientador João Nuno Domingues Tavares, Professor Associado, FCUP
Todas as correções determinadas
pelo júri, e só essas, foram efetuadas.
O Presidente do Júri,
Porto, ______/______/_________
Resumo
Neste trabalho é apresentado um método que serve como ferramenta para revelar padrões em
diferentes sequências de ADN. Este método é denominado como Representação do Jogo do Caos
(CGR) e é descrito por um sistema de funções iteradas (IFS).
Vamos estudar sequências de ADN de grupos diferentes e comparar os seus padrões.
Palavras-chave: Representação do Jogo do Caos, CGR, sequência de ADN, IFS, padrões de
um gene
Abstract
In this work is presented a method which serves us as a tool to reveal patterns in different ADN
sequences. This method is called Caos Game Representation (CGR) and is described by a system
of iterated functions (IFS).
We’ll study ADN sequences from different groups and compare their patterns.
Key Words: Chaos Game Representation, CGR, ADN sequence, IFS, gene patterns
Conteúdo
Introdução 3
1 Preliminares de Biologia Molecular 6
1.1 Introdução ao ADN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Representação formal de uma sequência de ADN . . . . . . . . . . . . . . . . . . . 8
2 Representação de sequências de ADN por Sistemas guiados iterados de funções
(GIFS) 13
3 IFS com memória 19
4 IFS guiados e análise de dados 30
4.1 IFS guiados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
4.2 IFS guiado por uma série temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.3 Análise da série temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
5 Resultados e trabalhos futuros 40
5.1 CGR da sequência de ADN do cromossoma 21 de um Homo Sapiens . . . . . . . . 41
5.1.1 Probabilidades dos nucleótidos . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.1.2 Análise do fractal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
5.1.3 Ajuste de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.2 CGR da sequência de ADN de uma hemoglobina humana . . . . . . . . . . . . . . . 45
5.2.1 Probabilidades dos nucleótidos . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2.2 Análise do fractal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2.3 Ajuste de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.3 CGR da sequência de ADN de uma mitocôndria de um Homo sapiens . . . . . . . . 48
5.3.1 Probabilidades dos nucleótidos . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.3.2 Análise do fractal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.3.3 Ajuste de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.4 Archaeoglobus fulgidus DSM 4304 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.4.1 Probabilidades dos nucleótidos . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.4.2 Análise do fractal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.4.3 Ajuste de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.5 Mycobacterium tuberculosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
5.5.1 Probabilidades dos nucleótidos . . . . . . . . . . . . . . . . . . . . . . . . . . 57
i
iiFCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
5.5.2 Análise do fractal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.5.3 Ajuste de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.6 Photorhabdus asymbiotica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.6.1 Probabilidades dos nucleótidos . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.6.2 Análise do fractal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.6.3 Ajuste de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Conclusões 62
Glossário 65
APPENDICES 68
A Código Matlab 69
A.1 readFastaFile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
A.2 makeMatrixOfWords . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
A.3 buildDNAStrand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
A.4 buildComplementarDNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
A.5 calculateFrecuencies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
A.6 fcgr2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
A.7 test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
B Tabelas das frequências 76
B.1 Cromossoma 21 de um Homo sapiens . . . . . . . . . . . . . . . . . . . . . . . . . . 77
B.2 Hemoglobina humana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
B.3 Mitocôndria de um Homo Sapiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
B.4 Archaeoglobus fulgidus DSM 4304 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
B.5 Mycobacterium tuberculosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
B.6 Photorhabdus asymbiotica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
C Outros resultados 83
C.1 Leucemia - Homo sapiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
C.2 Cancro da próstata - Homo sapiens . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
C.3 Tumor no complexo central - Homo sapiens . . . . . . . . . . . . . . . . . . . . . . 86
C.4 Cancro de pulmão - Homo sapiens . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
C.5 Homo sapiens amyotrophic lateral sclerosis . . . . . . . . . . . . . . . . . . . . . . . 88
C.6 Human monkeypox and smallpox viruses . . . . . . . . . . . . . . . . . . . . . . . . 89
Lista de Tabelas
3.1 Código IFS sem memória para o fractal representado no canto superior direito da
figura 3.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.1 Código IFS para o triângulo de Sierpinski, com início no canto inferior esquerdo do
quadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
B.1 3-mers da sequência de ADN do cromossoma 21 de um Homo sapiens representada
na figura 5.1 e sua respetiva abundância e frequência (2.7) . . . . . . . . . . . . . . 77
B.2 3-mers da sequência de ADN de uma hemoglobina humana representada na figura
5.4 e sua respetiva abundância e frequência (2.7) . . . . . . . . . . . . . . . . . . . 78
B.3 3-mers da sequência de ADN de uma mitocôndria de um Homo Sapiens represen-
tada na figura 5.7 e sua respetiva abundância e frequência (2.7) . . . . . . . . . . . . 79
B.4 3-mers da sequência de ADN de um Archaeoglobus fulgidus DSM 4304 representada
na figura 5.11 e sua respetiva abundância e frequência (2.7) . . . . . . . . . . . . . . 80
B.5 3-mers da sequência de ADN de um Mycobacterium tuberculosis representada na
figura 5.15 e sua respetiva abundância e frequência (2.7) . . . . . . . . . . . . . . . 81
B.6 3-mers da sequência de ADN de um Photorhabdus asymbiotica representada na
figura 5.17 e sua respetiva abundância e frequência (2.7) . . . . . . . . . . . . . . . 82
iii
Lista de Figuras
1.1 ORF’s do bacteriófago φ−X174 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Fragmento da sequência de ADN GTCGCCATGATGGTGGTTATT ATACCGTCAAG-
GACTGTGTGACTA lido na direção 5′ → 3′ em 3 sequências . . . . . . . . . . . . . . 8
1.3 Start-codon e stop-codon da sequência S . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Janela de comprimento três ao longo da sequência S . . . . . . . . . . . . . . . . . 9
1.5 Algoritmo (parte 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.6 Algoritmo (parte 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.7 Algoritmo (parte 3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.1 GIFS-órbita da sequência de ADN S = TGAG. . . . . . . . . . . . . . . . . . . . . . 15
3.1 Uma ilustração de subquadrados de Q, com os respectivos endereços . . . . . . . . 19
3.2 Primeiro: o fractal gerado pela proibição da composição Ψ4 ◦ Ψ1 – Q14 = QAG é
vazio. Segundo: rotulagem dos endereços vazios de comprimento 2 e comprimento
3 da primeira imagem. Terceiro: O fractal gerado pela proibição de Ψ4 ◦ Ψ1 ◦ Ψ1 –
Q114 é vazio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3 Na segunda imagem vemos que os quadrados com endereços 11, 23, 32 e 44 estão
vazios. Dizemos que esses endereços são pares proibidos. . . . . . . . . . . . . . . 21
3.4 Da segunda imagem vemos os endereços de comprimento 2 vazio e também os
endereços de comprimento 3: 41, 44, 411 , 412, 442, 413, 443, 414, 111, 114. A
“bold face" estão os pares proíbidos e os triplos proíbidos que deles são consequência. 22
3.5 Atratores do Exemplo 1 (esquerda) e Exemplo 2 (direita). . . . . . . . . . . . . . . . 23
3.6 Representação de grafos de transição de IFS (lado esquerdo) com os corresponden-
tes fractais (lado direito). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.7 Subdivisão do fractal representado no canto superior direito da figura 3.6 . . . . . . . 25
3.8 Representação de grafos de transição de IFS (lado esquerdo) com os corresponden-
tes fractais (lado direito) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.1 IFS com as regras do quadrado com probabilidades: no lado esquerdo: p1 = p4 =
0.4, p2 = p3 = 0.1; no lado direito: p1 = 0.4, p2 = 0.3, p3 = 0.2, p4 = 0.1 . . . . . . . 31
4.2 Primeiro: IFS guiado pela sequência de ADN da amilase. Segundo: Substituto do IFS
guiado por um IFS com memória, onde temos o par 14 proibido. Terceiro: Substituto
do IFS guiado por um IFS com memória, onde temos o par 14 proibido e com p1 ≈0.149, p2 ≈ 0.330, p3 ≈ 0.351 e p4 ≈ 0.170 . . . . . . . . . . . . . . . . . . . . . . . 31
v
viFCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
4.3 Exemplo de uma série temporal com 10000 pontos de um modelo que prevê gerações
de uma população de insetos, já com a divisão feita em caixas com o mesmo tamanho 33
4.4 IFS guiado pela série temporal da figura 4.3 . . . . . . . . . . . . . . . . . . . . . . . 33
4.5 Mesma série temporal representada na figura 4.3 mas com a divisão feita em caixas
com o mesmo peso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.6 Lado esquerdo: IFS guiado para a série temporal dividida em caixas de tamanho igual
representada na figura 4.3. Lado direito: IFS guiado para a série temporal dividida
em caixas de peso igual representada na figura 4.5 . . . . . . . . . . . . . . . . . . . 34
4.7 Série temporal de um batimento cardíaco dividida em caixas de tamanho igual (canto
superior esquerdo), peso igual (canto superior direito) e centradas na mediana (parte
inferior da figura) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.8 IFS’s guiados pelas diferentes divisões em caixas da série temporal representada na
figura 4.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.9 Série temporal dividida em regimes . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.10 IFS guiado da série temporal representada na figura 4.9 . . . . . . . . . . . . . . . . 38
5.1 CGR da sequência de ADN no cromossoma 21 de um Homo sapiens para k = 2, 4, 6
e 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
5.2 CGR assinalado com o "duplo furo"; lado esquerdo k = 4, lado direito k = 6 . . . . . 42
5.3 lado esquerdo: CGR da sequência de ADN, lado direito: IFS com p1 = 0.319, p2 =
0.306, p3 = 0.191 e p4 = 0.184 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
5.4 CGR da sequência de ADN de uma hemoglobina humana para k = 2, 4, 6 e 8 . . . . 45
5.5 CGR da sequência de ADN de uma hemoglobina humana assinalado com o "duplo
furo"; lado esquerdo k = 4, lado direito k = 6 . . . . . . . . . . . . . . . . . . . . . . 46
5.6 lado esquerdo: CGR da sequência de ADN de uma hemoglobina humana, lado di-
reito: IFS com probabilidades 0.288, 0.174, 0.193 e 0.345 para os nucleótidos A, C, G
e T, respetivamente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.7 CGR da sequência de ADN de uma mitocôndria de um Homo sapiens para k = 2, 4, 6
e 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.8 Divisão em triângulos da CGR com k = 6 da sequência de ADN de uma mitocôndria
de um Homo sapiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.9 lado esquerdo: CGR da sequência de ADN de uma mitocôndria de um Homo sapiens,
lado direito: IFS do triângulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.10 lado esquerdo: CGR da sequência de ADN de uma mitocôndria de um Homo sapiens,
lado direito: IFS com probabilidades 0.308, 0.313, 0.132 e 0.247 para os nucleótidos
A, C, G e T, respetivamente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
5.11 CGR da sequência de ADN de uma Archaeoglobus fulgidus DSM 4304 para k =
2, 4, 6 e 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
5.12 Cópias de menor escala de todo o fractal representado pela CGR da sequência de
ADN de um Archaeoglobus fulgidus DSM 4304 com k = 8 . . . . . . . . . . . . . . . 54
5.13 Divisão em quadrados do fractal dado pela CGR da sequência de ADN de uma Ar-
chaeoglobus fulgidus DSM 4304 com k = 4 . . . . . . . . . . . . . . . . . . . . . . . 55
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADNvii
5.14 lado esquerdo: CGR da sequência de ADN, lado direito: IFS com probabilidades
0.258, 0.242, 0.244 e 0.256 para os nucleótidos A, C, G e T, respetivamente . . . . . 55
5.15 CGR da sequência de ADN de uma Mycobacterium tuberculosis para k = 2, 4, 6 e 8 . 56
5.16 lado esquerdo: CGR da sequência de ADN de uma Mycobacterium tuberculosis, lado
direito: IFS com probabilidades 0.172, 0.329, 0.327 e 0.172 para os nucleótidos A, C,
G e T, respetivamente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.17 CGR da sequência de ADN de uma Photorhabdus asymbiotica para k = 2, 4, 6 e 8 . 59
5.18 CGR da sequência de ADN de uma Photorhabdus asymbiotica (lado esquerdo); IFS
com probabilidades 0.288, 0.211, 0.210 e 0.291 para os nucleótidos A, C, G e T,
respetivamente (lado direito) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
C.1 CGR da sequência de ADN de um tumor num Homo sapiens - leucemia - para k =
2, 4, 6 e 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
C.2 CGR da sequência de ADN de um cancro na próstata de um Homo sapiens, com
k = 2, 4, 6 e 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
C.3 CGR da sequência de ADN de um tumor no complexo central de um Homo sapiens,
para k = 2, 4, 6 e 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
C.4 CGR da sequência de ADN de um tumor no pulmão de um Homo sapiens, para
k = 2, 4, 6 e 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
C.5 CGR da sequência de ADN de um carcinoma, para k = 2, 4, 6 e 8 . . . . . . . . . . . 88
C.6 CGR da sequência de ADN do vírus da varíola, para k = 2, 4, 6 e 8 . . . . . . . . . . 89
Lista de Abreviaturas
nucs - nucleótidos
ORF - Open Reading Frame
CGR - Representação do Jogo do Caos
IFS - Sistema de Funções Iteradas
ADN - Ácido Desoxirribonucleico
bp - Par de Bases
ix
Introdução
O ADN é uma cadeia de informação muito importante para adquirirmos conhecimentos sobre
um determinado organismo. Estas cadeias encontram-se presentes em todas as formas de vida.
Cada sequência de ADN é única. A análise desta é como a revelação da identidade do ser já
que cada ser possui uma sequência de ADN diferente.
Ao longo da evolução da biologia molecular, em particular, do sequenciamento de ADN, foram
reconhecidos alguns fractais na estrutura do ADN. O matemático Benoit Mandelbrot, na década
de 1970, descreveu os objetos auto-similares apelidando-os como fractais (do latim fractus, que
significa fraturado). Os fractais são conhecidos por apresentarem a mesma estrutura em diferentes
escalas de observação. Ou seja, se ampliarmos um fractal, esta ampliação vai ter o mesmo aspeto
do fractal original. Os fractais são estruturas complexas, com diversos detalhes intrincados. (10)
(15)
Nesta tese vamos usar o Jogo do Caos para representar sequências de ADN como fractais.
Este método, CGR (Chaos Game Representation), permite-nos criar padrões que posteriormente
vamos analisar e comparar. O Jogo do Caos, introduzido por Michael Barnsley, é descrito mate-
maticamente por um sistema iterado de funções (IFS). No entanto, ao contrário destas, o sistema
dinâmico do jogo do caos não é determinístico. Pelo contrário, é um sistema dinâmico estocástico.
Aplicar a mesma regra várias vezes ao mesmo ponto não produzirá sempre o mesmo resultado,
pois o resultado depende do canto para o qual se move. (11)
Este sistema dinâmico é um procedimento aleatório que pode gerar fractais. Para obtermos tal
resultado vamos iterar uma regra e analisar o seu comportamento a longo prazo. Para isso, vamos
considerar um quadrado (onde cada vértice corresponderá a um nucleótido). O Jogo do Caos
(CGR) é um caso particular de um IFS ("Iterated Function System", Sistema de Funções Iteradas).
O matemático John Hutchinson formalizou o método IFS para analisar e construir fractais, e
Michael Barnsley, fundador da empresa Iterated Systems Inc., popularizou esta técnica e apelidou-
a com o termo IFS. O IFS é a única parte da geometria fractal que pode rivalizar com o conjunto
de Mandelbrot (6) na sua capacidade de produzir imagens fascinantes. Tudo o que precisamos
de aprender é como reconhecer a simetria sob a ampliação e como manipular formas no plano.
Esta habilidade abre um mundo de imagens selvagens que podem ser controladas pelo nosso
entendimento de escala e geometria. (12)
Se uma sequência de números é usada para produzir um atrator, para um determinado código
IFS, e se esse atrator for visualmente observável, então, intuitivamente, revelamos alguma estrutura
subjacente na sequência de números.
Podemos usar o Jogo do Caos para exibir visualmente certos tipos de não aleatoriedade. A não
aleatoriedade significa que uma sequência tem uma certa "estrutura".
3
4FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
Vamos começar por introduzir algumas noções básicas de biologia molecular, no capítulo 1.
Em seguida vamos ver como representar as sequências de ADN através de um IFS no capítulo 2.
Abordaremos também especificidades dos IFS’s nos capítulos 3 e 4. E, por fim, representaremos
sequências de ADN, retiradas da plataforma GenBank, pelo método do Jogo do Caos, no capítulo
5.
Capítulo 1
Preliminares de Biologia Molecular
1.1 Introdução ao ADN
Como primeira definição, podemos dizer que um genoma é o conjunto de todas as sequências
de ADN contidas numa célula. O genoma é formado por uma ou mais sequências de ADN, juntas
nos cromossomos.
No entanto, adotamos uma representação mais formal dos genomas como palavras de um
alfabeto, como é usual em genómica computacional e Bioinformática.
Definição. Sequências de ADN e genomas: modelo formal Uma sequência de ADN, S, é uma
palavra finita no alfabeto N = {A,C,G,T} de nucleótidos (nucs). Um genoma é o conjunto de
todas as sequências de ADN associadas a um organismo ou organelo.
A informação sobre a hereditariedade dos organismos (exceto para os chamados vírus de RNA)
está codificada na sua sequência de ADN, que é um polímero não ramificado unidimensional, feito
de quatro diferentes tipos de monómeros (nucleótidos): adenina (A), citosina (C), guanina (G)
e timina (T). No que diz respeito à informação codificada, podemos ignorar o fato de que o ADN
existe como uma dupla hélice de dois filamentos “conjugados" e tratá-lo apenas como um sequência
simbólica unidimensional - uma palavra - construída com as quatro letras do alfabeto de nucleótidos
N = {A,C,G,T}.A informação contida num genoma é armazenada em vários níveis, o mais básico dos quais
associa cada aminoácido de cada proteína codificada por um gene a um único codon, i.e., a um
único tripleto de nucleótidos de ADN (codon). Além deste código elementar, sinais de “pontuação"
simples identificam o início e o fim dos genes. Para além destes dados “brutos", o genoma contém
sinais de expressão, regulação e splicing alternativo (em células eucarióticas) que governam como
as células implementam as informações que contém. O genoma também contém sinais específicos,
não relacionados à expressão da mensagem genética, e que dizem respeito ao metabolismo da
própria molécula de ADN, incluindo replicação, recombinação, metilação e sítios de restrição.
Esses dados são todos codificados na sequência do ADN e, muitas vezes, sobrepõem-se. Os
genes contêm assim locais de metilação e recombinação; certos genes sobrepõem-se parcial-
mente; os sinais de expressão de um gene estão às vezes localizados dentro de outro ... A des-
coberta destes vários níveis de codificação é de importância primordial para o biólogo que busca
6
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN7
acesso à informação contida no genoma para entender as funções da matéria viva, bem como para
conceber experiências e analisar os resultados.
A tecnologia da informação pode ser usada para extrair a informação de forma eficiente codi-
ficado em ADN. O restante deste capítulo lembra e descreve vários tipos de sinais codificados no
ADN, bem como padrões e sequências específicas com os quais estão associados.
Todo o genoma de um organismo pode ser revelado a partir de amostras, usando uma das vá-
rias tecnologias de sequenciação de ADN, cada uma produzindo um grande número de fragmentos
de ADN de vários comprimentos que são então montados na sequência de ADN das moléculas na
mitocôndria ou no núcleo (para eucariotos) ou no citoplasma (para procariontes) das células. Os ge-
nomas inteiros de milhares de espécies existentes já foram sequenciados, incluindo 111 genomas
de arqueas, variando de 1 668 a 5 751 492 nucleótidos (nucs); 2167 genomas bacterianos com 846
a 13 033 779 nucs; 2 593 genomas eucariota com 1 028 a 748 055 161 nucs; 2 651 genomas virais
com 200 a 1 181 404 nucs; etc.. Espécies existentes representam apenas uma pequena fração
da diversidade genética que já existiu. No entanto, genomas inteiros de espécies extintas também
podem ser sequenciados a partir de amostras de tecido bem conservadas.
Uma vez que o genoma de uma espécie tenha sido sequenciado, um dos primeiros passos
para compreender o seu significado consiste na identificação de genes que codificam para
proteínas. Nos genomas procarióticos, a sequência codificadora de uma proteína consiste numa
sequência contígua chamada ORF (Open Reading Frame), enquanto que nos genomas eucarió-
ticos, a sequência codificadora é cindida em vários exons de codificação, separados por introns
não-codificantes. Estes exons podem ser combinados em diferentes arranjos para codificar diferen-
tes proteínas pelo processo celular de cisão alternativo.
Exemplo. A sequência de ADN do bacteriófago φ − X174, que foi o primeiro genoma a ser se-
quenciado, possui 11 genes codificadores de proteínas dentro de uma única cadeia circular de 5
368 nucs. Um desses genes é mostrado em destaque, numa parte abaixo descrita do genoma:
GATGTAATGTCTAAAGGTAAAAAACGTTCTGGCGC TCGCCCTGGTCGTCCGCAGCCGT
TGCGAGGTACTAAAGGCAAGCGTAAAGGCGCTCGTCTTTGG TATGTAGGTGGTCAACA
ATTTTAA TTGCA...
As regiões codificadoras de proteínas de uma sequência de ADN são primeiramente transcritas
em mRNA e depois traduzidas em proteína. Um codon de três nucleótidos de ADN é transcrito
num codon de três nucleótidos de RNA complementares, que é traduzido, por sua vez, num único
aminoácido dentro de uma proteína. Um fragmento de uma sequência simples de ADN tem três
ORF’s possíveis, e a tradução ocorre num ORF, uma sequência de codons que se inicia com um
certo start-codon e continua até um certo stop-codon (não contém mais nenhum stop-codon no
meio).
O ORF 2 da sequência de ADN do bacteriófago φ − X174 do exemplo anterior contém 15
ORF’s com mais de 108 nucs, que podem potencialmente codificar para proteínas com mais de 36
aminoácidos. Somente dois deles, mostrados em destaque na figura 1.1, realmente codificam uma
proteína.
A sequência de leitura determina os aminoácidos reais codificados por um gene. Por exemplo,
8FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
Fig. 1.1. ORF’s do bacteriófago φ−X174
o fragmento da sequência de ADN GTCGCCATGATGGTGGTTATT ATACCGTCAAGGACTGTGT-
GACTA pode ser lido na direção 5′ → 3′ nas 3 sequências representadas na figura 1.2.
Fig. 1.2. Fragmento da sequência de ADN GTCGCCATGATGGTGGTTATTATACCGTCAAGGACTGTGTGACTA lido na direção 5′ → 3′ em 3 sequências
Um fragmento de uma cadeia dupla de ADN, por outro lado, tem seis possíveis sequências de
leitura, três em cada direção. Um ORF começa com o start-codon ATG (metionina), na maioria
das espécies, e termina com um stop-codon TAA, TAG ou TGA. A identificação dos genes que
codificam proteínas numa sequência de ADN é uma tarefa difícil. Mesmo um organismo simples,
como o bacteriófago φ − X174, com uma sequência de ADN simples de apenas 5 368 nucs, tem
um total de 117 ORF’s, dos quais apenas 11 realmente codificam para uma proteína.
Existem vários outros sinais e informações biológicas que ajudam o biólogo na tarefa de encon-
trar genes. Por exemplo, sabe-se que a proteína conhecida com a menor sequência de aminoácidos
tem apenas 8 aminoácidos e, por isso, ORF’s com menos do que 3 + 24 + 3 = 30 nucs, não podem
codificar uma proteína. Um primeiro problema algorítmico consiste em extrair todos os ORF’s nas
três sequências de leitura de um fragmento simples de ADN, ou nas seis numa cadeia dupla de
ADN. (14) (18) (3)
1.2 Representação formal de uma sequência de ADN
Dada uma sequência de ADN S com n nucs, representamos por S[i] o i-ésimo nucleótido de
S, para 1 ≤ i ≤ n. Assim, na sequência S = GTC GCCATGATGGTGGTTATTATACCGTCAAG-
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN9
GACTGTGTGACTA, com n = 45 nucs, S[1] = G, S[2] = T, S[3] = C e S[n] = A. S[i, · · · , j], onde
i ≤ j, representa o fragmento de S contendo os nucleótidos S[i], S[i + 1], · · · , S[j]. Por exemplo,
S[1, · · · , 4] = GTCG e S[1, · · · , n] = S e S[i, · · · , i] = S[i].
Com essa notação, um ORF é um fragmento S[i, · · · , j], de comprimento j − i + 1, tal que
S[i, · · · , i + 2] é o start-codon ATG e S[j − 2, · · · , j] é um dos stop-codons TAA, TAG ou TGA.
Pela observação anterior, S tem que ter pelo menos 30 nucs, isto é, j − i + 1 > 30, e não pode
conter nenhum outro stop-codon, isto é, deve também satisfazer a condição S[k, · · · , k + 2] /∈{TAA, TAG, TGA} para i+3 ≤ k ≤ j−6. Por exemplo, na sequência S = GTCGCCATGATGGTGGT-
TATTATACCGTCAAGGACTGTG TGACTA, S[7, · · · , 42] é um ORF, já que se inicia com o star-codon
S[7, · · · , 9] = ATG e termina com o stop-codon S[40, · · · , 42] = TGA, não tendo qualquer outro
stop-codon entre S[10] e S[39].
Fig. 1.3. Start-codon e stop-codon da sequência S
O ORF determina uma partição da sequência de ADN S em codons com três nucleótidos con-
secutivos. No ORF 1, o primeiro codon é S[1, · · · , 3], o segundo codon é S[4, · · · , 6] e assim por
diante. No ORF 2, no entanto, o primeiro codon é S[2, · · · , 4], e o segundo codon é S[5, · · · 7]. O
primeiro codon no ORF 3 é S[3, · · · 5].
Num dado ORF, os codons podem ser detectados deslizando uma janela de comprimento três
ao longo da sequência, começando na posição 1, 2 ou 3, dependendo do ORF.
Fig. 1.4. Janela de comprimento três ao longo da sequência S
Consideremos, como primeiro exemplo, o problema de encontrar um ORF numa sequência, e
seja S[k, · · · , k + 2] o codon sob a janela deslizante. Começando com uma posição inicial k, dada
pela sequência de leitura, a janela deslizante deve ser deslocada por três nucleótidos de cada vez,
até atingir um start-codon, e depois continuar deslizando novamente de 3 em 3 nucleótidos até
atingir um stop-codon. Esta descrição não é totalmente exacta já que a sequência de ADN dada
pode não conter qualquer start-codon, ou pode conter um start-codon mas nenhum stop-codon, e
a busca pelo início ou fim do ORF pode ultrapassar o fim da sequência.
O primeiro start-codon na sequência de leitura que se inicia na k-ésima posição de uma de-
terminada sequência de ADN com n nucleótidos, pode ser encontrado deslizando uma janela
S[i, · · · , i+2] de três nucleótidos ao longo de S[k, · · · , n], até que i+2 > n ou S[i, · · · , i+2] = ATG.
10FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
No algoritmo seguinte, a posição inicial i do candidato a start-codon é incrementada de três em três,
desde que o codon não caia fora da sequência (isto é, i+ 2 ≤ n) e não seja já um start-codon (isto
é, S[i, ..., i+ 2] 6= AGT).
Fig. 1.5. Algoritmo (parte 1)
Depois de ter encontrado um start-codon S[i, · · · , i+ 2], o primeiro stop-codon pode ser encon-
trado ao deslizar uma janela S[j, · · · , j + 2] de três nucleótidos, desta vez ao longo S[i+ 3, · · · , n],
até que j + 2 > n ou S[j, · · · , j + 2] /∈ {TAA, TAG, TGA}. Agora, o problema de extrair o primeiro
Fig. 1.6. Algoritmo (parte 2)
ORF numa sequência de leitura que se inicia na posição k de uma sequência de ADN S de com-
primento n pode ser resolvido juntando a busca por um start-codon e a busca por um stop-codon.
Na descrição seguinte, o start-codon é S[i, · · · , i+ 2] e o stop-codon é S[j, · · · , j + 2] e, portanto,
o ORF é S[i, · · · , j + 2].
Fig. 1.7. Algoritmo (parte 3)
Desde que o primeiro genoma completo da bactéria Mycoplasma genitalium foi sequenciado
em 1995, um número cada vez maior de genomas completos estão acessíveis em bases de da-
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN11
dos públicas, como por exemplo, GENBANK(23). A disponibilidade de genomas completos abre
a possibilidade de tentar responder a algumas perguntas globais sobre essas sequências. Uma
dessas questões consiste em verificar se existem sequências curtas ausentes ou, pelo menos, sub-
representadas num certo genoma completo. De facto, é possível tratar esta questão cuja resposta
poderá ter algum significado biológico.
Existem duas razões que justificam o interesse por strings ausentes (ou proíbidas) ou sub-
representadas. Em primeiro lugar, esta pergunta só pode ser feita nos dias de hoje quando temos
à nossa disposição genomas completos. Em segundo lugar, a questão faz sentido já que, como ve-
remos, é possível derivar uma linguagem factorial, a partir de um genoma completo, inteiramente
definida pelo conjunto das palavras (strings) proibidas.
Em primeiro lugar vamos começar por expor um método de visualização de strings proibidas
e sub-representadas num genoma bacteriano cujo comprimento é geralmente da ordem de um
milhão de letras (nucleótidos) de N . Para isso recorremos aos chamados Sistemas iterados de
funções (Iterated Function Systems = IFS) com memória (capitulo 3). (14)(13)
Capítulo 2
Representação de sequências de ADNpor Sistemas guiados iterados defunções (GIFS)
Seja VA = (0, 0); VT = (1, 0); VG = (1, 1) e VC = (0, 1), e definamos, ∀x ∈ Q = [0, 1]2, o
Sistema Iterado de Funções (IFS) em Q, que consiste das seguintes quatro transformações afins
Ψi(x) = x +1
2(Vi − x) =
1
2(x + Vi),
onde i ∈ {A,T,C,G} e x ∈ Q (2.1)
De acordo com Barnsley, representamos este IFS por:
IFS = {Q; ΨA,ΨT,ΨC,ΨG} (2.2)
As quatro transformações afins são contracções com factor de contracção 1/2.
Seja S = s1s2 · · · sn uma sequência de ADN, com comprimento n, onde cada si ∈ N =
{A,T,C,G}. A GIFS-órbita de S (GIFS = Guided Iterated Function System), GIFS(S), é a sequên-
cia de pontos que representam os sucessivos i-prefixos, {S(1 : i)}ni=1 = {s1s2 · · · si}ni=1, de S, isto
é:
GIFS(S) = {x(s(1 : i))}ni=1 (2.3)
definidos recursivamente por:
x(S(1 : i)) = Ψsi (x(S(1 : i− 1))) =1
2(x(S(1 : i− 1)) + Vsi)
=1
2Vsi +
1
22Vsi−1 + · · ·+ 1
2i−1Vs2 +
1
2iVs1 +
1
2ixo (2.4)
para si ∈ {A,T,C,G}, i = 1, 2, · · · , n e xo = (1/2, 1/2).
13
14FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
Exemplo. Seja S = ACGTCACGCG. Então:
x(A) = xA = ΨA(xo) =1
2VA +
1
2xo
x(AC) = xAC = ΨC ◦ΨA(xo)
=1
2VC +
1
22VA +
1
22xo
x(ACG) = xACG = (ΨG ◦ΨC ◦ΨA)(xo)
=1
2VG +
1
22VC +
1
23VA +
1
23xo
...
x(ACGTCACGCG) = xACGTCACGCG
= (ΨG ◦ΨC ◦ · · · ◦ΨA)(xo)
=1
2VG +
1
22VC +
1
23VG + · · ·+ 1
28VG +
1
29VC +
1
210V1 +
1
210xo
Note que a indexação do ponto x segue a ordem contrária à da composição das transformações
Ψ. Essa indexação chama-se o endereço do ponto x ou (do prefixo) da sequência de ADN que ele
representa.
Representando por Q = [0, 1]2 o quadrado unitário com vértices Vi onde i ∈ {A,T,C,G},notamos que, por exemplo, ΨA(Q) = QA = [0, 1/2]2, o subquadrado no canto inferior esquerdo,
indexado pelo seu centro A = (1/22, 1/22), ΨT(Q) = QT = [1/2, 1]×[0, 1/2], o subquadrado inferior
direito, indexado por seu centro T e assim por diante. Aplicamos então o mesmo IFS a cada um
desses subquadrados. Por exemplo, aplicando o IFS a QA, obtemos os quatro subsubquadrados,
com lado de comprimento1
22:
QAA = ΨAΨA(Q); QAT = ΨTΨA(Q); QAG = ΨGΨA(Q); QAC = ΨCΨA(Q)
rotulados pelos centros AA, AT, AG e AC, como na Fig. 2.1. A estes subsubquadrados chamamos
2-células ou 2-pixels (pixels na resolução 2−2). Repetimos a construção: por exemplo, aplicamos o
IFS a QAC (a parte A de QC) para obter as 3-células ou 3-pixels (pixels na resolução 2−3, com lado
de comprimento1
23:
QACA = ΨAΨCΨA(Q); QACT = ΨTΨCΨA(Q); QACG = ΨGΨCΨA(Q); QACC = ΨCΨCΨA(Q)
indexados pelos seus centros ACA, ACT, ACG, e ACC, respectivamente (ver a Fig. 2.1). (16)
Podemos dizer, por exemplo, que QACG é a parte A da parte C de QG. Note que
QACG ⊂ QCG ⊂ QG
Em geral temos que na etapa k, o quadrado Q estará subdividido em 4k k-células (ou k-pixels),
cada uma com lado de comprimento 2−k. O centro de cada uma destas k-células representa um
k-mer. Portanto existem 16 dinucleotídeos (ou 2-mers), 64 codões ou 3-mers, etc.
A GIFS-órbita da sequência dos sucessivos prefixos de S = s1s2 · · · sn, é representada por uma
sucessão de pontos que são centros de certas células acima indicadas. Por exemplo, a GIFS-órbita
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN15
de S = TGAG, é representada na Fig. 2.1, pela sequência de pontos
T −→ TG −→ TGA −→ TGAG
o primeiro ponto = centro de QT, o segundo ponto = centro da parte T de QG, o terceiro ponto =
centro da parte T da parte G de QA, etc.
GIFS-órbita : T −→ TG −→ TGA −→ TGAG −→ · · ·Endereços: T −→ TG −→ TGA −→ TGAG −→ · · ·
∈ ∈ ∈ ∈ · · ·Células QT QTG QTGA QTGAG · · ·
O endereço TGA, por exemplo, é uma coordenada sequencial: lida da esquerda para direita,TGA−−−→, o que significa que a sequência de transformações que movem o ponto xo ∈ Q para a célula
QTGA é ΨA(ΨG(ΨT(xo))). Este último ponto pertence à célula QTGA. Dado um qualquer x ∈ Q, para
atingir QTGA, aplicamos primeiro ΨT, que nos leva para a célula QT. De seguida aplicamos ΨG, que
nos leva para QTG ⊂ QG, que é a parte T de QG. Finalmente ΨA leva-nos para QTGA ⊂ QA, que é a
parte T da parte de G de QA.
Fig. 2.1. GIFS-órbita da sequência de ADN S = TGAG.
Em genómica S = s1s2 · · · sn, é uma sequência longa e finita de tamanho |S| = n, digamos
n = 2.9× 109 para o número de nucleótidos no ADN humano.
A GIFS-órbita de S pode ser representada por uma sequência de pontos em Q, como foi indi-
cado anteriormente, produzindo uma imagem de S. Tais imagens podem ser usadas para identificar
padrões em S e usadas, por exemplo, para distinguir diferentes tipos de ADN. Como a GIFS-órbita
de S está contida no atractor do IFS, a forma como lá se situa, e a relação entre o processo de-
terminista de representação desta órbita, especificado pela cadeia de nucleótidos de S, e a órbita
16FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
estocástica, poderá fornecer um padrão ou uma assinatura de S.
Suponhamos que temos duas sequências R = R(1 : n) e S = S(1 : m), tais que
R(n− k + 1 : n) = S(m− k + 1 : m) = n1n2 · · · nk
ou seja, os últimos k ≥ 1 nucleótidos, n1n2 · · · nk, são os mesmos em ambas sequências. Por
outras palavras, as duas sequências têm o mesmo sufixo de comprimento k.
Sabemos que os dois últimos pontos x(R(1 : n)) e x(S(1 : m)) das GIFS-órbitas de R e S,
respectivamente, estão ambos dentro da k-célula Qn1n2···nk , cujo lado tem comprimento igual a
1/2k. Portanto a distância Euclideana entre esses dois pontos satisfaz
d(x(R(1 : n)), x(S(1 : m))) ≤√
2
2k(2.5)
Exemplifiquemos - suponhamos que
R = ACGCCCGCAC, e S = CAGTTAACAGCAC
que partilham o mesmo sufixo R(7 : 10) = GCAC = S(10 : 13). Portanto os dois últimos pontos
x(R(1 : 10)) e x(S(1 : 13)) das GIFS-órbitas de R e S estão dentro da 4-célula QGCAC, cujo lado
tem comprimento igual a1
24(ver Fig. 2.1).
Ainda um outro exemplo. Suponhamos que
S = ACGCACGCAGCACATT (2.6)
que tem repetido duas vezes o mesmo 4-mer, GCAC. Aplicando o que se disse antes às duas
subsequências
S(1 : 6) = ACGCAC, e S(1 : 13) = ACGCACGCAGCAC
que partilham o mesmo sufixo GCAC, concluímos que os dois últimos pontos x(S(1 : 6)) e x(S(1 :
13)) das GIFS-órbitas de S(1 : 6) e S(1 : 13), respectivamente, estão ambos dentro da 4-célula
QGCAC, cujo lado tem comprimento igual a1
24.
Em geral, dada uma sequência S, com comprimento |S| = n, se quisermos calcular os seus
k-mers, fazemos o seguinte - representamos a GIFS-órbita de S, GIFS(S) = {x(S(1 : i)) ∈ Q}ni=1.
Como há 4k k-mers, consideramos uma grelha em Q, constituída por pequenos quadrados cujo
lado tem comprimento igual 1/2k, ou k-pixels, indexados usando combinações apropriadas dos
símbolos A,T,G,C ∈ N , da forma como acima se indicou. Nesta grelha estão representados todos
os k-mers, ou seja, todas as palavras de N k (palavras de comprimento k), do alfabeto N .
Como vimos, na k-célula Qn1n2···nk , onde ni ∈ N , estão todos os pontos representativos de
todos os prefixos S(1 : i) de S, com 1 ≤ i ≤ n, que partilham o mesmo sufixo n1n2 · · · nk ∈ N k.
Seja NS(n1n2 · · · nk) o número de vezes que o k-mer n1n2 · · · nk ocorre em S. Este número é pois
igual ao número de pontos da GIFS-órbita de S, contidos Qn1n2···nk . Se dividirmos por |S| − k + 1
temos a frequência
fS(n1n2 · · · nk) =NS(n1n2 · · · nk)
|S| − k + 1(2.7)
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN17
de ocorrência do k-mer n1n2 · · · nk em S. Usamos uma gama de cinzentos c ∈ [0, 1], onde c = 0
= branco e c = 1 = preto, para colorir cada k-célula com uma intensidade de cinzento igual a
fS(n1n2 · · · nk). Obtemos desta forma a imagem da sequência S, que acima se referiu.
Vejamos um exemplo: S = TCGAACTCGCGAATCG, com |S| = 16 e k = 3. A GIFS-órbita é
constituída pelos pontos que representam os sucessivos sufixos:
T→ TC → TCG → TCGA → TCGAA → TCGAAC → TCGAACT → TCGAACTC
→ TCGAACTCG → TCGAACTCGC → TCGAACTCGCG → TCGAACTCGCGA
→ TCGAACTCGCGAA → TCGAACTCGCGAAT → TCGAACTCGCGAATC
→ TCGAACTCGCGAATCG (2.8)
Por exemplo NS(CGA) = 2 e fS(CGA) = 2/(16− 3 + 1) = 1/7.
Convém guardar em memória, e disponibilizar como output, a sequência de comprimentos dos
prefixos, digamos i1 < i2 < · · · < iNS que partilham o mesmo sufixo n1n2 · · · nk ∈ N k. Assim no
exemplo anterior a informação sobre o trinucleotídeo CGA que ocorre NS = 2 vezes em S, deve
vir acompanhada dos comprimentos dos prefixos, i1 = 4 < i2 = 12 que partilham o mesmo sufixo
CGA. A informação será dada na forma:
IS(CGA) = (CGA; 4, 12)
Em particular, é fácil calcular as repetições em tandem de uma palavra S, isto é, palavras do
tipo abb onde a,b ∈ N ∗. Basta procurar as células do tipo bb, na resolução k = 2|b|, e contar
os prefixos que partilham o sufixo bb, juntamente com os comprimentos desses prefixos, digamos
i1 < i2 < · · · . A informação será dada na forma:
IS(bb) = (bb; i1, i2, · · · )
Capítulo 3
IFS com memória
Daqui em diante usamos a correspondência
A↔ 1, T↔ 2, C↔ 3, G↔ 4
O IFS que nos interessa, I = {Ψ1,Ψ2,Ψ3,Ψ4}, é constituído pelas quatro contrações em R2,
definidas por
Ψ1(x, y) = (x/2, y/2)
Ψ2(x, y) = (x/2, y/2) + (1/2, 0)
Ψ3(x, y) = (x/2, y/2) + (0, 1/2)
Ψ4(x, y) = (x/2, y/2) + (1/2, 1/2) (3.1)
Quando iterado, I preenche o todo o quadrado unitário Q.
As transformacões (3.1), induzem uma subdivisão do quadrado Q em subquadrados (pixels)
cujos endereços são determinados pelas respetivas composições (Fig. 3.1).
Fig. 3.1. Uma ilustração de subquadrados de Q, com osrespectivos endereços
Em geral o subquadrado, ou k-pixel, Qi1i2···ik , com endereço i1 · · · ik, é obtido pela composição
seguinte
Qi1i2···ik = Ψik ◦Ψik−1◦ · · · ◦Ψi2 ◦Ψi1(Q) (3.2)
Note que
Qik ⊃ Qik−1ik ⊃ · · · ⊃ Qi1···ik (3.3)
19
20FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
Por exemplo, na Fig. 3.1, Q2 ⊃ Q32. Q32 é a parte 3 de Q2.
Os endereços podem ser interpretados como coordenadas espaciais: são lidos da esquerda
para a direita, o que corresponde à leitura sequencial (da esquerda para a direita) do genoma que
representam.
Consideremos, por exemplo, o endereço 12324. Usando a equivalência A ↔ 1,T ↔ 2,C ↔3,G↔ 4, o endereço 12324 corresponde à palavra ATCTG. Em coordenadas espaciais, 12324 está
no quadrado 4. Dentro de 4, encontra-se na parte 2 de 4. Dentro de 24, encontra-se na parte 3 de
24. Dentro de 324, encontra-se na parte 2 de 324, etc.
Se certas combinações de transformações forem excluídas temos o que chamamos um IFS
com memória. Mais especificamente,
• um IFS I tem 1 passo de memória, ou é um 1-IFS (com memória) se determinados pares
Ψi ◦ Ψj forem proíbidos. Esta informação pode ser codificada por uma matriz de transição
M = [mij ], onde
mij =
{0 se o par Ψi ◦Ψj for proíbido
1 se o par Ψi ◦Ψj for permitido.
Observe que se Ψi2 ◦Ψi1 é proíbido, também o será toda a composição Ψjk ◦ · · · ◦Ψj1 onde
i2 e i1 são dois índices consecutivos em jk · · · j1. (4)
• um IFS I tem 2 passos de memória, ou é um 2-IFS (com memória) se eventualmente alguns
pares são proíbidos e se existem triplos Ψi3 ◦ Ψi2 ◦ Ψi1 proíbidos, onde o triplo i1i2i3 não
contém qualquer par proíbido.
• em geral, um IFS I tem m passos de memória, ou é um m-IFS (com memória) se existem
combinações proíbidas de comprimento quando muito igual a m+ 1 e pelo menos uma com-
binação proíbida de comprimento (m+ 1), que não contém qualquer combinação proíbida de
comprimento j, para 1 ≤ j ≤ m.
Um IFS sem memória diz-se um 0-IFS. (2)
Fig. 3.2. Primeiro: o fractal gerado pela proibição da composição Ψ4 ◦ Ψ1 –Q14 = QAG é vazio. Segundo: rotulagem dos endereços vazios de compri-mento 2 e comprimento 3 da primeira imagem. Terceiro: O fractal gerado pelaproibição de Ψ4 ◦Ψ1 ◦Ψ1 – Q114 é vazio.
Até agora, quais transformações são aplicadas em cada iteração não depende de quaisquer
condições a priori. Aqui, vamos estudar o caso em que algumas combinações de transformações
são proibidas.
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN21
As áreas representadas a branco num fractal, ou melhor dizendo, as áreas que não foram
preenchidas, representam as combinações de transformações proibidas. Vamos ver a figura 3.2
como exemplo.(12)
Aqui, na primeira imagem vemos o fractal gerado pela proibição da composição Ψ4 ◦Ψ1. Sabe-
mos à priori que o subquadrado com o endereço 14 (de comprimento 2) vai estar vazio. Observa-
mos pela imagem que também temos outros subquadrados vazios, de comprimento superior.
Sabemos que, se temos uma composição proibida então qualquer composição que contenha
este endereço proibido também vai ser proibida. No exemplo, a composição Ψ4◦Ψ1 que representa
o endereço 14 é proibida, por isso, todos os endereços de comprimento maior, e que contenham
a sequência 14, também serão proibidas. Assim as sequências 141, 142, 143 e 144 também são
proibidas.
Na segunda imagem da Fig. 3.2, rotulamos os subquadrados vazios cujos endereços têm
comprimento 3: 141, 142, 143 e 144.
Como cada quadrado vazio neste fractal pode ser explicado pelo par proibido inicial (par 14),
pelo menos até aos endereços de comprimento 3, podemos dizer que este fractal é gerado por
pares proibidos. Claro que para testar se um fractal é realmente determinado por pares proibidos,
teríamos que verificar sequências arbitrariamente longas. (12) Mas, por agora, vamos nos contentar
em verificar se todos os endereços de comprimento 3 vazios contêm um endereço vazio de 2
caracteres.
A terceira imagem da figura 3.2 é gerada pelas composições proibidas Ψ4 ◦Ψ1 e Ψ4 ◦Ψ4 ◦Ψ1.
Proibir a composição Ψ4 ◦ Ψ4 ◦ Ψ1 não é uma consequência da proibição de Ψ4 ◦ Ψ1, por isso
já não podemos dizer que este fractal é gerado por pares proibidos. Observamos também na
terceira imagem, para cada endereço maior que 2, mais subquadrados vazios do que nas imagens
anteriores, devido a esta nova proibição.
O nome IFS com memória é atribuído a estas construções pelo facto de que as transformações
ocorridas no passado determinam quais transformações podem ocorrer a seguir.
Antes de analisarmos com mais detalhe os fractais com memória, vejamos como proceder na
prática para detectar as palavras proíbidas.
(a). Primeiro, identificamos os endereços de comprimento 2 vazios, dividindo o quadrado Q numa
grade 4 × 4 de subquadrados menores e, em seguida, vemos os 2-endereços de todos os
quadrados vazios dessa grade de malha 2−2. Na segunda imagem da Fig. 3.3, vemos
que estes são 11, 23, 32 e 44. Como estes quadrados estão vazios, dizemos que os seus
endereços são pares proibidos.
Fig. 3.3. Na segunda imagem ve-mos que os quadrados com endereços11, 23, 32 e 44 estão vazios. Dizemosque esses endereços são pares proibi-dos.
22FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
(b). De seguida, encontramos todos os subquadrados 2−2×2−2 com 3-endereços que são vazios.
Sabemos já alguns – por exemplo, como o endereço 32 está vazio, todos os endereços 321,
322 , 323, e 324 também estão vazios, uma vez que a única maneira de obter um ponto
nesses endereços é aplicar uma das transformações a um ponto no quadrado 32, que está
vazio.
De facto, todo o subquadrado vazio neste fractal pode ser explicado pelos quatro pares proi-
bidos iniciais (pelo menos até aos 3-endereços), podemos dizer que este fractal é gerado por
pares proibidos.
(c). Se tivéssemos encontrado alguns endereços de comprimento 3 vazios, mas não contendo
qualquer endereço de comprimento 2 vazio, então o fractal não é gerado por pares proibidos
e precisamos listar triplos proibidos para especificar o fractal.
Fig. 3.4. Da segunda imagem vemosos endereços de comprimento 2 vazio etambém os endereços de comprimento3: 41, 44, 411 , 412, 442, 413, 443, 414,111, 114. A “bold face" estão os paresproíbidos e os triplos proíbidos que de-les são consequência.
Note que 111 e 114 não contêm nenhum dos endereços vazios de comprimento 2. Clara-
mente, nem todos os endereços vazios de comprimento 3 deste fractal são consequência de
pares proíbidos - o fractal não pode ser determinado por pares proíbidos.
Representemos por Comp(R2) o conjunto de todos os compactos K ⊂ R2, munido da distân-
cia Hausdorff h (20). Para um 0-IFSI , com n transformações contratoras Ψi : R2 → R2, i =
1, 2 · · · , n, definimos uma aplicação Ψ : Comp(R2) −→ Comp(R2), através de
Ψ(K) = ∪ni=1Ψi(K), K ∈ Comp(R2) (3.4)
Ψ é uma contracção em (Comp(R2), h). Relativamente à métrica Hausdorff h, (Comp(R2), h)
é completo, e, por isso, dado um qualquer K ∈ Comp(R2), a sequência
Ψ(K),Ψ2(K),Ψ3(K), · · ·
converge para um único AI ∈ Comp(R2) que se chama o atractor do 0-IFS I . Pelo teorema do
ponto fixo de Banach, sabemos que
Ψ(AI ) = AI
. Nesta formulação, é importante notar que as transformçaões Ψi são aplicadas em todas as
composições possíveis, isto é, Ψ(C) = ∪ni=1Ψi(C), Ψ2(C) = ∪nj=1 ∪ni=1 (Ψj ◦ Ψi)(C) e assim por
diante.
Para um IFS, I = {Ψ1, · · · ,Ψn}, o alfabeto A é {1, · · · , n}. No contexto que nos interessa
n = 4. Suponhamos que F é um conjunto finito de palavras do alfabeto A . Suponhamos que a
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN23
palavra mais longa em F tem comprimento m + 1. O m-IFS determinado por F proíbe todas as
composições da forma Ψiq ◦ · · · ◦ Ψi2 ◦ Ψi1 onde i1 · · · iq ∈ F . O conjunto de todas as palavras
proíbidas é o conjunto de todas as palavras do alfabeto A que contêm um elemento de F como
subpalavra. Dizemos, por isso, que F gera a coleção P de todas as palavras proibidas, e notamos
este facto por P = 〈F 〉.Se A é o atrator de um IFS com memória, baseada nas transformações I , então Ai1···iq =
A ∩Qi1···iq é a região do atrator com endereço i1 · · · iq. (5)
Exemplo 1:: 1-IFS com F = {11, 22, 33}. As regiões Q11, Q22, e Q33, estão vazias, assim como
todas as regiões cujo endereço contêm as palavras 11, 22 ou 33 (Fig. 3.5 esquerda).
Fig. 3.5. Atratores do Exemplo 1 (esquerda) e Exemplo 2(direita).
Exemplo 2: 1-IFS com F = {41, 23, 32, 144} As regiões Q41, Q23, Q32 e Q144 estão vazias, assim
como todas as regiões cujo endereço contem as palavras 41, 23, 32 ou 144 (Fig. 3.5 direita).
Podemos usar uma representação através de um grafo com quatro vértices, rotulados 1, 2, 3 e
4, correspondendo respetivamente às contracções (3.3) Ψ1,Ψ2,Ψ3 e Ψ4. Um arco orientado (ij)
existe sse a composição Ψj ◦Ψi for permitida (não proíbida). Observe a direção do arco e a ordem
da composição. O arco (ij) significa que Ψj pode seguir Ψi; se uma combinação não for permitida,
o respectivo arco é omitido. Este grafo diz-se o gráfico de transição do IFS. Alguns exemplos são
mostrados nas figuras 3.6 e 3.8 (onde do lado esquerdo estão representados os grafos de transição
e do lado direito o respectivo fractal).
Observando o fractal representado na parte de cima, do lado direito, da figura 3.6 vemos que
os pares proibidos são o 33, 43, 23, 32, 42 e 22. Se imaginarmos linhas a dividir o fractal em 16
quadrados mais pequenos, ou seja, dividir o fractal em quatro quadrados e voltar a dividir, desta
vez os quatro quadrados resultantes em quatro (como estudamos anteriormente), sabemos que os
quadrados vazios serão os pares proibidos.
Para a construção do grafo de transição, consideramos um em que todas as transições são
possíveis e depois vamos retirando as setas que correspondem às transições proibidas. Tendo os
pares proibidos, basta então retirar as setas correspondentes às proibições. Aqui, como já vimos,
temos os quadrados vazios 33, 43, 23, 32, 42 e 22; por isso, as transições proibidas são 3 → 3,
4 → 3, 2 → 3, 3 → 2, 4 → 2 e 2 → 2. Retirando estas setas, obtemos o grafo de transição
apresentado no canto superior esquerdo da imagem.
24FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
Fig. 3.6. Representação de grafos de transição de IFS (lado esquerdo) com os correspondentesfractais (lado direito).
Um vértice do grafo de transição é chamado de rome se houver setas para esse vértice de cada
vértice, incluindo ele próprio.
Então, temos que o vértice 1 e 4 do grafo de transição do canto superior esquerdo da figura 3.6
são romes.
Para que um fractal produzido por um IFS com memória também possa ser produzido por um
IFS sem memória (vistos anteriormente) o grafo de transição tem de possuir umas certas condições.
As condições de redução de memória são então as seguintes:
1. O grafo deve ter pelo menos uma rome.
2. Para cada vértice não-rome, existe um caminho no grafo de transição de alguma rome para
essa não-rome.
A primeira condição garante que pelo menos uma parte da forma contenha uma cópia escalo-
nada de toda a forma; a segunda condição mostra que cada parte da forma é uma cópia em escala
de uma dessas cópias escalonadas da forma inteira.
Para evitar possíveis problemas envolvendo praticidade, impomos uma condição adicional.
3. Não há nenhuma loop a passar apenas por vértices não-rome.
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN25
Se as condições 1, 2 e 3 forem satisfeitas, o fractal pode ser gerado por um IFS sem memória
e com um conjunto finito de transformações.
Voltando ao exemplo, vemos que o grafo do canto esquerdo superior da figura 3.6 satisfaz as
três condições.
Para a primeira condição já vimos que o grafo tem duas romes por isso esta é satisfeita.
Para a segunda condição, vamos analisar os vértices não-rome (2 e 3). Temos o caminho 1→ 2
e 1→ 3; e sabemos que 1 é uma rome, por isso a condição é satisfeita.
Para a terceira condição basta ver que não existe nenhuma loop que passe unicamente por
vértices não-rome. O que se observa na figura nitidamente, até porque nem há nenhum caminho
entre os vértices não-rome (2 e 3).
Como as três condições são satisfeitas, este IFS de pares proibidos pode ser gerado por um
IFS sem memória.
Observando o fractal vemos que este é constituído por cópias de diferentes escalas dele próprio.
Temos duas cópias de escala 1/2 no canto inferior esquerdo e no canto superior direito; e duas
cópias do fractal de escala 1/4 nos quadrados com a nomenclatura 12 e 13. Ver figura 3.7.
Fig. 3.7. Subdivisão do fractal representado no canto superior direito da figura 3.6
Depois de observarmos esta imagem é muito mais fácil construir a tabela 3.1 do IFS sem me-
mória. Onde:
• r indica a escala da imagem na direção horizontal. Ou seja, multiplicar as coordenadas de x
de cada ponto por r. Sendo que o r negativo reflete a forma em relação ao eixo y.
• s denota o redimensionamento da imagem na direção vertical. Ou seja, multiplicar as coorde-
nadas de y de cada ponto por s. Sendo que o s negativo reflete a forma em relação ao eixo
x.
• θ representa a rotação das linhas horizontais em torno da origem, com os ângulos positivos a
indicar rotações no sentido anti-horário.
• φ corresponde à rotação de linhas verticais. (Na maioria dos casos que vão ser analisados
aqui θ = φ, assim a imagem gira em torno da origem sem qualquer tipo de distorção.)
• e denota o movimento/translação na direção horizontal. Ou seja, adicionamos e à coordenada
x de cada ponto.
26FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
• f representa o movimento/translação na direção vertical. Ou seja, adicionamos f à coorde-
nada y de cada ponto.
Tabela 3.1: Código IFS sem memória para o fractal representado no canto superior direito da figura3.6
r θ φ s e f
1/2 0 0 1/2 0 01/2 0 0 1/2 1/2 1/2
1/4 0 0 1/4 1/2 01/4 0 0 1/4 0 1/2
Para relacionar esta tabela IFS às divisões feitas ao fractal na figura 3.7, observe, por exemplo,
que o quadrado pequeno com bordas azuis localizado no canto superior esquerdo (quarta linha da
tabela IFS) ocupa o endereço 13 e, portanto, é dado pela composição Ψ3 ◦ Ψ1. Assim, podemos
calcular os parâmetros de transformação algebricamente.
Ψ3(Ψ1(x, y)) = Ψ3(x/2, y/2) = (x/4, y/4 + 1/2) (3.5)
Agora vamos analisar o fractal apresentado no canto inferior direito da figura 3.6.
Temos que os quadrados vazios são o 41, 32, 23 e 14. Daqui concluímos que as transições
proibidas vão ser 4 → 1, 3 → 2, 2 → 3 e 1 → 4. Por isso já conseguimos construir o grafo
de transição presente no canto inferior esquerdo da figura 3.6. Analisando este grafo vemos que
não existe nenhuma rome, pois nenhum dos vértices tem setas a apontar para ele de todos os
vértices, incluindo ele próprio. Assim, com a primeira condição quebrada, este fractal não pode ser
construído por um IFS sem memória.
Observando o fractal representado no canto superior direito da figura 3.8 conseguimos identifi-
car várias cópias do fractal de escala cada vez mais pequena (temos duas cópias de escala 1/2 na
parte de baixo do fractal; e, à medida que vamos subindo, continuamos a ter sempre duas cópias
do fractal mas de escala cada vez menor, 1/4, depois 1/8 e por aí em diante). O que à partida
significa que este fractal pode ser desenhado com um IFS sem memória.
Ao contrário do que acontecia no primeiro fractal da figura 3.6, este não parece ser resolvido
facilmente sem memória. Pois temos cópias cada vez menores do fractal, infinitamente.
Vamos analisar o grafo de transição. Temos que os vértices 1 e 2 são romes, pois temos setas
de todos os vértices, incluindo eles próprios, a apontar para eles. O que deixa os vértices 3 e 4
como não romes.
Neste grafo, ao contrário do que acontecia no grafo de transição do fractal representado na parte
superior da figura 3.6, identificamos uma loop, 4 → 4, que dá origem a caminhos arbitrariamente
longos através dos vértices não-romes 3 e 4. Por exemplo,
2→ 3, 2→ 4→ 3, 2→ 4→ 4→ 3, 2→ 4→ 4→ 4→ 3, ... (3.6)
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN27
Fig. 3.8. Representação de grafos de transição de IFS (lado esquerdo) com os correspondentesfractais (lado direito)
Cada um destes é uma cópia pequena do fractal, que requer a sua própria regra numa constru-
ção do fractal sem memória. Esta loop (4 → 4) por vértices não-rome cria uma cascata infinita de
cópias mais pequenas. O que significa que o IFS correspondente teria que ter infinitamente muitas
regras. O que não é útil.
Para o grafo no canto inferior esquerdo da figura 3.8 vemos que 2 e 3 são romes, e que as
loops em 1, em 4 e entre 1 e 4 nos dão caminhos arbitrariamente longos entre não-romes. O
mesmo problema acontecia no exemplo anterior (topo da figura 3.8). E vimos que produzir um IFS
sem memória levava a uma coleção infinita de transformações. Mas neste caso ainda é pior.
A parte do atrator do IFS nos quadrados 1 e 4 do fractal é uma única linha reta, de modo algum
esta linha é uma cópia ou cópias de toda a forma do fractal, não importa quão reduzida. O problema
aqui é que nem o subquadrado 2 nem o 3 se alimentam do 1 e do 4. No grafo de transição, as
únicas setas com sentido para 1 e 4 são de 1 e 4. Isto gera a linha entre os cantos 1 e 4, e nada
mais. Evitar este problema é o motivo da condição 2.
É claro que podemos construir o IFS com combinações proibidas mais longas, por exemplo,
triplas proibidas que não precisam conter pares proibidos.
No capítulo seguinte vamos usar uma variação do IFS para procurar padrões em sequências de
dados. Estas investigações do IFS com memória vão-nos informar em relação às nossas tentativas
28FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
de descobrir quanto do passado precisamos saber para fazer previsões, talvez apenas probabilísti-
cas, sobre o futuro. (12) (17)
Capítulo 4
IFS guiados e análise de dados
4.1 IFS guiados
Se o algoritmo IFS aleatório for implementado com as transformações selecionadas por alguma
sequência específica de valores, chamamos a este algoritmo IFS guiado. A CGR de uma sequência
de ADN é um IFS guiado.
Mais uma vez vamos considerar as regras do IFS do quadrado.
Ψi(x, y) = (x/2, y/2) + (ei, fi) (4.1)
com as translações
(ei, fi) = (0, 0), (1/2, 0), (0, 1/2) e (1/2, 1/2) para i = 1, 2, 3, 4.
Onde todos os gráficos IFS guiados começam com (1/2, 1/2), o ponto no centro do quadrado.
As regras IFS quadradas Ψ1, Ψ2, Ψ3 e Ψ4 podem ser expressas como se se estivessem a mover
para metade do caminho dos cantos 1, 2, 3 e 4, ou seja, para os pontos (0, 0), (1, 0), (0, 1) e (1, 1).
As probabilidades afetam a dispersão dos dados nas representações de IFS. Se cada transfor-
mação tiver a mesma probabilidade vamos obter uma dispersão bastante uniforme dos pontos, mas
se alterarmos os valores das probabilidades vamos obter um resultado muito diferente. Sendo pi a
probabilidade da transformação Ψi, com i ∈ 1, 2, 3, 4, vamos atribuir, por exemplo, p1 = p4 = 0.4,
p2 = p3 = 0.1 para um fractal e p1 = 0.4, p2 = 0.3, p3 = 0.2, p4 = 0.1 para outro. Os fractais
obtidos estão representados na figura 4.1.
A partir destas probabilidades podemos fazer previsões sobre o padrão no IFS. Por exemplo,
no fractal do lado esquerdo da figura 4.1, a concentração densa de pontos entre os cantos 1 e 4 em
forma de linha diagonal, a imagem desta linha diagonal nos quadrados 2 e 3 e a escassez de pontos
entre os cantos 2 e 3 em forma de linha diagonal. E, no fractal do lado direito, a concentração de
pontos no canto 1 e a escassez deles no canto 4. Vemos também que a concentração de pontos é
maior em todos os subquadrados do fractal na parte 1 dos mesmos.
Vamos ver um exemplo de um IFS guiado por uma sequência da enzima amilase com uma
sequência com 3957 nucleótidos e tentar arranjar maneiras de o recriar.
Os padrões mais notáveis neste IFS guiado, apresentado na figura 4.2, são a diagonal que une
o canto 2 ao canto 3 e a escassez de pontos no quadrado 14. Tal como todos os quadrados que
30
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN31
Fig. 4.1. IFS com as regras do quadrado com probabilidades: no lado esquerdo: p1 = p4 = 0.4,p2 = p3 = 0.1; no lado direito: p1 = 0.4, p2 = 0.3, p3 = 0.2, p4 = 0.1
Fig. 4.2. Primeiro: IFS guiado pela sequência de ADN da amilase. Segundo: Substituto do IFSguiado por um IFS com memória, onde temos o par 14 proibido. Terceiro: Substituto do IFS guiadopor um IFS com memória, onde temos o par 14 proibido e com p1 ≈ 0.149, p2 ≈ 0.330, p3 ≈ 0.351e p4 ≈ 0.170
contenham a sequência 14 estão praticamente vazios. Os de comprimento 3 (141, 142, 143 e 144)
ainda conseguimos identificar bem na imagem que estão praticamente vazios, os de comprimento
maior já se torna mais complicado de observar mas sabemos que isto acontece pelo que foi visto
no capítulo 3.
Para recriarmos, o mais parecido possível, este IFS guiado vamos então proibir a composição
Ψ4 ◦ Ψ1. O resultado é mostrado na segunda imagem da figura 4.2. No entanto, ainda falta a
diagonal 2-3. Como vimos em cima, alterar as probabilidades das transformações pode criar este
tipo de padrão que queremos produzir (ver lado esquerdo da figura 4.1).
A segunda imagem foi construída com aproximadamente o mesmo número de pontos em cada
um dos quatro quadrados que são representados por endereços de comprimento 1. Vamos então
32FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
ajustar as probabilidades das transformações para representar com mais precisão a distribuição
real de bases na sequência da amilase.
Contando o número de bases diferentes na sequência de ADN, vamos ter de ter 589 pontos no
quadrado 1, 1305 no quadrado 2, 1389 no quadrado 3 e 674 no quadrado 4. Ou seja, sabendo que
esta sequência tem 3957 nucleótidos, vamos ter as probabilidades p1 = 589/3957 ≈ 0.149, p2 =
1305/3957 ≈ 0.330, p3 = 1389/3957 ≈ 0.351 e p4 = 674/3957 ≈ 0.170.
Juntando estas probabilidades ajustadas com a proibição da composição Ψ4◦Ψ1 temos o fractal
representado na terceira imagem da figura 4.2. Aqui já observamos uma diagonal 2-3 bastante
semelhante à do IFS guiado pela sequência da amilase.
4.2 IFS guiado por uma série temporal
Para mostrar a aplicabilidade mais ampla deste método, vamos agora ver como criar um IFS
guiado por uma série temporal. Uma série temporal é uma sequência de medições ordenadas
no tempo. Suponhamos, por exemplo, que temos uma sequência sucessiva de gerações de uma
população de uma determinada espécie num ambiente com recursos limitados. Em vez de regis-
trarmos o número real de elementos dessa espécie em cada geração, dizemos que x1, x2, ..., xnsão frações de cada geração da capacidade de carga, a população máxima suportada pelo meio
ambiente.
Queremos transformar isto numa sequência de instruções de 1s, 2s, 3s e 4s para guiar o IFS.
Para isso, vamos agrupar os dados, isto é, vamos dividir a série temporal em quatro partes de me-
didas. A estas divisões vamos chamar caixas. Como fazemos a divisão das medidas vai depender
de quais caraterísticas dos dados queremos enfatizar.
As divisões mais comummente utilizadas são criar caixas com o mesmo tamanho, com o mesmo
peso e centradas na mediana.
Vamos começar por analisar a divisão dos dados por caixas com o mesmo tamanho. Para isso,
tomamos o alcance R = max{x1} −min{x1} da série total e dividimos em quatro intervalos com
o mesmo comprimento. Isto é, temos as caixas:
B4 = [min{x1}+ 3R/4,max{x1}]
B3 = [min{x1}+R/2,min{x1}+ 3R/4]
B2 = [min{x1}+R/4,min{x1}+R/2]
B4 = [min{x1},min{x1}+R/4]
(4.2)
Vamos aplicar isto numa série temporal com 10000 pontos de um modelo que prevê gerações de
uma população de insetos, que está representada na figura 4.3. Aqui vemos já a série dividida em
4 caixas de igual comprimento, cuja separação das caixas é representada pelas linhas horizontais.
Para passarmos esta representação para a representação usual do IFS, para o caso de 4 trans-
formações (visto anteriormente), consideramos que, quando um ponto dos dados da série tem-
poral está dentro da caixa Bi, no IFS guiado aplicamos a transformação Ψi, não esquecer que
i ∈ {1, 2, 3, 4}. Assim, as transformações são aplicadas na ordem determinada pelos dados.
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN33
Fig. 4.3. Exemplo de uma série temporal com 10000 pontos de um modelo que prevê gerações deuma população de insetos, já com a divisão feita em caixas com o mesmo tamanho
Aplicando este método temos que o IFS guiado, correspondente à série temporal vista na figura
4.3, é o representado na figura 4.4.
Fig. 4.4. IFS guiado pela série temporal da figura 4.3
Cada quadrado vazio na representação do IFS corresponde a uma combinação de transforma-
ções proibidas.
Se formos identificar os quadrados vazios cujo endereço tem comprimento 2, vemos que estes
são: 21, 22, 31, 32, 23, 14, 33 e 44. Se agora formos ver os quadrados vazios com endereços de
comprimento 3, reparamos que estes são: 211, 311, 212, 312, 141, 441, 142, 442, 213, 313, 224,
324, 143, 443, 234 e 334.
Vemos que todas as sequências de comprimento 3 vazias contêm uma sequência de compri-
mento 2 vazia. De facto, cada quadrado vazio neste IFS é o resultado de algum par proibido.
Vamos agora dividir os dados em intervalos de igual peso. Aqui os limites são colocados de
forma a que cada caixa contenha aproximadamente o mesmo número de pontos.
Na figura 4.5 vemos a mesma série temporal representada na figura 4.3 mas desta vez dividida
em caixas com o mesmo peso.
Vamos querer comparar as representações do IFS guiado para as diferentes divisões da série
temporal. Na figura 4.6 vemos do lado esquerdo o IFS guiado pela série temporal dividida em caixas
de tamanho igual (já representado anteriormente na figura 4.4) e do lado direito vemos o IFS guiado
pela série temporal dividida em caixas de peso igual.
Comparando os dois fractais, observamos que o da direita é mais simétrico (em relação aos
quadrantes do quadrado unitário) do que o da esquerda. O que faz sentido, considerando que este
34FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
Fig. 4.5. Mesma série temporal representada na figura 4.3 mas com a divisão feita em caixas como mesmo peso
Fig. 4.6. Lado esquerdo: IFS guiado para a série temporal dividida em caixas de tamanho igualrepresentada na figura 4.3. Lado direito: IFS guiado para a série temporal dividida em caixas depeso igual representada na figura 4.5
IFS foi guiado por uma série temporal dividida em caixas com peso igual, ou seja, com mais ou
menos o mesmo número de pontos.
Analisando visualmente a densidade de pontos numa certa região, podemos estimar a probabi-
lidade de os pontos estarem localizados na combinação de caixas correspondentes a um determi-
nado endereço. A partir daqui podemos estimar probabilidades de certos comportamentos de um
sistema.
Já vimos a divisão dos dados de uma série temporal por caixas de tamanho igual e de peso
igual. Agora vamos ver divisão de caixas centradas na mediana. Ou seja, o limite entre as caixas
B2 e B3 é a mediana da série temporal. É usada a mediana em vez da média porque a presença
de valores extremos pode ter um efeito maior sobre a média do que sobre a mediana.
Na figura 4.7 vemos a representação de uma série temporal com quatro divisões por caixas
diferentes. A do canto superior esquerdo dividida em caixas de tamanho igual, a do canto superior
direito em caixas de peso igual, a do canto inferior esquerdo centrada na mediana onde os outros
dois limites do intervalo são 10% do intervalo dos valores acima e abaixo da mediana e no canto
inferior direito centrada na mediana onde os outros dois limites do intervalo são 5% acima e abaixo
da mediana.
Os correspondentes IFS’s estão representados na figura 4.8. Sendo a primeira imagem corres-
pondente à série temporal dividida em caixas de tamanho igual, a segunda em caixas de peso igual,
a terceira centrada na mediana onde os outros dois limites são 10% acima e abaixo da mesma e a
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN35
Fig. 4.7. Série temporal de um batimento cardíaco dividida em caixas de tamanho igual (cantosuperior esquerdo), peso igual (canto superior direito) e centradas na mediana (parte inferior dafigura)
quarta imagem centrada na mediana onde os outros dois limites são 5% acima e abaixo da medi-
ana.
Fig. 4.8. IFS’s guiados pelas diferentes divisões em caixas da série temporal representada na figura4.7
A forma Z no sentido reverso que conseguimos visualizar nos IFS guiados pela séria temporal
representada na figura 4.7 é usualmente encontrado em dados experimentais. (12) Este Z reverso
("backward Z") representa a constante movimentação de pontos dos dados entre caixas adjacentes.
Este atrator é mais visível na segunda e terceira imagem, o que nos leva a concluir que as divisões
em caixas da série temporal respetivas a estes IFS guiados estão com um número de pontos mais
ou menos igual em cada caixa.
No primeiro IFS guiado da figura 4.8 vemos que os pontos estão todos concentrados no seg-
mento de reta que une o canto 1 ao 2, o que nos leva a pensar que, na série temporal, a maioria dos
pontos encontram-se nas caixas B1 e B2. O que sabemos que é verdade pela figura 4.7. Para esta
série temporal, a divisão por caixas de tamanho igual não é muito útil. Como a maioria dos pontos
representados no IFS guiado estão todos concentrados no segmento de reta 1-2, não conseguimos
identificar muitos mais detalhes que podem estar presentes na sequência.
Temos também alguns pontos na diagonal 2-3, que nos diz que uma longa sequência de pontos
calham na caixa B2 e B3. Para além disto não podemos dizer muito mais sobre este IFS guiado, já
que o resto deste grafo está praticamente vazio.
36FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
Vamos passar para a análise do segundo IFS guiado pela série temporal dividida em caixas de
igual peso. Aqui os pontos já estão mais dispersos, mas os segmentos de reta 1-2 e 2-3 continuam
a ser visíveis. Agora, a concentração de pontos na diagonal 2-3 aumentou. E passamos também a
ter uma grande concentração de pontos no segmento de reta 3-4. Daqui concluímos que existe um
movimento frequente de pontos entre caixas adjacentes. Os pontos representados no fundo deste
IFS guiado representam os pontos que se encontram nas caixas B1 e B2, ou pontos consecutivos
numa única caixa, ou a alternação da sequência de pontos entre as duas caixas. Os representados
na diagonal 2-3 indicam exatamente a mesma coisa mas entre as caixas B2 e B3. E o mesmo para
o topo do IFS guiado, para as caixas B3 e B4.
Neste IFS guiado vemos também replicas da diagonal 2-3, com uma menor concentração de
pontos, nos quadrados com endereço 1 e 4. Que devem-se a aplicar a transformação Ψ1 e Ψ4,
respetivamente, aos pontos da diagonal 2-3.
No quadrado 4 vemos também mais replicas desta diagonal, com escala ainda menor. Isto é,
temos também uma replica desta diagonal no quadrado 44 e consequentemente no quadrado 444
e por aí fora. O que nos diz que muitas combinações de um 2 ou 3 podem ser seguidas por um,
dois ou mais 4’s. Por outro lado, apesar da grande abundância de pontos aqui, isto já não acontece
no quadrado 1. Por isso podemos deduzir que, exceto para pontos muito próximos ao canto 2,
pontos ao longo da diagonal 2-3 são raramente seguidos por dois ou três pontos consecutivos com
a sequência 1.
Contando o número de pontos em qualquer subquadrado (que tem uma certa sequência atri-
buída) do IFS, podemos estimar a probabilidade da combinação correspondente de caixas. Por
exemplo, uma série temporal que tenha 1000 pontos de dados, e que 200 desses pontos têm
sequência 111, então a probabilidade de se encontrar 3 pontos de dados consecutivos na caixa
1 é de 200/1000 = 0.2.
Vamos considerar que Njk é o número de pontos do IFS guiado com endereço jk, e que Nijk
é o número de pontos com o endereço ijk.
Se, por exemplo,
N(11) = 300, N(111) = 200, N(211) = 50, N(311) = 40, N(411) = 10,
então estimamos
Pr(1→ 1→ 1) = N(111)/N(11) = 200/300 ≈ 0.667 (4.3)
Pr(1→ 1→ 2) = N(211)/N(11) = 50/300 ≈ 0.167 (4.4)
Pr(1→ 1→ 3) ≈ 0.133 (4.5)
Pr(1→ 1→ 4) ≈ 0.033 (4.6)
Podemos dizer que se observarmos dois pontos consecutivos na caixa 1, então 2/3 das vezes
o próximo ponto também se vai encontrar na caixa 1.
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN37
O terceiro e quarto IFS guiado da figura 4.8 são fruto da divisão da série temporal por caixas
centrada na mediana. Ao contrário das caixas de tamanho e peso igual, que só nos permitem uma
maneira de classificar os dados, as centradas na mediana dão-nos uma coleção de estratégias de
classificação. Uma estratégia diferente para cada posicionamento dos limites entre as duas últimas
e entre as duas primeiras caixas.
Colocar os dois limites externos próximos da mediana empurra a maioria dos pontos de dados
para as caixas 1 e 4, dando uma visão mais detalhada dos pontos nas posições 2 e 3. Mover os
limites externos para fora empurra a maioria dos pontos para as caixas 2 e 3 , dando uma visão
mais detalhada dos pontos nos compartimentos 1 e 4. Na terceira imagem da figura 4.8 os limites
externos estão mais distantes da mediana, na quarta, mais próximos. Estudar como a ocupação de
caixas muda à medida que os limites de caixas são movidos pode fornecer uma imagem detalhada
das relações dinâmicas que geraram os dados.
Temos de ter em atenção que um IFS guiado não gera novas informações. Cada bit do IFS
guiado vem da série temporal. Mas a facilidade com o que o vemos depende de como os dados
são apresentados.
4.3 Análise da série temporal
Para melhor reconhecimento de padrões vamos analisar séries temporais em que os dados
mudam abruptamente e ver o que isso implica no IFS guiado.
Na figura 4.9 vemos uma série temporal que pode ser dividida em cinco regimes (A, B, C, D e E).
No primeiro regime (A), os pontos estão espalhados aleatoriamente nas as caixas B1, B3 e B4. Em
B, todos os pontos encontram-se na caixa B3. Em C, os pontos estão espalhados aleatoriamente
nas caixas B2 e B3. Em D, os pontos estão todos concentrados na caixa B2. E em E, os pontos
estão espalhados aleatoriamente nas as caixas B1, B2 e B4.
Fig. 4.9. Série temporal dividida em regimes
O IFS guiado por esta série temporal está representado na figura 4.10.
Como os pontos do regime A situam-se nas caixasB1, B3 eB4 em muitas combinações, vamos
ter pontos no IFS guiado nos cantos 1 (ponto (0, 0)), 3 (ponto (0, 1)) e 4 (ponto (1, 1)); o fractal
gerado por Ψ1, Ψ3 e Ψ4. O regime B produz pontos no IFS guiado a convergir para o canto 3. O
regime C produz pontos no IFS guiado na diagonal 2-3. O regime D cria pontos no IFS guiado a
convergir para o canto 2. E, por fim, o regime E produz pontos no IFS guiado nos cantos 1, 2 e 4.
Se não reconhecermos estes regimes, deparamo-nos com alguma dificuldade quando tentamos
38FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
Fig. 4.10. IFS guiado da série temporal representada na figura 4.9
interpretar o IFS guiado. Nenhum conjunto único de combinações proibidas de caixas consegue
produzir este padrão específico.
Vemos que nenhum quadrado com sequência de comprimento 2 está vazio, por isso teríamos
de procurar um com sequência de tamanho 3. Mas mesmo isto não seria suficiente. Íamos ter
que proibir sequências arbitrariamente longas (por exemplo, proibir 141, 1441, 14441, etc.), uma
abordagem que raramente fornece uma descrição simples da forma.
Uma indicação deste problema é a não repetição da diagonal 2–3 em nenhum outro quadrado.
Isto pode indicar uma mudança na natureza do processo que está a ser medido. Embora a mudança
de regime seja bastante óbvia neste caso (existem séries temporais em que a mudança de regime
não é tão óbvia), quando começamos a estudar o IFS guiado, não esperávamos ser capazes de
ver as mudanças nos processos de criação dos dados.
Capítulo 5
Resultados e trabalhos futuros
Neste capítulo, encontram-se representações de sequências de ADN através do Jogo do Caos
geradas por mim. As sequências de ADN para estas representações foram retiradas da base de
dados da plataforma Genbank(23).
Nos anexos C encontram-se mais representações de sequências de ADN, de diferentes tipos
de cancro e de vírus, através do Jogo do Caos.
As sequências de ADN que vamos analisar variam entre certos grupos de genes e o nosso
objetivo é identificar padrões distintos entre cada uma destas CGR dos diferentes grupos.
Os números apresentados em cima de cada imagem das CGR para cada sequência de ADN
correspondem ao número de divisões em quatro feitas no quadrado (k). Vimos isto no capítulo 2.
Ao lado de cada fractal está representada a barra de cores, que exibe o mapa de cores do gráfico
e indica o mapeamento de valores de dados neste mapa.
Foi escolhido retratar os gráficos numa escala cinzenta (onde o branco representa o vazio e o
preto indica a incidência de pontos). Uma vez que a análise destes torna-se mais facilitada com
esta escala de cores.
O código utilizado para estas representações encontra-se nos anexos A e foi baseado num
código disponível em (1), (21) e (22).
Nas representações vamos considerar a divisão em quadrados vista na figura 3.1.
Foram analisadas seis sequências de ADN. Uma delas sendo parte do genoma do cromossoma
21 de um Homo sapiens (5.1), outra de uma hemoglobina humana (5.2), do genoma completo de
uma mitocôndria de um Homo sapiens (5.3), do genoma completo de um microrganismo (Archaeo-
globus fulgidus, 5.4), do genoma completo de uma bactéria (Mycobacterium tuberculosis, 5.5) e do
genoma completo de outra bactéria (Photorhabdus asymbiotica, 5.6).
Para cada uma destas sequências de ADN foi calculada a incidência de cada nucleótido.
Foram também calculadas as frequências de cada 3-mer das sequências de ADN analisadas.
As respetivas tabelas encontram-se nos anexos B. Pela análise destas tabelas concluímos que a
3-mer ’AAA’ é muito frequente para a maioria das sequências que consideramos, tirando o caso
da bactéria Mycobacterium tuberculosis. Em que aqui, esta k-mer é uma das menos frequentes.
A 3-mer ’TTT’ também tem o seu valor de frequência bastante elevado, tirando, mais uma vez, no
caso da bactéria Mycobacterium tuberculosis, onde a sua incidência é bastante baixa.
40
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN41
5.1 CGR da sequência de ADN do cromossoma 21 de um Homo Sapi-
ens
Fig. 5.1. CGR da sequência de ADN no cromossoma 21 de um Homo sapiens para k = 2, 4, 6 e 8
42FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
A sequência representada na figura 5.1 pertence ao genoma do cromossoma 21 de um Homo
sapiens.
5.1.1 Probabilidades dos nucleótidos
Esta sequência de ADN é composta por 556177 bp. Dos quais 177286 são nucleótidos A, 106026
nucleótidos C, 102428 G’s e 170437 T’s. Logo, as probabilidades de ocorrência de cada nucleótido
são, aproximada e respetivamente, 0.319, 0.191, 0.184 e 0.306.
5.1.2 Análise do fractal
Se nos focarmos no segundo e terceiro fractal da figura 5.1 conseguimos identificar mais nitida-
mente o padrão desta CGR. Observamos algumas áreas vazias nestas representações.
A caraterística mais óbvia é a área quase vazia no quadrado com endereço 43, que corresponde
a GC, assinalada a azul na figura 5.2.
Fig. 5.2. CGR assinalado com o "duplo furo"; lado esquerdo k = 4, lado direito k = 6
Uma cópia menor deste vazio aparece no canto superior direito, mais especificamente no sub-
quadrado com endereço 34 (CG), identificado a vermelho na figura 5.2. O conjunto destes dois
vazios tem a aparência de um duplo furo.
Este "duplo furo"corresponde a uma dispersão comparativa da guanina (G) após a citosina (C)
na sequência do gene.
Observamos também mais cópias do que designamos em cima por “duplo furo”, uma no qua-
drado com endereço 1 e outra no quadrado 2, rodeadas a roxo na figura 5.2.
Além disso, isto continua. Se examinarmos a imagem em tiras horizontais (em metades, quar-
tos, etc.), vemos que no topo de cada quarto da tira há quatro cópias; no topo de cada oitava tira
há oito, e por aí em diante (ver figura 5.2).
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN43
No lado esquerdo da imagem 5.2, com k = 4, só conseguimos identificar até quatro cópias
do "duplo furo"seguidas numa tira horizontal. Mas, para um k maior, imagem do lado direito, já
conseguimos identificar um número maior de cópias. Ou seja, quanto maior o k, maior a precisão
da representação do jogo do caos.
Estas repetições do "duplo furo"exibem a propriedade da auto similaridade, um conceito muito
importante no estudo de fractais e dinâmicas caóticas. Formalmente, uma figura é auto similar se
um subconjunto dela, com a mudança apropriada de escala, tiver a mesma forma que a figura geral.
(7)
Para além deste "duplo furo"é também observável uma cruz de pontos formada nas diagonais
que ligam o canto 1 do quadrado ao canto 4 e o canto 2 ao 3. Salvo isto, também presenciamos
linhas horizontais de pontos ao longo do fractal, cujas mais visíveis são: a linha horizontal corres-
pondente ao topo dos quadrados com endereço 1 e 2; a linha horizontal que coincide ao topo dos
quadrados com endereço 11, 21, 12 e 22; a linha horizontal que se combina ao fundo dos quadra-
dos com endereço 11, 21, 12 e 22 (ou ao topo dos quadrados com endereços de comprimento 3
que se localizam na linha inferior do fractal); e a linha horizontal no fundo do quadrado unitário.
Tal como o que acontecia com o "duplo furo", estas linhas horizontais também exibem a propri-
edade de auto similaridade, pois estão a repetir-se no fractal numa escala gradual.
Observando agora a CGR com k = 2, primeira imagem da figura 5.1, distinguimos que nos
quadrados com endereço 11 e 22 é onde se localizam a maioria dos pontos. O que nos delineia a
existência de mais nucleótidos A e T do que dos restantes. Isto foi comprovado em cima no cálculo
das probabilidades.
Surge-nos a questão: mas será que este padrão é típico de um genoma humano ou foi apenas
uma coincidência? Vamos analisar outra sequência de ADN humano em 5.2.
5.1.3 Ajuste de probabilidades
Constatamos em cima que as probabilidades de ocorrência dos nucleótidos não estão em har-
monia, ou seja, não são todas 0, 25. Assim sendo, na criação de um IFS vamos ajustar as probabi-
lidades das transformações para as calculadas anteriormente.
Se alterarmos então as probabilidades das transformações do IFS para as calculadas em cima,
não esquecendo que p1 corresponde à probabilidade da base A surgir, p2 à probabilidade da base
T ocorrer, p3 do nucleótido C e p4 da base G; obtemos o IFS representado no lado direito da figura
5.3.
Fixando o IFS da figura 5.3 (lado direito) vemos que este se decompõe em linhas horizontais de
pontos. Algumas delas são também visíveis na CGR, representada no lado esquerdo. É também
identificada uma dispersão maior de pontos no topo do IFS, tal como no topo da CGR. No entanto,
na CGR esta dispersão de pontos é retratada na forma de "duplo furo"e não em tiras horizontais.
44FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
Fig. 5.3. lado esquerdo: CGR da sequência de ADN, lado direito: IFS com p1 = 0.319, p2 = 0.306,p3 = 0.191 e p4 = 0.184
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN45
5.2 CGR da sequência de ADN de uma hemoglobina humana
Fig. 5.4. CGR da sequência de ADN de uma hemoglobina humana para k = 2, 4, 6 e 8
46FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
A sequência evidenciada na figura 5.4 pertence a uma hemoglobina humana.
5.2.1 Probabilidades dos nucleótidos
Mais uma vez vamos expor uma CGR de uma sequência de ADN humano. Esta tem 1552 bp.
Temos que nesta sequência de ADN existem 447 A’s, 271 C’s, 299 G’s e 535 T’s. Logo, as
probabilidades de ocorrência de cada nucleótido são, aproximada e respetivamente, 0.288, 0.174,
0.193 e 0.345.
As probabilidades pi, i ∈ 1, 2, 3, 4, desta sequência de ADN são próximas das calculadas em
5.1.1 para a sequência de ADN de um Homo sapiens.
5.2.2 Análise do fractal
Nesta sequência de ADN contemplamos um atrator homólogo ao da sequência anterior. Apesar
de, nesta representação do jogo do caos, o atrator não ser tão perceptível como o da representação
5.1 é possível identificar analogamente os "duplos furos"ao longo do fractal (ver figura 5.5).
O facto de possuirmos uma sequência de ADN com um número de pares de bases inferior ao da
sequência de ADN anterior, contribui para a falta de perceptividade do fractal. Pois menos pontos
são desenhados. No entanto, isto não é um impedimento para a visualização do seu atrator.
Fig. 5.5. CGR da sequência de ADN de uma hemoglobina humana assinalado com o "duplo furo";lado esquerdo k = 4, lado direito k = 6
Pela análise da CGR com k = 2 (primeira imagem da figura 5.4) averiguamos que a maioria
dos pontos encontram-se no quadrado com endereço 22. O que nos transmite que esta sequência
de ADN é composta maioritariamente por bases T.
Neste fractal é-nos também possível reconhecer, contudo desta vez com algum afinco, as dia-
gonais de pontos que ligam o vértice 1 ao 4 e o 2 ao 3; a linha horizontal no topo dos quadrados
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN47
com sequência 1 e 2; a reta horizontal no topo dos quadrados 11, 21, 12 e 22; e a linha horizontal
no fundo do quadrado unitário (ver CGR com k = 6 da figura 5.4).
Na CGR com k = 8 pouco podemos arrematar. Como temos um número reduzido de bp’s nesta
sequência de ADN e uma divisão em subquadrados elevada, a quantidade de pontos em cada
subquadrado é bastante diminuta.
5.2.3 Ajuste de probabilidades
Se na criação de um IFS para um quadrado alterarmos as probabilidades para as calculadas
acima, obtemos o IFS apresentado no lado direito da figura 5.6.
Fig. 5.6. lado esquerdo: CGR da sequência de ADN de uma hemoglobina humana, lado direito:IFS com probabilidades 0.288, 0.174, 0.193 e 0.345 para os nucleótidos A, C, G e T, respetivamente
No IFS do lado direito da figura 5.6, a única semelhança que encontramos com a CGR da
sequência de ADN é o facto de nas zonas superiores dos subquadrados termos um menor aglome-
rado de pontos. No caso da CGR, esta carência de pontos é representada pelo que apelidamos de
"duplo furo", enquanto que no IFS, é exprimida por linhas horizontais.
48FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
5.3 CGR da sequência de ADN de uma mitocôndria de um Homo sapi-
ens
Fig. 5.7. CGR da sequência de ADN de uma mitocôndria de um Homo sapiens para k = 2, 4, 6 e 8
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN49
Mais uma vez vamos figurar uma sequência de ADN pertencente a um humano. Esta sequência,
exposta na figura 5.7, é de uma mitocôndria de um Homo sapiens (humano).
5.3.1 Probabilidades dos nucleótidos
Esta sequência de ADN porta 16571 bp. Dispomos de 5113 nucleótidos A, 5192 nucleótidos C,
2180 nucleótidos G e 4086 nucleótidos T. Por conseguinte, as probabilidades de ocorrência de cada
nucleótido são, respetiva e aproximadamente, 0.308, 0.313, 0.132 e 0.247.
Confrontando com as probabilidades das duas sequências de ADN humanas anteriores, aqui
constatamos que a probabilidade de ocorrência do nucleótido C é mais elevada.
5.3.2 Análise do fractal
Esta sequência, apesar de também pertencer a um humano, não ostenta o mesmo padrão que
as duas vistas anteriormente (em 5.1 e 5.4).
Estudando a CGR desta sequência de ADN vemos que o quadrado com o endereço 4 está pra-
ticamente despojado de pontos. Sabemos que o quadrado 4 corresponde ao nucleótido G. Daqui
consumamos que a base G encontra-se em menor porção no genoma de um Homo sapiens, hu-
mano. O que já depreendemos em cima como veracidade, na análise estatística desta sequência.
Se formos conjeturar o padrão do fractal, ou seja, identificar o seu atrator, vislumbramos que
este propende a criar triângulos vazios. Estando o maior triângulo vazio posicionado em toda a
parte superior da diagonal que acopla os vértices 2 e 3.
Uma versão de escala menor deste triângulo encontra-se na parte superior do quadrado 1. Três
versões mais pequenas são visíveis nos quadrados com endereços 11, 21, 31 (ver figura 5.8).
Se observarmos minuciosamente, conseguimos ainda detetar triângulos vazios com uma escala
reduzida nos quadrados cujo endereço tem comprimento 3.
Fig. 5.8. Divisão em triângulos da CGR com k = 6 da sequência de ADN de uma mitocôndria deum Homo sapiens
50FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
Deste fractal findamos que qualquer quadrado com endereço cujo prefixo seja 1, vai fruir da sua
parte superior (em relação à diagonal) do quadrado praticamente desguarnecida.
Constatamos assim um padrão neste fractal, que lembra, de certa forma, o triângulo de Sier-
pinski.
Vamos realizar comparações com o triângulo de Sierpinski. Na figura 5.9 temos a CGR da figura
5.7 do lado esquerdo e do lado direito o IFS do triângulo, mas com uma rotação de 90◦ no sentido
anti-horário em relação à origem - ou, visto de outra maneira, o triângulo de Sierpinski com origem
no canto inferior esquerdo do quadrado.
Fig. 5.9. lado esquerdo: CGR da sequência de ADN de uma mitocôndria de um Homo sapiens,lado direito: IFS do triângulo
O triângulo de Sierpinski é concebido com apenas três transformações, enquanto que, a CGR
do genoma humano é gerada com quatro, uma vez que existem quatro nucleótidos diferentes.
No entanto, como constatamos no início desta secção (5.3.2), este genoma tem um número re-
duzido de bases G. Se proibíssemos esta transformação (proibir a transformação Ψ4), disponhamos
de uma figura onde apenas as transformações Ψ1, Ψ2 e Ψ3 eram efetuadas. E, estas transforma-
ções, são equivalentes às do IFS para o triângulo, se o triângulo debutar do canto inferior esquerdo.
Ou seja, se dispuser de um código IFS como o representado na tabela 5.1.
Tabela 5.1: Código IFS para o triângulo de Sierpinski, com início no canto inferior esquerdo doquadrado
r θ φ s e f
0.5 0 0 0.5 0 00.5 0 0 0.5 0 0.50.5 0 0 0.5 0.5 0
Daqui as semelhanças entre os dois fractais representados na figura 5.9. Todavia, o nucleótido
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN51
G, mesmo em escassa quantidade, está presente na sequência de ADN humano e, apesar de não
manipular o atrator do fractal, influencia na sua representação. No lado esquerdo da figura 5.9,
acima da diagonal 2-3, que estaria totalmente vazia se a transformação Ψ4 fosse reprimida, ainda
presenciamos alguns pontos.
Se observarmos com prudência o lado esquerdo da figura 5.9, somos capazes de reconhecer
uma espécie de reflexão, onde o eixo de reflexão é a diagonal 2-3. Contudo, onde num lado (inferior
à diagonal 2-3) nutrimos de triângulos parcialmente vazios, no outro lado do eixo de reflexão (supe-
rior à diagonal 2-3) reunimos triângulos moderadamente preenchidos. E isto sem considerarmos a
densidade de pontos nas duas metades do quadrado unitário (dividido pela diagonal 2-3), pois esta
é muito mais escassa na parte superior do eixo de reflexão.
5.3.3 Ajuste de probabilidades
Se na elaboração de um IFS para um quadrado metamorfoseamos as probabilidades para as
calculadas em 5.3.1, obtemos o IFS exibido no lado direito da figura 5.10.
Fig. 5.10. lado esquerdo: CGR da sequência de ADN de uma mitocôndria de um Homo sapiens,lado direito: IFS com probabilidades 0.308, 0.313, 0.132 e 0.247 para os nucleótidos A, C, G e T,respetivamente
Constatamos várias semelhanças entre a CGR da sequência e o IFS produzido ajustando as
probabilidades para as calculadas a cima.
Comparando estes dois fractais (figura 5.10) reconhecemos, em ambos, a formação de triângu-
los vazios. Porém, na parte superior da diagonal 2-3 do IFS representado no lado direito, desfruta-
mos de uma maior concentração de pontos do que na CGR (representada do lado esquerdo).
52FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
5.4 Archaeoglobus fulgidus DSM 4304
Fig. 5.11. CGR da sequência de ADN de uma Archaeoglobus fulgidus DSM 4304 para k = 2, 4, 6e 8
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN53
Archaeoglobus fulgidus é um género de microorganismo hipertermófilo. É morfologicamente
semelhante a uma bactéria (são ambos seres procariontes) mas genética e bioquimicamente tão
distinto destas como dos eucariontes.
5.4.1 Probabilidades dos nucleótidos
A sequência de ADN retirada da base de dados do Genbank deste microorganismo é composta
por 2178400bp. Das quais 562096 são bases A, 527300 bases C, 531003 bases G e 558001 bases T.
Logo as probabilidades de ocorrência de cada nucleótido são, aproximada e respetivamente, 0.258,
0.242, 0.244 e 0.256.
Destas probabilidades contemplamos que o número de bases está bem distribuído. Uma vez
que todas elas são muito próximas de 1/4.
5.4.2 Análise do fractal
O padrão mais óbvio neste fractal é a cruz representada no meio do mesmo, unindo o vértice
1 ao 4 e o vértice 2 ao 3. Se fitarmos mais atentamente também somos capazes de identificar
linhas paralelas a ambas as diagonais. Especialmente no quadrado com endereço 1, aqui temos
três paralelas bastante visíveis à diagonal 2-3. Isto deve-se a uma replicação da diagonal 2-3 em
diferentes escalas. Ou seja, é aplicada a transformação Ψ1 à diagonal 2-3 e, em seguida, volta a
ser executada a transformação Ψ1 ao resultado que foi obtido. E, a este, é mais uma vez adotada
a transformação Ψ1. Este procedimento desenrola-se, obtendo réplicas da diagonal cada vez mais
pequenas, com menos espaçamento entre si e mais próximas do vértice 1. Se olharmos para o
fractal obtido pela CGR com k = 6 da figura 5.11 constatamos um aglomerado de réplicas da
diagonal 2-3 junto do vértice 1.
Este aglomerado de réplicas da diagonal 2-3 no canto inferior esquerdo do quadrado com en-
dereço 1 também se processa no quadrado 2. Mas, desta vez, são réplicas da diagonal 1-4 e estão
localizadas no canto inferior direito do quadrado 2.
Estes dois aglomerados de réplicas das diagonais são os responsáveis pela alta concentração
de pontos nos quadrados cujos endereços são 11 e 22, vista na CGR com k = 2 da figura 5.11.
Aqui, estes quadrados afiguram a cor preta, que simboliza a vasta concentração de pontos nestes
quadrados.
Se nos limitássemos a fazer a representação com k = 2 eramos propensos a cometer vários
erros. Precisamos de k’s maiores para obtermos uma maior precisão da distribuição dos dados e,
consequentemente, melhor análise dos seus padrões.
Se olhássemos somente para a CGR com k = 2 eramos inclinados a afirmar que o quadrado
com endereço 12 se encontrava vazio (por este estar representado a branco) e, daqui, deduzir
que a composição Ψ2 ◦ Ψ1 era proibida na criação deste fractal. No entanto, era uma conclusão
precipitada, pois se analisarmos as CGR com k’s maiores constatamos que isto não é verdade.
Apesar disso, poucos pontos estão presentes neste quadrado. Mas, nos fractais com k = 6 e k = 8
conseguimos identificar neste quadrado uma réplica de escala 1/4 de todo o fractal - contornada a
vermelho na figura 5.12.
54FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
Fig. 5.12. Cópias de menor escala de todo o fractal representado pela CGR da sequência de ADNde um Archaeoglobus fulgidus DSM 4304 com k = 8
De facto, se avaliarmos com muita atenção o fractal, deparamo-nos com diversas replicas mais
pequenas do fractal original. Praticamente todos os quadrados com endereços de comprimento 2
são uma cópia de escala menor de todo o fractal. Temos também replicas de escala ainda menor.
Por exemplo, as sublinhadas a azul na figura 5.12 - com escalas 1/2, 1/4, 1/8, 1/16, etc. - a tender
para o vértice 4 do quadrado unitário.
Averiguando os fractais com k = 4, 6 e 8 da figura 5.11, conseguimos apontar alguns subqua-
drados vazios - na extremidade direita do quadrado com endereço 3, em cima e em baixo, e na
extremidade esquerda do quadrado 4, em cima e em baixo. Na figura 5.13 encontra-se a divisão
do quadrado para melhor percepção de quais os subquadrados vazios.
Testemunhamos que os quadrados com endereço 4343, 4123, 3434 e 3214 estão vazios. Se
analisarmos as ilustrações com k’s maiores da figura 5.11 conseguimos contemplar estes quadra-
dos vazios. Assim, podemos afirmar (não com toda a veracidade, uma vez que em representações
com k’s maiores poderíamos deparar-nos com pontos nestes subquadrados) que as composições
Ψ3 ◦Ψ4 ◦Ψ3 ◦Ψ4, Ψ3 ◦Ψ2 ◦Ψ1 ◦Ψ4, Ψ4 ◦Ψ3 ◦Ψ4 ◦Ψ3 e Ψ4 ◦Ψ1 ◦Ψ2 ◦Ψ3 são proibidas.
5.4.3 Ajuste de probabilidades
Se na geração de um IFS para um quadrado alterarmos as probabilidades para as calculadas a
cima, obtemos o IFS ilustrado no lado direito da figura 5.14.
Como as probabilidades são todas muito próximas de 1/4 já era de esperar obtermos um IFS
com os pontos distribuídos uniformemente - um quadrado preenchido com pontos aleatórios sem
nenhum padrão visível. Por isso, nada rematamos com esta representação.
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN55
Fig. 5.13. Divisão em quadrados do fractal dado pela CGR da sequência de ADN de uma Archae-oglobus fulgidus DSM 4304 com k = 4
Fig. 5.14. lado esquerdo: CGR da sequência de ADN, lado direito: IFS com probabilidades 0.258,0.242, 0.244 e 0.256 para os nucleótidos A, C, G e T, respetivamente
56FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
5.5 Mycobacterium tuberculosis
Fig. 5.15. CGR da sequência de ADN de uma Mycobacterium tuberculosis para k = 2, 4, 6 e 8
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN57
Mycobacterium tuberculosis é uma espécie de bactéria patogênica causadora da maioria dos
casos de tuberculose.
5.5.1 Probabilidades dos nucleótidos
A sequência de ADN analisado possui 4412379 bp. Dos quais 759079 são nucleótidos A,
1450449 nucleótidos C, 1444433 nucleótidos G e 758418 nucleótidos T. Daqui depreendemos que as
probabilidades de ocorrência de cada nucleótido são, aproximada e respetivamente, 0.172, 0.329,
0.327 e 0.172.
5.5.2 Análise do fractal
Nesta CGR (5.15) reconhecemos uma cruz no centro do fractal, tal como na representação
exibida na figura 5.11. Contudo, ao contrário do que acontecia anteriormente, aqui a cruz é formada
pela inexistência de pontos nessa região.
Também como na figura anterior (figura 5.11) este fractal está coberto de replicas dele próprio,
em escalas menores. O que nos leva, mais uma vez, a comprovar a auto similaridade num fractal.
Percebemos um maior aglomerado de pontos no topo do quadrado unitário. O que é lógico, uma
vez que esta sequência de ADN é mais abundante em nucleótidos C e G do que dos restantes.
No topo dos quadrados com endereço 1 e 2 conseguimos também diferenciar uma concentração
de pontos. Deve-se ao facto de existirem muitos C’s e G’s após T’s (para o quadrado 1) e A’s (para
o quadrado 2).
Reparamos que a parte inferior do fractal, em todas as suas CGR mostradas na figura 5.15,
está praticamente vazia. Mais uma vez, isto é devido ao facto do número reduzido de bases A e T
em relação às outras bases.
5.5.3 Ajuste de probabilidades
Alterando as probabilidades do IFS de um quadrado coberto com pontos aleatórios para as
calculadas em 5.5.1, obtemos o IFS apresentado no lado direito da figura 5.16.
Estudando a figura 5.16 reparamos que em ambos os fractais, temos uma concentração maior
de pontos no topo do quadrado unitário.
Aliás, se dividirmos ambos os fractais em subquadrados de tamanho menor, somos capazes de
diferenciar um conjunto de pontos que detêm a forma de linhas horizontais. Estes conjuntos surgem
no topo de todos estes subquadrados. Isto deve-se ao facto de os nucleótidos C e G seguirem os
restantes nucleótidos muitas vezes.
58FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
Fig. 5.16. lado esquerdo: CGR da sequência de ADN de uma Mycobacterium tuberculosis, ladodireito: IFS com probabilidades 0.172, 0.329, 0.327 e 0.172 para os nucleótidos A, C, G e T, respeti-vamente
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN59
5.6 Photorhabdus asymbiotica
Fig. 5.17. CGR da sequência de ADN de uma Photorhabdus asymbiotica para k = 2, 4, 6 e 8
60FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
Photorhabdus asymbiotica é uma bactéria conhecida por ser patogênica para uma ampla gama
de insetos e ser usada como biopesticida na agricultura.
5.6.1 Probabilidades dos nucleótidos
A sequência de ADN desta bactéria é portadora de 5064808 bp. Onde 1459060 são nucleótidos
A’s, 1070603 C’s, 1064347 G’s e 1470798 T’s. Daqui, as probabilidades de ocorrência de cada
nucleótido são, aproximada e respetivamente, 0.288, 0.211, 0.210 e 0.291.
5.6.2 Análise do fractal
Esta CGR (5.17) não tem nenhum padrão próprio que seja marcante. Nas representações
anteriores fomos deslumbrados com "duplo furos", triângulos vazios e cruzes; nesta CGR, os pontos
aparentam estar distribuídos aleatoriamente. Com uma maior concentração destes no fundo do
quadrado unitário e numa paralela a esta linha que é apresentada no meio do fractal.
5.6.3 Ajuste de probabilidades
Se na criação de um IFS para um quadrado substituirmos as probabilidades para as calculadas
a cima, obtemos o IFS apresentado no lado direito da figura 5.18.
Fig. 5.18. CGR da sequência de ADN de uma Photorhabdus asymbiotica (lado esquerdo); IFS comprobabilidades 0.288, 0.211, 0.210 e 0.291 para os nucleótidos A, C, G e T, respetivamente (ladodireito)
Temos em ambas as imagens da figura 5.18 uma maior concentração de pontos no fundo do
quadrado unitário. E, também somos capazes de vislumbrar nos dois fractais linhas horizontais
formadas por pontos.
Conclusões
As relações conhecidas entre a representação do jogo do caos (CGR) e uma sequência de ADN
são as retratadas em seguida.
O k-ésimo ponto representado na CGR de uma sequência corresponde à primeira subsequência
inicial de comprimento k, e nenhuma outra subsequência. Assim, há uma correspondência um-
para-um entre as subsequências de um gene e pontos do CGR.
Assim qualquer padrão visível na CGR corresponde a algum padrão na sequência de bases.
Conforme observado, a resolução da tela do computador limita os detalhes que podem ser
mostrados em qualquer um dos CGRs. No entanto, como com todos os fractais, incluindo aqueles
gerados por códigos IFS, qualquer parte da imagem pode ser ampliada, revelando uma melhor
estrutura. Esta ampliação é sem limite (desde que haja mais bases na sequência).
Quanto maior o k maior, maior a precisão da CGR.
Bases adjacentes na sequência não são desenhadas adjacentes umas às outras (exceto quando
o primeiro ponto está próximo a um vértice e a próxima base é a mesma que a anterior). Estar pró-
ximo no CGR não significa estar próximo na sequência. A distância euclidiana no CGR implica,
portanto, uma nova métrica em subsequências ou bases.
Se dois pontos estão dentro do mesmo quadrante, correspondem a sequências com a mesma
última base; se estão no mesmo sub-quadrante, as sequências têm as mesmas últimas duas bases;
e por aí em diante.
Num CGR cujo lado tem comprimento 1, duas sequências com sufixo de comprimento k estão
contidas no quadrado com lado de comprimento 2−k. Além disso, o centro do quadrado é dado
pela seguinte definição recursiva:
• O centro do sufixo de comprimento 0 é (1/2, 1/2).
• Se o centro do quadrado que contem sequências com o sufixo W for em (x, y), então
– O centro do quadrado contendo sequências com o sufixo WA é (x / 2, y / 2);
– O centro do quadrado contendo sequências com sufixo WC é (x / 2, (y + 1) / 2);
– O centro do quadrado contendo sequências com o sufixo WG está em ((x + 1) / 2, (y +
1)/ 2);
– O centro do quadrado contendo sequências com sufixo WT está em ((x + 1) / 2, y / 2).
Por outro lado, todos os pontos dentro deste quadrado correspondem a sequências com este
sufixo.
62
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN63
Uma densidade (ou escassez) de pontos em uma região corresponde a um grande (ou pequeno)
número de sequências com sufixos correspondentes à região. Para além disso, como cada região
quadrada (sub, sub-sub, etc. quadrante) corresponde a um sufixo específico, qualquer região densa
(ou esparsa) corresponde à união de S1, S2, . . ., em que Si é o conjunto de sequências com sufixo
i.
Devido à correspondência entre os pontos no CGR e a sequência, qualquer caracterização
matemática do CGR é uma caracterização da sequência subjacente.
Por exemplo, pode ser possível encontrar uma técnica para produzir uma descrição matemática
do CGR de uma sequência, usando conceitos da teoria IFS. Se tal técnica puder ser encontrada,
será uma técnica para produzir uma descrição da sequência de ADN.
Como resultado destas observações, podemos dizer que, num sentido intuitivo, o CGR re-
presenta tanto propriedades estatísticas de frequências de bases como também propriedades de
sequencialidade - isto é, quais bases seguem outras, imediatamente ou mais tarde no gene.
Geralmente, cerca de 4.000 pares de bases são necessários para uma imagem nitidamente
definida, embora em muitos casos 2000 forneçam uma aproximação razoavelmente boa.
Muitas características da sequência genética são exibidas por uma subsequência inicial e, por-
tanto, a análise de toda a sequência pode não acrescentar novas informações.
Como trabalhos futuros era importante analisar mais afincadamente a frequência destas 3-mers
- e talvez mesmo k-mers (para um k > 3) - para tentarmos responder a perguntas como: determina-
das espécies são mais abundantes de um determinado 3-mer que outras? O que um determinado
3-mer de uma sequência de ADN nos pode informar sobre o seu portador?
Era também importante criar um código que calculasse as repetições em tandem, apresentadas
no capítulo 2, e proceder à sua investigação.
Outro código que poderia ser proveitoso era, na criação do IFS de um quadrado, proibir deter-
minados endereços. E, posteriormente, comparar esta representação do IFS com uma CGR de
uma determinada sequência de ADN. Isto é, tentarmos recriar a CGR de uma sequência de ADN
através de um IFS. Foi dada uma introdução a isto em 4.1.
Igualmente benéfico seria considerar a ordem das sequências de ADN, analisar se esta nos
presenteia com implicações em caraterísticas do ser em questão.
Glossário
codon - é uma sequência de três bases nitrogenadas de RNA mensageiro que codificam um
determinado aminoácido ou que indicam o ponto de início ou fim de tradução da cadeia de mRNA
Cromatina - molécula responsável pela compactação do ADN.
Exon - é um segmento de ADN de um gene eucariótico cujo transcrito sobrevive ao processo
de processamento
Hemoglobina - molécula proteica complexa contida dentro das células sanguíneas vermelhas,
que lhes dá a sua cor e pela qual o oxigênio é transportado.
Intron - secções de ADN de um gene que não codificam qualquer parte da proteína produzida
pelo gene e que separa da sequência constituída pelos exons
Organismo hipertermófilo - são organismos que resistem a temperaturas acima dos 75◦C
Ser eucarionte - ser unicelular ou pluricelular que possui membrana nuclear, ou seja, o seu
núcleo celular é separado do citoplasma por uma membrana
Ser procarionte - ser unicelular que não possui núcleo
65
Bibliografia
[1] P.J. Deschavanne, A. Giron, J. Vilain, G. Fagot, and B. Fertil. (1999). Genomic Signature: Cha-
racterization and Classification of Species Assessed by Chaos Game Representation of Se-
quences. Mol. Biol. Evol. 16(10):1391-1399
[2] Richard Bedient, Michael Frame, Keith Gross, Jennifer Lanski, Brendan Sullivan. (2009). Higher
block IFS 1: memory reduction and dimension computations. World Scientific Publishing Com-
pany. Fractals. 18(2):145-155
[3] Bert Vogelstein, Nickolas Papadopoulos, Victor E. Velculescu, Shibin Zhou, Luis A. Diaz Jr.,
Kenneth W. Kinzler. (2013). Cancer Genome Landscapes. Science. 339. 1546-1558
[4] Richard Bedient, Michael Frame, Keith Gross, Jennifer Lanski, Brendan Sullivan. (2010). Higher
block IFS 2: relations between IFS with different levels of memory. World Scientific Publishing
Company. Fractals. 18(4):399-408
[5] Michael Frame, Jennifer Lanski.(1999). When is a recurrent IFS attractor a standard IFS attrac-
tor?. World Scientific Publishing Company. Fractals. 7(3):257-266
[6] Benoit B. Mandelbrot. (2004). Fractals and Chaos: The Mandelbrot Set and Beyond. Springer-
Verlag New York
[7] Benoit B. Mandelbrot. (1977). The Fractal Geometry Of Nature. W. H. FREEMAN AND COM-
PANY New York
[8] H. Joel Jeffrey. (1990). Chaos game representation of gene structure. Oxford University Press.
18(8):2163-2170
[9] Peitgen, Jurgens, Saupe. (2004). Chaos and Fractals: New Frontiers of Science. Springer
[10] Marc Frantz, Annalisa Crannell. (2011). Mathematical Perspective and Fractal Geometry in Art.
Princeton University Press
[11] Feldman, David P.(2012).Chaos and Fractals: An Elementary Introdution. Oxford University
Press
[12] Michael Frame, Amelia Urry. (2016). Fractal Worlds: Grown, Built, and Imagined. Yale Univer-
sity Press
[13] Supratim Choudhuri. Bioinformatics For Beginners: Genes, Genomes, Molecular Evolution,
Databases and Analytical Tools. Elsevier
67
68FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
[14] Nello Cristianini, Matthew W. Hahn. (2006). Introdution to Computational Genomics: A Case
Studies Approach. Cambridge University Press
[15] Kenneth Falconer. (1990). Fractal Geometry: Mathematical Foundations and Applications. John
Wiley and sons
[16] Jonas S. Almeida, João A. Carriço, António Maretzek, Peter A. Noble e Madilyn Fletcher.
(2001). Analysis of genomic sequences by Chaos Game Representation. Oxford University
Press. 17(5):429-437
[17] Jijoy Joseph and Roschen Sasikumar. (2006). Chaos game representation for comparison of
whole genomes. BMC Bioinformatics. 7:243
[18] Bunz, Fred. (2016). Principles of Cancer Genetics. Springer
[19] Pedro A Moreno1, Patricia E Vélez, Ember Martínez, Luis E Garreta1, Néstor Díaz, Siler Ama-
dor, Irene Tischer, José M Gutiérrez, Ashwinikumar K Naik, Fabián Tobar and Felipe García.
(2011). The human genome: a multifractal analysis. BMC Genomics. 12. 506
[20] R. Daniel Mauldin and S. C. Williams, (1988). Hausdorff Dimension in Graph Directed Cons-
tructions. JSTOR. Transactions of the American Mathematical Society. 309(2)
[21] Chaos Game Representation of gene structure in Python: https://bostjan-cigan.com/chaos-
game-representation-of-gene-structure-in-python/
[22] Construir um fractal: http://prorum.com/index.php/3104/construir-fractal-conhecido-sierpinski-
utilizando-recursoes
[23] GENBANK: https://www.ncbi.nlm.nih.gov/genbank/
Apêndice A
Código Matlab
Nas seguintes secções são apresentadas as funções utilizadas e a computação da figura respe-
tiva às representações de sequências de ADN através do Jogo do Caos. Este código foi adaptado
de códigos disponíveis em (1), (21) e (22).
A.1 readFastaFile
1 function sequence = readFastaF i le ( ’ a f u l g i d u s . f as ta ’ )
2 % Funcao que permi te l e r uma sequencia de DNA dado em formato FASTA
3
4 f as taAr ray = tex t read ( f a s t a F i l e , ’%s ’ ) ;
5
6 % desconsideramos os comentar ios " >"
7 i =1; while ( s t rmatch ( ’ > ’ , f as taAr ray ( i ) ) ) i = i +1; end ;
8
9 % fas taAr ray e um vec to r onde cada elemento corresponde a uma
10 % l i n h a do f i c h e i r o f as ta . Para e l i m i n a r as quebras de l i n h a
11 % f o i c r iada uma funcao que permi ta c o n s t r u i r uma st rand
12 % da sequencia de DNA
13 sequence = buildDNAStrand ( fas taAr ray ( i : end ) ) ;
14 end
A.2 makeMatrixOfWords
1 function ac t ua lM a t r i x = makeMatrixOfWords ( len )
2 % Funcao que permi te c r i a r uma mat r i z de padroes de palavras .
3 %
4 % len : representa o tamanho da palavra a ser considerada na mat r i z
5 % de palavras
6
7 matrixBase = { ’C ’ ’G ’ ; ’A ’ ’T ’ } ; % conf iguracao das bases
8 ac t ua lM a t r i x = matrixBase ;
69
70FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
9
10 for k =2: len
11 M = { } ;
12 for i =1:2
13 row = { } ;
14 for j =1:2
15 % p r e f i x o para cada quadrante
16 p r e f i x = char ( matr ixBase { i , j } ) ;
17
18 % copiamos a mat r i z ac tua l para poder incrementar o p r e f i x o
19 % em cada quadrante
20 tempora lMat r ix = ac tua l Ma t r i x ;
21 n = size ( tempora lMatr ix , 1 ) ;
22
23 % criamos uma mat r i z com o padrao de p r e f i x ∗ [ a c t ua l Ma t r i x ]
24 for a=1:n
25 for b=1:n
26 tempora lMat r ix ( a , b ) = { [ p r e f i x
char ( tempora lMat r ix ( a , b ) ) ] } ;
27 end ;
28 end ;
29
30 % concatenamos hor izonta lmente a mat r i z temporal
31 row = [ row tempora lMat r ix ] ;
32 end ;
33
34 % concatenamos ve r t i ca lmen te a l i n h a ’ row ’
35 M = [M; row ] ;
36 end ;
37
38 ac t ua lM a t r i x = M;
39 end ;
A.3 buildDNAStrand
1 function sequence = buildDNAStrand ( DNAMatrix )
2 % Const ro i uma sequencia dada sua representacao como vec to r
3
4 DNAMatrix = char ( DNAMatrix ) ;
5 [ nRows , nBases ] = size ( DNAMatrix ) ;
6
7 for j = 0 :nRows∗nBases−1
8 i f ( DNAMatrix ( f loor ( j / nBases ) +1 , mod( j , nBases ) +1) ~= ’ ’ )
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN71
9 sequence ( j +1) = DNAMatrix ( f loor ( j / nBases ) +1 , mod( j , nBases )
+1) ;
10 else
11 break ;
12 end ;
13 end ;
14 end
A.4 buildComplementarDNA
1 function sequenceB = buildComplementarDNA ( sequenceA )
2 n = length ( sequenceA ) ;
3
4 sequenceB ( n ) = ’ ’ ;
5
6 for i =1:n
7 swi tch ( sequenceA ( i ) )
8 case ’A ’
9 complementar = ’T ’ ;
10 case ’T ’
11 complementar = ’A ’ ;
12 case ’C ’
13 complementar = ’G ’ ;
14 case ’G ’
15 complementar = ’C ’ ;
16 otherwise
17 i
18 disp ( sequenceA ( i ) ) ;
19 end ;
20 sequenceB ( n− i +1) = char ( complementar ) ;
21 end ;
22
23 end
A.5 calculateFrecuencies
1 function f r eq = ca lcu la teFrecuenc ies ( sequence , word )
2 % Funcao que ca l cu la a f recuenc ia de ’ word ’ em ’ sequence ’
3 % ( f requenc ia que considera c l u s t e r s sobrepostos )
4
5 n = length ( sequence ) ;
6 k = length ( word ) ;
7 p o s s i b i l i t i e s = n−k +1;
72FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
8 f r eq = 0;
9
10 for i =1: p o s s i b i l i t i e s
11 cont = 0 ;
12
13 % contamos as igualdades para cada l e t r a de ’ word ’
14 for j =1: k
15 i f sequence ( i + j −1)==word ( j )
16 cont = cont +1;
17 else
18 break ; % se uma l e t r a e d i f e ren te , nao e necessar ia a
comparacao com out ras l e t r a s da mesma palavra .
19 end ;
20 end ;
21
22 % Se ’ word ’ c o i n c i d i r com a c l u s t e r entao somamos 1
23 i f ( cont==k )
24 f r eq = f req +1;
25 end ;
26 end ;
27
28 f r eq = f req / p o s s i b i l i t i e s ;
29
30 end
A.6 fcgr2
1 function M = fcg r2 ( ’ a f u l g i d u s . f as ta ’ ; wordLen )
2 % Genomic s igna tu re using Chaos game rep resen ta t i on o f f requenc ies (
pseudo opt imized vers ion )
3
4
5 MatrixOfWords = makeMatrixOfWords ( wordLen ) ;
6
7 % Lemos a sequencia . Cada arqu ivo FASTA mostra apenas uma st rand
8 % das 2 cadeias de DNA. FCGR e dependente da strand , dessa forma
9 % nos ca lcu los consideraremos ambas st rands .
10 sequenceA = readFastaF i le ( ’ agu lg idus . f as ta ’ ) ;
11
12 % As f requenc ias que devem ser consideradas nos ca l cu los devem de
13 % corresponder a ambas cadeias de DNA, por i sso calculamos a
sequencia
14 % complementar . Isso quer d i ze r :
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN73
15
16 % se sequence = ATCGCTTA, a sua sequencia complementar sera TAAGCGAT
17 % Recordemos que :
18 % − A e complementar de T , e v ice versa
19 % − C e complementar de G, e v ice versa
20 %
21 % No nosso exemplo :
22 % ATCGCTTA ( sent ido −>) r i g h t s t rand o 5 ’
23 % TAGCGAAT ( sent ido <−) l e f t s t rand o 3 ’
24
25 sequenceB = buildComplementarDNA ( sequenceA ) ;
26
27 % concatemos as 2 cadeias numa so
28 % sequence = [ sequenceA sequenceB ] ;
29 sequence = [ sequenceA ] ;
30
31 % i n i c i a l i z a m o s mat r i z para o ca l cu lo das f requenc ias
32 Matr ixOfFrecuencies = zeros ( size ( MatrixOfWords ) ) ;
33
34 % i n i c i a l i z a c a o da pseudo−arvore
35 for i =1: size ( MatrixOfWords , 1 )
36 for j =1: size ( MatrixOfWords , 1 )
37
38 pathOfTree = ’ roo t ’ ;
39 word = char ( MatrixOfWords ( i , j ) ) ;
40
41 for a=1: wordLen
42 pathOfTree = [ pathOfTree ’ . ’ word ( a ) ] ;
43 end ;
44
45 eval ( [ pathOfTree ’ =1; ’ ] ) ;
46 end ;
47 end ;
48
49 % ca lcu lo das f requenc ias para cada palavra na sequencia dada
50 n = length ( sequence ) ;
51 p o s s i b i l i t i e s = n−wordLen +1;
52
53 for i =1: p o s s i b i l i t i e s
54
55 pathOfTree = ’ roo t ’ ;
56
74FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
57 for j = i : i +wordLen−1
58 pathOfTree = [ pathOfTree ’ . ’ sequence ( j ) ] ;
59 end ;
60
61 eval ( [ pathOfTree ’= ’ pathOfTree ’ +1; ’ ] ) ;
62 end ;
63
64 % copiamos as f requenc ias da arvore para a mat r i z de Frequencias
65 for i =1: size ( MatrixOfWords , 1 )
66 for j =1: size ( MatrixOfWords , 1 )
67
68 pathOfTree = ’ roo t ’ ;
69 word = char ( MatrixOfWords ( i , j ) ) ;
70
71 for a=1: wordLen
72 pathOfTree = [ pathOfTree ’ . ’ word ( a ) ] ;
73 end ;
74
75 Matr ixOfFrecuencies ( i , j ) = eval ( pathOfTree ) / p o s s i b i l i t i e s ;
76 end ;
77 end ;
78
79 M = Matr ixOfFrecuencies ;
80
81 % Mostramos a f i g u r a . . . para p o s t e r i o r ana l i se . . .
82 %f i g u r e ;
83 %imagesc (M)
84 %ax is square ;
85 %ax is o f f ;
86 %t i t l e ( wordLen ) ;
87 %co lo rba r ;
88
89 end
A.7 test
1 % Genomic s igna tu re using Chaos game rep resen ta t i on o f f requenc ies
2 %
3 % TEST
4
5
6 % Subsequence of the Archeoglobus f u l g i d u s genome (104160 bp )
7 f igure ;
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN75
8 for i =2:2 :8
9 subplot (1 ,4 , i / 2 )
10 mat r i x = fcg r2 ( ’ a f u l g i d u s _ p a r t . f as ta ’ , i ) ;
11 imagesc ( mat r i x ) ;
12 axis square ;
13 axis o f f ;
14 t i t l e ( i ) ;
15 % co lo rba r ;
16 end ;
17
18 %% Archeoglobus f u l g i d u s genome (2 .2Mb)
19 % f i g u r e ;
20 % f o r i =2:2 :8
21 % subp lo t (1 ,4 , i / 2 )
22 % mat r i x = fcg r2 ( ’ a f u l g i d u s . fas ta ’ , i ) ;
23 % imagesc ( mat r i x ) ;
24 % ax is square ;
25 % ax is o f f ;
26 % t i t l e ( i ) ;
27 % % co lo rba r ;
28 % end ;
Apêndice B
Tabelas das frequências
Estas tabelas são referentes às sequências de ADN analisadas em 5.
Onde S representa uma determinada 3-mer, NS o número de vezes que essa 3-mer surge na
sequência de ADN e fS corresponde à frequência dada pela fórmula 2.7.
76
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN77
B.1 Cromossoma 21 de um Homo sapiens
Tabela B.1: 3-mers da sequência de ADN do cromossoma 21 de um Homo sapiens representadana figura 5.1 e sua respetiva abundância e frequência (2.7)
S NS fS’AAA’ 25907 0.047’AAC’ 8970 0.016’AAG’ 11730 0.021’AAT’ 16551 0.030’ACA’ 12621 0.023’ACC’ 6032 0.011’ACG’ 1178 0.002’ACT’ 9102 0.016’AGA’ 12831 0.023’AGC’ 6792 0.012’AGG’ 8162 0.015’AGT’ 9100 0.016’ATA’ 13867 0.025’ATC’ 7927 0.014’ATG’ 10841 0.019’ATT’ 15675 0.028’CAA’ 12239 0.022’CAC’ 8344 0.015’CAG’ 9849 0.018’CAT’ 10598 0.019’CCA’ 9411 0.017’CCC’ 5348 0.010’CCG’ 1052 0.002’CCT’ 8378 0.015’CGA’ 1002 0.002’CGC’ 919 0.002’CGG’ 951 0.002’CGT’ 1089 0.002’CTA’ 7778 0.014’CTC’ 8476 0.015’CTG’ 10059 0.018’CTT’ 10532 0.019’GAA’ 11843 0.021’GAC’ 4718 0.008’GAG’ 8118 0.015’GAT’ 7429 0.013
S NS fS’GCA’ 7508 0.013’GCC’ 5151 0.009’GCG’ 830 0.001’GCT’ 6636 0.012’GGA’ 7272 0.013’GGC’ 4872 0.009’GGG’ 5211 0.009’GGT’ 5554 0.010’GTA’ 6621 0.012’GTC’ 4569 0.008’GTG’ 7601 0.014’GTT’ 8495 0.015’TAA’ 13169 0.024’TAC’ 6901 0.012’TAG’ 7188 0.013’TAT’ 13732 0.025’TCA’ 11490 0.021’TCC’ 7658 0.014’TCG’ 901 0.002’TCT’ 12730 0.023’TGA’ 11003 0.020’TGC’ 7542 0.014’TGG’ 8585 0.015’TGT’ 11543 0.021’TTA’ 12724 0.023’TTC’ 11807 0.021’TTG’ 10171 0.018’TTT 23292 0.042
78FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
B.2 Hemoglobina humana
Tabela B.2: 3-mers da sequência de ADN de uma hemoglobina humana representada na figura 5.4e sua respetiva abundância e frequência (2.7)
S NS fS’AAA’ 51 0.033’AAC’ 29 0.019’AAG’ 32 0.021’AAT’ 30 0.019’ACA’ 33 0.021’ACC’ 11 0.007’ACG’ 2 0.001’ACT’ 17 0.011’AGA’ 37 0.024’AGC’ 23 0.015’AGG’ 26 0.017’AGT’ 38 0.025’ATA’ 33 0.021’ATC’ 15 0.010’ATG’ 12 0.008’ATT’ 57 0.037’CAA’ 36 0.023’CAC’ 13 0.008’CAG’ 31 0.02’CAT’ 24 0.015’CCA’ 21 0.014’CCC’ 10 0.006’CCG’ 1 0.001’CCT’ 16 0.010’CGA’ 0 0’CGC’ 0 0’CGG’ 4 0.003’CGT’ 0 0’CTA’ 21 0.014’CTC’ 29 0.019’CTG’ 21 0.014’CTT’ 44 0.028’GAA’ 25 0.016’GAC’ 13 0.008’GAG’ 28 0.018’GAT’ 27 0.017
S NS fS’GCA’ 15 0.010’GCC’ 11 0.007’GCG’ 0 0’GCT’ 20 0.013’GGA’ 22 0.014’GGC’ 11 0.007’GGG’ 21 0.014’GGT’ 18 0.012’GTA’ 14 0.009’GTC’ 21 0.014’GTG’ 21 0.014’GTT’ 31 0.02’TAA’ 30 0.019’TAC’ 8 0.005’TAG’ 33 0.021’TAT’ 36 0.023’TCA’ 35 0.023’TCC’ 16 0.010’TCG’ 1 0.001’TCT’ 62 0.04’TGA’ 35 0.023’TGC’ 12 0.008’TGG’ 21 0.014’TGT’ 31 0.02’TTA’ 39 0.025’TTC’ 49 0.032’TTG’ 45 0.029’TTT’ 82 0.053
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN79
B.3 Mitocôndria de um Homo Sapiens
Tabela B.3: 3-mers da sequência de ADN de uma mitocôndria de um Homo Sapiens representadana figura 5.7 e sua respetiva abundância e frequência (2.7)
S NS fS’AAA’ 522 0.032’AAC’ 491 0.030’AAG’ 209 0.013’AAT’ 372 0.022’ACA’ 446 0.027’ACC’ 518 0.031’ACG’ 120 0.007’ACT’ 411 0.025’AGA’ 178 0.011’AGC’ 285 0.017’AGG’ 175 0.011’AGT’ 163 0.010’ATA’ 365 0.022’ATC’ 367 0.022’ATG’ 160 0.010’ATT’ 331 0.020’CAA’ 464 0.028’CAC’ 454 0.027’CAG’ 202 0.012’CAT’ 416 0.025’CCA’ 463 0.028’CCC’ 632 0.038’CCG’ 142 0.009’CCT’ 542 0.033’CGA’ 124 0.007’CGC’ 80 0.005’CGT’ 78 0.005’CTA’ 522 0.032’CTC’ 418 0.025’CTG’ 181 0.011’CTT’ 317 0.019’GAA’ 199 0.012’GAC’ 173 0.010’GAG’ 131 0.008’GAT’ 112 0.007
S NS fS’GCA’ 209 0.013’GCC’ 271 0.016’GCG’ 56 0.003’GCT’ 180 0.011’GGA’ 123 0.007’GGC’ 152 0.009’GGG’ 72 0.004’GGT’ 80 0.005’GTA’ 153 0.009’GTC’ 107 0.006’GTG’ 57 0.003’GTT’ 104 0.006’TAA’ 409 0.025’TAC’ 377 0.023’TAG’ 259 0.016’TAT’ 323 0.019’TCA’ 418 0.025’TCC’ 358 0.022’TCG’ 121 0.007’TCT’ 305 0.018’TGA’ 189 0.011’TGC’ 122 0.007’TGG’ 100 0.006’TGT’ 100 0.006’TTA’ 328 0.020’TTC’ 310 0.019’TTG’ 114 0.007’TTT’ 252 0.015
80FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
B.4 Archaeoglobus fulgidus DSM 4304
Tabela B.4: 3-mers da sequência de ADN de um Archaeoglobus fulgidus DSM 4304 representadana figura 5.11 e sua respetiva abundância e frequência (2.7)
S NS fS’AAA’ 53893 0.025’AAC’ 35647 0.016’AAG’ 48919 0.022’AAT’ 35746 0.016’ACA’ 27111 0.012’ACC’ 27930 0.013’ACG’ 24279 0.011’ACT’ 24909 0.011’AGA’ 45362 0.021’AGC’ 43366 0.020’AGG’ 46233 0.021’AGT’ 25109 0.012’ATA’ 23282 0.011’ATC’ 33322 0.015’ATG’ 31427 0.014’ATT’ 35560 0.016’CAA’ 41642 0.019’CAC’ 24478 0.011’CAG’ 39835 0.018’CAT’ 31454 0.014’CCA’ 31671 0.015’CCC’ 30945 0.014’CCG’ 24553 0.011’CCT’ 45075 0.021’CGA’ 31119 0.014’CGC’ 20037 0.009’CGG’ 24977 0.011’CGT’ 24044 0.011’CTA’ 15994 0.007’CTC’ 54047 0.025’CTG’ 39848 0.018’CTT’ 47581 0.022’GAA’ 51043 0.023
S NS fS’GAC’ 22153 0.010’GAG’ 55651 0.026’GAT’ 33547 0.015’GCA’ 35996 0.017’GCC’ 31229 0.014’GCG’ 20227 0.009’GCT’ 43325 0.020’GGA’ 43270 0.020’GGC’ 31415 0.014’GGG’ 31181 0.014’GGT’ 28003 0.013’GTA’ 21831 0.010’GTC’ 22130 0.010’GTG’ 24328 0.011’GTT’ 35673 0.016’TAA’ 27627 0.013’TAC’ 21951 0.010’TAG’ 15666 0.007’TAT’ 22844 0.010’TCA’ 42631 0.020’TCC’ 42140 0.019’TCG’ 31118 0.014’TCT’ 44161 0.020’TGA’ 42642 0.020’TGC’ 35959 0.017’TGG’ 31478 0.014’TGT’ 26806 0.012’TTA’ 26981 0.012’TTC’ 50551 0.023’TTG’ 41282 0.019’TTT’ 54164 0.025
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN81
B.5 Mycobacterium tuberculosis
Tabela B.5: 3-mers da sequência de ADN de um Mycobacterium tuberculosis representada na figura5.15 e sua respetiva abundância e frequência (2.7)
S NS fS’AAA’ 23004 0.005’AAC’ 53002 0.012’AAG’ 37156 0.008’AAT’ 24550 0.006’ACA’ 43638 0.010’ACC’ 101274 0.023’ACG’ 84093 0.019’ACT’ 30896 0.007’AGA’ 31582 0.007’AGC’ 82361 0.019’AGG’ 52726 0.012’AGT’ 31453 0.007’ATA’ 15782 0.004’ATC’ 71761 0.016’ATG’ 50824 0.012’ATT’ 24977 0.006’CAA’ 54171 0.012’CAC’ 88230 0.020’CAG’ 83978 0.019’CAT’ 50418 0.011’CCA’ 91916 0.021’CCC’ 87368 0.020’CCG’ 183486 0.042’CCT’ 52498 0.012’CGA’ 125362 0.028’CGC’ 171158 0.039’CGG’ 180275 0.041’CGT’ 84998 0.019’CTA’ 20560 0.005’CTC’ 55957 0.013’CTG’ 83831 0.019’CTT’ 36242 0.008’GAA’ 51044 0.012’GAC’ 90049 0.020’GAG’ 56183 0.013’GAT’ 72525 0.016
S NS fS’GCA’ 88927 0.020’GCC’ 166317 0.038’GCG’ 170094 0.039’GCT’ 81512 0.018’GGA’ 59704 0.014’GGC’ 163143 0.037’GGG’ 84284 0.019’GGT’ 100083 0.023’GTA’ 28932 0.007’GTC’ 90559 0.021’GTG’ 87204 0.020’GTT’ 53872 0.012’TAA’ 9493 0.002’TAC’ 28620 0.006’TAG’ 20805 0.005’TAT’ 15851 0.004’TCA’ 52316 0.012’TCC’ 60309 0.014’TCG’ 124121 0.028’TCT’ 31684 0.007’TGA’ 53153 0.012’TGC’ 90188 0.020’TGG’ 89929 0.020’TGT’ 44033 0.010’TTA’ 9495 0.002’TTC’ 50153 0.011’TTG’ 55444 0.013’TTT’ 22824 0.005
82FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
B.6 Photorhabdus asymbiotica
Tabela B.6: 3-mers da sequência de ADN de um Photorhabdus asymbiotica representada na figura5.17 e sua respetiva abundância e frequência (2.7)
S NS fS’AAA’ 158129 0.031’AAC’ 93743 0.019’AAG’ 79614 0.016’AAT’ 143715 0.028’ACA’ 75428 0.015’ACC’ 71146 0.014’ACG’ 49425 0.010’ACT’ 67465 0.013’AGA’ 74117 0.015’AGC’ 73510 0.015’AGG’ 52428 0.010’AGT’ 66436 0.013’ATA’ 117794 0.023’ATC’ 98948 0.020’ATG’ 91200 0.018’ATT’ 145961 0.029’CAA’ 106751 0.021’CAC’ 60591 0.012’CAG’ 90270 0.018’CAT’ 92009 0.018’CCA’ 84859 0.017’CCC’ 47831 0.009’CCG’ 56678 0.011’CCT’ 53981 0.011’CGA’ 46455 0.009’CGC’ 53394 0.011’CGG’ 56495 0.011’CGT’ 49833 0.010’CTA’ 50465 0.010’CTC’ 48103 0.009’CTG’ 91576 0.018’CTT’ 81312 0.016’GAA’ 95253 0.019’GAC’ 45539 0.009’GAG’ 46729 0.009’GAT’ 98795 0.020
S NS fS’GCA’ 82024 0.016’GCC’ 64211 0.013’GCG’ 52991 0.010’GCT’ 74563 0.015’GGA’ 58645 0.012’GGC’ 64331 0.013’GGG’ 46796 0.009’GGT’ 71269 0.014’GTA’ 63507 0.013’GTC’ 45726 0.009’GTG’ 59838 0.012’GTT’ 94130 0.019’TAA’ 115068 0.023’TAC’ 63591 0.013’TAG’ 49878 0.010’TAT’ 119384 0.024’TCA’ 107310 0.021’TCC’ 60161 0.012’TCG’ 47083 0.009’TCT’ 75447 0.015’TGA’ 107099 0.021’TGC’ 82554 0.016’TGG’ 85322 0.017’TGT’ 75663 0.015’TTA’ 116155 0.023’TTC’ 97224 0.019’TTG’ 108024 0.021’TTT’ 160834 0.032
Apêndice C
Outros resultados
Aqui são expostas mais algumas representações de sequências de ADN através do jogo do
caos.
83
84FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
C.1 Leucemia - Homo sapiens
Fig. C.1. CGR da sequência de ADN de um tumor num Homo sapiens - leucemia - para k = 2, 4, 6e 8
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN85
C.2 Cancro da próstata - Homo sapiens
Fig. C.2. CGR da sequência de ADN de um cancro na próstata de um Homo sapiens, com k =2, 4, 6 e 8
86FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
C.3 Tumor no complexo central - Homo sapiens
Fig. C.3. CGR da sequência de ADN de um tumor no complexo central de um Homo sapiens, parak = 2, 4, 6 e 8
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN87
C.4 Cancro de pulmão - Homo sapiens
Fig. C.4. CGR da sequência de ADN de um tumor no pulmão de um Homo sapiens, para k = 2, 4, 6e 8
88FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN
C.5 Homo sapiens amyotrophic lateral sclerosis
Fig. C.5. CGR da sequência de ADN de um carcinoma, para k = 2, 4, 6 e 8
FCUP
Representação do Jogo do Caos (CGR) de sequências de ADN89
C.6 Human monkeypox and smallpox viruses
Fig. C.6. CGR da sequência de ADN do vírus da varíola, para k = 2, 4, 6 e 8