Representação de sequências de ADN através do Jogo do Caos ... · Representação de...

Representação de sequências de ADN através do Jogo do Caos (CGR)Mónica Torres CoelhoDissertação de Mestrado apresentada à

Faculdade de Ciências da Universidade do Porto em

Engenharia Matemática

2019

Re

pre

se

nta

çã

o d

e s

eq

uê

nc

ias

de D

NA

atra

vé

s d

o

Jo

go

do

Ca

os

(CG

R)

Mó

nic

a T

orre

s C

oelh

oM

Sc

FCUP

2019

2.º

CICLO

Representação de

sequências de ADN

através do Jogo do

Caos (CGR)Mónica Torres CoelhoMestrado em Engenharia MatemáticaDepartamento de Matemática

2019

Orientador João Nuno Domingues Tavares, Professor Associado, FCUP

Todas as correções determinadas

pelo júri, e só essas, foram efetuadas.

O Presidente do Júri,

Porto, ______/______/_________

Resumo

Neste trabalho é apresentado um método que serve como ferramenta para revelar padrões em

diferentes sequências de ADN. Este método é denominado como Representação do Jogo do Caos

(CGR) e é descrito por um sistema de funções iteradas (IFS).

Vamos estudar sequências de ADN de grupos diferentes e comparar os seus padrões.

Palavras-chave: Representação do Jogo do Caos, CGR, sequência de ADN, IFS, padrões de

um gene

Abstract

In this work is presented a method which serves us as a tool to reveal patterns in different ADN

sequences. This method is called Caos Game Representation (CGR) and is described by a system

of iterated functions (IFS).

We’ll study ADN sequences from different groups and compare their patterns.

Key Words: Chaos Game Representation, CGR, ADN sequence, IFS, gene patterns

Conteúdo

Introdução 3

1 Preliminares de Biologia Molecular 6

1.1 Introdução ao ADN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2 Representação formal de uma sequência de ADN . . . . . . . . . . . . . . . . . . . 8

2 Representação de sequências de ADN por Sistemas guiados iterados de funções

(GIFS) 13

3 IFS com memória 19

4 IFS guiados e análise de dados 30

4.1 IFS guiados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.2 IFS guiado por uma série temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.3 Análise da série temporal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5 Resultados e trabalhos futuros 40

5.1 CGR da sequência de ADN do cromossoma 21 de um Homo Sapiens . . . . . . . . 41

5.1.1 Probabilidades dos nucleótidos . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.1.2 Análise do fractal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

5.1.3 Ajuste de probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.2 CGR da sequência de ADN de uma hemoglobina humana . . . . . . . . . . . . . . . 45




5.3 CGR da sequência de ADN de uma mitocôndria de um Homo sapiens . . . . . . . . 48




5.4 Archaeoglobus fulgidus DSM 4304 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52




5.5 Mycobacterium tuberculosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56


i

iiFCUP

Representação do Jogo do Caos (CGR) de sequências de ADN



5.6 Photorhabdus asymbiotica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59




Conclusões 62

Glossário 65

APPENDICES 68

A Código Matlab 69

A.1 readFastaFile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

A.2 makeMatrixOfWords . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

A.3 buildDNAStrand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

A.4 buildComplementarDNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

A.5 calculateFrecuencies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

A.6 fcgr2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

A.7 test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

B Tabelas das frequências 76

B.1 Cromossoma 21 de um Homo sapiens . . . . . . . . . . . . . . . . . . . . . . . . . . 77

B.2 Hemoglobina humana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

B.3 Mitocôndria de um Homo Sapiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

B.4 Archaeoglobus fulgidus DSM 4304 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

B.5 Mycobacterium tuberculosis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

B.6 Photorhabdus asymbiotica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

C Outros resultados 83

C.1 Leucemia - Homo sapiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

C.2 Cancro da próstata - Homo sapiens . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

C.3 Tumor no complexo central - Homo sapiens . . . . . . . . . . . . . . . . . . . . . . 86

C.4 Cancro de pulmão - Homo sapiens . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

C.5 Homo sapiens amyotrophic lateral sclerosis . . . . . . . . . . . . . . . . . . . . . . . 88

C.6 Human monkeypox and smallpox viruses . . . . . . . . . . . . . . . . . . . . . . . . 89

Lista de Tabelas

3.1 Código IFS sem memória para o fractal representado no canto superior direito da

figura 3.6 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

5.1 Código IFS para o triângulo de Sierpinski, com início no canto inferior esquerdo do

quadrado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

B.1 3-mers da sequência de ADN do cromossoma 21 de um Homo sapiens representada

na figura 5.1 e sua respetiva abundância e frequência (2.7) . . . . . . . . . . . . . . 77

B.2 3-mers da sequência de ADN de uma hemoglobina humana representada na figura

5.4 e sua respetiva abundância e frequência (2.7) . . . . . . . . . . . . . . . . . . . 78

B.3 3-mers da sequência de ADN de uma mitocôndria de um Homo Sapiens represen-

tada na figura 5.7 e sua respetiva abundância e frequência (2.7) . . . . . . . . . . . . 79

B.4 3-mers da sequência de ADN de um Archaeoglobus fulgidus DSM 4304 representada

na figura 5.11 e sua respetiva abundância e frequência (2.7) . . . . . . . . . . . . . . 80

B.5 3-mers da sequência de ADN de um Mycobacterium tuberculosis representada na

figura 5.15 e sua respetiva abundância e frequência (2.7) . . . . . . . . . . . . . . . 81

B.6 3-mers da sequência de ADN de um Photorhabdus asymbiotica representada na

figura 5.17 e sua respetiva abundância e frequência (2.7) . . . . . . . . . . . . . . . 82

iii

Lista de Figuras

1.1 ORF’s do bacteriófago φ−X174 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.2 Fragmento da sequência de ADN GTCGCCATGATGGTGGTTATT ATACCGTCAAG-

GACTGTGTGACTA lido na direção 5′ → 3′ em 3 sequências . . . . . . . . . . . . . . 8

1.3 Start-codon e stop-codon da sequência S . . . . . . . . . . . . . . . . . . . . . . . . 9

1.4 Janela de comprimento três ao longo da sequência S . . . . . . . . . . . . . . . . . 9

1.5 Algoritmo (parte 1) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.6 Algoritmo (parte 2) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.7 Algoritmo (parte 3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.1 GIFS-órbita da sequência de ADN S = TGAG. . . . . . . . . . . . . . . . . . . . . . 15

3.1 Uma ilustração de subquadrados de Q, com os respectivos endereços . . . . . . . . 19

3.2 Primeiro: o fractal gerado pela proibição da composição Ψ4 ◦ Ψ1 – Q14 = QAG é

vazio. Segundo: rotulagem dos endereços vazios de comprimento 2 e comprimento

3 da primeira imagem. Terceiro: O fractal gerado pela proibição de Ψ4 ◦ Ψ1 ◦ Ψ1 –

Q114 é vazio. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.3 Na segunda imagem vemos que os quadrados com endereços 11, 23, 32 e 44 estão

vazios. Dizemos que esses endereços são pares proibidos. . . . . . . . . . . . . . . 21

3.4 Da segunda imagem vemos os endereços de comprimento 2 vazio e também os

endereços de comprimento 3: 41, 44, 411 , 412, 442, 413, 443, 414, 111, 114. A

“bold face" estão os pares proíbidos e os triplos proíbidos que deles são consequência. 22

3.5 Atratores do Exemplo 1 (esquerda) e Exemplo 2 (direita). . . . . . . . . . . . . . . . 23

3.6 Representação de grafos de transição de IFS (lado esquerdo) com os corresponden-

tes fractais (lado direito). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.7 Subdivisão do fractal representado no canto superior direito da figura 3.6 . . . . . . . 25

3.8 Representação de grafos de transição de IFS (lado esquerdo) com os corresponden-

tes fractais (lado direito) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

4.1 IFS com as regras do quadrado com probabilidades: no lado esquerdo: p1 = p4 =

0.4, p2 = p3 = 0.1; no lado direito: p1 = 0.4, p2 = 0.3, p3 = 0.2, p4 = 0.1 . . . . . . . 31

4.2 Primeiro: IFS guiado pela sequência de ADN da amilase. Segundo: Substituto do IFS

guiado por um IFS com memória, onde temos o par 14 proibido. Terceiro: Substituto

do IFS guiado por um IFS com memória, onde temos o par 14 proibido e com p1 ≈0.149, p2 ≈ 0.330, p3 ≈ 0.351 e p4 ≈ 0.170 . . . . . . . . . . . . . . . . . . . . . . . 31

v

viFCUP


4.3 Exemplo de uma série temporal com 10000 pontos de um modelo que prevê gerações

de uma população de insetos, já com a divisão feita em caixas com o mesmo tamanho 33

4.4 IFS guiado pela série temporal da figura 4.3 . . . . . . . . . . . . . . . . . . . . . . . 33

4.5 Mesma série temporal representada na figura 4.3 mas com a divisão feita em caixas

com o mesmo peso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4.6 Lado esquerdo: IFS guiado para a série temporal dividida em caixas de tamanho igual

representada na figura 4.3. Lado direito: IFS guiado para a série temporal dividida

em caixas de peso igual representada na figura 4.5 . . . . . . . . . . . . . . . . . . . 34

4.7 Série temporal de um batimento cardíaco dividida em caixas de tamanho igual (canto

superior esquerdo), peso igual (canto superior direito) e centradas na mediana (parte

inferior da figura) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.8 IFS’s guiados pelas diferentes divisões em caixas da série temporal representada na

figura 4.7 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.9 Série temporal dividida em regimes . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

4.10 IFS guiado da série temporal representada na figura 4.9 . . . . . . . . . . . . . . . . 38

5.1 CGR da sequência de ADN no cromossoma 21 de um Homo sapiens para k = 2, 4, 6

e 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.2 CGR assinalado com o "duplo furo"; lado esquerdo k = 4, lado direito k = 6 . . . . . 42

5.3 lado esquerdo: CGR da sequência de ADN, lado direito: IFS com p1 = 0.319, p2 =

0.306, p3 = 0.191 e p4 = 0.184 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

5.4 CGR da sequência de ADN de uma hemoglobina humana para k = 2, 4, 6 e 8 . . . . 45

5.5 CGR da sequência de ADN de uma hemoglobina humana assinalado com o "duplo

furo"; lado esquerdo k = 4, lado direito k = 6 . . . . . . . . . . . . . . . . . . . . . . 46

5.6 lado esquerdo: CGR da sequência de ADN de uma hemoglobina humana, lado di-

reito: IFS com probabilidades 0.288, 0.174, 0.193 e 0.345 para os nucleótidos A, C, G

e T, respetivamente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.7 CGR da sequência de ADN de uma mitocôndria de um Homo sapiens para k = 2, 4, 6

e 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.8 Divisão em triângulos da CGR com k = 6 da sequência de ADN de uma mitocôndria

de um Homo sapiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

5.9 lado esquerdo: CGR da sequência de ADN de uma mitocôndria de um Homo sapiens,

lado direito: IFS do triângulo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

5.10 lado esquerdo: CGR da sequência de ADN de uma mitocôndria de um Homo sapiens,

lado direito: IFS com probabilidades 0.308, 0.313, 0.132 e 0.247 para os nucleótidos

A, C, G e T, respetivamente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.11 CGR da sequência de ADN de uma Archaeoglobus fulgidus DSM 4304 para k =

2, 4, 6 e 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

5.12 Cópias de menor escala de todo o fractal representado pela CGR da sequência de

ADN de um Archaeoglobus fulgidus DSM 4304 com k = 8 . . . . . . . . . . . . . . . 54

5.13 Divisão em quadrados do fractal dado pela CGR da sequência de ADN de uma Ar-

chaeoglobus fulgidus DSM 4304 com k = 4 . . . . . . . . . . . . . . . . . . . . . . . 55

FCUP

Representação do Jogo do Caos (CGR) de sequências de ADNvii

5.14 lado esquerdo: CGR da sequência de ADN, lado direito: IFS com probabilidades

0.258, 0.242, 0.244 e 0.256 para os nucleótidos A, C, G e T, respetivamente . . . . . 55

5.15 CGR da sequência de ADN de uma Mycobacterium tuberculosis para k = 2, 4, 6 e 8 . 56

5.16 lado esquerdo: CGR da sequência de ADN de uma Mycobacterium tuberculosis, lado

direito: IFS com probabilidades 0.172, 0.329, 0.327 e 0.172 para os nucleótidos A, C,

G e T, respetivamente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

5.17 CGR da sequência de ADN de uma Photorhabdus asymbiotica para k = 2, 4, 6 e 8 . 59

5.18 CGR da sequência de ADN de uma Photorhabdus asymbiotica (lado esquerdo); IFS

com probabilidades 0.288, 0.211, 0.210 e 0.291 para os nucleótidos A, C, G e T,

respetivamente (lado direito) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

C.1 CGR da sequência de ADN de um tumor num Homo sapiens - leucemia - para k =

2, 4, 6 e 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

C.2 CGR da sequência de ADN de um cancro na próstata de um Homo sapiens, com

k = 2, 4, 6 e 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

C.3 CGR da sequência de ADN de um tumor no complexo central de um Homo sapiens,

para k = 2, 4, 6 e 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

C.4 CGR da sequência de ADN de um tumor no pulmão de um Homo sapiens, para

k = 2, 4, 6 e 8 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

C.5 CGR da sequência de ADN de um carcinoma, para k = 2, 4, 6 e 8 . . . . . . . . . . . 88

C.6 CGR da sequência de ADN do vírus da varíola, para k = 2, 4, 6 e 8 . . . . . . . . . . 89

Lista de Abreviaturas

nucs - nucleótidos

ORF - Open Reading Frame

CGR - Representação do Jogo do Caos

IFS - Sistema de Funções Iteradas

ADN - Ácido Desoxirribonucleico

bp - Par de Bases

ix

Introdução

O ADN é uma cadeia de informação muito importante para adquirirmos conhecimentos sobre

um determinado organismo. Estas cadeias encontram-se presentes em todas as formas de vida.

Cada sequência de ADN é única. A análise desta é como a revelação da identidade do ser já

que cada ser possui uma sequência de ADN diferente.

Ao longo da evolução da biologia molecular, em particular, do sequenciamento de ADN, foram

reconhecidos alguns fractais na estrutura do ADN. O matemático Benoit Mandelbrot, na década

de 1970, descreveu os objetos auto-similares apelidando-os como fractais (do latim fractus, que

significa fraturado). Os fractais são conhecidos por apresentarem a mesma estrutura em diferentes

escalas de observação. Ou seja, se ampliarmos um fractal, esta ampliação vai ter o mesmo aspeto

do fractal original. Os fractais são estruturas complexas, com diversos detalhes intrincados. (10)

(15)

Nesta tese vamos usar o Jogo do Caos para representar sequências de ADN como fractais.

Este método, CGR (Chaos Game Representation), permite-nos criar padrões que posteriormente

vamos analisar e comparar. O Jogo do Caos, introduzido por Michael Barnsley, é descrito mate-

maticamente por um sistema iterado de funções (IFS). No entanto, ao contrário destas, o sistema

dinâmico do jogo do caos não é determinístico. Pelo contrário, é um sistema dinâmico estocástico.

Aplicar a mesma regra várias vezes ao mesmo ponto não produzirá sempre o mesmo resultado,

pois o resultado depende do canto para o qual se move. (11)

Este sistema dinâmico é um procedimento aleatório que pode gerar fractais. Para obtermos tal

resultado vamos iterar uma regra e analisar o seu comportamento a longo prazo. Para isso, vamos

considerar um quadrado (onde cada vértice corresponderá a um nucleótido). O Jogo do Caos

(CGR) é um caso particular de um IFS ("Iterated Function System", Sistema de Funções Iteradas).

O matemático John Hutchinson formalizou o método IFS para analisar e construir fractais, e

Michael Barnsley, fundador da empresa Iterated Systems Inc., popularizou esta técnica e apelidou-

a com o termo IFS. O IFS é a única parte da geometria fractal que pode rivalizar com o conjunto

de Mandelbrot (6) na sua capacidade de produzir imagens fascinantes. Tudo o que precisamos

de aprender é como reconhecer a simetria sob a ampliação e como manipular formas no plano.

Esta habilidade abre um mundo de imagens selvagens que podem ser controladas pelo nosso

entendimento de escala e geometria. (12)

Se uma sequência de números é usada para produzir um atrator, para um determinado código

IFS, e se esse atrator for visualmente observável, então, intuitivamente, revelamos alguma estrutura

subjacente na sequência de números.

Podemos usar o Jogo do Caos para exibir visualmente certos tipos de não aleatoriedade. A não

aleatoriedade significa que uma sequência tem uma certa "estrutura".

3

4FCUP


Vamos começar por introduzir algumas noções básicas de biologia molecular, no capítulo 1.

Em seguida vamos ver como representar as sequências de ADN através de um IFS no capítulo 2.

Abordaremos também especificidades dos IFS’s nos capítulos 3 e 4. E, por fim, representaremos

sequências de ADN, retiradas da plataforma GenBank, pelo método do Jogo do Caos, no capítulo

5.

Capítulo 1

Preliminares de Biologia Molecular

1.1 Introdução ao ADN

Como primeira definição, podemos dizer que um genoma é o conjunto de todas as sequências

de ADN contidas numa célula. O genoma é formado por uma ou mais sequências de ADN, juntas

nos cromossomos.

No entanto, adotamos uma representação mais formal dos genomas como palavras de um

alfabeto, como é usual em genómica computacional e Bioinformática.

Definição. Sequências de ADN e genomas: modelo formal Uma sequência de ADN, S, é uma

palavra finita no alfabeto N = {A,C,G,T} de nucleótidos (nucs). Um genoma é o conjunto de

todas as sequências de ADN associadas a um organismo ou organelo.

A informação sobre a hereditariedade dos organismos (exceto para os chamados vírus de RNA)

está codificada na sua sequência de ADN, que é um polímero não ramificado unidimensional, feito

de quatro diferentes tipos de monómeros (nucleótidos): adenina (A), citosina (C), guanina (G)

e timina (T). No que diz respeito à informação codificada, podemos ignorar o fato de que o ADN

existe como uma dupla hélice de dois filamentos “conjugados" e tratá-lo apenas como um sequência

simbólica unidimensional - uma palavra - construída com as quatro letras do alfabeto de nucleótidos

N = {A,C,G,T}.A informação contida num genoma é armazenada em vários níveis, o mais básico dos quais

associa cada aminoácido de cada proteína codificada por um gene a um único codon, i.e., a um

único tripleto de nucleótidos de ADN (codon). Além deste código elementar, sinais de “pontuação"

simples identificam o início e o fim dos genes. Para além destes dados “brutos", o genoma contém

sinais de expressão, regulação e splicing alternativo (em células eucarióticas) que governam como

as células implementam as informações que contém. O genoma também contém sinais específicos,

não relacionados à expressão da mensagem genética, e que dizem respeito ao metabolismo da

própria molécula de ADN, incluindo replicação, recombinação, metilação e sítios de restrição.

Esses dados são todos codificados na sequência do ADN e, muitas vezes, sobrepõem-se. Os

genes contêm assim locais de metilação e recombinação; certos genes sobrepõem-se parcial-

mente; os sinais de expressão de um gene estão às vezes localizados dentro de outro ... A des-

coberta destes vários níveis de codificação é de importância primordial para o biólogo que busca

6

FCUP

Representação do Jogo do Caos (CGR) de sequências de ADN7

acesso à informação contida no genoma para entender as funções da matéria viva, bem como para

conceber experiências e analisar os resultados.

A tecnologia da informação pode ser usada para extrair a informação de forma eficiente codi-

ficado em ADN. O restante deste capítulo lembra e descreve vários tipos de sinais codificados no

ADN, bem como padrões e sequências específicas com os quais estão associados.

Todo o genoma de um organismo pode ser revelado a partir de amostras, usando uma das vá-

rias tecnologias de sequenciação de ADN, cada uma produzindo um grande número de fragmentos

de ADN de vários comprimentos que são então montados na sequência de ADN das moléculas na

mitocôndria ou no núcleo (para eucariotos) ou no citoplasma (para procariontes) das células. Os ge-

nomas inteiros de milhares de espécies existentes já foram sequenciados, incluindo 111 genomas

de arqueas, variando de 1 668 a 5 751 492 nucleótidos (nucs); 2167 genomas bacterianos com 846

a 13 033 779 nucs; 2 593 genomas eucariota com 1 028 a 748 055 161 nucs; 2 651 genomas virais

com 200 a 1 181 404 nucs; etc.. Espécies existentes representam apenas uma pequena fração

da diversidade genética que já existiu. No entanto, genomas inteiros de espécies extintas também

podem ser sequenciados a partir de amostras de tecido bem conservadas.

Uma vez que o genoma de uma espécie tenha sido sequenciado, um dos primeiros passos

para compreender o seu significado consiste na identificação de genes que codificam para

proteínas. Nos genomas procarióticos, a sequência codificadora de uma proteína consiste numa

sequência contígua chamada ORF (Open Reading Frame), enquanto que nos genomas eucarió-

ticos, a sequência codificadora é cindida em vários exons de codificação, separados por introns

não-codificantes. Estes exons podem ser combinados em diferentes arranjos para codificar diferen-

tes proteínas pelo processo celular de cisão alternativo.

Exemplo. A sequência de ADN do bacteriófago φ − X174, que foi o primeiro genoma a ser se-

quenciado, possui 11 genes codificadores de proteínas dentro de uma única cadeia circular de 5

368 nucs. Um desses genes é mostrado em destaque, numa parte abaixo descrita do genoma:

GATGTAATGTCTAAAGGTAAAAAACGTTCTGGCGC TCGCCCTGGTCGTCCGCAGCCGT

TGCGAGGTACTAAAGGCAAGCGTAAAGGCGCTCGTCTTTGG TATGTAGGTGGTCAACA

ATTTTAA TTGCA...

As regiões codificadoras de proteínas de uma sequência de ADN são primeiramente transcritas

em mRNA e depois traduzidas em proteína. Um codon de três nucleótidos de ADN é transcrito

num codon de três nucleótidos de RNA complementares, que é traduzido, por sua vez, num único

aminoácido dentro de uma proteína. Um fragmento de uma sequência simples de ADN tem três

ORF’s possíveis, e a tradução ocorre num ORF, uma sequência de codons que se inicia com um

certo start-codon e continua até um certo stop-codon (não contém mais nenhum stop-codon no

meio).

O ORF 2 da sequência de ADN do bacteriófago φ − X174 do exemplo anterior contém 15

ORF’s com mais de 108 nucs, que podem potencialmente codificar para proteínas com mais de 36

aminoácidos. Somente dois deles, mostrados em destaque na figura 1.1, realmente codificam uma

proteína.

A sequência de leitura determina os aminoácidos reais codificados por um gene. Por exemplo,

8FCUP


Fig. 1.1. ORF’s do bacteriófago φ−X174

o fragmento da sequência de ADN GTCGCCATGATGGTGGTTATT ATACCGTCAAGGACTGTGT-

GACTA pode ser lido na direção 5′ → 3′ nas 3 sequências representadas na figura 1.2.

Fig. 1.2. Fragmento da sequência de ADN GTCGCCATGATGGTGGTTATTATACCGTCAAGGACTGTGTGACTA lido na direção 5′ → 3′ em 3 sequências

Um fragmento de uma cadeia dupla de ADN, por outro lado, tem seis possíveis sequências de

leitura, três em cada direção. Um ORF começa com o start-codon ATG (metionina), na maioria

das espécies, e termina com um stop-codon TAA, TAG ou TGA. A identificação dos genes que

codificam proteínas numa sequência de ADN é uma tarefa difícil. Mesmo um organismo simples,

como o bacteriófago φ − X174, com uma sequência de ADN simples de apenas 5 368 nucs, tem

um total de 117 ORF’s, dos quais apenas 11 realmente codificam para uma proteína.

Existem vários outros sinais e informações biológicas que ajudam o biólogo na tarefa de encon-

trar genes. Por exemplo, sabe-se que a proteína conhecida com a menor sequência de aminoácidos

tem apenas 8 aminoácidos e, por isso, ORF’s com menos do que 3 + 24 + 3 = 30 nucs, não podem

codificar uma proteína. Um primeiro problema algorítmico consiste em extrair todos os ORF’s nas

três sequências de leitura de um fragmento simples de ADN, ou nas seis numa cadeia dupla de

ADN. (14) (18) (3)

1.2 Representação formal de uma sequência de ADN

Dada uma sequência de ADN S com n nucs, representamos por S[i] o i-ésimo nucleótido de

S, para 1 ≤ i ≤ n. Assim, na sequência S = GTC GCCATGATGGTGGTTATTATACCGTCAAG-

FCUP


GACTGTGTGACTA, com n = 45 nucs, S[1] = G, S[2] = T, S[3] = C e S[n] = A. S[i, · · · , j], onde

i ≤ j, representa o fragmento de S contendo os nucleótidos S[i], S[i + 1], · · · , S[j]. Por exemplo,

S[1, · · · , 4] = GTCG e S[1, · · · , n] = S e S[i, · · · , i] = S[i].

Com essa notação, um ORF é um fragmento S[i, · · · , j], de comprimento j − i + 1, tal que

S[i, · · · , i + 2] é o start-codon ATG e S[j − 2, · · · , j] é um dos stop-codons TAA, TAG ou TGA.

Pela observação anterior, S tem que ter pelo menos 30 nucs, isto é, j − i + 1 > 30, e não pode

conter nenhum outro stop-codon, isto é, deve também satisfazer a condição S[k, · · · , k + 2] /∈{TAA, TAG, TGA} para i+3 ≤ k ≤ j−6. Por exemplo, na sequência S = GTCGCCATGATGGTGGT-

TATTATACCGTCAAGGACTGTG TGACTA, S[7, · · · , 42] é um ORF, já que se inicia com o star-codon

S[7, · · · , 9] = ATG e termina com o stop-codon S[40, · · · , 42] = TGA, não tendo qualquer outro

stop-codon entre S[10] e S[39].

Fig. 1.3. Start-codon e stop-codon da sequência S

O ORF determina uma partição da sequência de ADN S em codons com três nucleótidos con-

secutivos. No ORF 1, o primeiro codon é S[1, · · · , 3], o segundo codon é S[4, · · · , 6] e assim por

diante. No ORF 2, no entanto, o primeiro codon é S[2, · · · , 4], e o segundo codon é S[5, · · · 7]. O

primeiro codon no ORF 3 é S[3, · · · 5].

Num dado ORF, os codons podem ser detectados deslizando uma janela de comprimento três

ao longo da sequência, começando na posição 1, 2 ou 3, dependendo do ORF.

Fig. 1.4. Janela de comprimento três ao longo da sequência S

Consideremos, como primeiro exemplo, o problema de encontrar um ORF numa sequência, e

seja S[k, · · · , k + 2] o codon sob a janela deslizante. Começando com uma posição inicial k, dada

pela sequência de leitura, a janela deslizante deve ser deslocada por três nucleótidos de cada vez,

até atingir um start-codon, e depois continuar deslizando novamente de 3 em 3 nucleótidos até

atingir um stop-codon. Esta descrição não é totalmente exacta já que a sequência de ADN dada

pode não conter qualquer start-codon, ou pode conter um start-codon mas nenhum stop-codon, e

a busca pelo início ou fim do ORF pode ultrapassar o fim da sequência.

O primeiro start-codon na sequência de leitura que se inicia na k-ésima posição de uma de-

terminada sequência de ADN com n nucleótidos, pode ser encontrado deslizando uma janela

S[i, · · · , i+2] de três nucleótidos ao longo de S[k, · · · , n], até que i+2 > n ou S[i, · · · , i+2] = ATG.

10FCUP


No algoritmo seguinte, a posição inicial i do candidato a start-codon é incrementada de três em três,

desde que o codon não caia fora da sequência (isto é, i+ 2 ≤ n) e não seja já um start-codon (isto

é, S[i, ..., i+ 2] 6= AGT).

Fig. 1.5. Algoritmo (parte 1)

Depois de ter encontrado um start-codon S[i, · · · , i+ 2], o primeiro stop-codon pode ser encon-

trado ao deslizar uma janela S[j, · · · , j + 2] de três nucleótidos, desta vez ao longo S[i+ 3, · · · , n],

até que j + 2 > n ou S[j, · · · , j + 2] /∈ {TAA, TAG, TGA}. Agora, o problema de extrair o primeiro


ORF numa sequência de leitura que se inicia na posição k de uma sequência de ADN S de com-

primento n pode ser resolvido juntando a busca por um start-codon e a busca por um stop-codon.

Na descrição seguinte, o start-codon é S[i, · · · , i+ 2] e o stop-codon é S[j, · · · , j + 2] e, portanto,

o ORF é S[i, · · · , j + 2].


Desde que o primeiro genoma completo da bactéria Mycoplasma genitalium foi sequenciado

em 1995, um número cada vez maior de genomas completos estão acessíveis em bases de da-

FCUP


dos públicas, como por exemplo, GENBANK(23). A disponibilidade de genomas completos abre

a possibilidade de tentar responder a algumas perguntas globais sobre essas sequências. Uma

dessas questões consiste em verificar se existem sequências curtas ausentes ou, pelo menos, sub-

representadas num certo genoma completo. De facto, é possível tratar esta questão cuja resposta

poderá ter algum significado biológico.

Existem duas razões que justificam o interesse por strings ausentes (ou proíbidas) ou sub-

representadas. Em primeiro lugar, esta pergunta só pode ser feita nos dias de hoje quando temos

à nossa disposição genomas completos. Em segundo lugar, a questão faz sentido já que, como ve-

remos, é possível derivar uma linguagem factorial, a partir de um genoma completo, inteiramente

definida pelo conjunto das palavras (strings) proibidas.

Em primeiro lugar vamos começar por expor um método de visualização de strings proibidas

e sub-representadas num genoma bacteriano cujo comprimento é geralmente da ordem de um

milhão de letras (nucleótidos) de N . Para isso recorremos aos chamados Sistemas iterados de

funções (Iterated Function Systems = IFS) com memória (capitulo 3). (14)(13)

Capítulo 2

Representação de sequências de ADNpor Sistemas guiados iterados defunções (GIFS)

Seja VA = (0, 0); VT = (1, 0); VG = (1, 1) e VC = (0, 1), e definamos, ∀x ∈ Q = [0, 1]2, o

Sistema Iterado de Funções (IFS) em Q, que consiste das seguintes quatro transformações afins

Ψi(x) = x +1

2(Vi − x) =

1

2(x + Vi),

onde i ∈ {A,T,C,G} e x ∈ Q (2.1)

De acordo com Barnsley, representamos este IFS por:

IFS = {Q; ΨA,ΨT,ΨC,ΨG} (2.2)

As quatro transformações afins são contracções com factor de contracção 1/2.

Seja S = s1s2 · · · sn uma sequência de ADN, com comprimento n, onde cada si ∈ N =

{A,T,C,G}. A GIFS-órbita de S (GIFS = Guided Iterated Function System), GIFS(S), é a sequên-

cia de pontos que representam os sucessivos i-prefixos, {S(1 : i)}ni=1 = {s1s2 · · · si}ni=1, de S, isto

é:

GIFS(S) = {x(s(1 : i))}ni=1 (2.3)

definidos recursivamente por:

x(S(1 : i)) = Ψsi (x(S(1 : i− 1))) =1

2(x(S(1 : i− 1)) + Vsi)

=1

2Vsi +

1

22Vsi−1 + · · ·+ 1

2i−1Vs2 +

1

2iVs1 +

1

2ixo (2.4)

para si ∈ {A,T,C,G}, i = 1, 2, · · · , n e xo = (1/2, 1/2).

13

14FCUP


Exemplo. Seja S = ACGTCACGCG. Então:

x(A) = xA = ΨA(xo) =1

2VA +

1

2xo

x(AC) = xAC = ΨC ◦ΨA(xo)

=1

2VC +

1

22VA +

1

22xo

x(ACG) = xACG = (ΨG ◦ΨC ◦ΨA)(xo)

=1

2VG +

1

22VC +

1

23VA +

1

23xo

...

x(ACGTCACGCG) = xACGTCACGCG

= (ΨG ◦ΨC ◦ · · · ◦ΨA)(xo)

=1

2VG +

1

22VC +

1

23VG + · · ·+ 1

28VG +

1

29VC +

1

210V1 +

1

210xo

Note que a indexação do ponto x segue a ordem contrária à da composição das transformações

Ψ. Essa indexação chama-se o endereço do ponto x ou (do prefixo) da sequência de ADN que ele

representa.

Representando por Q = [0, 1]2 o quadrado unitário com vértices Vi onde i ∈ {A,T,C,G},notamos que, por exemplo, ΨA(Q) = QA = [0, 1/2]2, o subquadrado no canto inferior esquerdo,

indexado pelo seu centro A = (1/22, 1/22), ΨT(Q) = QT = [1/2, 1]×[0, 1/2], o subquadrado inferior

direito, indexado por seu centro T e assim por diante. Aplicamos então o mesmo IFS a cada um

desses subquadrados. Por exemplo, aplicando o IFS a QA, obtemos os quatro subsubquadrados,

com lado de comprimento1

22:

QAA = ΨAΨA(Q); QAT = ΨTΨA(Q); QAG = ΨGΨA(Q); QAC = ΨCΨA(Q)

rotulados pelos centros AA, AT, AG e AC, como na Fig. 2.1. A estes subsubquadrados chamamos

2-células ou 2-pixels (pixels na resolução 2−2). Repetimos a construção: por exemplo, aplicamos o

IFS a QAC (a parte A de QC) para obter as 3-células ou 3-pixels (pixels na resolução 2−3, com lado

de comprimento1

23:

QACA = ΨAΨCΨA(Q); QACT = ΨTΨCΨA(Q); QACG = ΨGΨCΨA(Q); QACC = ΨCΨCΨA(Q)

indexados pelos seus centros ACA, ACT, ACG, e ACC, respectivamente (ver a Fig. 2.1). (16)

Podemos dizer, por exemplo, que QACG é a parte A da parte C de QG. Note que

QACG ⊂ QCG ⊂ QG

Em geral temos que na etapa k, o quadrado Q estará subdividido em 4k k-células (ou k-pixels),

cada uma com lado de comprimento 2−k. O centro de cada uma destas k-células representa um

k-mer. Portanto existem 16 dinucleotídeos (ou 2-mers), 64 codões ou 3-mers, etc.

A GIFS-órbita da sequência dos sucessivos prefixos de S = s1s2 · · · sn, é representada por uma

sucessão de pontos que são centros de certas células acima indicadas. Por exemplo, a GIFS-órbita

FCUP


de S = TGAG, é representada na Fig. 2.1, pela sequência de pontos

T −→ TG −→ TGA −→ TGAG

o primeiro ponto = centro de QT, o segundo ponto = centro da parte T de QG, o terceiro ponto =

centro da parte T da parte G de QA, etc.

GIFS-órbita : T −→ TG −→ TGA −→ TGAG −→ · · ·Endereços: T −→ TG −→ TGA −→ TGAG −→ · · ·

∈ ∈ ∈ ∈ · · ·Células QT QTG QTGA QTGAG · · ·

O endereço TGA, por exemplo, é uma coordenada sequencial: lida da esquerda para direita,TGA−−−→, o que significa que a sequência de transformações que movem o ponto xo ∈ Q para a célula

QTGA é ΨA(ΨG(ΨT(xo))). Este último ponto pertence à célula QTGA. Dado um qualquer x ∈ Q, para

atingir QTGA, aplicamos primeiro ΨT, que nos leva para a célula QT. De seguida aplicamos ΨG, que

nos leva para QTG ⊂ QG, que é a parte T de QG. Finalmente ΨA leva-nos para QTGA ⊂ QA, que é a

parte T da parte de G de QA.

Fig. 2.1. GIFS-órbita da sequência de ADN S = TGAG.

Em genómica S = s1s2 · · · sn, é uma sequência longa e finita de tamanho |S| = n, digamos

n = 2.9× 109 para o número de nucleótidos no ADN humano.

A GIFS-órbita de S pode ser representada por uma sequência de pontos em Q, como foi indi-

cado anteriormente, produzindo uma imagem de S. Tais imagens podem ser usadas para identificar

padrões em S e usadas, por exemplo, para distinguir diferentes tipos de ADN. Como a GIFS-órbita

de S está contida no atractor do IFS, a forma como lá se situa, e a relação entre o processo de-

terminista de representação desta órbita, especificado pela cadeia de nucleótidos de S, e a órbita

16FCUP


estocástica, poderá fornecer um padrão ou uma assinatura de S.

Suponhamos que temos duas sequências R = R(1 : n) e S = S(1 : m), tais que

R(n− k + 1 : n) = S(m− k + 1 : m) = n1n2 · · · nk

ou seja, os últimos k ≥ 1 nucleótidos, n1n2 · · · nk, são os mesmos em ambas sequências. Por

outras palavras, as duas sequências têm o mesmo sufixo de comprimento k.

Sabemos que os dois últimos pontos x(R(1 : n)) e x(S(1 : m)) das GIFS-órbitas de R e S,

respectivamente, estão ambos dentro da k-célula Qn1n2···nk , cujo lado tem comprimento igual a

1/2k. Portanto a distância Euclideana entre esses dois pontos satisfaz

d(x(R(1 : n)), x(S(1 : m))) ≤√

2

2k(2.5)

Exemplifiquemos - suponhamos que

R = ACGCCCGCAC, e S = CAGTTAACAGCAC

que partilham o mesmo sufixo R(7 : 10) = GCAC = S(10 : 13). Portanto os dois últimos pontos

x(R(1 : 10)) e x(S(1 : 13)) das GIFS-órbitas de R e S estão dentro da 4-célula QGCAC, cujo lado

tem comprimento igual a1

24(ver Fig. 2.1).

Ainda um outro exemplo. Suponhamos que

S = ACGCACGCAGCACATT (2.6)

que tem repetido duas vezes o mesmo 4-mer, GCAC. Aplicando o que se disse antes às duas

subsequências

S(1 : 6) = ACGCAC, e S(1 : 13) = ACGCACGCAGCAC

que partilham o mesmo sufixo GCAC, concluímos que os dois últimos pontos x(S(1 : 6)) e x(S(1 :

13)) das GIFS-órbitas de S(1 : 6) e S(1 : 13), respectivamente, estão ambos dentro da 4-célula

QGCAC, cujo lado tem comprimento igual a1

24.

Em geral, dada uma sequência S, com comprimento |S| = n, se quisermos calcular os seus

k-mers, fazemos o seguinte - representamos a GIFS-órbita de S, GIFS(S) = {x(S(1 : i)) ∈ Q}ni=1.

Como há 4k k-mers, consideramos uma grelha em Q, constituída por pequenos quadrados cujo

lado tem comprimento igual 1/2k, ou k-pixels, indexados usando combinações apropriadas dos

símbolos A,T,G,C ∈ N , da forma como acima se indicou. Nesta grelha estão representados todos

os k-mers, ou seja, todas as palavras de N k (palavras de comprimento k), do alfabeto N .

Como vimos, na k-célula Qn1n2···nk , onde ni ∈ N , estão todos os pontos representativos de

todos os prefixos S(1 : i) de S, com 1 ≤ i ≤ n, que partilham o mesmo sufixo n1n2 · · · nk ∈ N k.

Seja NS(n1n2 · · · nk) o número de vezes que o k-mer n1n2 · · · nk ocorre em S. Este número é pois

igual ao número de pontos da GIFS-órbita de S, contidos Qn1n2···nk . Se dividirmos por |S| − k + 1

temos a frequência

fS(n1n2 · · · nk) =NS(n1n2 · · · nk)

|S| − k + 1(2.7)

FCUP


de ocorrência do k-mer n1n2 · · · nk em S. Usamos uma gama de cinzentos c ∈ [0, 1], onde c = 0

= branco e c = 1 = preto, para colorir cada k-célula com uma intensidade de cinzento igual a

fS(n1n2 · · · nk). Obtemos desta forma a imagem da sequência S, que acima se referiu.

Vejamos um exemplo: S = TCGAACTCGCGAATCG, com |S| = 16 e k = 3. A GIFS-órbita é

constituída pelos pontos que representam os sucessivos sufixos:

T→ TC → TCG → TCGA → TCGAA → TCGAAC → TCGAACT → TCGAACTC

→ TCGAACTCG → TCGAACTCGC → TCGAACTCGCG → TCGAACTCGCGA

→ TCGAACTCGCGAA → TCGAACTCGCGAAT → TCGAACTCGCGAATC

→ TCGAACTCGCGAATCG (2.8)

Por exemplo NS(CGA) = 2 e fS(CGA) = 2/(16− 3 + 1) = 1/7.

Convém guardar em memória, e disponibilizar como output, a sequência de comprimentos dos

prefixos, digamos i1 < i2 < · · · < iNS que partilham o mesmo sufixo n1n2 · · · nk ∈ N k. Assim no

exemplo anterior a informação sobre o trinucleotídeo CGA que ocorre NS = 2 vezes em S, deve

vir acompanhada dos comprimentos dos prefixos, i1 = 4 < i2 = 12 que partilham o mesmo sufixo

CGA. A informação será dada na forma:

IS(CGA) = (CGA; 4, 12)

Em particular, é fácil calcular as repetições em tandem de uma palavra S, isto é, palavras do

tipo abb onde a,b ∈ N ∗. Basta procurar as células do tipo bb, na resolução k = 2|b|, e contar

os prefixos que partilham o sufixo bb, juntamente com os comprimentos desses prefixos, digamos

i1 < i2 < · · · . A informação será dada na forma:

IS(bb) = (bb; i1, i2, · · · )

Capítulo 3

IFS com memória

Daqui em diante usamos a correspondência

A↔ 1, T↔ 2, C↔ 3, G↔ 4

O IFS que nos interessa, I = {Ψ1,Ψ2,Ψ3,Ψ4}, é constituído pelas quatro contrações em R2,

definidas por

Ψ1(x, y) = (x/2, y/2)

Ψ2(x, y) = (x/2, y/2) + (1/2, 0)

Ψ3(x, y) = (x/2, y/2) + (0, 1/2)

Ψ4(x, y) = (x/2, y/2) + (1/2, 1/2) (3.1)

Quando iterado, I preenche o todo o quadrado unitário Q.

As transformacões (3.1), induzem uma subdivisão do quadrado Q em subquadrados (pixels)

cujos endereços são determinados pelas respetivas composições (Fig. 3.1).

Fig. 3.1. Uma ilustração de subquadrados de Q, com osrespectivos endereços

Em geral o subquadrado, ou k-pixel, Qi1i2···ik , com endereço i1 · · · ik, é obtido pela composição

seguinte

Qi1i2···ik = Ψik ◦Ψik−1◦ · · · ◦Ψi2 ◦Ψi1(Q) (3.2)

Note que

Qik ⊃ Qik−1ik ⊃ · · · ⊃ Qi1···ik (3.3)

19

20FCUP


Por exemplo, na Fig. 3.1, Q2 ⊃ Q32. Q32 é a parte 3 de Q2.

Os endereços podem ser interpretados como coordenadas espaciais: são lidos da esquerda

para a direita, o que corresponde à leitura sequencial (da esquerda para a direita) do genoma que

representam.

Consideremos, por exemplo, o endereço 12324. Usando a equivalência A ↔ 1,T ↔ 2,C ↔3,G↔ 4, o endereço 12324 corresponde à palavra ATCTG. Em coordenadas espaciais, 12324 está

no quadrado 4. Dentro de 4, encontra-se na parte 2 de 4. Dentro de 24, encontra-se na parte 3 de

24. Dentro de 324, encontra-se na parte 2 de 324, etc.

Se certas combinações de transformações forem excluídas temos o que chamamos um IFS

com memória. Mais especificamente,

• um IFS I tem 1 passo de memória, ou é um 1-IFS (com memória) se determinados pares

Ψi ◦ Ψj forem proíbidos. Esta informação pode ser codificada por uma matriz de transição

M = [mij ], onde

mij =

{0 se o par Ψi ◦Ψj for proíbido

1 se o par Ψi ◦Ψj for permitido.

Observe que se Ψi2 ◦Ψi1 é proíbido, também o será toda a composição Ψjk ◦ · · · ◦Ψj1 onde

i2 e i1 são dois índices consecutivos em jk · · · j1. (4)

• um IFS I tem 2 passos de memória, ou é um 2-IFS (com memória) se eventualmente alguns

pares são proíbidos e se existem triplos Ψi3 ◦ Ψi2 ◦ Ψi1 proíbidos, onde o triplo i1i2i3 não

contém qualquer par proíbido.

• em geral, um IFS I tem m passos de memória, ou é um m-IFS (com memória) se existem

combinações proíbidas de comprimento quando muito igual a m+ 1 e pelo menos uma com-

binação proíbida de comprimento (m+ 1), que não contém qualquer combinação proíbida de

comprimento j, para 1 ≤ j ≤ m.

Um IFS sem memória diz-se um 0-IFS. (2)

Fig. 3.2. Primeiro: o fractal gerado pela proibição da composição Ψ4 ◦ Ψ1 –Q14 = QAG é vazio. Segundo: rotulagem dos endereços vazios de compri-mento 2 e comprimento 3 da primeira imagem. Terceiro: O fractal gerado pelaproibição de Ψ4 ◦Ψ1 ◦Ψ1 – Q114 é vazio.

Até agora, quais transformações são aplicadas em cada iteração não depende de quaisquer

condições a priori. Aqui, vamos estudar o caso em que algumas combinações de transformações

são proibidas.

FCUP


As áreas representadas a branco num fractal, ou melhor dizendo, as áreas que não foram

preenchidas, representam as combinações de transformações proibidas. Vamos ver a figura 3.2

como exemplo.(12)

Aqui, na primeira imagem vemos o fractal gerado pela proibição da composição Ψ4 ◦Ψ1. Sabe-

mos à priori que o subquadrado com o endereço 14 (de comprimento 2) vai estar vazio. Observa-

mos pela imagem que também temos outros subquadrados vazios, de comprimento superior.

Sabemos que, se temos uma composição proibida então qualquer composição que contenha

este endereço proibido também vai ser proibida. No exemplo, a composição Ψ4◦Ψ1 que representa

o endereço 14 é proibida, por isso, todos os endereços de comprimento maior, e que contenham

a sequência 14, também serão proibidas. Assim as sequências 141, 142, 143 e 144 também são

proibidas.

Na segunda imagem da Fig. 3.2, rotulamos os subquadrados vazios cujos endereços têm

comprimento 3: 141, 142, 143 e 144.

Como cada quadrado vazio neste fractal pode ser explicado pelo par proibido inicial (par 14),

pelo menos até aos endereços de comprimento 3, podemos dizer que este fractal é gerado por

pares proibidos. Claro que para testar se um fractal é realmente determinado por pares proibidos,

teríamos que verificar sequências arbitrariamente longas. (12) Mas, por agora, vamos nos contentar

em verificar se todos os endereços de comprimento 3 vazios contêm um endereço vazio de 2

caracteres.

A terceira imagem da figura 3.2 é gerada pelas composições proibidas Ψ4 ◦Ψ1 e Ψ4 ◦Ψ4 ◦Ψ1.

Proibir a composição Ψ4 ◦ Ψ4 ◦ Ψ1 não é uma consequência da proibição de Ψ4 ◦ Ψ1, por isso

já não podemos dizer que este fractal é gerado por pares proibidos. Observamos também na

terceira imagem, para cada endereço maior que 2, mais subquadrados vazios do que nas imagens

anteriores, devido a esta nova proibição.

O nome IFS com memória é atribuído a estas construções pelo facto de que as transformações

ocorridas no passado determinam quais transformações podem ocorrer a seguir.

Antes de analisarmos com mais detalhe os fractais com memória, vejamos como proceder na

prática para detectar as palavras proíbidas.

(a). Primeiro, identificamos os endereços de comprimento 2 vazios, dividindo o quadrado Q numa

grade 4 × 4 de subquadrados menores e, em seguida, vemos os 2-endereços de todos os

quadrados vazios dessa grade de malha 2−2. Na segunda imagem da Fig. 3.3, vemos

que estes são 11, 23, 32 e 44. Como estes quadrados estão vazios, dizemos que os seus

endereços são pares proibidos.

Fig. 3.3. Na segunda imagem ve-mos que os quadrados com endereços11, 23, 32 e 44 estão vazios. Dizemosque esses endereços são pares proibi-dos.

22FCUP


(b). De seguida, encontramos todos os subquadrados 2−2×2−2 com 3-endereços que são vazios.

Sabemos já alguns – por exemplo, como o endereço 32 está vazio, todos os endereços 321,

322 , 323, e 324 também estão vazios, uma vez que a única maneira de obter um ponto

nesses endereços é aplicar uma das transformações a um ponto no quadrado 32, que está

vazio.

De facto, todo o subquadrado vazio neste fractal pode ser explicado pelos quatro pares proi-

bidos iniciais (pelo menos até aos 3-endereços), podemos dizer que este fractal é gerado por

pares proibidos.

(c). Se tivéssemos encontrado alguns endereços de comprimento 3 vazios, mas não contendo

qualquer endereço de comprimento 2 vazio, então o fractal não é gerado por pares proibidos

e precisamos listar triplos proibidos para especificar o fractal.

Fig. 3.4. Da segunda imagem vemosos endereços de comprimento 2 vazio etambém os endereços de comprimento3: 41, 44, 411 , 412, 442, 413, 443, 414,111, 114. A “bold face" estão os paresproíbidos e os triplos proíbidos que de-les são consequência.

Note que 111 e 114 não contêm nenhum dos endereços vazios de comprimento 2. Clara-

mente, nem todos os endereços vazios de comprimento 3 deste fractal são consequência de

pares proíbidos - o fractal não pode ser determinado por pares proíbidos.

Representemos por Comp(R2) o conjunto de todos os compactos K ⊂ R2, munido da distân-

cia Hausdorff h (20). Para um 0-IFSI , com n transformações contratoras Ψi : R2 → R2, i =

1, 2 · · · , n, definimos uma aplicação Ψ : Comp(R2) −→ Comp(R2), através de

Ψ(K) = ∪ni=1Ψi(K), K ∈ Comp(R2) (3.4)

Ψ é uma contracção em (Comp(R2), h). Relativamente à métrica Hausdorff h, (Comp(R2), h)

é completo, e, por isso, dado um qualquer K ∈ Comp(R2), a sequência

Ψ(K),Ψ2(K),Ψ3(K), · · ·

converge para um único AI ∈ Comp(R2) que se chama o atractor do 0-IFS I . Pelo teorema do

ponto fixo de Banach, sabemos que

Ψ(AI ) = AI

. Nesta formulação, é importante notar que as transformçaões Ψi são aplicadas em todas as

composições possíveis, isto é, Ψ(C) = ∪ni=1Ψi(C), Ψ2(C) = ∪nj=1 ∪ni=1 (Ψj ◦ Ψi)(C) e assim por

diante.

Para um IFS, I = {Ψ1, · · · ,Ψn}, o alfabeto A é {1, · · · , n}. No contexto que nos interessa

n = 4. Suponhamos que F é um conjunto finito de palavras do alfabeto A . Suponhamos que a

FCUP


palavra mais longa em F tem comprimento m + 1. O m-IFS determinado por F proíbe todas as

composições da forma Ψiq ◦ · · · ◦ Ψi2 ◦ Ψi1 onde i1 · · · iq ∈ F . O conjunto de todas as palavras

proíbidas é o conjunto de todas as palavras do alfabeto A que contêm um elemento de F como

subpalavra. Dizemos, por isso, que F gera a coleção P de todas as palavras proibidas, e notamos

este facto por P = 〈F 〉.Se A é o atrator de um IFS com memória, baseada nas transformações I , então Ai1···iq =

A ∩Qi1···iq é a região do atrator com endereço i1 · · · iq. (5)

Exemplo 1:: 1-IFS com F = {11, 22, 33}. As regiões Q11, Q22, e Q33, estão vazias, assim como

todas as regiões cujo endereço contêm as palavras 11, 22 ou 33 (Fig. 3.5 esquerda).

Fig. 3.5. Atratores do Exemplo 1 (esquerda) e Exemplo 2(direita).

Exemplo 2: 1-IFS com F = {41, 23, 32, 144} As regiões Q41, Q23, Q32 e Q144 estão vazias, assim

como todas as regiões cujo endereço contem as palavras 41, 23, 32 ou 144 (Fig. 3.5 direita).

Podemos usar uma representação através de um grafo com quatro vértices, rotulados 1, 2, 3 e

4, correspondendo respetivamente às contracções (3.3) Ψ1,Ψ2,Ψ3 e Ψ4. Um arco orientado (ij)

existe sse a composição Ψj ◦Ψi for permitida (não proíbida). Observe a direção do arco e a ordem

da composição. O arco (ij) significa que Ψj pode seguir Ψi; se uma combinação não for permitida,

o respectivo arco é omitido. Este grafo diz-se o gráfico de transição do IFS. Alguns exemplos são

mostrados nas figuras 3.6 e 3.8 (onde do lado esquerdo estão representados os grafos de transição

e do lado direito o respectivo fractal).

Observando o fractal representado na parte de cima, do lado direito, da figura 3.6 vemos que

os pares proibidos são o 33, 43, 23, 32, 42 e 22. Se imaginarmos linhas a dividir o fractal em 16

quadrados mais pequenos, ou seja, dividir o fractal em quatro quadrados e voltar a dividir, desta

vez os quatro quadrados resultantes em quatro (como estudamos anteriormente), sabemos que os

quadrados vazios serão os pares proibidos.

Para a construção do grafo de transição, consideramos um em que todas as transições são

possíveis e depois vamos retirando as setas que correspondem às transições proibidas. Tendo os

pares proibidos, basta então retirar as setas correspondentes às proibições. Aqui, como já vimos,

temos os quadrados vazios 33, 43, 23, 32, 42 e 22; por isso, as transições proibidas são 3 → 3,

4 → 3, 2 → 3, 3 → 2, 4 → 2 e 2 → 2. Retirando estas setas, obtemos o grafo de transição

apresentado no canto superior esquerdo da imagem.

24FCUP


Fig. 3.6. Representação de grafos de transição de IFS (lado esquerdo) com os correspondentesfractais (lado direito).

Um vértice do grafo de transição é chamado de rome se houver setas para esse vértice de cada

vértice, incluindo ele próprio.

Então, temos que o vértice 1 e 4 do grafo de transição do canto superior esquerdo da figura 3.6

são romes.

Para que um fractal produzido por um IFS com memória também possa ser produzido por um

IFS sem memória (vistos anteriormente) o grafo de transição tem de possuir umas certas condições.

As condições de redução de memória são então as seguintes:

1. O grafo deve ter pelo menos uma rome.

2. Para cada vértice não-rome, existe um caminho no grafo de transição de alguma rome para

essa não-rome.

A primeira condição garante que pelo menos uma parte da forma contenha uma cópia escalo-

nada de toda a forma; a segunda condição mostra que cada parte da forma é uma cópia em escala

de uma dessas cópias escalonadas da forma inteira.

Para evitar possíveis problemas envolvendo praticidade, impomos uma condição adicional.

3. Não há nenhuma loop a passar apenas por vértices não-rome.

FCUP


Se as condições 1, 2 e 3 forem satisfeitas, o fractal pode ser gerado por um IFS sem memória

e com um conjunto finito de transformações.

Voltando ao exemplo, vemos que o grafo do canto esquerdo superior da figura 3.6 satisfaz as

três condições.

Para a primeira condição já vimos que o grafo tem duas romes por isso esta é satisfeita.

Para a segunda condição, vamos analisar os vértices não-rome (2 e 3). Temos o caminho 1→ 2

e 1→ 3; e sabemos que 1 é uma rome, por isso a condição é satisfeita.

Para a terceira condição basta ver que não existe nenhuma loop que passe unicamente por

vértices não-rome. O que se observa na figura nitidamente, até porque nem há nenhum caminho

entre os vértices não-rome (2 e 3).

Como as três condições são satisfeitas, este IFS de pares proibidos pode ser gerado por um

IFS sem memória.

Observando o fractal vemos que este é constituído por cópias de diferentes escalas dele próprio.

Temos duas cópias de escala 1/2 no canto inferior esquerdo e no canto superior direito; e duas

cópias do fractal de escala 1/4 nos quadrados com a nomenclatura 12 e 13. Ver figura 3.7.

Fig. 3.7. Subdivisão do fractal representado no canto superior direito da figura 3.6

Depois de observarmos esta imagem é muito mais fácil construir a tabela 3.1 do IFS sem me-

mória. Onde:

• r indica a escala da imagem na direção horizontal. Ou seja, multiplicar as coordenadas de x

de cada ponto por r. Sendo que o r negativo reflete a forma em relação ao eixo y.

• s denota o redimensionamento da imagem na direção vertical. Ou seja, multiplicar as coorde-

nadas de y de cada ponto por s. Sendo que o s negativo reflete a forma em relação ao eixo

x.

• θ representa a rotação das linhas horizontais em torno da origem, com os ângulos positivos a

indicar rotações no sentido anti-horário.

• φ corresponde à rotação de linhas verticais. (Na maioria dos casos que vão ser analisados

aqui θ = φ, assim a imagem gira em torno da origem sem qualquer tipo de distorção.)

• e denota o movimento/translação na direção horizontal. Ou seja, adicionamos e à coordenada

x de cada ponto.

26FCUP


• f representa o movimento/translação na direção vertical. Ou seja, adicionamos f à coorde-

nada y de cada ponto.

Tabela 3.1: Código IFS sem memória para o fractal representado no canto superior direito da figura3.6

r θ φ s e f

1/2 0 0 1/2 0 01/2 0 0 1/2 1/2 1/2

1/4 0 0 1/4 1/2 01/4 0 0 1/4 0 1/2

Para relacionar esta tabela IFS às divisões feitas ao fractal na figura 3.7, observe, por exemplo,

que o quadrado pequeno com bordas azuis localizado no canto superior esquerdo (quarta linha da

tabela IFS) ocupa o endereço 13 e, portanto, é dado pela composição Ψ3 ◦ Ψ1. Assim, podemos

calcular os parâmetros de transformação algebricamente.

Ψ3(Ψ1(x, y)) = Ψ3(x/2, y/2) = (x/4, y/4 + 1/2) (3.5)

Agora vamos analisar o fractal apresentado no canto inferior direito da figura 3.6.

Temos que os quadrados vazios são o 41, 32, 23 e 14. Daqui concluímos que as transições

proibidas vão ser 4 → 1, 3 → 2, 2 → 3 e 1 → 4. Por isso já conseguimos construir o grafo

de transição presente no canto inferior esquerdo da figura 3.6. Analisando este grafo vemos que

não existe nenhuma rome, pois nenhum dos vértices tem setas a apontar para ele de todos os

vértices, incluindo ele próprio. Assim, com a primeira condição quebrada, este fractal não pode ser

construído por um IFS sem memória.

Observando o fractal representado no canto superior direito da figura 3.8 conseguimos identifi-

car várias cópias do fractal de escala cada vez mais pequena (temos duas cópias de escala 1/2 na

parte de baixo do fractal; e, à medida que vamos subindo, continuamos a ter sempre duas cópias

do fractal mas de escala cada vez menor, 1/4, depois 1/8 e por aí em diante). O que à partida

significa que este fractal pode ser desenhado com um IFS sem memória.

Ao contrário do que acontecia no primeiro fractal da figura 3.6, este não parece ser resolvido

facilmente sem memória. Pois temos cópias cada vez menores do fractal, infinitamente.

Vamos analisar o grafo de transição. Temos que os vértices 1 e 2 são romes, pois temos setas

de todos os vértices, incluindo eles próprios, a apontar para eles. O que deixa os vértices 3 e 4

como não romes.

Neste grafo, ao contrário do que acontecia no grafo de transição do fractal representado na parte

superior da figura 3.6, identificamos uma loop, 4 → 4, que dá origem a caminhos arbitrariamente

longos através dos vértices não-romes 3 e 4. Por exemplo,

2→ 3, 2→ 4→ 3, 2→ 4→ 4→ 3, 2→ 4→ 4→ 4→ 3, ... (3.6)

FCUP


Fig. 3.8. Representação de grafos de transição de IFS (lado esquerdo) com os correspondentesfractais (lado direito)

Cada um destes é uma cópia pequena do fractal, que requer a sua própria regra numa constru-

ção do fractal sem memória. Esta loop (4 → 4) por vértices não-rome cria uma cascata infinita de

cópias mais pequenas. O que significa que o IFS correspondente teria que ter infinitamente muitas

regras. O que não é útil.

Para o grafo no canto inferior esquerdo da figura 3.8 vemos que 2 e 3 são romes, e que as

loops em 1, em 4 e entre 1 e 4 nos dão caminhos arbitrariamente longos entre não-romes. O

mesmo problema acontecia no exemplo anterior (topo da figura 3.8). E vimos que produzir um IFS

sem memória levava a uma coleção infinita de transformações. Mas neste caso ainda é pior.

A parte do atrator do IFS nos quadrados 1 e 4 do fractal é uma única linha reta, de modo algum

esta linha é uma cópia ou cópias de toda a forma do fractal, não importa quão reduzida. O problema

aqui é que nem o subquadrado 2 nem o 3 se alimentam do 1 e do 4. No grafo de transição, as

únicas setas com sentido para 1 e 4 são de 1 e 4. Isto gera a linha entre os cantos 1 e 4, e nada

mais. Evitar este problema é o motivo da condição 2.

É claro que podemos construir o IFS com combinações proibidas mais longas, por exemplo,

triplas proibidas que não precisam conter pares proibidos.

No capítulo seguinte vamos usar uma variação do IFS para procurar padrões em sequências de

dados. Estas investigações do IFS com memória vão-nos informar em relação às nossas tentativas

28FCUP


de descobrir quanto do passado precisamos saber para fazer previsões, talvez apenas probabilísti-

cas, sobre o futuro. (12) (17)

Capítulo 4

IFS guiados e análise de dados

4.1 IFS guiados

Se o algoritmo IFS aleatório for implementado com as transformações selecionadas por alguma

sequência específica de valores, chamamos a este algoritmo IFS guiado. A CGR de uma sequência

de ADN é um IFS guiado.

Mais uma vez vamos considerar as regras do IFS do quadrado.

Ψi(x, y) = (x/2, y/2) + (ei, fi) (4.1)

com as translações

(ei, fi) = (0, 0), (1/2, 0), (0, 1/2) e (1/2, 1/2) para i = 1, 2, 3, 4.

Onde todos os gráficos IFS guiados começam com (1/2, 1/2), o ponto no centro do quadrado.

As regras IFS quadradas Ψ1, Ψ2, Ψ3 e Ψ4 podem ser expressas como se se estivessem a mover

para metade do caminho dos cantos 1, 2, 3 e 4, ou seja, para os pontos (0, 0), (1, 0), (0, 1) e (1, 1).

As probabilidades afetam a dispersão dos dados nas representações de IFS. Se cada transfor-

mação tiver a mesma probabilidade vamos obter uma dispersão bastante uniforme dos pontos, mas

se alterarmos os valores das probabilidades vamos obter um resultado muito diferente. Sendo pi a

probabilidade da transformação Ψi, com i ∈ 1, 2, 3, 4, vamos atribuir, por exemplo, p1 = p4 = 0.4,

p2 = p3 = 0.1 para um fractal e p1 = 0.4, p2 = 0.3, p3 = 0.2, p4 = 0.1 para outro. Os fractais

obtidos estão representados na figura 4.1.

A partir destas probabilidades podemos fazer previsões sobre o padrão no IFS. Por exemplo,

no fractal do lado esquerdo da figura 4.1, a concentração densa de pontos entre os cantos 1 e 4 em

forma de linha diagonal, a imagem desta linha diagonal nos quadrados 2 e 3 e a escassez de pontos

entre os cantos 2 e 3 em forma de linha diagonal. E, no fractal do lado direito, a concentração de

pontos no canto 1 e a escassez deles no canto 4. Vemos também que a concentração de pontos é

maior em todos os subquadrados do fractal na parte 1 dos mesmos.

Vamos ver um exemplo de um IFS guiado por uma sequência da enzima amilase com uma

sequência com 3957 nucleótidos e tentar arranjar maneiras de o recriar.

Os padrões mais notáveis neste IFS guiado, apresentado na figura 4.2, são a diagonal que une

o canto 2 ao canto 3 e a escassez de pontos no quadrado 14. Tal como todos os quadrados que

30

FCUP


Fig. 4.1. IFS com as regras do quadrado com probabilidades: no lado esquerdo: p1 = p4 = 0.4,p2 = p3 = 0.1; no lado direito: p1 = 0.4, p2 = 0.3, p3 = 0.2, p4 = 0.1

Fig. 4.2. Primeiro: IFS guiado pela sequência de ADN da amilase. Segundo: Substituto do IFSguiado por um IFS com memória, onde temos o par 14 proibido. Terceiro: Substituto do IFS guiadopor um IFS com memória, onde temos o par 14 proibido e com p1 ≈ 0.149, p2 ≈ 0.330, p3 ≈ 0.351e p4 ≈ 0.170

contenham a sequência 14 estão praticamente vazios. Os de comprimento 3 (141, 142, 143 e 144)

ainda conseguimos identificar bem na imagem que estão praticamente vazios, os de comprimento

maior já se torna mais complicado de observar mas sabemos que isto acontece pelo que foi visto

no capítulo 3.

Para recriarmos, o mais parecido possível, este IFS guiado vamos então proibir a composição

Ψ4 ◦ Ψ1. O resultado é mostrado na segunda imagem da figura 4.2. No entanto, ainda falta a

diagonal 2-3. Como vimos em cima, alterar as probabilidades das transformações pode criar este

tipo de padrão que queremos produzir (ver lado esquerdo da figura 4.1).

A segunda imagem foi construída com aproximadamente o mesmo número de pontos em cada

um dos quatro quadrados que são representados por endereços de comprimento 1. Vamos então

32FCUP


ajustar as probabilidades das transformações para representar com mais precisão a distribuição

real de bases na sequência da amilase.

Contando o número de bases diferentes na sequência de ADN, vamos ter de ter 589 pontos no

quadrado 1, 1305 no quadrado 2, 1389 no quadrado 3 e 674 no quadrado 4. Ou seja, sabendo que

esta sequência tem 3957 nucleótidos, vamos ter as probabilidades p1 = 589/3957 ≈ 0.149, p2 =

1305/3957 ≈ 0.330, p3 = 1389/3957 ≈ 0.351 e p4 = 674/3957 ≈ 0.170.

Juntando estas probabilidades ajustadas com a proibição da composição Ψ4◦Ψ1 temos o fractal

representado na terceira imagem da figura 4.2. Aqui já observamos uma diagonal 2-3 bastante

semelhante à do IFS guiado pela sequência da amilase.

4.2 IFS guiado por uma série temporal

Para mostrar a aplicabilidade mais ampla deste método, vamos agora ver como criar um IFS

guiado por uma série temporal. Uma série temporal é uma sequência de medições ordenadas

no tempo. Suponhamos, por exemplo, que temos uma sequência sucessiva de gerações de uma

população de uma determinada espécie num ambiente com recursos limitados. Em vez de regis-

trarmos o número real de elementos dessa espécie em cada geração, dizemos que x1, x2, ..., xnsão frações de cada geração da capacidade de carga, a população máxima suportada pelo meio

ambiente.

Queremos transformar isto numa sequência de instruções de 1s, 2s, 3s e 4s para guiar o IFS.

Para isso, vamos agrupar os dados, isto é, vamos dividir a série temporal em quatro partes de me-

didas. A estas divisões vamos chamar caixas. Como fazemos a divisão das medidas vai depender

de quais caraterísticas dos dados queremos enfatizar.

As divisões mais comummente utilizadas são criar caixas com o mesmo tamanho, com o mesmo

peso e centradas na mediana.

Vamos começar por analisar a divisão dos dados por caixas com o mesmo tamanho. Para isso,

tomamos o alcance R = max{x1} −min{x1} da série total e dividimos em quatro intervalos com

o mesmo comprimento. Isto é, temos as caixas:

B4 = [min{x1}+ 3R/4,max{x1}]

B3 = [min{x1}+R/2,min{x1}+ 3R/4]

B2 = [min{x1}+R/4,min{x1}+R/2]

B4 = [min{x1},min{x1}+R/4]

(4.2)

Vamos aplicar isto numa série temporal com 10000 pontos de um modelo que prevê gerações de

uma população de insetos, que está representada na figura 4.3. Aqui vemos já a série dividida em

4 caixas de igual comprimento, cuja separação das caixas é representada pelas linhas horizontais.

Para passarmos esta representação para a representação usual do IFS, para o caso de 4 trans-

formações (visto anteriormente), consideramos que, quando um ponto dos dados da série tem-

poral está dentro da caixa Bi, no IFS guiado aplicamos a transformação Ψi, não esquecer que

i ∈ {1, 2, 3, 4}. Assim, as transformações são aplicadas na ordem determinada pelos dados.

FCUP


Fig. 4.3. Exemplo de uma série temporal com 10000 pontos de um modelo que prevê gerações deuma população de insetos, já com a divisão feita em caixas com o mesmo tamanho

Aplicando este método temos que o IFS guiado, correspondente à série temporal vista na figura

4.3, é o representado na figura 4.4.

Fig. 4.4. IFS guiado pela série temporal da figura 4.3

Cada quadrado vazio na representação do IFS corresponde a uma combinação de transforma-

ções proibidas.

Se formos identificar os quadrados vazios cujo endereço tem comprimento 2, vemos que estes

são: 21, 22, 31, 32, 23, 14, 33 e 44. Se agora formos ver os quadrados vazios com endereços de

comprimento 3, reparamos que estes são: 211, 311, 212, 312, 141, 441, 142, 442, 213, 313, 224,

324, 143, 443, 234 e 334.

Vemos que todas as sequências de comprimento 3 vazias contêm uma sequência de compri-

mento 2 vazia. De facto, cada quadrado vazio neste IFS é o resultado de algum par proibido.

Vamos agora dividir os dados em intervalos de igual peso. Aqui os limites são colocados de

forma a que cada caixa contenha aproximadamente o mesmo número de pontos.

Na figura 4.5 vemos a mesma série temporal representada na figura 4.3 mas desta vez dividida

em caixas com o mesmo peso.

Vamos querer comparar as representações do IFS guiado para as diferentes divisões da série

temporal. Na figura 4.6 vemos do lado esquerdo o IFS guiado pela série temporal dividida em caixas

de tamanho igual (já representado anteriormente na figura 4.4) e do lado direito vemos o IFS guiado

pela série temporal dividida em caixas de peso igual.

Comparando os dois fractais, observamos que o da direita é mais simétrico (em relação aos

quadrantes do quadrado unitário) do que o da esquerda. O que faz sentido, considerando que este

34FCUP


Fig. 4.5. Mesma série temporal representada na figura 4.3 mas com a divisão feita em caixas como mesmo peso

Fig. 4.6. Lado esquerdo: IFS guiado para a série temporal dividida em caixas de tamanho igualrepresentada na figura 4.3. Lado direito: IFS guiado para a série temporal dividida em caixas depeso igual representada na figura 4.5

IFS foi guiado por uma série temporal dividida em caixas com peso igual, ou seja, com mais ou

menos o mesmo número de pontos.

Analisando visualmente a densidade de pontos numa certa região, podemos estimar a probabi-

lidade de os pontos estarem localizados na combinação de caixas correspondentes a um determi-

nado endereço. A partir daqui podemos estimar probabilidades de certos comportamentos de um

sistema.

Já vimos a divisão dos dados de uma série temporal por caixas de tamanho igual e de peso

igual. Agora vamos ver divisão de caixas centradas na mediana. Ou seja, o limite entre as caixas

B2 e B3 é a mediana da série temporal. É usada a mediana em vez da média porque a presença

de valores extremos pode ter um efeito maior sobre a média do que sobre a mediana.

Na figura 4.7 vemos a representação de uma série temporal com quatro divisões por caixas

diferentes. A do canto superior esquerdo dividida em caixas de tamanho igual, a do canto superior

direito em caixas de peso igual, a do canto inferior esquerdo centrada na mediana onde os outros

dois limites do intervalo são 10% do intervalo dos valores acima e abaixo da mediana e no canto

inferior direito centrada na mediana onde os outros dois limites do intervalo são 5% acima e abaixo

da mediana.

Os correspondentes IFS’s estão representados na figura 4.8. Sendo a primeira imagem corres-

pondente à série temporal dividida em caixas de tamanho igual, a segunda em caixas de peso igual,

a terceira centrada na mediana onde os outros dois limites são 10% acima e abaixo da mesma e a

FCUP


Fig. 4.7. Série temporal de um batimento cardíaco dividida em caixas de tamanho igual (cantosuperior esquerdo), peso igual (canto superior direito) e centradas na mediana (parte inferior dafigura)

quarta imagem centrada na mediana onde os outros dois limites são 5% acima e abaixo da medi-

ana.

Fig. 4.8. IFS’s guiados pelas diferentes divisões em caixas da série temporal representada na figura4.7

A forma Z no sentido reverso que conseguimos visualizar nos IFS guiados pela séria temporal

representada na figura 4.7 é usualmente encontrado em dados experimentais. (12) Este Z reverso

("backward Z") representa a constante movimentação de pontos dos dados entre caixas adjacentes.

Este atrator é mais visível na segunda e terceira imagem, o que nos leva a concluir que as divisões

em caixas da série temporal respetivas a estes IFS guiados estão com um número de pontos mais

ou menos igual em cada caixa.

No primeiro IFS guiado da figura 4.8 vemos que os pontos estão todos concentrados no seg-

mento de reta que une o canto 1 ao 2, o que nos leva a pensar que, na série temporal, a maioria dos

pontos encontram-se nas caixas B1 e B2. O que sabemos que é verdade pela figura 4.7. Para esta

série temporal, a divisão por caixas de tamanho igual não é muito útil. Como a maioria dos pontos

representados no IFS guiado estão todos concentrados no segmento de reta 1-2, não conseguimos

identificar muitos mais detalhes que podem estar presentes na sequência.

Temos também alguns pontos na diagonal 2-3, que nos diz que uma longa sequência de pontos

calham na caixa B2 e B3. Para além disto não podemos dizer muito mais sobre este IFS guiado, já

que o resto deste grafo está praticamente vazio.

36FCUP


Vamos passar para a análise do segundo IFS guiado pela série temporal dividida em caixas de

igual peso. Aqui os pontos já estão mais dispersos, mas os segmentos de reta 1-2 e 2-3 continuam

a ser visíveis. Agora, a concentração de pontos na diagonal 2-3 aumentou. E passamos também a

ter uma grande concentração de pontos no segmento de reta 3-4. Daqui concluímos que existe um

movimento frequente de pontos entre caixas adjacentes. Os pontos representados no fundo deste

IFS guiado representam os pontos que se encontram nas caixas B1 e B2, ou pontos consecutivos

numa única caixa, ou a alternação da sequência de pontos entre as duas caixas. Os representados

na diagonal 2-3 indicam exatamente a mesma coisa mas entre as caixas B2 e B3. E o mesmo para

o topo do IFS guiado, para as caixas B3 e B4.

Neste IFS guiado vemos também replicas da diagonal 2-3, com uma menor concentração de

pontos, nos quadrados com endereço 1 e 4. Que devem-se a aplicar a transformação Ψ1 e Ψ4,

respetivamente, aos pontos da diagonal 2-3.

No quadrado 4 vemos também mais replicas desta diagonal, com escala ainda menor. Isto é,

temos também uma replica desta diagonal no quadrado 44 e consequentemente no quadrado 444

e por aí fora. O que nos diz que muitas combinações de um 2 ou 3 podem ser seguidas por um,

dois ou mais 4’s. Por outro lado, apesar da grande abundância de pontos aqui, isto já não acontece

no quadrado 1. Por isso podemos deduzir que, exceto para pontos muito próximos ao canto 2,

pontos ao longo da diagonal 2-3 são raramente seguidos por dois ou três pontos consecutivos com

a sequência 1.

Contando o número de pontos em qualquer subquadrado (que tem uma certa sequência atri-

buída) do IFS, podemos estimar a probabilidade da combinação correspondente de caixas. Por

exemplo, uma série temporal que tenha 1000 pontos de dados, e que 200 desses pontos têm

sequência 111, então a probabilidade de se encontrar 3 pontos de dados consecutivos na caixa

1 é de 200/1000 = 0.2.

Vamos considerar que Njk é o número de pontos do IFS guiado com endereço jk, e que Nijk

é o número de pontos com o endereço ijk.

Se, por exemplo,

N(11) = 300, N(111) = 200, N(211) = 50, N(311) = 40, N(411) = 10,

então estimamos

Pr(1→ 1→ 1) = N(111)/N(11) = 200/300 ≈ 0.667 (4.3)

Pr(1→ 1→ 2) = N(211)/N(11) = 50/300 ≈ 0.167 (4.4)

Pr(1→ 1→ 3) ≈ 0.133 (4.5)

Pr(1→ 1→ 4) ≈ 0.033 (4.6)

Podemos dizer que se observarmos dois pontos consecutivos na caixa 1, então 2/3 das vezes

o próximo ponto também se vai encontrar na caixa 1.

FCUP


O terceiro e quarto IFS guiado da figura 4.8 são fruto da divisão da série temporal por caixas

centrada na mediana. Ao contrário das caixas de tamanho e peso igual, que só nos permitem uma

maneira de classificar os dados, as centradas na mediana dão-nos uma coleção de estratégias de

classificação. Uma estratégia diferente para cada posicionamento dos limites entre as duas últimas

e entre as duas primeiras caixas.

Colocar os dois limites externos próximos da mediana empurra a maioria dos pontos de dados

para as caixas 1 e 4, dando uma visão mais detalhada dos pontos nas posições 2 e 3. Mover os

limites externos para fora empurra a maioria dos pontos para as caixas 2 e 3 , dando uma visão

mais detalhada dos pontos nos compartimentos 1 e 4. Na terceira imagem da figura 4.8 os limites

externos estão mais distantes da mediana, na quarta, mais próximos. Estudar como a ocupação de

caixas muda à medida que os limites de caixas são movidos pode fornecer uma imagem detalhada

das relações dinâmicas que geraram os dados.

Temos de ter em atenção que um IFS guiado não gera novas informações. Cada bit do IFS

guiado vem da série temporal. Mas a facilidade com o que o vemos depende de como os dados

são apresentados.

4.3 Análise da série temporal

Para melhor reconhecimento de padrões vamos analisar séries temporais em que os dados

mudam abruptamente e ver o que isso implica no IFS guiado.

Na figura 4.9 vemos uma série temporal que pode ser dividida em cinco regimes (A, B, C, D e E).

No primeiro regime (A), os pontos estão espalhados aleatoriamente nas as caixas B1, B3 e B4. Em

B, todos os pontos encontram-se na caixa B3. Em C, os pontos estão espalhados aleatoriamente

nas caixas B2 e B3. Em D, os pontos estão todos concentrados na caixa B2. E em E, os pontos

estão espalhados aleatoriamente nas as caixas B1, B2 e B4.

Fig. 4.9. Série temporal dividida em regimes

O IFS guiado por esta série temporal está representado na figura 4.10.

Como os pontos do regime A situam-se nas caixasB1, B3 eB4 em muitas combinações, vamos

ter pontos no IFS guiado nos cantos 1 (ponto (0, 0)), 3 (ponto (0, 1)) e 4 (ponto (1, 1)); o fractal

gerado por Ψ1, Ψ3 e Ψ4. O regime B produz pontos no IFS guiado a convergir para o canto 3. O

regime C produz pontos no IFS guiado na diagonal 2-3. O regime D cria pontos no IFS guiado a

convergir para o canto 2. E, por fim, o regime E produz pontos no IFS guiado nos cantos 1, 2 e 4.

Se não reconhecermos estes regimes, deparamo-nos com alguma dificuldade quando tentamos

38FCUP


Fig. 4.10. IFS guiado da série temporal representada na figura 4.9

interpretar o IFS guiado. Nenhum conjunto único de combinações proibidas de caixas consegue

produzir este padrão específico.

Vemos que nenhum quadrado com sequência de comprimento 2 está vazio, por isso teríamos

de procurar um com sequência de tamanho 3. Mas mesmo isto não seria suficiente. Íamos ter

que proibir sequências arbitrariamente longas (por exemplo, proibir 141, 1441, 14441, etc.), uma

abordagem que raramente fornece uma descrição simples da forma.

Uma indicação deste problema é a não repetição da diagonal 2–3 em nenhum outro quadrado.

Isto pode indicar uma mudança na natureza do processo que está a ser medido. Embora a mudança

de regime seja bastante óbvia neste caso (existem séries temporais em que a mudança de regime

não é tão óbvia), quando começamos a estudar o IFS guiado, não esperávamos ser capazes de

ver as mudanças nos processos de criação dos dados.

Capítulo 5

Resultados e trabalhos futuros

Neste capítulo, encontram-se representações de sequências de ADN através do Jogo do Caos

geradas por mim. As sequências de ADN para estas representações foram retiradas da base de

dados da plataforma Genbank(23).

Nos anexos C encontram-se mais representações de sequências de ADN, de diferentes tipos

de cancro e de vírus, através do Jogo do Caos.

As sequências de ADN que vamos analisar variam entre certos grupos de genes e o nosso

objetivo é identificar padrões distintos entre cada uma destas CGR dos diferentes grupos.

Os números apresentados em cima de cada imagem das CGR para cada sequência de ADN

correspondem ao número de divisões em quatro feitas no quadrado (k). Vimos isto no capítulo 2.

Ao lado de cada fractal está representada a barra de cores, que exibe o mapa de cores do gráfico

e indica o mapeamento de valores de dados neste mapa.

Foi escolhido retratar os gráficos numa escala cinzenta (onde o branco representa o vazio e o

preto indica a incidência de pontos). Uma vez que a análise destes torna-se mais facilitada com

esta escala de cores.

O código utilizado para estas representações encontra-se nos anexos A e foi baseado num

código disponível em (1), (21) e (22).

Nas representações vamos considerar a divisão em quadrados vista na figura 3.1.

Foram analisadas seis sequências de ADN. Uma delas sendo parte do genoma do cromossoma

21 de um Homo sapiens (5.1), outra de uma hemoglobina humana (5.2), do genoma completo de

uma mitocôndria de um Homo sapiens (5.3), do genoma completo de um microrganismo (Archaeo-

globus fulgidus, 5.4), do genoma completo de uma bactéria (Mycobacterium tuberculosis, 5.5) e do

genoma completo de outra bactéria (Photorhabdus asymbiotica, 5.6).

Para cada uma destas sequências de ADN foi calculada a incidência de cada nucleótido.

Foram também calculadas as frequências de cada 3-mer das sequências de ADN analisadas.

As respetivas tabelas encontram-se nos anexos B. Pela análise destas tabelas concluímos que a

3-mer ’AAA’ é muito frequente para a maioria das sequências que consideramos, tirando o caso

da bactéria Mycobacterium tuberculosis. Em que aqui, esta k-mer é uma das menos frequentes.

A 3-mer ’TTT’ também tem o seu valor de frequência bastante elevado, tirando, mais uma vez, no

caso da bactéria Mycobacterium tuberculosis, onde a sua incidência é bastante baixa.

40

FCUP


5.1 CGR da sequência de ADN do cromossoma 21 de um Homo Sapi-

ens

Fig. 5.1. CGR da sequência de ADN no cromossoma 21 de um Homo sapiens para k = 2, 4, 6 e 8

42FCUP


A sequência representada na figura 5.1 pertence ao genoma do cromossoma 21 de um Homo

sapiens.

5.1.1 Probabilidades dos nucleótidos

Esta sequência de ADN é composta por 556177 bp. Dos quais 177286 são nucleótidos A, 106026

nucleótidos C, 102428 G’s e 170437 T’s. Logo, as probabilidades de ocorrência de cada nucleótido

são, aproximada e respetivamente, 0.319, 0.191, 0.184 e 0.306.

5.1.2 Análise do fractal

Se nos focarmos no segundo e terceiro fractal da figura 5.1 conseguimos identificar mais nitida-

mente o padrão desta CGR. Observamos algumas áreas vazias nestas representações.

A caraterística mais óbvia é a área quase vazia no quadrado com endereço 43, que corresponde

a GC, assinalada a azul na figura 5.2.

Fig. 5.2. CGR assinalado com o "duplo furo"; lado esquerdo k = 4, lado direito k = 6

Uma cópia menor deste vazio aparece no canto superior direito, mais especificamente no sub-

quadrado com endereço 34 (CG), identificado a vermelho na figura 5.2. O conjunto destes dois

vazios tem a aparência de um duplo furo.

Este "duplo furo"corresponde a uma dispersão comparativa da guanina (G) após a citosina (C)

na sequência do gene.

Observamos também mais cópias do que designamos em cima por “duplo furo”, uma no qua-

drado com endereço 1 e outra no quadrado 2, rodeadas a roxo na figura 5.2.

Além disso, isto continua. Se examinarmos a imagem em tiras horizontais (em metades, quar-

tos, etc.), vemos que no topo de cada quarto da tira há quatro cópias; no topo de cada oitava tira

há oito, e por aí em diante (ver figura 5.2).

FCUP


No lado esquerdo da imagem 5.2, com k = 4, só conseguimos identificar até quatro cópias

do "duplo furo"seguidas numa tira horizontal. Mas, para um k maior, imagem do lado direito, já

conseguimos identificar um número maior de cópias. Ou seja, quanto maior o k, maior a precisão

da representação do jogo do caos.

Estas repetições do "duplo furo"exibem a propriedade da auto similaridade, um conceito muito

importante no estudo de fractais e dinâmicas caóticas. Formalmente, uma figura é auto similar se

um subconjunto dela, com a mudança apropriada de escala, tiver a mesma forma que a figura geral.

(7)

Para além deste "duplo furo"é também observável uma cruz de pontos formada nas diagonais

que ligam o canto 1 do quadrado ao canto 4 e o canto 2 ao 3. Salvo isto, também presenciamos

linhas horizontais de pontos ao longo do fractal, cujas mais visíveis são: a linha horizontal corres-

pondente ao topo dos quadrados com endereço 1 e 2; a linha horizontal que coincide ao topo dos

quadrados com endereço 11, 21, 12 e 22; a linha horizontal que se combina ao fundo dos quadra-

dos com endereço 11, 21, 12 e 22 (ou ao topo dos quadrados com endereços de comprimento 3

que se localizam na linha inferior do fractal); e a linha horizontal no fundo do quadrado unitário.

Tal como o que acontecia com o "duplo furo", estas linhas horizontais também exibem a propri-

edade de auto similaridade, pois estão a repetir-se no fractal numa escala gradual.

Observando agora a CGR com k = 2, primeira imagem da figura 5.1, distinguimos que nos

quadrados com endereço 11 e 22 é onde se localizam a maioria dos pontos. O que nos delineia a

existência de mais nucleótidos A e T do que dos restantes. Isto foi comprovado em cima no cálculo

das probabilidades.

Surge-nos a questão: mas será que este padrão é típico de um genoma humano ou foi apenas

uma coincidência? Vamos analisar outra sequência de ADN humano em 5.2.

5.1.3 Ajuste de probabilidades

Constatamos em cima que as probabilidades de ocorrência dos nucleótidos não estão em har-

monia, ou seja, não são todas 0, 25. Assim sendo, na criação de um IFS vamos ajustar as probabi-

lidades das transformações para as calculadas anteriormente.

Se alterarmos então as probabilidades das transformações do IFS para as calculadas em cima,

não esquecendo que p1 corresponde à probabilidade da base A surgir, p2 à probabilidade da base

T ocorrer, p3 do nucleótido C e p4 da base G; obtemos o IFS representado no lado direito da figura

5.3.

Fixando o IFS da figura 5.3 (lado direito) vemos que este se decompõe em linhas horizontais de

pontos. Algumas delas são também visíveis na CGR, representada no lado esquerdo. É também

identificada uma dispersão maior de pontos no topo do IFS, tal como no topo da CGR. No entanto,

na CGR esta dispersão de pontos é retratada na forma de "duplo furo"e não em tiras horizontais.

44FCUP


Fig. 5.3. lado esquerdo: CGR da sequência de ADN, lado direito: IFS com p1 = 0.319, p2 = 0.306,p3 = 0.191 e p4 = 0.184

FCUP


5.2 CGR da sequência de ADN de uma hemoglobina humana

Fig. 5.4. CGR da sequência de ADN de uma hemoglobina humana para k = 2, 4, 6 e 8

46FCUP


A sequência evidenciada na figura 5.4 pertence a uma hemoglobina humana.


Mais uma vez vamos expor uma CGR de uma sequência de ADN humano. Esta tem 1552 bp.

Temos que nesta sequência de ADN existem 447 A’s, 271 C’s, 299 G’s e 535 T’s. Logo, as

probabilidades de ocorrência de cada nucleótido são, aproximada e respetivamente, 0.288, 0.174,

0.193 e 0.345.

As probabilidades pi, i ∈ 1, 2, 3, 4, desta sequência de ADN são próximas das calculadas em

5.1.1 para a sequência de ADN de um Homo sapiens.


Nesta sequência de ADN contemplamos um atrator homólogo ao da sequência anterior. Apesar

de, nesta representação do jogo do caos, o atrator não ser tão perceptível como o da representação

5.1 é possível identificar analogamente os "duplos furos"ao longo do fractal (ver figura 5.5).

O facto de possuirmos uma sequência de ADN com um número de pares de bases inferior ao da

sequência de ADN anterior, contribui para a falta de perceptividade do fractal. Pois menos pontos

são desenhados. No entanto, isto não é um impedimento para a visualização do seu atrator.

Fig. 5.5. CGR da sequência de ADN de uma hemoglobina humana assinalado com o "duplo furo";lado esquerdo k = 4, lado direito k = 6

Pela análise da CGR com k = 2 (primeira imagem da figura 5.4) averiguamos que a maioria

dos pontos encontram-se no quadrado com endereço 22. O que nos transmite que esta sequência

de ADN é composta maioritariamente por bases T.

Neste fractal é-nos também possível reconhecer, contudo desta vez com algum afinco, as dia-

gonais de pontos que ligam o vértice 1 ao 4 e o 2 ao 3; a linha horizontal no topo dos quadrados

FCUP


com sequência 1 e 2; a reta horizontal no topo dos quadrados 11, 21, 12 e 22; e a linha horizontal

no fundo do quadrado unitário (ver CGR com k = 6 da figura 5.4).

Na CGR com k = 8 pouco podemos arrematar. Como temos um número reduzido de bp’s nesta

sequência de ADN e uma divisão em subquadrados elevada, a quantidade de pontos em cada

subquadrado é bastante diminuta.


Se na criação de um IFS para um quadrado alterarmos as probabilidades para as calculadas

acima, obtemos o IFS apresentado no lado direito da figura 5.6.

Fig. 5.6. lado esquerdo: CGR da sequência de ADN de uma hemoglobina humana, lado direito:IFS com probabilidades 0.288, 0.174, 0.193 e 0.345 para os nucleótidos A, C, G e T, respetivamente

No IFS do lado direito da figura 5.6, a única semelhança que encontramos com a CGR da

sequência de ADN é o facto de nas zonas superiores dos subquadrados termos um menor aglome-

rado de pontos. No caso da CGR, esta carência de pontos é representada pelo que apelidamos de

"duplo furo", enquanto que no IFS, é exprimida por linhas horizontais.

48FCUP


5.3 CGR da sequência de ADN de uma mitocôndria de um Homo sapi-

ens

Fig. 5.7. CGR da sequência de ADN de uma mitocôndria de um Homo sapiens para k = 2, 4, 6 e 8

FCUP


Mais uma vez vamos figurar uma sequência de ADN pertencente a um humano. Esta sequência,

exposta na figura 5.7, é de uma mitocôndria de um Homo sapiens (humano).


Esta sequência de ADN porta 16571 bp. Dispomos de 5113 nucleótidos A, 5192 nucleótidos C,

2180 nucleótidos G e 4086 nucleótidos T. Por conseguinte, as probabilidades de ocorrência de cada

nucleótido são, respetiva e aproximadamente, 0.308, 0.313, 0.132 e 0.247.

Confrontando com as probabilidades das duas sequências de ADN humanas anteriores, aqui

constatamos que a probabilidade de ocorrência do nucleótido C é mais elevada.


Esta sequência, apesar de também pertencer a um humano, não ostenta o mesmo padrão que

as duas vistas anteriormente (em 5.1 e 5.4).

Estudando a CGR desta sequência de ADN vemos que o quadrado com o endereço 4 está pra-

ticamente despojado de pontos. Sabemos que o quadrado 4 corresponde ao nucleótido G. Daqui

consumamos que a base G encontra-se em menor porção no genoma de um Homo sapiens, hu-

mano. O que já depreendemos em cima como veracidade, na análise estatística desta sequência.

Se formos conjeturar o padrão do fractal, ou seja, identificar o seu atrator, vislumbramos que

este propende a criar triângulos vazios. Estando o maior triângulo vazio posicionado em toda a

parte superior da diagonal que acopla os vértices 2 e 3.

Uma versão de escala menor deste triângulo encontra-se na parte superior do quadrado 1. Três

versões mais pequenas são visíveis nos quadrados com endereços 11, 21, 31 (ver figura 5.8).

Se observarmos minuciosamente, conseguimos ainda detetar triângulos vazios com uma escala

reduzida nos quadrados cujo endereço tem comprimento 3.

Fig. 5.8. Divisão em triângulos da CGR com k = 6 da sequência de ADN de uma mitocôndria deum Homo sapiens

50FCUP


Deste fractal findamos que qualquer quadrado com endereço cujo prefixo seja 1, vai fruir da sua

parte superior (em relação à diagonal) do quadrado praticamente desguarnecida.

Constatamos assim um padrão neste fractal, que lembra, de certa forma, o triângulo de Sier-

pinski.

Vamos realizar comparações com o triângulo de Sierpinski. Na figura 5.9 temos a CGR da figura

5.7 do lado esquerdo e do lado direito o IFS do triângulo, mas com uma rotação de 90◦ no sentido

anti-horário em relação à origem - ou, visto de outra maneira, o triângulo de Sierpinski com origem

no canto inferior esquerdo do quadrado.

Fig. 5.9. lado esquerdo: CGR da sequência de ADN de uma mitocôndria de um Homo sapiens,lado direito: IFS do triângulo

O triângulo de Sierpinski é concebido com apenas três transformações, enquanto que, a CGR

do genoma humano é gerada com quatro, uma vez que existem quatro nucleótidos diferentes.

No entanto, como constatamos no início desta secção (5.3.2), este genoma tem um número re-

duzido de bases G. Se proibíssemos esta transformação (proibir a transformação Ψ4), disponhamos

de uma figura onde apenas as transformações Ψ1, Ψ2 e Ψ3 eram efetuadas. E, estas transforma-

ções, são equivalentes às do IFS para o triângulo, se o triângulo debutar do canto inferior esquerdo.

Ou seja, se dispuser de um código IFS como o representado na tabela 5.1.

Tabela 5.1: Código IFS para o triângulo de Sierpinski, com início no canto inferior esquerdo doquadrado

r θ φ s e f

0.5 0 0 0.5 0 00.5 0 0 0.5 0 0.50.5 0 0 0.5 0.5 0

Daqui as semelhanças entre os dois fractais representados na figura 5.9. Todavia, o nucleótido

FCUP


G, mesmo em escassa quantidade, está presente na sequência de ADN humano e, apesar de não

manipular o atrator do fractal, influencia na sua representação. No lado esquerdo da figura 5.9,

acima da diagonal 2-3, que estaria totalmente vazia se a transformação Ψ4 fosse reprimida, ainda

presenciamos alguns pontos.

Se observarmos com prudência o lado esquerdo da figura 5.9, somos capazes de reconhecer

uma espécie de reflexão, onde o eixo de reflexão é a diagonal 2-3. Contudo, onde num lado (inferior

à diagonal 2-3) nutrimos de triângulos parcialmente vazios, no outro lado do eixo de reflexão (supe-

rior à diagonal 2-3) reunimos triângulos moderadamente preenchidos. E isto sem considerarmos a

densidade de pontos nas duas metades do quadrado unitário (dividido pela diagonal 2-3), pois esta

é muito mais escassa na parte superior do eixo de reflexão.


Se na elaboração de um IFS para um quadrado metamorfoseamos as probabilidades para as

calculadas em 5.3.1, obtemos o IFS exibido no lado direito da figura 5.10.

Fig. 5.10. lado esquerdo: CGR da sequência de ADN de uma mitocôndria de um Homo sapiens,lado direito: IFS com probabilidades 0.308, 0.313, 0.132 e 0.247 para os nucleótidos A, C, G e T,respetivamente

Constatamos várias semelhanças entre a CGR da sequência e o IFS produzido ajustando as

probabilidades para as calculadas a cima.

Comparando estes dois fractais (figura 5.10) reconhecemos, em ambos, a formação de triângu-

los vazios. Porém, na parte superior da diagonal 2-3 do IFS representado no lado direito, desfruta-

mos de uma maior concentração de pontos do que na CGR (representada do lado esquerdo).

52FCUP


5.4 Archaeoglobus fulgidus DSM 4304

Fig. 5.11. CGR da sequência de ADN de uma Archaeoglobus fulgidus DSM 4304 para k = 2, 4, 6e 8

FCUP


Archaeoglobus fulgidus é um género de microorganismo hipertermófilo. É morfologicamente

semelhante a uma bactéria (são ambos seres procariontes) mas genética e bioquimicamente tão

distinto destas como dos eucariontes.


A sequência de ADN retirada da base de dados do Genbank deste microorganismo é composta

por 2178400bp. Das quais 562096 são bases A, 527300 bases C, 531003 bases G e 558001 bases T.

Logo as probabilidades de ocorrência de cada nucleótido são, aproximada e respetivamente, 0.258,

0.242, 0.244 e 0.256.

Destas probabilidades contemplamos que o número de bases está bem distribuído. Uma vez

que todas elas são muito próximas de 1/4.


O padrão mais óbvio neste fractal é a cruz representada no meio do mesmo, unindo o vértice

1 ao 4 e o vértice 2 ao 3. Se fitarmos mais atentamente também somos capazes de identificar

linhas paralelas a ambas as diagonais. Especialmente no quadrado com endereço 1, aqui temos

três paralelas bastante visíveis à diagonal 2-3. Isto deve-se a uma replicação da diagonal 2-3 em

diferentes escalas. Ou seja, é aplicada a transformação Ψ1 à diagonal 2-3 e, em seguida, volta a

ser executada a transformação Ψ1 ao resultado que foi obtido. E, a este, é mais uma vez adotada

a transformação Ψ1. Este procedimento desenrola-se, obtendo réplicas da diagonal cada vez mais

pequenas, com menos espaçamento entre si e mais próximas do vértice 1. Se olharmos para o

fractal obtido pela CGR com k = 6 da figura 5.11 constatamos um aglomerado de réplicas da

diagonal 2-3 junto do vértice 1.

Este aglomerado de réplicas da diagonal 2-3 no canto inferior esquerdo do quadrado com en-

dereço 1 também se processa no quadrado 2. Mas, desta vez, são réplicas da diagonal 1-4 e estão

localizadas no canto inferior direito do quadrado 2.

Estes dois aglomerados de réplicas das diagonais são os responsáveis pela alta concentração

de pontos nos quadrados cujos endereços são 11 e 22, vista na CGR com k = 2 da figura 5.11.

Aqui, estes quadrados afiguram a cor preta, que simboliza a vasta concentração de pontos nestes

quadrados.

Se nos limitássemos a fazer a representação com k = 2 eramos propensos a cometer vários

erros. Precisamos de k’s maiores para obtermos uma maior precisão da distribuição dos dados e,

consequentemente, melhor análise dos seus padrões.

Se olhássemos somente para a CGR com k = 2 eramos inclinados a afirmar que o quadrado

com endereço 12 se encontrava vazio (por este estar representado a branco) e, daqui, deduzir

que a composição Ψ2 ◦ Ψ1 era proibida na criação deste fractal. No entanto, era uma conclusão

precipitada, pois se analisarmos as CGR com k’s maiores constatamos que isto não é verdade.

Apesar disso, poucos pontos estão presentes neste quadrado. Mas, nos fractais com k = 6 e k = 8

conseguimos identificar neste quadrado uma réplica de escala 1/4 de todo o fractal - contornada a

vermelho na figura 5.12.

54FCUP


Fig. 5.12. Cópias de menor escala de todo o fractal representado pela CGR da sequência de ADNde um Archaeoglobus fulgidus DSM 4304 com k = 8

De facto, se avaliarmos com muita atenção o fractal, deparamo-nos com diversas replicas mais

pequenas do fractal original. Praticamente todos os quadrados com endereços de comprimento 2

são uma cópia de escala menor de todo o fractal. Temos também replicas de escala ainda menor.

Por exemplo, as sublinhadas a azul na figura 5.12 - com escalas 1/2, 1/4, 1/8, 1/16, etc. - a tender

para o vértice 4 do quadrado unitário.

Averiguando os fractais com k = 4, 6 e 8 da figura 5.11, conseguimos apontar alguns subqua-

drados vazios - na extremidade direita do quadrado com endereço 3, em cima e em baixo, e na

extremidade esquerda do quadrado 4, em cima e em baixo. Na figura 5.13 encontra-se a divisão

do quadrado para melhor percepção de quais os subquadrados vazios.

Testemunhamos que os quadrados com endereço 4343, 4123, 3434 e 3214 estão vazios. Se

analisarmos as ilustrações com k’s maiores da figura 5.11 conseguimos contemplar estes quadra-

dos vazios. Assim, podemos afirmar (não com toda a veracidade, uma vez que em representações

com k’s maiores poderíamos deparar-nos com pontos nestes subquadrados) que as composições

Ψ3 ◦Ψ4 ◦Ψ3 ◦Ψ4, Ψ3 ◦Ψ2 ◦Ψ1 ◦Ψ4, Ψ4 ◦Ψ3 ◦Ψ4 ◦Ψ3 e Ψ4 ◦Ψ1 ◦Ψ2 ◦Ψ3 são proibidas.


Se na geração de um IFS para um quadrado alterarmos as probabilidades para as calculadas a

cima, obtemos o IFS ilustrado no lado direito da figura 5.14.

Como as probabilidades são todas muito próximas de 1/4 já era de esperar obtermos um IFS

com os pontos distribuídos uniformemente - um quadrado preenchido com pontos aleatórios sem

nenhum padrão visível. Por isso, nada rematamos com esta representação.

FCUP


Fig. 5.13. Divisão em quadrados do fractal dado pela CGR da sequência de ADN de uma Archae-oglobus fulgidus DSM 4304 com k = 4

Fig. 5.14. lado esquerdo: CGR da sequência de ADN, lado direito: IFS com probabilidades 0.258,0.242, 0.244 e 0.256 para os nucleótidos A, C, G e T, respetivamente

56FCUP


5.5 Mycobacterium tuberculosis

Fig. 5.15. CGR da sequência de ADN de uma Mycobacterium tuberculosis para k = 2, 4, 6 e 8

FCUP


Mycobacterium tuberculosis é uma espécie de bactéria patogênica causadora da maioria dos

casos de tuberculose.


A sequência de ADN analisado possui 4412379 bp. Dos quais 759079 são nucleótidos A,

1450449 nucleótidos C, 1444433 nucleótidos G e 758418 nucleótidos T. Daqui depreendemos que as

probabilidades de ocorrência de cada nucleótido são, aproximada e respetivamente, 0.172, 0.329,

0.327 e 0.172.


Nesta CGR (5.15) reconhecemos uma cruz no centro do fractal, tal como na representação

exibida na figura 5.11. Contudo, ao contrário do que acontecia anteriormente, aqui a cruz é formada

pela inexistência de pontos nessa região.

Também como na figura anterior (figura 5.11) este fractal está coberto de replicas dele próprio,

em escalas menores. O que nos leva, mais uma vez, a comprovar a auto similaridade num fractal.

Percebemos um maior aglomerado de pontos no topo do quadrado unitário. O que é lógico, uma

vez que esta sequência de ADN é mais abundante em nucleótidos C e G do que dos restantes.

No topo dos quadrados com endereço 1 e 2 conseguimos também diferenciar uma concentração

de pontos. Deve-se ao facto de existirem muitos C’s e G’s após T’s (para o quadrado 1) e A’s (para

o quadrado 2).

Reparamos que a parte inferior do fractal, em todas as suas CGR mostradas na figura 5.15,

está praticamente vazia. Mais uma vez, isto é devido ao facto do número reduzido de bases A e T

em relação às outras bases.


Alterando as probabilidades do IFS de um quadrado coberto com pontos aleatórios para as

calculadas em 5.5.1, obtemos o IFS apresentado no lado direito da figura 5.16.

Estudando a figura 5.16 reparamos que em ambos os fractais, temos uma concentração maior

de pontos no topo do quadrado unitário.

Aliás, se dividirmos ambos os fractais em subquadrados de tamanho menor, somos capazes de

diferenciar um conjunto de pontos que detêm a forma de linhas horizontais. Estes conjuntos surgem

no topo de todos estes subquadrados. Isto deve-se ao facto de os nucleótidos C e G seguirem os

restantes nucleótidos muitas vezes.

58FCUP


Fig. 5.16. lado esquerdo: CGR da sequência de ADN de uma Mycobacterium tuberculosis, ladodireito: IFS com probabilidades 0.172, 0.329, 0.327 e 0.172 para os nucleótidos A, C, G e T, respeti-vamente

FCUP


5.6 Photorhabdus asymbiotica

Fig. 5.17. CGR da sequência de ADN de uma Photorhabdus asymbiotica para k = 2, 4, 6 e 8

60FCUP


Photorhabdus asymbiotica é uma bactéria conhecida por ser patogênica para uma ampla gama

de insetos e ser usada como biopesticida na agricultura.


A sequência de ADN desta bactéria é portadora de 5064808 bp. Onde 1459060 são nucleótidos

A’s, 1070603 C’s, 1064347 G’s e 1470798 T’s. Daqui, as probabilidades de ocorrência de cada

nucleótido são, aproximada e respetivamente, 0.288, 0.211, 0.210 e 0.291.


Esta CGR (5.17) não tem nenhum padrão próprio que seja marcante. Nas representações

anteriores fomos deslumbrados com "duplo furos", triângulos vazios e cruzes; nesta CGR, os pontos

aparentam estar distribuídos aleatoriamente. Com uma maior concentração destes no fundo do

quadrado unitário e numa paralela a esta linha que é apresentada no meio do fractal.


Se na criação de um IFS para um quadrado substituirmos as probabilidades para as calculadas

a cima, obtemos o IFS apresentado no lado direito da figura 5.18.

Fig. 5.18. CGR da sequência de ADN de uma Photorhabdus asymbiotica (lado esquerdo); IFS comprobabilidades 0.288, 0.211, 0.210 e 0.291 para os nucleótidos A, C, G e T, respetivamente (ladodireito)

Temos em ambas as imagens da figura 5.18 uma maior concentração de pontos no fundo do

quadrado unitário. E, também somos capazes de vislumbrar nos dois fractais linhas horizontais

formadas por pontos.

Conclusões

As relações conhecidas entre a representação do jogo do caos (CGR) e uma sequência de ADN

são as retratadas em seguida.

O k-ésimo ponto representado na CGR de uma sequência corresponde à primeira subsequência

inicial de comprimento k, e nenhuma outra subsequência. Assim, há uma correspondência um-

para-um entre as subsequências de um gene e pontos do CGR.

Assim qualquer padrão visível na CGR corresponde a algum padrão na sequência de bases.

Conforme observado, a resolução da tela do computador limita os detalhes que podem ser

mostrados em qualquer um dos CGRs. No entanto, como com todos os fractais, incluindo aqueles

gerados por códigos IFS, qualquer parte da imagem pode ser ampliada, revelando uma melhor

estrutura. Esta ampliação é sem limite (desde que haja mais bases na sequência).

Quanto maior o k maior, maior a precisão da CGR.

Bases adjacentes na sequência não são desenhadas adjacentes umas às outras (exceto quando

o primeiro ponto está próximo a um vértice e a próxima base é a mesma que a anterior). Estar pró-

ximo no CGR não significa estar próximo na sequência. A distância euclidiana no CGR implica,

portanto, uma nova métrica em subsequências ou bases.

Se dois pontos estão dentro do mesmo quadrante, correspondem a sequências com a mesma

última base; se estão no mesmo sub-quadrante, as sequências têm as mesmas últimas duas bases;

e por aí em diante.

Num CGR cujo lado tem comprimento 1, duas sequências com sufixo de comprimento k estão

contidas no quadrado com lado de comprimento 2−k. Além disso, o centro do quadrado é dado

pela seguinte definição recursiva:

• O centro do sufixo de comprimento 0 é (1/2, 1/2).

• Se o centro do quadrado que contem sequências com o sufixo W for em (x, y), então

– O centro do quadrado contendo sequências com o sufixo WA é (x / 2, y / 2);

– O centro do quadrado contendo sequências com sufixo WC é (x / 2, (y + 1) / 2);

– O centro do quadrado contendo sequências com o sufixo WG está em ((x + 1) / 2, (y +

1)/ 2);

– O centro do quadrado contendo sequências com sufixo WT está em ((x + 1) / 2, y / 2).

Por outro lado, todos os pontos dentro deste quadrado correspondem a sequências com este

sufixo.

62

FCUP


Uma densidade (ou escassez) de pontos em uma região corresponde a um grande (ou pequeno)

número de sequências com sufixos correspondentes à região. Para além disso, como cada região

quadrada (sub, sub-sub, etc. quadrante) corresponde a um sufixo específico, qualquer região densa

(ou esparsa) corresponde à união de S1, S2, . . ., em que Si é o conjunto de sequências com sufixo

i.

Devido à correspondência entre os pontos no CGR e a sequência, qualquer caracterização

matemática do CGR é uma caracterização da sequência subjacente.

Por exemplo, pode ser possível encontrar uma técnica para produzir uma descrição matemática

do CGR de uma sequência, usando conceitos da teoria IFS. Se tal técnica puder ser encontrada,

será uma técnica para produzir uma descrição da sequência de ADN.

Como resultado destas observações, podemos dizer que, num sentido intuitivo, o CGR re-

presenta tanto propriedades estatísticas de frequências de bases como também propriedades de

sequencialidade - isto é, quais bases seguem outras, imediatamente ou mais tarde no gene.

Geralmente, cerca de 4.000 pares de bases são necessários para uma imagem nitidamente

definida, embora em muitos casos 2000 forneçam uma aproximação razoavelmente boa.

Muitas características da sequência genética são exibidas por uma subsequência inicial e, por-

tanto, a análise de toda a sequência pode não acrescentar novas informações.

Como trabalhos futuros era importante analisar mais afincadamente a frequência destas 3-mers

- e talvez mesmo k-mers (para um k > 3) - para tentarmos responder a perguntas como: determina-

das espécies são mais abundantes de um determinado 3-mer que outras? O que um determinado

3-mer de uma sequência de ADN nos pode informar sobre o seu portador?

Era também importante criar um código que calculasse as repetições em tandem, apresentadas

no capítulo 2, e proceder à sua investigação.

Outro código que poderia ser proveitoso era, na criação do IFS de um quadrado, proibir deter-

minados endereços. E, posteriormente, comparar esta representação do IFS com uma CGR de

uma determinada sequência de ADN. Isto é, tentarmos recriar a CGR de uma sequência de ADN

através de um IFS. Foi dada uma introdução a isto em 4.1.

Igualmente benéfico seria considerar a ordem das sequências de ADN, analisar se esta nos

presenteia com implicações em caraterísticas do ser em questão.

Glossário

codon - é uma sequência de três bases nitrogenadas de RNA mensageiro que codificam um

determinado aminoácido ou que indicam o ponto de início ou fim de tradução da cadeia de mRNA

Cromatina - molécula responsável pela compactação do ADN.

Exon - é um segmento de ADN de um gene eucariótico cujo transcrito sobrevive ao processo

de processamento

Hemoglobina - molécula proteica complexa contida dentro das células sanguíneas vermelhas,

que lhes dá a sua cor e pela qual o oxigênio é transportado.

Intron - secções de ADN de um gene que não codificam qualquer parte da proteína produzida

pelo gene e que separa da sequência constituída pelos exons

Organismo hipertermófilo - são organismos que resistem a temperaturas acima dos 75◦C

Ser eucarionte - ser unicelular ou pluricelular que possui membrana nuclear, ou seja, o seu

núcleo celular é separado do citoplasma por uma membrana

Ser procarionte - ser unicelular que não possui núcleo

65

Bibliografia

[1] P.J. Deschavanne, A. Giron, J. Vilain, G. Fagot, and B. Fertil. (1999). Genomic Signature: Cha-

racterization and Classification of Species Assessed by Chaos Game Representation of Se-

quences. Mol. Biol. Evol. 16(10):1391-1399

[2] Richard Bedient, Michael Frame, Keith Gross, Jennifer Lanski, Brendan Sullivan. (2009). Higher

block IFS 1: memory reduction and dimension computations. World Scientific Publishing Com-

pany. Fractals. 18(2):145-155

[3] Bert Vogelstein, Nickolas Papadopoulos, Victor E. Velculescu, Shibin Zhou, Luis A. Diaz Jr.,

Kenneth W. Kinzler. (2013). Cancer Genome Landscapes. Science. 339. 1546-1558

[4] Richard Bedient, Michael Frame, Keith Gross, Jennifer Lanski, Brendan Sullivan. (2010). Higher

block IFS 2: relations between IFS with different levels of memory. World Scientific Publishing

Company. Fractals. 18(4):399-408

[5] Michael Frame, Jennifer Lanski.(1999). When is a recurrent IFS attractor a standard IFS attrac-

tor?. World Scientific Publishing Company. Fractals. 7(3):257-266

[6] Benoit B. Mandelbrot. (2004). Fractals and Chaos: The Mandelbrot Set and Beyond. Springer-

Verlag New York

[7] Benoit B. Mandelbrot. (1977). The Fractal Geometry Of Nature. W. H. FREEMAN AND COM-

PANY New York

[8] H. Joel Jeffrey. (1990). Chaos game representation of gene structure. Oxford University Press.

18(8):2163-2170

[9] Peitgen, Jurgens, Saupe. (2004). Chaos and Fractals: New Frontiers of Science. Springer

[10] Marc Frantz, Annalisa Crannell. (2011). Mathematical Perspective and Fractal Geometry in Art.

Princeton University Press

[11] Feldman, David P.(2012).Chaos and Fractals: An Elementary Introdution. Oxford University

Press

[12] Michael Frame, Amelia Urry. (2016). Fractal Worlds: Grown, Built, and Imagined. Yale Univer-

sity Press

[13] Supratim Choudhuri. Bioinformatics For Beginners: Genes, Genomes, Molecular Evolution,

Databases and Analytical Tools. Elsevier

67

68FCUP


[14] Nello Cristianini, Matthew W. Hahn. (2006). Introdution to Computational Genomics: A Case

Studies Approach. Cambridge University Press

[15] Kenneth Falconer. (1990). Fractal Geometry: Mathematical Foundations and Applications. John

Wiley and sons

[16] Jonas S. Almeida, João A. Carriço, António Maretzek, Peter A. Noble e Madilyn Fletcher.

(2001). Analysis of genomic sequences by Chaos Game Representation. Oxford University

Press. 17(5):429-437

[17] Jijoy Joseph and Roschen Sasikumar. (2006). Chaos game representation for comparison of

whole genomes. BMC Bioinformatics. 7:243

[18] Bunz, Fred. (2016). Principles of Cancer Genetics. Springer

[19] Pedro A Moreno1, Patricia E Vélez, Ember Martínez, Luis E Garreta1, Néstor Díaz, Siler Ama-

dor, Irene Tischer, José M Gutiérrez, Ashwinikumar K Naik, Fabián Tobar and Felipe García.

(2011). The human genome: a multifractal analysis. BMC Genomics. 12. 506

[20] R. Daniel Mauldin and S. C. Williams, (1988). Hausdorff Dimension in Graph Directed Cons-

tructions. JSTOR. Transactions of the American Mathematical Society. 309(2)

[21] Chaos Game Representation of gene structure in Python: https://bostjan-cigan.com/chaos-

game-representation-of-gene-structure-in-python/

[22] Construir um fractal: http://prorum.com/index.php/3104/construir-fractal-conhecido-sierpinski-

utilizando-recursoes

[23] GENBANK: https://www.ncbi.nlm.nih.gov/genbank/

Apêndice A

Código Matlab

Nas seguintes secções são apresentadas as funções utilizadas e a computação da figura respe-

tiva às representações de sequências de ADN através do Jogo do Caos. Este código foi adaptado

de códigos disponíveis em (1), (21) e (22).

A.1 readFastaFile

1 function sequence = readFastaF i le ( ’ a f u l g i d u s . f as ta ’ )

2 % Funcao que permi te l e r uma sequencia de DNA dado em formato FASTA

3

4 f as taAr ray = tex t read ( f a s t a F i l e , ’%s ’ ) ;

5

6 % desconsideramos os comentar ios " >"

7 i =1; while ( s t rmatch ( ’ > ’ , f as taAr ray ( i ) ) ) i = i +1; end ;

8

9 % fas taAr ray e um vec to r onde cada elemento corresponde a uma

10 % l i n h a do f i c h e i r o f as ta . Para e l i m i n a r as quebras de l i n h a

11 % f o i c r iada uma funcao que permi ta c o n s t r u i r uma st rand

12 % da sequencia de DNA

13 sequence = buildDNAStrand ( fas taAr ray ( i : end ) ) ;

14 end

A.2 makeMatrixOfWords

1 function ac t ua lM a t r i x = makeMatrixOfWords ( len )

2 % Funcao que permi te c r i a r uma mat r i z de padroes de palavras .

3 %

4 % len : representa o tamanho da palavra a ser considerada na mat r i z

5 % de palavras

6

7 matrixBase = { ’C ’ ’G ’ ; ’A ’ ’T ’ } ; % conf iguracao das bases

8 ac t ua lM a t r i x = matrixBase ;

69

70FCUP


9

10 for k =2: len

11 M = { } ;

12 for i =1:2

13 row = { } ;

14 for j =1:2

15 % p r e f i x o para cada quadrante

16 p r e f i x = char ( matr ixBase { i , j } ) ;

17

18 % copiamos a mat r i z ac tua l para poder incrementar o p r e f i x o

19 % em cada quadrante

20 tempora lMat r ix = ac tua l Ma t r i x ;

21 n = size ( tempora lMatr ix , 1 ) ;

22

23 % criamos uma mat r i z com o padrao de p r e f i x ∗ [ a c t ua l Ma t r i x ]

24 for a=1:n

25 for b=1:n

26 tempora lMat r ix ( a , b ) = { [ p r e f i x

char ( tempora lMat r ix ( a , b ) ) ] } ;

27 end ;

28 end ;

29

30 % concatenamos hor izonta lmente a mat r i z temporal

31 row = [ row tempora lMat r ix ] ;

32 end ;

33

34 % concatenamos ve r t i ca lmen te a l i n h a ’ row ’

35 M = [M; row ] ;

36 end ;

37

38 ac t ua lM a t r i x = M;

39 end ;

A.3 buildDNAStrand

1 function sequence = buildDNAStrand ( DNAMatrix )

2 % Const ro i uma sequencia dada sua representacao como vec to r

3

4 DNAMatrix = char ( DNAMatrix ) ;

5 [ nRows , nBases ] = size ( DNAMatrix ) ;

6

7 for j = 0 :nRows∗nBases−1

8 i f ( DNAMatrix ( f loor ( j / nBases ) +1 , mod( j , nBases ) +1) ~= ’ ’ )

FCUP


9 sequence ( j +1) = DNAMatrix ( f loor ( j / nBases ) +1 , mod( j , nBases )

+1) ;

10 else

11 break ;

12 end ;

13 end ;

14 end

A.4 buildComplementarDNA

1 function sequenceB = buildComplementarDNA ( sequenceA )

2 n = length ( sequenceA ) ;

3

4 sequenceB ( n ) = ’ ’ ;

5

6 for i =1:n

7 swi tch ( sequenceA ( i ) )

8 case ’A ’

9 complementar = ’T ’ ;

10 case ’T ’

11 complementar = ’A ’ ;

12 case ’C ’

13 complementar = ’G ’ ;

14 case ’G ’

15 complementar = ’C ’ ;

16 otherwise

17 i

18 disp ( sequenceA ( i ) ) ;

19 end ;

20 sequenceB ( n− i +1) = char ( complementar ) ;

21 end ;

22

23 end

A.5 calculateFrecuencies

1 function f r eq = ca lcu la teFrecuenc ies ( sequence , word )

2 % Funcao que ca l cu la a f recuenc ia de ’ word ’ em ’ sequence ’

3 % ( f requenc ia que considera c l u s t e r s sobrepostos )

4

5 n = length ( sequence ) ;

6 k = length ( word ) ;

7 p o s s i b i l i t i e s = n−k +1;

72FCUP


8 f r eq = 0;

9

10 for i =1: p o s s i b i l i t i e s

11 cont = 0 ;

12

13 % contamos as igualdades para cada l e t r a de ’ word ’

14 for j =1: k

15 i f sequence ( i + j −1)==word ( j )

16 cont = cont +1;

17 else

18 break ; % se uma l e t r a e d i f e ren te , nao e necessar ia a

comparacao com out ras l e t r a s da mesma palavra .

19 end ;

20 end ;

21

22 % Se ’ word ’ c o i n c i d i r com a c l u s t e r entao somamos 1

23 i f ( cont==k )

24 f r eq = f req +1;

25 end ;

26 end ;

27

28 f r eq = f req / p o s s i b i l i t i e s ;

29

30 end

A.6 fcgr2

1 function M = fcg r2 ( ’ a f u l g i d u s . f as ta ’ ; wordLen )

2 % Genomic s igna tu re using Chaos game rep resen ta t i on o f f requenc ies (

pseudo opt imized vers ion )

3

4

5 MatrixOfWords = makeMatrixOfWords ( wordLen ) ;

6

7 % Lemos a sequencia . Cada arqu ivo FASTA mostra apenas uma st rand

8 % das 2 cadeias de DNA. FCGR e dependente da strand , dessa forma

9 % nos ca lcu los consideraremos ambas st rands .

10 sequenceA = readFastaF i le ( ’ agu lg idus . f as ta ’ ) ;

11

12 % As f requenc ias que devem ser consideradas nos ca l cu los devem de

13 % corresponder a ambas cadeias de DNA, por i sso calculamos a

sequencia

14 % complementar . Isso quer d i ze r :

FCUP


15

16 % se sequence = ATCGCTTA, a sua sequencia complementar sera TAAGCGAT

17 % Recordemos que :

18 % − A e complementar de T , e v ice versa

19 % − C e complementar de G, e v ice versa

20 %

21 % No nosso exemplo :

22 % ATCGCTTA ( sent ido −>) r i g h t s t rand o 5 ’

23 % TAGCGAAT ( sent ido <−) l e f t s t rand o 3 ’

24

25 sequenceB = buildComplementarDNA ( sequenceA ) ;

26

27 % concatemos as 2 cadeias numa so

28 % sequence = [ sequenceA sequenceB ] ;

29 sequence = [ sequenceA ] ;

30

31 % i n i c i a l i z a m o s mat r i z para o ca l cu lo das f requenc ias

32 Matr ixOfFrecuencies = zeros ( size ( MatrixOfWords ) ) ;

33

34 % i n i c i a l i z a c a o da pseudo−arvore

35 for i =1: size ( MatrixOfWords , 1 )

36 for j =1: size ( MatrixOfWords , 1 )

37

38 pathOfTree = ’ roo t ’ ;

39 word = char ( MatrixOfWords ( i , j ) ) ;

40

41 for a=1: wordLen

42 pathOfTree = [ pathOfTree ’ . ’ word ( a ) ] ;

43 end ;

44

45 eval ( [ pathOfTree ’ =1; ’ ] ) ;

46 end ;

47 end ;

48

49 % ca lcu lo das f requenc ias para cada palavra na sequencia dada

50 n = length ( sequence ) ;

51 p o s s i b i l i t i e s = n−wordLen +1;

52

53 for i =1: p o s s i b i l i t i e s

54


56

74FCUP


57 for j = i : i +wordLen−1

58 pathOfTree = [ pathOfTree ’ . ’ sequence ( j ) ] ;

59 end ;

60

61 eval ( [ pathOfTree ’= ’ pathOfTree ’ +1; ’ ] ) ;

62 end ;

63

64 % copiamos as f requenc ias da arvore para a mat r i z de Frequencias

65 for i =1: size ( MatrixOfWords , 1 )

66 for j =1: size ( MatrixOfWords , 1 )

67


69 word = char ( MatrixOfWords ( i , j ) ) ;

70

71 for a=1: wordLen

72 pathOfTree = [ pathOfTree ’ . ’ word ( a ) ] ;

73 end ;

74

75 Matr ixOfFrecuencies ( i , j ) = eval ( pathOfTree ) / p o s s i b i l i t i e s ;

76 end ;

77 end ;

78

79 M = Matr ixOfFrecuencies ;

80

81 % Mostramos a f i g u r a . . . para p o s t e r i o r ana l i se . . .

82 %f i g u r e ;

83 %imagesc (M)

84 %ax is square ;

85 %ax is o f f ;

86 %t i t l e ( wordLen ) ;

87 %co lo rba r ;

88

89 end

A.7 test

1 % Genomic s igna tu re using Chaos game rep resen ta t i on o f f requenc ies

2 %

3 % TEST

4

5

6 % Subsequence of the Archeoglobus f u l g i d u s genome (104160 bp )

7 f igure ;

FCUP


8 for i =2:2 :8

9 subplot (1 ,4 , i / 2 )

10 mat r i x = fcg r2 ( ’ a f u l g i d u s _ p a r t . f as ta ’ , i ) ;

11 imagesc ( mat r i x ) ;

12 axis square ;

13 axis o f f ;

14 t i t l e ( i ) ;

15 % co lo rba r ;

16 end ;

17

18 %% Archeoglobus f u l g i d u s genome (2 .2Mb)

19 % f i g u r e ;

20 % f o r i =2:2 :8

21 % subp lo t (1 ,4 , i / 2 )

22 % mat r i x = fcg r2 ( ’ a f u l g i d u s . fas ta ’ , i ) ;

23 % imagesc ( mat r i x ) ;

24 % ax is square ;

25 % ax is o f f ;

26 % t i t l e ( i ) ;

27 % % co lo rba r ;

28 % end ;

Apêndice B

Tabelas das frequências

Estas tabelas são referentes às sequências de ADN analisadas em 5.

Onde S representa uma determinada 3-mer, NS o número de vezes que essa 3-mer surge na

sequência de ADN e fS corresponde à frequência dada pela fórmula 2.7.

76

FCUP


B.1 Cromossoma 21 de um Homo sapiens

Tabela B.1: 3-mers da sequência de ADN do cromossoma 21 de um Homo sapiens representadana figura 5.1 e sua respetiva abundância e frequência (2.7)

S NS fS’AAA’ 25907 0.047’AAC’ 8970 0.016’AAG’ 11730 0.021’AAT’ 16551 0.030’ACA’ 12621 0.023’ACC’ 6032 0.011’ACG’ 1178 0.002’ACT’ 9102 0.016’AGA’ 12831 0.023’AGC’ 6792 0.012’AGG’ 8162 0.015’AGT’ 9100 0.016’ATA’ 13867 0.025’ATC’ 7927 0.014’ATG’ 10841 0.019’ATT’ 15675 0.028’CAA’ 12239 0.022’CAC’ 8344 0.015’CAG’ 9849 0.018’CAT’ 10598 0.019’CCA’ 9411 0.017’CCC’ 5348 0.010’CCG’ 1052 0.002’CCT’ 8378 0.015’CGA’ 1002 0.002’CGC’ 919 0.002’CGG’ 951 0.002’CGT’ 1089 0.002’CTA’ 7778 0.014’CTC’ 8476 0.015’CTG’ 10059 0.018’CTT’ 10532 0.019’GAA’ 11843 0.021’GAC’ 4718 0.008’GAG’ 8118 0.015’GAT’ 7429 0.013

S NS fS’GCA’ 7508 0.013’GCC’ 5151 0.009’GCG’ 830 0.001’GCT’ 6636 0.012’GGA’ 7272 0.013’GGC’ 4872 0.009’GGG’ 5211 0.009’GGT’ 5554 0.010’GTA’ 6621 0.012’GTC’ 4569 0.008’GTG’ 7601 0.014’GTT’ 8495 0.015’TAA’ 13169 0.024’TAC’ 6901 0.012’TAG’ 7188 0.013’TAT’ 13732 0.025’TCA’ 11490 0.021’TCC’ 7658 0.014’TCG’ 901 0.002’TCT’ 12730 0.023’TGA’ 11003 0.020’TGC’ 7542 0.014’TGG’ 8585 0.015’TGT’ 11543 0.021’TTA’ 12724 0.023’TTC’ 11807 0.021’TTG’ 10171 0.018’TTT 23292 0.042

78FCUP


B.2 Hemoglobina humana

Tabela B.2: 3-mers da sequência de ADN de uma hemoglobina humana representada na figura 5.4e sua respetiva abundância e frequência (2.7)

S NS fS’AAA’ 51 0.033’AAC’ 29 0.019’AAG’ 32 0.021’AAT’ 30 0.019’ACA’ 33 0.021’ACC’ 11 0.007’ACG’ 2 0.001’ACT’ 17 0.011’AGA’ 37 0.024’AGC’ 23 0.015’AGG’ 26 0.017’AGT’ 38 0.025’ATA’ 33 0.021’ATC’ 15 0.010’ATG’ 12 0.008’ATT’ 57 0.037’CAA’ 36 0.023’CAC’ 13 0.008’CAG’ 31 0.02’CAT’ 24 0.015’CCA’ 21 0.014’CCC’ 10 0.006’CCG’ 1 0.001’CCT’ 16 0.010’CGA’ 0 0’CGC’ 0 0’CGG’ 4 0.003’CGT’ 0 0’CTA’ 21 0.014’CTC’ 29 0.019’CTG’ 21 0.014’CTT’ 44 0.028’GAA’ 25 0.016’GAC’ 13 0.008’GAG’ 28 0.018’GAT’ 27 0.017

S NS fS’GCA’ 15 0.010’GCC’ 11 0.007’GCG’ 0 0’GCT’ 20 0.013’GGA’ 22 0.014’GGC’ 11 0.007’GGG’ 21 0.014’GGT’ 18 0.012’GTA’ 14 0.009’GTC’ 21 0.014’GTG’ 21 0.014’GTT’ 31 0.02’TAA’ 30 0.019’TAC’ 8 0.005’TAG’ 33 0.021’TAT’ 36 0.023’TCA’ 35 0.023’TCC’ 16 0.010’TCG’ 1 0.001’TCT’ 62 0.04’TGA’ 35 0.023’TGC’ 12 0.008’TGG’ 21 0.014’TGT’ 31 0.02’TTA’ 39 0.025’TTC’ 49 0.032’TTG’ 45 0.029’TTT’ 82 0.053

FCUP


B.3 Mitocôndria de um Homo Sapiens

Tabela B.3: 3-mers da sequência de ADN de uma mitocôndria de um Homo Sapiens representadana figura 5.7 e sua respetiva abundância e frequência (2.7)

S NS fS’AAA’ 522 0.032’AAC’ 491 0.030’AAG’ 209 0.013’AAT’ 372 0.022’ACA’ 446 0.027’ACC’ 518 0.031’ACG’ 120 0.007’ACT’ 411 0.025’AGA’ 178 0.011’AGC’ 285 0.017’AGG’ 175 0.011’AGT’ 163 0.010’ATA’ 365 0.022’ATC’ 367 0.022’ATG’ 160 0.010’ATT’ 331 0.020’CAA’ 464 0.028’CAC’ 454 0.027’CAG’ 202 0.012’CAT’ 416 0.025’CCA’ 463 0.028’CCC’ 632 0.038’CCG’ 142 0.009’CCT’ 542 0.033’CGA’ 124 0.007’CGC’ 80 0.005’CGT’ 78 0.005’CTA’ 522 0.032’CTC’ 418 0.025’CTG’ 181 0.011’CTT’ 317 0.019’GAA’ 199 0.012’GAC’ 173 0.010’GAG’ 131 0.008’GAT’ 112 0.007

S NS fS’GCA’ 209 0.013’GCC’ 271 0.016’GCG’ 56 0.003’GCT’ 180 0.011’GGA’ 123 0.007’GGC’ 152 0.009’GGG’ 72 0.004’GGT’ 80 0.005’GTA’ 153 0.009’GTC’ 107 0.006’GTG’ 57 0.003’GTT’ 104 0.006’TAA’ 409 0.025’TAC’ 377 0.023’TAG’ 259 0.016’TAT’ 323 0.019’TCA’ 418 0.025’TCC’ 358 0.022’TCG’ 121 0.007’TCT’ 305 0.018’TGA’ 189 0.011’TGC’ 122 0.007’TGG’ 100 0.006’TGT’ 100 0.006’TTA’ 328 0.020’TTC’ 310 0.019’TTG’ 114 0.007’TTT’ 252 0.015

80FCUP


B.4 Archaeoglobus fulgidus DSM 4304

Tabela B.4: 3-mers da sequência de ADN de um Archaeoglobus fulgidus DSM 4304 representadana figura 5.11 e sua respetiva abundância e frequência (2.7)

S NS fS’AAA’ 53893 0.025’AAC’ 35647 0.016’AAG’ 48919 0.022’AAT’ 35746 0.016’ACA’ 27111 0.012’ACC’ 27930 0.013’ACG’ 24279 0.011’ACT’ 24909 0.011’AGA’ 45362 0.021’AGC’ 43366 0.020’AGG’ 46233 0.021’AGT’ 25109 0.012’ATA’ 23282 0.011’ATC’ 33322 0.015’ATG’ 31427 0.014’ATT’ 35560 0.016’CAA’ 41642 0.019’CAC’ 24478 0.011’CAG’ 39835 0.018’CAT’ 31454 0.014’CCA’ 31671 0.015’CCC’ 30945 0.014’CCG’ 24553 0.011’CCT’ 45075 0.021’CGA’ 31119 0.014’CGC’ 20037 0.009’CGG’ 24977 0.011’CGT’ 24044 0.011’CTA’ 15994 0.007’CTC’ 54047 0.025’CTG’ 39848 0.018’CTT’ 47581 0.022’GAA’ 51043 0.023

S NS fS’GAC’ 22153 0.010’GAG’ 55651 0.026’GAT’ 33547 0.015’GCA’ 35996 0.017’GCC’ 31229 0.014’GCG’ 20227 0.009’GCT’ 43325 0.020’GGA’ 43270 0.020’GGC’ 31415 0.014’GGG’ 31181 0.014’GGT’ 28003 0.013’GTA’ 21831 0.010’GTC’ 22130 0.010’GTG’ 24328 0.011’GTT’ 35673 0.016’TAA’ 27627 0.013’TAC’ 21951 0.010’TAG’ 15666 0.007’TAT’ 22844 0.010’TCA’ 42631 0.020’TCC’ 42140 0.019’TCG’ 31118 0.014’TCT’ 44161 0.020’TGA’ 42642 0.020’TGC’ 35959 0.017’TGG’ 31478 0.014’TGT’ 26806 0.012’TTA’ 26981 0.012’TTC’ 50551 0.023’TTG’ 41282 0.019’TTT’ 54164 0.025

FCUP


B.5 Mycobacterium tuberculosis

Tabela B.5: 3-mers da sequência de ADN de um Mycobacterium tuberculosis representada na figura5.15 e sua respetiva abundância e frequência (2.7)



82FCUP


B.6 Photorhabdus asymbiotica

Tabela B.6: 3-mers da sequência de ADN de um Photorhabdus asymbiotica representada na figura5.17 e sua respetiva abundância e frequência (2.7)



Apêndice C

Outros resultados

Aqui são expostas mais algumas representações de sequências de ADN através do jogo do

caos.

83

84FCUP


C.1 Leucemia - Homo sapiens

Fig. C.1. CGR da sequência de ADN de um tumor num Homo sapiens - leucemia - para k = 2, 4, 6e 8

FCUP


C.2 Cancro da próstata - Homo sapiens

Fig. C.2. CGR da sequência de ADN de um cancro na próstata de um Homo sapiens, com k =2, 4, 6 e 8

86FCUP


C.3 Tumor no complexo central - Homo sapiens

Fig. C.3. CGR da sequência de ADN de um tumor no complexo central de um Homo sapiens, parak = 2, 4, 6 e 8

FCUP


C.4 Cancro de pulmão - Homo sapiens

Fig. C.4. CGR da sequência de ADN de um tumor no pulmão de um Homo sapiens, para k = 2, 4, 6e 8

88FCUP


C.5 Homo sapiens amyotrophic lateral sclerosis

Fig. C.5. CGR da sequência de ADN de um carcinoma, para k = 2, 4, 6 e 8

FCUP


C.6 Human monkeypox and smallpox viruses

Fig. C.6. CGR da sequência de ADN do vírus da varíola, para k = 2, 4, 6 e 8

Representação de sequências de ADN através do Jogo do Caos ... · Representação de...

Documents

Transcript of Representação de sequências de ADN através do Jogo do Caos ... · Representação de...