Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

33
Introdução à Bioinformática Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN

Transcript of Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

Page 1: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

Introdução à BioinformáticaIntrodução à Bioinformática

Marcílio C. P. de Souto

DIMAp/UFRN

Page 2: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

2

Computação e Biologia Molecular

Bioinformática Casamento entre a ciência da computação e a biologia

molecular

É uma área nova Há 10 anos atrás o termo nem existia

Podemos dizer que foi um desdobramento da descoberta de Watson e Crick (1953) de que o DNA é estruturado como uma hélice dupla

Page 3: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

3

Contexto Histórico (1/6) A história começa na década de 1940 com a invenção do

moderno computador digital

Ele se chama digital, pois os dados são armazenados com um alfabeto binário

Dígitos binários – 0 e 1 A operação também é digital, baseada na lógica

liga/desliga

Em 1944, Avery e colaboradores descobriram que o DNA era a substância que carregava a informação genética

Usando a descoberta de Avery como referência, vemos que o nascimento do moderno computador digital e da moderna biologia molecular se deram mais ou menos ao mesmo tempo

Page 4: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

4

Contexto Histórico (2/6) A descoberta da hélice dupla, em 1953, mostrou que a

informação genética também é armazenada de forma digital Mas diferente do alfabeto binário dos computadores, os

dados genéticos são armazenados com um alfabeto quaternário

A, C, G e T Mais tarde se descobriu que a forma dos genes operarem

também é digital Até certo ponto, os genes podem ser “ligados” ou

“desligados”

Apenas estas observações já seria suficiente para prever, na década de 1950, que um dia informática e biologia molecular iriam juntas fazer nascer uma nova área de conhecimento

Page 5: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

5

Contexto Histórico (3/6) O nascimento da área, entretanto, teve de esperar muito tempo

para acontecer

Essa é a razão da bioinformática ser uma aparente novidade

Algumas pessoas consideram que a bioinformática passou a ser reconhecida como importante pelo mundo científico por volta de 1995

Ano que o primeiro genoma de uma bactéria foi publicado

Por que tão longa demora?

Page 6: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

6

Contexto Histórico (4/6) Do lado da biologia molecular o motivo é simples

Apesar da estrutura do DNA ter sido desvendada em 1953, a informação nela contida não podia ser “lida”

Foi como tivéssemos descoberto o alfabeto utilizado para escrever “o livro da vida”, mas as “palavras” desse livro estavam com letrinhas tão pequenas que não conseguíamos lê-las

Foi preciso esperar até fins da década de 1980 para que aparecesse uma “lente de aumento” suficientemente boa que permitisse a leitura dessas letrinhas em grande quantidade

Uma máquina automática Em 1995, uma única máquina dessas já conseguia ler

milhares de letrinhas por dia

Page 7: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

7

Contexto Histórico (5/6) Do lado da computação foi também preciso um amadurecimento

Computadores sendo capazes de armazenar cada vez mais informação, de processá-la de modo cada vez mais rápido, a um custo cada vez menor

Se o seqüenciamento automático do DNA tivesse amadurecido mais rapidamente, digamos com 20 anos de antecedência, não haveria computadores com poder suficiente para dar conta dos dados gerados

Na década de 1970 a unidade básica de armazenamento de informação era o kilobyte -- 1000 bytes, aproximadamente 1000 letras

Um computador de grande porte daquela época tinha alguns kbytes de memória

Com tal memória um computador desses não seria capaz de processar nem sequer o genoma de um vírus, que pode chegar a 20 kilobases, ou 20 mil letrinhas; que dirá o genoma humano, com seus 3 bilhões de letrinhas

Page 8: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

8

Contexto Histórico (6/6) Então, através de uma evolução que parece mais ou menos

sincronizada, desembocamos em 1995

Os computadores já estavam suficientemente poderosos para poder processar os milhões e milhões de letrinhas que passaram a vir à luz.

E assim nasceu a bioinformática, com a missão de ajudar-nos a entender a história que está escrita nesse livro da vida

Page 9: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

9

Poligamina da Computação Até que ponto essa onda em torno da bioinformática é

justificada?

Afinal de de contas, hoje quase toda atividade científica depende do computador

Poderíamos falar em física-informática, astronomia-informática, arqueologia-informática, etc.

Será que há algo de especial na bioinformática?

Page 10: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

10

Abordagens Há dois tipos de problemas em que atua a bioinformática

O primeiro tipo de problema é chamado de problema biotecnológico

O exemplo clássico é o da montagem de DNA

Uma segunda classe de problemas têm um interesse que vai além de tecnologias específicas, que transcende qualquer tecnologia, e diz respeito à natureza mesmo da biologia molecular

Queremos saber que informação está contida nos genomas

Page 11: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

11

Problema biotecnológico (1/2) Montagem de DNA

Um genoma de bactéria tem em geral 3 ou 4 milhões de letrinhas ou bases

As máquinas seqüenciadoras conseguem ler apenas pedaços de cerca de 1000 bases

Então como é possível ler um livro de 3 ou 4 milhões de letras se só conseguimos ler fragmentos de 1000 letras?

A solução é gerar uma enorme quantidade de fragmentos que tenham sobreposição entre si

Para ler 3 ou 4 milhões são necessários cerca de 100 mil desses fragmentos

Aí, obviamente, é necessário um programa de computador para montar esse quebra cabeça

Page 12: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

12

Problema biotecnológico (2/2) Esse problema é fruto de uma limitação tecnológica

atual É bem possível que daqui a 5 anos apareça um novo tipo de

seqüenciador que consiga ler diretamente as 3 ou 4 milhões de bases

E quando essa tecnologia aparecer, o problema da montagem do DNA deixa de existir. Portanto, o nome de problema biotecnológico

Tal como esse, existem dezenas ou centenas de outros problemas na bioinformática, cada um deles motivado por uma particular tecnologia

Mas problemas desse tipo existem em outras ciências também Certamente os telescópios modernos geram grandes quantidades

de dados de um jeito e formato que exigem programas de computador sofisticados para coleta e intepretação; e quando mudam os telescópios mudam os programas.

Page 13: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

13

Para além da tecnologia Há uma segunda classe de problemas que têm um interesse que vai

além de tecnologias específicas

Diz respeito à natureza mesmo da biologia molecular

São esses problemas que dão um charme todo especial à bioinformática

Que problemas são esses? São basicamente de dois tipos

Primeiro, temos a interpretação do DNA como uma linguagem, a linguagem dos genes

O segundo tipo de problema é o de entender os efeitos da informação genética

Page 14: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

14

Linguagem dos Genes (1/2) Os genomas contém informação

Sempre vamos querer saber que informação está contida neles

Por exemplo, para diferentes espécies de organismos e para diferentes indivíduos de uma espécie, particularmente a nossa

Essa interpretação requer métodos, técnicas, algoritmos que vêm principalmente da informática, pois afinal ela é a ciência da informação

Sem o uso dessas técnicas as seqüências de DNA produzidas pelas máquinas e montadas pelos programas não passam de uma inútil sopa de letrinhas

Dar sentido a essa sopa é tarefa dos bioinformatas

Page 15: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

15

Linguagem dos Genes (2/2) Nesta linha é interessante observar que existe um paralelo

entre o uso da informática para decifrar a informação genética e uma das primeiras grandes aplicações dos computadores

O deciframento, pelos ingleses, do código secreto usado pelos alemães na II guerra mundial

Um artigo recente que faz uma apanhado geral sobre as técnicas das ciências da informação usadas no deciframento da linguagem genética é D. Searls, The Language of Genes, Nature, 420:211-217, 2002

Page 16: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

16

Efeitos da Informação Genética (2/2) Temos aqui efeitos de gênese, de criação, ou seja, como a partir de um

ovo ou de uma semente se chega a um indivíduo; e também efeitos de manutenção da vida, ou seja, como um indivíduo já formado responde ao ambiente em que vive

O entendimento dos efeitos da informação genética começa com o entendimento de como uma célula funciona

Agora temos a possibilidade de tentar descobrir qual é o efeito que uma perturbação vai ter sem ter que efetivamente realizar essa perturbação

Para isso bastará "ler as instruções", "ler as especificações" e fazer as deduções necessárias. Isto é, ler o genoma e entender a cadeia de dependências entre os genes.

Essas cadeias são assim: um efeito externo faz um gene produzir uma proteína, que ativa outro gene, que produz outra proteína, que ativa outro gene e assim por diante.

Essa é uma tarefa que vai precisar de muita bioinformática

Page 17: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

17

Bioinformática (1/5) Definições

Pesquisa e desenvolvimento de ferramentas computacionais, matemáticas e estatísticas para a resolução de problemas da Biologia

Biologia Molecular

A Computação está para a Biologia da mesma forma que a matemática está para física

Harold Morowitz

Page 18: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

18

Bioinformática (2/5) Definições

Número de definições Número de bioinformatas

Todo mundo tem sua própria definição de Bioinformática, com detalhes sutis para refletir seu interesse em Ciências Biológicas

Uma combinação de Ciência da Computação, Tecnologia da Informação e Genética para determinar e analisar informação genética

Bits Journal - Bioinformatics: Information Technology & Systems

Page 19: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

19

Bioinformática (3/5) Outras definições

Aplicação de ferramentas de computação e análise para captura e interpretação de dados biológicos

Integração de métodos matemáticos, estatísticos e computacionais para analisar dados biológicos, bioquímicos e biofísicos

Ciência e tecnologia sobre aprendizado, gerenciamento e processamento de informação biológica

Page 20: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

20

Bioinformática (4/5) Outras definições

Coleção de métodos estatísticos para lidar com grande conjuntos de dados biológicos

Estatístico

Casamento da Ciência da Computação com a Biologia Molecular

Chefe de departamento de Ciência da Computação

Aplicação de técnicas de Aprendizado de Máquina para dados biológicos

Pesquisador de Inteligência Artificial

Page 21: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

21

Bioinformática (5/5) Outras definições

Alinhamento de seqüências Comentário feito em uma reunião para decidir que

projeto apoiar

Linha de comando unix Profissional de suporte de sistemas em empresa de

Biotecnologia

Fluxo de recursos do próximo milênio Diretor de Instituição

Page 22: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

22

Bioinformática: atualmente (1/2) Ênfase está se deslocando progressivamente do

acúmulo de dados para a sua interpretação

Com os sequenciamentos realizados, um grande volume de dados tem sido gerado

Esses dados precisam agora ser analisados

Análise laboratorial é difícil e cara Ferramentas computacionais sofisticadas são

necessárias para a análise dos dados obtidos

Page 23: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

23

Bioinformática: atualmente (2/2) Para muitas dessas análises, as ferramentas

computacionais precisam lidar com dados imprecisos e ruidosos

Técnicas de laboratório de Biologia Molecular quase sempre geram dados com erros ou imprecisões

Erros na coleta de dados Erros na construção de bases de dados

Aprendizado de Máquina

Fornece técnicas para lidar com os problemas acima

Page 24: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

24

Aprendizado de Máquina (AM)(1/2)

Principal preocupação Como construir programas de computador que

automaticamente melhoram seu desempenho com a experiência?

Técnicas orientadas a dados Aprendem automaticamente a partir de grandes

volumes de dados Geração de hipóteses a partir dos dados

Page 25: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

25

AM (2/2) Algumas Técnicas

Redes Neurais Artificiais (RNs) Máquinas de Vetores Suporte (SVMs) Algoritmos de Agrupamento (AA) Algoritmos Genéticos (AGs) Árvores de Decisão (ADs) Raciocínio Baseado em Casos (RBC) K-vizinhos mais próximos (kNN) ...

Page 26: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

26

AM e Biologia (1/2) Por muitos anos, sub-áreas da Biologia têm

inspirado técnicas de AM Redes Neurais Algoritmos Genéticos Programação Genética Vida Artificial

Agora, diversas pesquisas na Biologia vêm utilizando técnicas de AM

Page 27: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

27

AM e Biologia (2/2)

BIOLOGIA

Redes Neurais, Algoritmos Genéticos

COMPUTAÇÃO

Bioinformática

Page 28: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

28

Biologia Molecular e AM (1/2) Problemas da Biologia Molecular que podem

ser tratados por AM Reconhecimento de genes Reconstrução de árvores filogenéticas Análise de dados de expressão gênica Previsão de estruturas de proteínas Análise de interação entre genes Montagem de fragmentos Alinhamento de seqüências

Page 29: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

29

Biologia Molecular e AM (2/2) Aplicação Técnicas de AM

Reconhecimento genes

RNs, ADs, SVMs, RBC, kNN

Filogenia AGs, AA HierárquicoAnálise de Expressão

RNs, SVMs, AA, ADs, kNN

Estrutura Proteínas RNs, SVMs, AGsInteração entre genes

Redes Booleanas e Bayesianas

Montagem fragmentos

AGs

Alinhamento AGs

Page 30: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

30

Problemas Abordados Alinhamento de seqüências

Identificação de elementos que provavelmente surgiram de um ancestral comum

Reconhecimento de genes Identificação de genes em seqüências de DNA não caracterizadas

Análise de dados de expressão gênica Identificar:

Um agrupamento dos genes que seja funcionalmente significativo Novas sub-classes de doenças Funções de genes desconhecidos

Predição de estrutura de proteínas Identificação de estruturas secundárias de proteínas

Reconstrução de árvores filogenéticas Encontrar estratégias eficientes para a obtenção da melhor

árvore ou mesmo de uma árvore sub-ótima

Page 31: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

31

Técnicas de AM Utilizadas Redes Neurais Artificiais Máquinas de Vetores Suporte Árvores de Decisão Algoritmos Genéticos Algoritmos de Agrupamento

Agrupamento Hierárquico k-médias Mapa Auto-Organizáveis

Cadeias escondidas de Markov (HMMs)

Page 32: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

32

Objetivo

O objetivo do curso é propiciar aos estudantes um entendimento das vantagens e limitações das técnicas de AM revisadas, quando aplicadas aos problemas de Biologia Molecular propostos

Page 33: Introdução à Bioinformática Marcílio C. P. de Souto DIMAp/UFRN.

33

Referências Baldi, P. e Brunak, S. (2001). Bioinformatics: the Machine

Learning Approach. MIT Press. de Souto, M. C. P., Lorena, A. C., Delbem, A. C. B. e de

Carvalho, A. C. P. L. F. (2003). III Jornada de Mini-Curso de Inteligência Artificial – Livro Texto, capítulo Técnicas de Aprendizado de Máquina para Problemas de Biologia Molecular, pp. 103-152. Editora SBC.

Mitchell, T. (1997). Machine Learning. McGraw Hill, New York. Setúbal, J. C (2003). A origem e o sentido da palavra

bioinformática. Com Ciência – Revista Científica da SBPC. http://www.comciencia.br/reportagens/bioinformatica/bio10.shtml