Banco de Dados biológico

Recife, 10 de junho de 2009

BANCO DE DADOS BIOLÓGICO

EQUIPE:

Cleyton

Daniel

Danilo

Diana

Glaydson

Haury

Marcos

Victor

Banco de Dados Biológicos

2

Índice

Visão Geral…………………………………………………………………………….....……….3

Recursos Principais…………………………………………………………………….....…..5

Exemplos e Softwares………………………………………………………………….…....7

Conclusão………………………………………………………………………………….….....10

Bibliografia…………………………………………………………………………………...….10


3

Banco de Dados Biológicos – Visão Geral

O que é Banco de Dados Biológico?

Um Banco de dados biológico constitui um grande conjunto de dados persistentes,

geralmente associado a um software projetado para atualizar, consultar e recuperar

componentes dos dados armazenados no sistema.

Geralmente são tabelas que contêm uma grande quantidade de registros. Por

exemplo, um registro associado a uma seqüência de nucleotídeos, contém

normalmente uma descrição do tipo de molécula, seu nome científico, além disso

citações na literatura correspondentes a esta seqüência.

Para os pesquisadores que se beneficiam com os dados guardados em um banco de

dados, dois requisitos são precisos:

– Fácil acesso às informações. (Eficácia)

– Métodos para extrair somente as informações necessárias para responder a uma

específica pergunta biológica. (Objetivo)

O objetivo

O principal objetivo é permitir integrar e consultar, de forma otimizada, dados de

seqüências de DNA, padrões de expressão de genes, estrutura de proteínas,

conseqüências clínicas, dentre outros elementos resultantes de pesquisas efetuadas

em um projeto genoma*.

*Projeto Genoma é o nome de um trabalho conjunto realizado por diversos países

visando desvendar o código genético de um organismo (podendo ser animal, vegetal,

de fungos, bactérias ou de um vírus) através do seu mapeamento. Seu marco inicial é

considerado o Projeto Genoma Humano.

Projeto GMOD

“O Generic Model Organism Database Project é um projeto open source, cujo objetivo

é desenvolver um conjunto completo de softwares para a criação e administração de

um banco de dados biológico”. GMOD (2004). Financiado pelo NIH (National Institute

of Health) e pelo USDA Agricultural Research Service.

Citrina:

– O Citrina consiste em uma ferramenta de gerência que permite automatizar o

espelhamento e processamento de bancos de dados que estão distribuídos através de

diversos servidores FTP. A mesma foi desenvolvida através da tecnologia Java Ant, o

que a torna mais flexível e portável.

– Um exemplo de uso para o Citrina seria a transferência de Chado SQL entre vários

sites de organismos e a população automática dos diversos bancos de dados

PostgreSQL através dos recursos de SQL fornecidos pela tecnologia Java Ant.


4

BioMart:

– Sistema de Integração de dados orientado a consultas, baseado na idéia de data

warehouse.

– Sistema de Consultas desenvolvido especificamente para uso de grandes bancos de

dados. Simplifica a tarefa de integração entre diferentes bancos de dados distribuídos

pela rede.

Chado:

Segundo Chado (2004), consiste em um “... conjunto de módulos de um esquema

destinados à construção de um esquema de banco de dados biológico relacional....”

O Chado foi desenvolvido com o intuito de ser aplicado, especificamente, a um banco

de dados open source, como é o caso do PostGreSQL (PostgreSQL, 2004) e do

MySQL (MySQL, 2004). Além disso, outro pré-requisito para o funcionamento eficiente

do Chado é a configuração de diversos pacotes BioPerl (BioPerl, 2004).

O Chado está sendo utilizado atualmente pelo FlyBase (FlyBase, 2004) e pelo

Berkeley Drosophila Genome Project (BDGP, 2004).

O Chado, o qual constitui um dos subprojetos do GMOD, apresenta-se como um

esquema mais simples e genérico para a representação de dados biológicos. Este

esquema ainda se encontra em desenvolvimento, o que pode ser verificado na grande

simplicidade nos módulos responsáveis pela representação de mapas genéticos,

interações genéticas e expressão gênica.

Todos os dados resultantes das análises de um projeto genoma são armazenados nos

chamados bancos de dados biológicos. Inicialmente, cada laboratório desenvolveu o

seu próprio banco de dados, contemplando somente as necessidades do projeto

genoma por ele sendo executado.

Um banco de dados genômico para os biólogos geralmente é um web site que

apresenta informações que muitas vezes estão armazenadas em arquivos texto.

Outras vezes, os dados podem até estar em SGBDs, mas isto só começou a se tornar

realidade há poucos anos. Por exemplo, o www.plasmodb.org, um "banco de dados

genômico" do Plasmodium (causador da malária) usa dados armazenados tanto em

arquivos texto quanto em Oracle. A migração vem se dando há pouco tempo.

O banco de dados biológico mais famoso é o GenBank.


5

Recursos Principais de banco biológico

Um dos mais importantes desafios para a biologia pós-genômica é atender a estrutura

e o comportamento das interações moleculares complexas que controlam o

comportamento celular.

Para tanto é essencial à integração dos dados biológicos referentes a estas interações

armazenadas em diversos bancos de dados. Este é um problema difícil, pois estes

dados estão disponíveis em banco de dados públicos espalhados geograficamente na

rede mundial de computadores, e cada um destes possui um sistema diferente de

gerenciamento, formato ou visão de como representar os dados.

Os principais problemas para a realização desta tarefa são: a necessidade de se

desenvolver e aplicar parsers para cada banco de dados sem ausência de um

vocabulário unificado. Como uma alternativa para facilitar estes problemas, este

trabalho propõe a ontologia MONET (Molecular Network Ontology) que tem como

objetivo ser um modelo integrado para a rede de redes que existe dentro da celula.

Tal visão integrada ajuda a entender as interações de larga escala responsáveis pelo

comportamento da célula, e permite a predição do comportamento celular que pode

ser experimentalmente testado. A ontologia engloba o metabolismo e a integração

proteína-proteína para os organismos procariotos e eucariotos, e regulação gênica

para seres procariotos.

Como resultado, este trabalho proporcionou uma padronização dos termos usados nas

três áreas abarcadas pela ontologia e a população da ontologia com dados referentes

à bactéria E.coli. A partir desta integração construímos a rede integrada da bactéria, e

com o conhecimento representado realizamos experimentos de aprendizado de

máquina para a predição da essencialidade de um gene com base na análise

topológica da rede de interações, utilizando o algoritmo J48, obteve-se uma cobertura

de 85,7 por cento para o melhor resultado.

Além disto, caracterizamos a rede integrada da E.coli, como uma rede livre de escala

hierárquica

Sendo a eficiência um problema constantemente observado em praticamente todos

os textos lidos sobre banco de dados biológicos, problema encontrado mais

especificamente nas buscas e no tratamento destes dados.

Principalmente porque os sistemas de banco de dados atuais estão prontos para

informações simples não alcançaram ainda a complexidade biológica com todas as

suas minúcias e com relacionamentos que transcendem a capacidade dos sistemas

atuais.

Os principais recursos disponíveis até o momento para se tentar encontrar a

melhor forma de armazenamento e de pesquisa (SQL), através de técnicas

diferenciadas para o tratamento destes dados gerados pelas pesquisas biológicas são:

SGBD’s que possuem suporte para a criação de novos tipos de dados e métodos

através de um banco dados extensível dando apoio as necessidades do sistema,


6

definido novos tipos de dados capazes de criar entidades de domínio, como sucessão

genotípica entre outras, usando operadores definidos pelo usuário como: indexação de

domínio específico, fornecendo apoio para índices específicos de dados biológicos e

otimizar a extensibilidade, fazendo assim uma ordenação inteligente dos predicados

em questão, envolvendo tipos de dados definidos pelo usuário.

Warehouses, ou armazéns de dados, é geralmente um banco de dados relacional

apresentando uma visão consistente dos dados, um problema para a criação em

bioinformática é a necessidade de uma infra estrutura flexível ao ponto de controlar a

dinâmica do domínio, são constituídos de cinco camadas: as fontes de dados, os

Wrapper’s, o mediador, o data werehouse e o usuário.

Fontes de dados – origem dos dados a

serem adicionados ao warehouse.

Wrapper’s – analisadores gramaticais

de dados.

Mediador – traduz os dados para

apresentação do Data Warehouse.

Data Warehouse – repositório de

dados.

Usuários – interagem com o sistema

através de uma interface.

XML (DTD) que permite conversões entre bancos de dados que se utilizam de

diferentes tecnologias de XML. A idéia é criar um banco de dados XML bem

formulado capaz de integrar danço de dados diferentes, criando um repositório de

informação biológica. O problema é integrar diversas bases de dados XML cujos

dados não possuem uma estrutura padrão, podendo variar o tipo de uma base para

outra.

SGBD ad-hoc, um gerenciador de Baco de dados voltado especificamente para

lidar com dados biológicos. Um problema para esta aplicação é o alto custo e pouca

abrangência, o que os torna economicamente inviáveis.


7

Exemplos e Softwares de bancos de dados públicos para biologia molecular

1 - Bancos de dados primários (seqüências de nucleotídeos) NCBI, EMBL, DDBJ Armazenam seqüências de nucleotídeos de todos os organismos Eles trocam informação e são fontes para outros bancos de dados. 2 - Meta-databases ENTREZ

Interface por meio da qual todos os seus BDs componentes podem ser acessados.

3 - Bancos de dados genômicos Ensembl, SGD, TAIR Ensembl fornece: - Genomas completos e diversos. - Anotação de SNPs - Alinhamento com seqüências homólogas de outros organismos. - Correlações com outros bancos de dados.

SGD (Saccharomyces Genome Database ) fornece: -Genoma completo -Fenótipos de mutantes específicos para cada gene -Dados de expressão gênica

TAIR fornece: -Genoma completo -Localização das inserções de T-DNA -Dados de expressão gênica

http://www.yeastgenome.org/




8

4 - Bancos de dados de proteínas UNIPROT (PIR, SwissProt, TrEMBL), InterPro, ExPASY

UniProt: Consórcio que visa fornecer anotação relevante e curada de Proteínas. Baseiam-se em dados de proteômica (principalmente), genômica e transcriptômica. Proteínas anotadas são incluídas no UniProtKB-SwissProtTraduções de genes depositados no EBI são incluídos no UniProt-TrEMBL. ExPasy: Sistema de análise e recuperação de informação de proteínas. Produz as anotações para o UniProtKB/SwissProt Possui uma série de ferramentas para análise de proteínas

5 - Bancos de dados de estrutura de proteínas PDB

Anota, cataloga e distribui conjuntos de coordenada atômicas de macromoléculas PDB (World Wide Protein Data Bank) fornece: - Detalhes experimentais sobre a geração da estrutura. - Atribuições da estrutura - Coordenações atômicas - Links para outros bancos de dados

6 - Bancos de domínios e motivos protéicos PFAM, SMART, PROSITE, PRODOM, PRINTS

- Anotam e catalogam domínios ou motivos protéicos. Fazem comparações entre seqüência de consulta e banco de dados.

7 - Bancos de vias metabólicas KEGG, BioCyc

Kegg – coleção de bancos de dados on-line que ligam genomas com vias enzimáticas


9

8 - Bancos de dados de expressão gênica ArrayExpress, GEO

- Banco de dados de depósito de dados de expressão gênica em larga escala (ArrayExpress – somente microarranjos)

9 - Bancos de ontologia Gene Ontology

Gene Ontology (GO) project, fornece um vocabulário controlado para descrever genes e produtos gênicos de um organismo. Ontologias: Molecular Function (atividade enzimática, função biológica) Biological process (processo em que a proteína está envolvida), Cellular component (Compartimento onde a proteína se localiza)

As ontologias são estruturadas como grafos acíclicos diretos. Parece uma Hierarquia, porém termos mais especializados (filhos)

Podem ser relacionados a mais de um termo menos especializado (pai).


10

Conclusão

Até o presente momento, não existe um esforço maior para se tentar encontrar

Um padrão para ser adotados na elaboração e construção de novos bancos de dados

com objetivo específico de atender às necessidades da bioinformática, o que

impossibilita de certa forma, a troca de informações sobre projetos que envolvam

dados biológicos pelos mais diversos centros de pesquisa espalhados

geograficamente.

A utilização de data warehouse é uma solução interessante quando falamos em

interligar bases biológicas de várias entidades, mas esta solução não pode ser

aplicada separadamente, sem utilizarmos formas de otimização de pesquisas e

tratamento dos dados biológicos, pois se somente a integração destes bancos não nos

garante que as buscas por informações referentes a dados biológicos vá se dar de

uma forma eficaz. A utilização de tecnologias XML é muito interessante, mas esta

tecnologia ainda não está bem formulada para o domínio de dados biológicos, sendo

implementada e testada aos poucos, principalmente se apoiando nos conceitos

oferecidos pela W3C.

BIBLIOGRAFIAS:

http://imgproj.cs.man.ac.uk/tambis/

http://www.ncbi.nlm.nih.gov/Genbank/

III Congresso Científico do CEULP/ULBRA(PADRÕES DE TIPOS E MÉTODOS

PARA BANCO DE DADOS EM BIOINFORMÁTICA.pdf)

http://imgproj.cs.man.ac.uk/tambis/

http://www.ncbi.nlm.nih.gov/Genbank/

Banco de Dados biológico

Documents

Transcript of Banco de Dados biológico