Banco de Dados I - Aula 06 - Banco de Dados Relacional (Modelo Lógico)
Banco de Dados biológico
-
Upload
diana-santos -
Category
Documents
-
view
857 -
download
6
description
Transcript of Banco de Dados biológico
Recife, 10 de junho de 2009
BANCO DE DADOS BIOLÓGICO
EQUIPE:
Cleyton
Daniel
Danilo
Diana
Glaydson
Haury
Marcos
Victor
Banco de Dados Biológicos
2
Índice
Visão Geral…………………………………………………………………………….....……….3
Recursos Principais…………………………………………………………………….....…..5
Exemplos e Softwares………………………………………………………………….…....7
Conclusão………………………………………………………………………………….….....10
Bibliografia…………………………………………………………………………………...….10
Banco de Dados Biológicos
3
Banco de Dados Biológicos – Visão Geral
O que é Banco de Dados Biológico?
Um Banco de dados biológico constitui um grande conjunto de dados persistentes,
geralmente associado a um software projetado para atualizar, consultar e recuperar
componentes dos dados armazenados no sistema.
Geralmente são tabelas que contêm uma grande quantidade de registros. Por
exemplo, um registro associado a uma seqüência de nucleotídeos, contém
normalmente uma descrição do tipo de molécula, seu nome científico, além disso
citações na literatura correspondentes a esta seqüência.
Para os pesquisadores que se beneficiam com os dados guardados em um banco de
dados, dois requisitos são precisos:
– Fácil acesso às informações. (Eficácia)
– Métodos para extrair somente as informações necessárias para responder a uma
específica pergunta biológica. (Objetivo)
O objetivo
O principal objetivo é permitir integrar e consultar, de forma otimizada, dados de
seqüências de DNA, padrões de expressão de genes, estrutura de proteínas,
conseqüências clínicas, dentre outros elementos resultantes de pesquisas efetuadas
em um projeto genoma*.
*Projeto Genoma é o nome de um trabalho conjunto realizado por diversos países
visando desvendar o código genético de um organismo (podendo ser animal, vegetal,
de fungos, bactérias ou de um vírus) através do seu mapeamento. Seu marco inicial é
considerado o Projeto Genoma Humano.
Projeto GMOD
“O Generic Model Organism Database Project é um projeto open source, cujo objetivo
é desenvolver um conjunto completo de softwares para a criação e administração de
um banco de dados biológico”. GMOD (2004). Financiado pelo NIH (National Institute
of Health) e pelo USDA Agricultural Research Service.
Citrina:
– O Citrina consiste em uma ferramenta de gerência que permite automatizar o
espelhamento e processamento de bancos de dados que estão distribuídos através de
diversos servidores FTP. A mesma foi desenvolvida através da tecnologia Java Ant, o
que a torna mais flexível e portável.
– Um exemplo de uso para o Citrina seria a transferência de Chado SQL entre vários
sites de organismos e a população automática dos diversos bancos de dados
PostgreSQL através dos recursos de SQL fornecidos pela tecnologia Java Ant.
Banco de Dados Biológicos
4
BioMart:
– Sistema de Integração de dados orientado a consultas, baseado na idéia de data
warehouse.
– Sistema de Consultas desenvolvido especificamente para uso de grandes bancos de
dados. Simplifica a tarefa de integração entre diferentes bancos de dados distribuídos
pela rede.
Chado:
Segundo Chado (2004), consiste em um “... conjunto de módulos de um esquema
destinados à construção de um esquema de banco de dados biológico relacional....”
O Chado foi desenvolvido com o intuito de ser aplicado, especificamente, a um banco
de dados open source, como é o caso do PostGreSQL (PostgreSQL, 2004) e do
MySQL (MySQL, 2004). Além disso, outro pré-requisito para o funcionamento eficiente
do Chado é a configuração de diversos pacotes BioPerl (BioPerl, 2004).
O Chado está sendo utilizado atualmente pelo FlyBase (FlyBase, 2004) e pelo
Berkeley Drosophila Genome Project (BDGP, 2004).
O Chado, o qual constitui um dos subprojetos do GMOD, apresenta-se como um
esquema mais simples e genérico para a representação de dados biológicos. Este
esquema ainda se encontra em desenvolvimento, o que pode ser verificado na grande
simplicidade nos módulos responsáveis pela representação de mapas genéticos,
interações genéticas e expressão gênica.
Todos os dados resultantes das análises de um projeto genoma são armazenados nos
chamados bancos de dados biológicos. Inicialmente, cada laboratório desenvolveu o
seu próprio banco de dados, contemplando somente as necessidades do projeto
genoma por ele sendo executado.
Um banco de dados genômico para os biólogos geralmente é um web site que
apresenta informações que muitas vezes estão armazenadas em arquivos texto.
Outras vezes, os dados podem até estar em SGBDs, mas isto só começou a se tornar
realidade há poucos anos. Por exemplo, o www.plasmodb.org, um "banco de dados
genômico" do Plasmodium (causador da malária) usa dados armazenados tanto em
arquivos texto quanto em Oracle. A migração vem se dando há pouco tempo.
O banco de dados biológico mais famoso é o GenBank.
Banco de Dados Biológicos
5
Recursos Principais de banco biológico
Um dos mais importantes desafios para a biologia pós-genômica é atender a estrutura
e o comportamento das interações moleculares complexas que controlam o
comportamento celular.
Para tanto é essencial à integração dos dados biológicos referentes a estas interações
armazenadas em diversos bancos de dados. Este é um problema difícil, pois estes
dados estão disponíveis em banco de dados públicos espalhados geograficamente na
rede mundial de computadores, e cada um destes possui um sistema diferente de
gerenciamento, formato ou visão de como representar os dados.
Os principais problemas para a realização desta tarefa são: a necessidade de se
desenvolver e aplicar parsers para cada banco de dados sem ausência de um
vocabulário unificado. Como uma alternativa para facilitar estes problemas, este
trabalho propõe a ontologia MONET (Molecular Network Ontology) que tem como
objetivo ser um modelo integrado para a rede de redes que existe dentro da celula.
Tal visão integrada ajuda a entender as interações de larga escala responsáveis pelo
comportamento da célula, e permite a predição do comportamento celular que pode
ser experimentalmente testado. A ontologia engloba o metabolismo e a integração
proteína-proteína para os organismos procariotos e eucariotos, e regulação gênica
para seres procariotos.
Como resultado, este trabalho proporcionou uma padronização dos termos usados nas
três áreas abarcadas pela ontologia e a população da ontologia com dados referentes
à bactéria E.coli. A partir desta integração construímos a rede integrada da bactéria, e
com o conhecimento representado realizamos experimentos de aprendizado de
máquina para a predição da essencialidade de um gene com base na análise
topológica da rede de interações, utilizando o algoritmo J48, obteve-se uma cobertura
de 85,7 por cento para o melhor resultado.
Além disto, caracterizamos a rede integrada da E.coli, como uma rede livre de escala
hierárquica
Sendo a eficiência um problema constantemente observado em praticamente todos
os textos lidos sobre banco de dados biológicos, problema encontrado mais
especificamente nas buscas e no tratamento destes dados.
Principalmente porque os sistemas de banco de dados atuais estão prontos para
informações simples não alcançaram ainda a complexidade biológica com todas as
suas minúcias e com relacionamentos que transcendem a capacidade dos sistemas
atuais.
Os principais recursos disponíveis até o momento para se tentar encontrar a
melhor forma de armazenamento e de pesquisa (SQL), através de técnicas
diferenciadas para o tratamento destes dados gerados pelas pesquisas biológicas são:
SGBD’s que possuem suporte para a criação de novos tipos de dados e métodos
através de um banco dados extensível dando apoio as necessidades do sistema,
Banco de Dados Biológicos
6
definido novos tipos de dados capazes de criar entidades de domínio, como sucessão
genotípica entre outras, usando operadores definidos pelo usuário como: indexação de
domínio específico, fornecendo apoio para índices específicos de dados biológicos e
otimizar a extensibilidade, fazendo assim uma ordenação inteligente dos predicados
em questão, envolvendo tipos de dados definidos pelo usuário.
Warehouses, ou armazéns de dados, é geralmente um banco de dados relacional
apresentando uma visão consistente dos dados, um problema para a criação em
bioinformática é a necessidade de uma infra estrutura flexível ao ponto de controlar a
dinâmica do domínio, são constituídos de cinco camadas: as fontes de dados, os
Wrapper’s, o mediador, o data werehouse e o usuário.
Fontes de dados – origem dos dados a
serem adicionados ao warehouse.
Wrapper’s – analisadores gramaticais
de dados.
Mediador – traduz os dados para
apresentação do Data Warehouse.
Data Warehouse – repositório de
dados.
Usuários – interagem com o sistema
através de uma interface.
XML (DTD) que permite conversões entre bancos de dados que se utilizam de
diferentes tecnologias de XML. A idéia é criar um banco de dados XML bem
formulado capaz de integrar danço de dados diferentes, criando um repositório de
informação biológica. O problema é integrar diversas bases de dados XML cujos
dados não possuem uma estrutura padrão, podendo variar o tipo de uma base para
outra.
SGBD ad-hoc, um gerenciador de Baco de dados voltado especificamente para
lidar com dados biológicos. Um problema para esta aplicação é o alto custo e pouca
abrangência, o que os torna economicamente inviáveis.
Banco de Dados Biológicos
7
Exemplos e Softwares de bancos de dados públicos para biologia molecular
1 - Bancos de dados primários (seqüências de nucleotídeos) NCBI, EMBL, DDBJ Armazenam seqüências de nucleotídeos de todos os organismos Eles trocam informação e são fontes para outros bancos de dados. 2 - Meta-databases ENTREZ
Interface por meio da qual todos os seus BDs componentes podem ser acessados.
3 - Bancos de dados genômicos Ensembl, SGD, TAIR Ensembl fornece: - Genomas completos e diversos. - Anotação de SNPs - Alinhamento com seqüências homólogas de outros organismos. - Correlações com outros bancos de dados.
SGD (Saccharomyces Genome Database ) fornece: -Genoma completo -Fenótipos de mutantes específicos para cada gene -Dados de expressão gênica
TAIR fornece: -Genoma completo -Localização das inserções de T-DNA -Dados de expressão gênica
Banco de Dados Biológicos
8
4 - Bancos de dados de proteínas UNIPROT (PIR, SwissProt, TrEMBL), InterPro, ExPASY
UniProt: Consórcio que visa fornecer anotação relevante e curada de Proteínas. Baseiam-se em dados de proteômica (principalmente), genômica e transcriptômica. Proteínas anotadas são incluídas no UniProtKB-SwissProtTraduções de genes depositados no EBI são incluídos no UniProt-TrEMBL. ExPasy: Sistema de análise e recuperação de informação de proteínas. Produz as anotações para o UniProtKB/SwissProt Possui uma série de ferramentas para análise de proteínas
5 - Bancos de dados de estrutura de proteínas PDB
Anota, cataloga e distribui conjuntos de coordenada atômicas de macromoléculas PDB (World Wide Protein Data Bank) fornece: - Detalhes experimentais sobre a geração da estrutura. - Atribuições da estrutura - Coordenações atômicas - Links para outros bancos de dados
6 - Bancos de domínios e motivos protéicos PFAM, SMART, PROSITE, PRODOM, PRINTS
- Anotam e catalogam domínios ou motivos protéicos. Fazem comparações entre seqüência de consulta e banco de dados.
7 - Bancos de vias metabólicas KEGG, BioCyc
Kegg – coleção de bancos de dados on-line que ligam genomas com vias enzimáticas
Banco de Dados Biológicos
9
8 - Bancos de dados de expressão gênica ArrayExpress, GEO
- Banco de dados de depósito de dados de expressão gênica em larga escala (ArrayExpress – somente microarranjos)
9 - Bancos de ontologia Gene Ontology
Gene Ontology (GO) project, fornece um vocabulário controlado para descrever genes e produtos gênicos de um organismo. Ontologias: Molecular Function (atividade enzimática, função biológica) Biological process (processo em que a proteína está envolvida), Cellular component (Compartimento onde a proteína se localiza)
As ontologias são estruturadas como grafos acíclicos diretos. Parece uma Hierarquia, porém termos mais especializados (filhos)
Podem ser relacionados a mais de um termo menos especializado (pai).
Banco de Dados Biológicos
10
Conclusão
Até o presente momento, não existe um esforço maior para se tentar encontrar
Um padrão para ser adotados na elaboração e construção de novos bancos de dados
com objetivo específico de atender às necessidades da bioinformática, o que
impossibilita de certa forma, a troca de informações sobre projetos que envolvam
dados biológicos pelos mais diversos centros de pesquisa espalhados
geograficamente.
A utilização de data warehouse é uma solução interessante quando falamos em
interligar bases biológicas de várias entidades, mas esta solução não pode ser
aplicada separadamente, sem utilizarmos formas de otimização de pesquisas e
tratamento dos dados biológicos, pois se somente a integração destes bancos não nos
garante que as buscas por informações referentes a dados biológicos vá se dar de
uma forma eficaz. A utilização de tecnologias XML é muito interessante, mas esta
tecnologia ainda não está bem formulada para o domínio de dados biológicos, sendo
implementada e testada aos poucos, principalmente se apoiando nos conceitos
oferecidos pela W3C.
BIBLIOGRAFIAS:
http://imgproj.cs.man.ac.uk/tambis/
http://www.ncbi.nlm.nih.gov/Genbank/
III Congresso Científico do CEULP/ULBRA(PADRÕES DE TIPOS E MÉTODOS
PARA BANCO DE DADOS EM BIOINFORMÁTICA.pdf)