Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A...

Post on 23-Jan-2020

1 views 0 download

Transcript of Busca em banco de dados - ifsc.usp.brrdemarco/FFI0760/Busca.pdf · Busca em banco de dados •A...

Busca em banco de dados

Busca em banco de dados

• A quantidade imensa de dados existentes nos bancos públicos torna critica a existência de ferramentas eficientes que permitam a recuperação de dados desejados

• Existem diversas formas através das quais os bancos podem ser interrogados para obtenção da informação desejada

NCBI

http://www.ncbi.nlm.nih.gov/

Um dos maiores repositórios de informações biológicas existentes

Parte do NIH (National Institutes of Health) dos EUA.

Estrutura do NCBI

Bancos de dados do NCBI

PubMed

Busca por referencias bibliográfica

Busca por palavra chave ou nome de autor (sobrenome seguido de iniciais)

PubMedAcesso ao artigo completo

Titulo do artigo, nome dos autores e resumo do artigo Artigos relacionados

PubMed

Permite acesso a seqüências descritas no artigo, artigos citados por este artigo, entre outros

Entrez nucleotide

Bases de dados de nucleotídeos

A base de dados de nucleotídeos é subdividida em diversas bancos dependendo da origem da seqüência (DNA, RNA) e da metodologia utilizada na obtenção desta seqüência

Estes bancos podem ser pesquisados em conjunto através da primeira pagina de busca do ENTREZ nucleotide ou separadamente

Bases de dados de nucleotídeos

• GenBank– Seqüências de cDNA ou DNA anotadas e

divididas em bancos relacionados com a taxonomia (invertebrados (INV),primatas (PRI),roedores (ROD), etc..)

– Alem disso existem bancos a parte que refletem certas estratégias de seqüenciamento

Bases de dados de nucleotídeos

Bancos a parte do GenBank:EST (Expressed Sequence Tag)- Resultante de

seqüenciamento em larga escala de mRNA. Seqüências são “single pass”, podendo ter baixa qualidade e só representam parte da molécula.

STS (Sequence-Tagged Sites) – Seqüências únicas em um genoma, utilizadas no mapeamento físico de cromossomos

GSS (Genome Survey sequences)- Seqüência de amostragem do genoma, normalmente “single pass”,. Mais da metade das seqüências são de pontas de BACs (Bacterial Artificial Chromosome)

Bases de dados de nucleotídeos

Bancos a parte do GenBank:ENV (environmental sample sequences)-

amostragem de seqüência de uma amostra ambiental sem que se determine os organismos que estão sendo seqüenciados

HTG (High-throughput genomic)- Derivadas se seqüenciamento em larga escala de genoma, mas que ainda não foram finalizadas.

HTC (high-throughput cDNA)-Derivadas de seqüenciamento em larga escala de moléculas completas de mRNA, , mas que ainda não foram finalizadas.

Bases de dados de nucleotídeos

• WGS (Whole Genome Shotgun)- Genomas produzidos utilizando a estratégia de WGS

• TPA (Thrid party anotation)- Re-anotação de seqüências por grupos que não produziram o dado original (é necessário uma publicação relacionada)

• RefSeq (Reference sequences)- Banco inclusivo, não redundante de seqüências anotadas (DNA, proteína e mRNA).

Resultado busca nucleotídeos

Seqüências do tipo “single-pass”

Seqüências de referencia

Seqüências derivadas de mRNA

Exemplo de um registro

Numero de acesso

Organismo

Publicação

Detalhes do registro

Exemplo de um registroAtributo da seqüência

Descrição de trecho codificante para uma proteína

Seqüência em formato FASTA

Formato mais utilizado para reconhecimento de seqüências por programa de bioinformática

Primeira linha possui um sinal > seguido pela descrição da seqüência

Linhas seguinte contem a seqüência

Alguns programas aceitam formato multi-fasta

Bases de dados de proteínas

• Ao contrario do DNA, proteínas não são facilmente seqüenciáveis

• Praticamente não existem depósitos em bancos de dados de seqüenciamento direto destas moléculas

• Entretanto devido ao fato de poder se deduzir facilmente seqüências protéicas a partir da informação do mRNA existem diversos bancos de seqüências protéicas deduzidas.

Resultado busca proteína

Seqüências de referencia

Seqüências que possuem seqüências similares com estrutura tridimensional resolvida

Exemplo de um registro

Link para seqüência de nucleotídeo a partir da qual este proteína foi deduzida

Buscando entender a função de uma proteína através dos dados disponíveis

Exemplo de um deposito

Qual será a função desta proteína?

Buscando entender a função de uma proteína através dos dados disponíveis

Depósitos de alguns bancos (Swiss-prot por exemplo) já possuem no deposito uma descrição da função da proteína

Buscando entender a função de uma proteína através dos dados disponíveis

Muitos depósitos apontam para referencias que realizaram estudos com a proteína em questão

Buscando entender a função de uma proteína através dos dados disponíveis

É possível obter informações sobre a proteína depositada em outros bancos do NCBI, no exemplo é mostrado o OMIM que é um catalogo de genes humanos e desordens geneticas

Busca por organismo no taxonomy browser

Depósitos nos diferentes bancos de dados de informações relacionadas a este organismo