Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo [email protected].

58
Formato de Arquivos e Formato de Arquivos e Banco de Dados Biológicos Banco de Dados Biológicos II II Alynne Oya Chiromatzo [email protected]

Transcript of Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo [email protected].

Page 1: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato de Arquivos e Formato de Arquivos e Banco de Dados Biológicos IIBanco de Dados Biológicos II

Alynne Oya [email protected]

Page 2: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

SumárioSumário

Principais Repositórios

NCBIEntrez

Tipos de Arquivos

Aquisição de dados

EBIEB-eye

Tipos de arquivos

Aquisição de dados

Comparação

Atividades

Page 3: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Principais BancosPrincipais Bancos

NCBI (National Center for Biotechnology Information)

1988 – Criado como fonte nacional (norte americana) de informações sobre biologia molecular

– Bancos de Dados públicos;

– Pesquisas na área da biologia computacional;

– Desenvolvimento de ferramentas para análise de dados genômicos;

– Informações biomédicas.

http://www.ncbi.nlm.nih.gov/

Page 4: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

NCBINCBI

Eu já sei o que eu busco?

Ou quero descobrir o que

existe a respeito do que busco?

Page 5: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

EntrezEntrez

Sistema de busca robusto que realiza

a procura simultânea em múltiplos bancos.

Page 6: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

EntrezEntrez

Colocar a imagem parcial

Mapa do relacionamento entre os diferentes bancos de dados.Mapa

Page 7: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Entrez BuscaEntrez Busca

Page 8: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Entrez BuscaEntrez Busca

Page 9: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato GenPeptFormato GenPept

Page 10: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato GenPeptFormato GenPept

http://www.ncbi.nlm.nih.gov/Sitemap/samplerecord.html

Page 11: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato GenPeptFormato GenPept

GB: gene bank - accession number

identifica a seqüência

e sua versão

Page 12: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato GenPeptFormato GenPept

GI : genInfo Identifier

identificador único

para cada seqüência

Page 13: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato GenPeptFormato GenPept

O número do taxon é importante para pesquisas nos BDs.

Page 14: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato GenPeptFormato GenPept

Page 15: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato GenPeptFormato GenPept

Page 16: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato GenPeptFormato GenPept

Page 17: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato GenPeptFormato GenPept

Page 18: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato GenPeptFormato GenPept

Page 19: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato GenPeptFormato GenPept

Page 20: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato FastaFormato Fasta

>

identificação

Page 21: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato ASNFormato ASN

É um sistema de notação usado para descrever dados que serão trocados em um sistema computacional distribuído. Inclui nucleotídeos e proteínas.

Page 22: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato ASNFormato ASN

Page 23: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato ASNFormato ASN

Page 24: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Acesso aos DadosAcesso aos Dados

SOAP (Service Oriented Architecture Protocol)

EInfo – Fornece a contagem, a última atualização e os links disponíveis para cada banco de dados para um determinado campo de indexação.

ESearch – Busca e retorna IDs primárias (para uso no EFetch, Elink e Esummary), palavras traduzidas e opcionalmente retém resultados para uso futuro.

EPost – Cria um arquivo contendo uma lista de IDs primários para uso nas estratégias de busca sub-sequentes.

ESummary – Retorna o resumo de documentos a partir de uma lista de ID primários fornecida pelo usuário.

Page 25: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Acesso aos DadosAcesso aos Dados

SOAP

EFetch – Retorna registros de uma lista de IDs primários fornecidos pelo usuário no formato requisitado.

ELink – Verifica a existência de links para artigos externos ou do banco de dados a partir de uma lista de um ou mais IDs primários. Retorna os IDs primários dos artigos e as pontuações de relevância.

EGQuery – Fornece uma contagem do banco de dados Entrez para uma única busca usando a busca global (Global Query).

ESpell – Retorna sugestões de ortografia.

Descrição das funções do E-Utilities:

http://www.ncbi.nlm.nih.gov/entrez/query/static/esoap_toolkit.html

Page 26: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Acesso aos DadosAcesso aos Dados

FTP

GenBank – Coleção de anotações de todas as seqüências de DNA públicas disponíveis.

Gene – Informações sobre genes de organismos completamente seqüenciados.

RefSeq – Conjunto não-redundante de seqüências de DNA, proteínas e transcritos (dogma central).

Demais bancos ...

Cn3D – Programa de visualização de estruturas 3D.

BLAST – Ferramenta de procura de alinhamentos locais em bases de dados.

Demais programas ...

ftp://ftp.ncbi.nih.gov/

Page 27: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Principais BancosPrincipais Bancos

EMBL-EBI (European Molecular Biology Laboratory European Bioinformatics Institute)

Cambridge, Inglaterra

Pioneiro no desenvolvimento de pesquisas em bioinformática

Desenvolve banco de dados biológicos e programas

http://www.ebi.ac.uk/

Page 28: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

EMBL-EBIEMBL-EBI

BD de seqüências de nucleotídeos do EMBL

Page 29: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

EMBL-EBIEMBL-EBI

- Catálogo mais completo de informações sobre proteínas.

- Repositório central de seqüências e

funções de proteínas criado pela junção das

informações contidas no UniProtKB/Swiss-

Prot, UniProtKB/TrEMBL e PIR.

Page 30: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

EMBL-EBIEMBL-EBI

Repositório público para dados de transcriptoma e relacionados, o qual visa

armazenar dados MIAME (Minimum Information About a Microarray Experiment).

Ele armazena padrões de expressão indexados por gene e as suas respectivas

biomedidas.Microarray?

Page 31: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

EMBL-EBIEMBL-EBI

Ensembl Genome Browser

Projeto em conjunto com o Instituto Sanger

Matem anotação automática de genomas de

eucariotos.

Ensembl anota genes conhecidos e novos

com a anotação de sua função fornecida por

InterPro, OMIM, SAGE e famílias gênicas.

O acesso aos dados e ao software são livres

e sem restrição.

Page 32: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

EMBL-EBIEMBL-EBI

BD de proteínas que abrange famílias, domínios, repetições e regiões com características de proteínas conhecidas que podem ser aplicadas a novas seqüências de proteínas.

Page 33: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

EMBL-EBIEMBL-EBI

Macromolecular Structure Database Group

Projeto europeu para a coleta,

gerenciamento e destribuição de dados

sobre estruturas macromoleculares

derivadas em parte do PDB (World Wide

Protein Data Bank).

Page 34: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Bancos de DadosBancos de Dados

Page 35: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Bancos de DadosBancos de Dados

Page 36: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

BuscaBusca

Page 37: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

BuscaBusca

Page 38: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

BuscaBusca

Page 39: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

BuscaBusca

Human complete

Page 40: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

BuscaBusca

Page 41: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

BuscaBusca

Page 42: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato EmblFormato Embl

ID - identificação AC – número de acesso DT - data DE – descrição KW - palavra-chave OS – organismo espécie OC – classificação do organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título PE – existência da proteína RL – Revista DR – referência cruzada do BD CC - notas FH – cabeçalho da tabela de atributos FT – tabela de atributos XX – linha em branco SQ – cabeçalho da seqüência // - linha final

Page 43: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato EmblFormato Embl

ID - identificação AC – número de acesso DT - data DE – descrição KW - palavra-chave OS – organismo espécie OC – classificação do organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título PE – existência da proteína RL – Revista DR – referência cruzada do BD CC - notas FH – cabeçalho da tabela de atributos FT – tabela de atributos XX – linha em branco SQ – cabeçalho da seqüência // - linha final

Continuação do arquivo

Page 44: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato Swiss-ProtFormato Swiss-Prot

ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final

Page 45: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato Swiss-ProtFormato Swiss-Prot

ID - identificação AC – número de acesso PR – identificador de projeto DT - data DE – descrição GN – nome genérico KW - palavra-chave OS – organismo espécie OC – classificação do organismo OG – organela OX – referência cruzada organismo RN – número da referência RC – comentário RP – posições RX – referências cruzadas RA – autores RT – título RL – Revista DR – referência cruzada do BD FT – tabela de atributos SQ – cabeçalho da seqüência CO – linha de contig/construção // - linha final

Page 46: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Formato PIRFormato PIR

> Sinal de maiorDuas letras descrevendo o tipo

Protein (complete) P1Protein (fragment) F1DNA (linear) DLDNA (circular) DCRNA (linear) RLRNA (circular) RCtRNA N3other functional RNA N1

; ponto e vírgula

Código de identificação

Uma linha contendo a descrição

Seqüência contendo 1 ou + linhas

* Sinal de terminação

Page 47: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Acesso aos DadosAcesso aos Dados

SOAP

WSDbfetch – Retorna entradas de vários BDs biológicos atualizados

WSEB-Eye – Acesso ao mecanismo de busca EB-Eye

WSMSD – Acesso aos dados e ferramentas do BD de estruturas macromoleculares

WSChEBI – Retorna entradas do BD ChEBI (Chemical Entities of Biological Interest)

WSIntegr8 – Acesso a um subconjunto de dados disponíveis no portal Integr8 (integrated information about deciphered genomes and their corresponding proteomes )

Mais outros serviços…

http://www.ebi.ac.uk/Tools/webservices/

Page 48: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Acesso aos DadosAcesso aos Dados

FTP

ArrayExpress – Dados de microarray

Embl – BD de nucleotídeos do EMBL

InterPro – Famílias, domínios de proteínas

UniProt – BD universal de proteínas

UniRef – BD referência de grupos de proteínas

Demais bancos…

Programas

http://www.ebi.ac.uk/FTP/

Page 49: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

ComparaçãoComparação

NCBI BDs

Nucleotídeos

Busca- Seleciona itens de interesse

- Padrão entre os BDs

- Maior consistência

Acesso aos dados- SOAP:

Específico para acesso de dados

Forte: Pesquisas de publicações

EBI BDs

Proteínas

Busca- Faz sub-buscas

- Padrões diferentes

- Maior quantidade de informações

Acesso aos dados- SOAP

Usado para dados e ferramentas

Forte: Obtenção de seqüências novas

Page 50: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Site com os formatosSite com os formatos

http://www.ebi.ac.uk/help/formats_frame.html

Page 51: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

AtividadesAtividades

Busca rápida de dados em formato texto no NCBI usando o clipboard

Page 52: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

AtividadesAtividades

Page 53: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

AtividadesAtividades

Page 54: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

AtividadesAtividades

Page 55: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

AtividadesAtividades

Page 56: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

AtividadesAtividades

Page 57: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

AtividadesAtividades

Transformar o trecho abaixo de genbank para:

Fasta

Embl

Page 58: Formato de Arquivos e Banco de Dados Biológicos II Alynne Oya Chiromatzo alynne@lgmb.fmrp.usp.br.

Obrigada!Obrigada!