Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e...

Post on 07-Apr-2016

217 views 0 download

Transcript of Gene Projects mcarazzo@lge.ibi.unicamp.br Marcelo Falsarella Carazzolle Laboratório de Genômica e...

Gene Projects

mcarazzo@lge.ibi.unicamp.br

Marcelo Falsarella Carazzolle

Laboratório de Genômica e Proteômica

Unicamp

Motivação• Muitos dados são gerados num projeto genoma :

– Fungo Crinipellis Perniciosa :• 170.000 reads• 26000 contigs + singlets• 70% hits encontrados no NR

– Café• 200.000 reads• 35000 contigs + singlets• 80% hits encontrados NR

• Necessidade de explorar os dados no decorrer do sequenciamento

• Estratégias mais eficientes para buscar genes :– Busca por palavras chaves em resultados de

blasts (Keyword Search)– Busca por sequências similares (Blast Search)– Busca por padrões de repetição (Pattern Search)

• Estratégia para eliminar redundância :– Clusterização

Introdução• Gene Projects é uma programa que permite :

– Realizar buscas por :• Palavra chave• Similaridade de sequências• Padrões

– Fazer clusterizações dos reads de interesse e analisar a qualidade da montagem

– Visualizar a sequência fasta e o resultado de blast dos reads e dos contigs formados

– Ampliar o contig na busca de genes inteiros– Burcas ORFs (ORFFinder)– Armazenar todos em resultados em projetos– Trabalhar via WEB

Uma visão geral

WWW Gene Projects

Banco de

Dados

Ferramentas de Buscas

Análise

Palavra chaveSequênciaPadrões

Visualizar sequências e

blasts

Clusterização

Visualizar sequências, blasts, montagens, ORFs e ...

Reads Contigs

Temáticas

Fluxograma: projeto genoma

Submissão

- Phred

- Cross_Match

Blastx/n contra nr/nt Relatório

Sequência Fasta

Qualidade das bases

Informação sobre vetores

Armazena os arquivos de Blasts

Alimenta o banco de dados com :

- Qualidade do read (qte bases > 20)

- Tamanho do read

- Resultado da blastagem (e-value,

score, cabeçalho)

- Vetores (qte bases com vetor)

Serviço de submissãoServiço de submissão

>Unknown sequences #1

5 6 5 7 10 9 10 12 15 16 17 20 20 23 25 30 30 30 40 40 45 50 50 50 ...

Gene ProjectsGene Projects- Busca de seqüências por: - Palavra chave; - Blast Sequences; - Seqüências específicas. - Pattern search

- Filtros de qualidade de nucleotídeos.

- Visualização das seqüências selecionadas:

- “Clusterização” utilizando o software Phrap/Cap3

- Análise de contigs e singlets por : - Blast contra nr; - Blast contra reads; - ORFFinder.

- Ferramenta para fechamento de contigs através de Blast saturação.

Iniciando um projeto

• Cadastro de usuário

• Inclusão de projetos

Não usar espaços ou caracteres especiais para o usuário e nome do projeto

Ferramentas de busca

Ferramentas de busca

• Reads search

Ferramentas de busca

• Keyword search

Ferramentas de busca

• Blast search

Ferramentas de busca

• Pattern search

N - Qualquer nucleotídeo

N(3) - Uma sequência de três nucleotídeos

N(2,4) - Uma sequência de 2,3 ou 4 nucleotídeos

[AC] - pode ser um A ou um C

{AG} - não pode ser nem A e nem G

Ex :

[CG](5)TG{A}N(1,5)C

• Interface de projetos

>Contig1 xxxxxxxxxtgatgcacgtcgactctataggatcaatatcctagccagaaaacttctcggtcaaggtctgtatgacaaagtctcgcaagcatctgtagagctctactcggaag

CP01-S0-001-001-A01-UC.F

CP01-S0-001-001-A04-UC.F

>Contig1 xxxxxxxxxtgatgcacgtcgactctataggatcaatatcctagccagaaaacttctcggtcaaggtctgtatgacaaagtctcgcaagcatctgtagagctctactcggaag

Blastn/reads

CP01-S0-001-001-A01-UC.F

CP01-S0-001-001-A04-UC.F

Blastando ...

Sequencias que produziram alinhamentos significantes :

CP01-S0-001-001-A01-UC.F       1419   0.0   -> Existente CP01-S0-001-001-A04-UC.F       1291   0.0   -> Existente CP02-PF-012-001-D08-UE.R       1263   0.0   -> Incluido CP02-S2-000-028-H06-UE.F       1261   0.0   -> Incluido

Se não existirem novas inclusões : FIM

Se existirem novas inclusões : Acrescenta os novos reads

Clusterizando novamente

>Contig1 xxxxxxxxxtgatgcacgtcgactctataggatcaatatcctagccagaaaacttctcggtcaaggtctgtatgacaaagtctcgcaagcatctgtagagctctactcggaagatatatatatatatatatat …

Se o tamanho do novo contig exceder o limite : FIM

Blast SaturaçãoBlast Saturação

Anotação automática de genesAnotação automática de genes

GERAÇÃO DE SEMENTES:

- Localização de uma ORF em um contig;

- Comparação de ORFs novas com genes existentes;

- Anotação automática nos bancos nr e GO (Gene Ontology Consortium);

- Identificação de regiões promotora e codante;

- Atualização de genes existentes

INTERFACE DE ANOTAÇÃO:

- Resultado do GO;

- Resultados de Blast contra nr;

- Classificação baseada no GO : - Função molecular; - Processo biológico; - Componente celular.

- Ferramentas de busca em sites por: - Palavra chave; - Blast Sequences.

- Histórico de anotação;

- Consulta de genes anotados

• ORFFinderAnálise dos clusters

Análise dos clustersAnálise dos clusters• Blastn contra a montagem geral

Interface de AnotaçãoInterface de Anotação

GeneProjects

ConclusãoConclusão• Permite a mineração dos dados em qualquer

instante do projeto• Facilita a busca de genes específicos• Armazena todos os resultados em projetos• Possui ferramentas de ampliação e análise de

seqüências codantes• Faz a conexão do novo contig gerado com a

montagem geral• Disponibiliza todos os esses serviços via WEB

FIMFIM