Post on 24-Nov-2018
Desenvolvimento da plataforma EGene para anotação funcional e integração com banco de dados: aplicação e validação em transcritos de
Eimeria spp. de galinha doméstica
Instituto de Ciências Biomédicas
Universidade de São Paulo
Coccilab – ICB/USP
Anotação de sequências
•Anotação de sequências: processo pelo qual sequências de DNA ou aminoácidos são analisadas para atribuir-se características funcionais, contextualizando-as do ponto de vista biológico (Stein, 2001)
•A atual velocidade com que novas sequências são geradas inviabiliza processos manuais de anotação
Coccilab – ICB/USP
EGene
• EGene: pré-processamento de seqüências, filtragem de qualidade, aparamento de pontas, etc.
• Disponível em: http://www.coccidia.icb.usp.br/egene
Coccilab – ICB/USP
EGene 2
• Uma vasta gama de componente de anotação foram incorporados ao EGene2:
• Busca e tradução de ORFs
• Busca de repetições seriadas: TRF, String, mREPS
• Busca de tRNAs: tRNAscan-SE
• Predição de genes: Genscan, GlimmerM, GlimmerHMM, Twinscan, Phat, ESTscan, SNAP
• Busca de motivos conservados: HMMer x Pfam, RPS-BLAST, InterproScan
• Busca por similaridade: BLAST
• Mapeamento de ESTs: Sim4, Exonerate
Coccilab – ICB/USP
EGene 2
• Uma vasta gama de componente de anotação foram incorporados ao EGene2:
• Busca por domínios transmembranares: TMHMM, Phobius
• Identificação de peptídeo sinal: SignalP, Phobius
• Identificação de âncora GPI: DGPI
• Mapeamento e quantificação de termos GO
• Geração de arquivos de anotação: feature table, GFF3
• Geração de página web: HTML/PHP
Coccilab – ICB/USP
Relações de ortologia e anotação de proteínas
• Ortologia é uma relação de homologia entre sequências de ancestralidade comum, cuja divergência ocorreu por um evento de especiação
• A paralogia é um caso de homologia no qual a divergência ocorreu por um evento de duplicação
• Proteínas com relações de ortologia, ou de paralogia recente (inparálogos), tendem a conservar suas respectivas funções
• Esta propriedade nos permite atribuir funções a proteínas não caracterizadas, através de sua classificação em grupos de ortologia e posterior anotação transitiva
Coccilab – ICB/USP
COG
• Cluster of Orthologous Groups*
• Banco de dados de proteínas de bactérias e arqueias, agrupadas por ortologia e classificadas funcionalmente
• 66 genomas completos
• 192.987 proteínas agrupadas
• 4.872 grupos ortólogos
• 25 classificações funcionais
*Tatusov et al. (1997). A genomic perspective on protein families. Science 278(5338): 631-7.
KOG
Coccilab – ICB/USP
• Eukaryotic Orthologous Groups*
• Banco de dados de proteínas eucarióticas agrupadas por ortologia e classificadas funcionalmente. Utiliza a mesma metodologia do COG
• 7 genomas completos• Arabidopsis thaliana• Homo sapiens• Drosophila melanogaster• Caenorhabditis elegans• Saccharomyces cerevisiae• Schizosaccharomyces pombe• Encephalitozoon cuniculi
• 60.759 proteínas agrupadas• 4.852 grupos ortólogos• 25 classificações funcionais
*Tatusov et al. (2003). The COG database: an updated version includes eukaryotes. BMC Bioinformatics 4, 41.
eggNOG
Coccilab – ICB/USP
• evolutionary genealogy of genes: Non-supervised Orthologous Groups*
• Banco de dados com as mesmas características do COG/KOG, incrementado com 48 eucariotos, 35 arqueias e 477 bactérias, e novos grupos ortólogos para proteínas não classificadas nos grupos pré-existentes
• 630 organismos• 55 eucariotos• 529 bactérias• 46 arqueias
• 2.242.035 proteínas agrupadas• 1.966.709 proteínas anotadas
• 224.847 grupos ortólogos• 25 classificações funcionais
*Muller et al. (2010). eggNOG v2.0: extending the evolutionary genealogy of genes with enhanced non-supervised orthologous groups, species and functional annotations. Nucleic Acids Res 38, D190-195.
Coccilab – ICB/USP
KEGG – conjunto de bases de dados de proteínas, hierarquias, ontologias, ortologias e vias metabólicas
Aoki-Kinoshita & Kanehisa (2007.) Gene annotation and pathway mapping in KEGG. Methods Mol Biol 396, 71-91.
Filo Apicomplexa
• Classe Coccidia• Ordem Eimeriida• Cryptosporidiidae - Cryptosporidium• Eimeriidae - Eimeria, Isospora, Caryospora, Cyclospora• Sarcocystidae - Toxoplasma, Hammondia, Neospora, Sarcocystis, Besnoitia, Frenkelia
• Ordem Eucoccidiida• Adeleina - Hepatozoon• Lankesterillidae - Lankesterella
• Classe Gregarinia• Classe Haemosporida
● Haemoproteus● Hepatocystis● Plasmodium
• Classe Piroplasmida• Babesiidae - Babesia • Theileriidae - Theileria
Coccilab – ICB/USP
Coccilab – ICB/USP
Eimeria sp.
•Gênero causador da coccidiose aviária
•Sua ocorrência em galinhas doméstica leva a prejuízos que variam de 800 milhões a 3 bilhões de dólares por ano
•Sete espécies infectam a galinha doméstica: E. acervulina, E. maxima, E. tenella, E. necatrix, E. brunetti, E. praecox e E. mitis
•E. tenella é considerada é o modelo de estudo do gênero
● E. acervulina e E. maxima também são altamente relevantes na produção de frangos de corte
Coccilab – ICB/USP
Genoma de Eimeria tenella
• Complexidade: ~50-55 milhões de pares de bases
• Conteúdo GC: ~ 53%
• Cariótipo: 14 cromossomos, variando de 1 a 6 milhões de pb
• Número estimado de genes: ~ 8.000
•Genoma segmentado: regiões ricas e pobres em repetições seriadas e genes
Ling et al. (2007). Sequencing and analysis of chromosome 1 of Eimeria tenella reveals a unique segmental organization. Genome Res 17, 311-319.
Coccilab – ICB/USP
Dados de sequenciamento de Eimeria
• Universidade de Washington em St. Louis / Merck – US / IAH-UK / Universidade Nacional da Malásia - ~ 28.500 ESTs (esporozoítos e merozoítos de 2a geração) de E. tenella
•Universidade Nacional da Malásia – sequenciamento completo dos cromossomos 1 e 2; shotgun aleatório do genoma de E. maxima
•IAH/Instituto Sanger, UK – shotgun aleatório do genoma de E. tenella
•Universidade de São Paulo, Brasil – 15.000 ORESTES de cada uma das seguintes espécies: E. tenella, E. acervulina e E. maxima
--
Análise integrada de transcritos de E. tenella
Coccilab – ICB/USP
Origem, tipo de biblioteca e quantidade de reads utilizados na reconstrução final dos cDNAs de E. tenella
FonteTipo de
bibliotecaSequências
brutasSequências
pré-processadasRepositório
Instituto Sanger EST 9.778 5.939 Sanger e NCBI
Universidade da Malásia EST 1.051 1.028 NCBI
Universidade de Washington
EST 27.500 26.249 WUSTL
USDA EST 1.666 1.022 USDA
USP ORESTES 17.568 14.123 USP
Total - 57.563 48.361 -
Coccilab – ICB/USP
Banco de dados de transcritos de Eimeria
• Protocolo:
● Todas as leituras de cDNAs foram montadas com CAP3
● E. tenella – leituras de ORESTES foram montadas em conjunto com ESTs convencionais (WashU, Sanger, USDA e Malásia)
Espécies E. tenella E. maxima E. acervulina
Leituras 48.361 15.449 16.151
Sequências montadas 8.700 3.426 3.413
Contigs 3.724 1.233 1.280
Coccilab – ICB/USP
Resultados
• Classificação em KOGs de proteínas de Eimeria tenella:
Distribuição de classes funcionais
Coccilab – ICB/USP
Resultados
• Classificação de proteínas de Eimeria tenella utilizando o eggNOG:
Distribuição de classes funcionais
Coccilab – ICB/USP
Resultados
• Classificação de proteínas de Eimeria tenella utilizando o eggNOG:
Distribuição de classes funcionais
Coccilab – ICB/USP
Resultados
• Proteínas mapeadas em vias metabólicas:
Resultado E. acervulina E. maxima E. tenella
# de transcritos 3.413 3.426 8.700
# de proteínas (>50 aa) 3.233 3.096 7.990
BLAST x nr positivo(e-value < 10-6)
826 (25,5%) 761 (24,6%) 1,838 (21,1%)
KO 433 414 1.089
KEGG Pathways 332 332 678
• Total de proteínas de Eimeria spp. classificadas em KOs: 1.936• proteínas mapeadas em vias metabólicas : 1.342 (69,31%)
Coccilab – ICB/USP
Resultados
• Quantificação das vias metabólicas mapeadas para E. tenella
Distribuição de classes funcionais
Coccilab – ICB/USP
Resultados
• Mapeamento de proteínas de Eimeria tenella em vias metabólicas:
• Tabela com proteínas:
Coccilab – ICB/USP
Resultados
• Mapeamento de proteínas de Eimeria tenella em vias metabólicas:
• Tabela com proteínas:
Coccilab – ICB/USP
Resultados
• Mapeamento de proteínas de Eimeria tenella em vias metabólicas:
• Tabela com proteínas:
Coccilab – ICB/USP
Resultados
• Mapeamento de proteínas de Eimeria tenella em vias metabólicas:
• Tabela com proteínas:
Coccilab – ICB/USP
Resultados
• Mapeamento de proteínas de Eimeria tenella em vias metabólicas:
• Tabela com proteínas:
Coccilab – ICB/USP
Resultados
• Mapeamento de proteínas de Eimeria tenella em vias metabólicas:
• Tabela com proteínas:
Coccilab – ICB/USP
Resultados
• Mapeamento de proteínas de Eimeria tenella em vias metabólicas:
• Tabela com proteínas:
Coccilab – ICB/USP
Resultados
• Integração do EGene com o Gbrowse (report_gbrowse.pl)
• Otimizado para visualização de transcritos
• Representa os seguintes elementos:
• CDS
• mRNA
• 3’ e 5’ UTR
• regiões repetitivas
• conteúdo GC
Coccilab – ICB/USP
Resultados
• Anotação transitiva por associação com o KOG
• Transmitir a uma proteína a classificação funcional de seus ortólogos, caso ela não possua uma
B – KOG0001
A – sem classificação
grupo ortólogo X
B – KOG0001
A – KOG0001
grupo ortólogo X
Coccilab – ICB/USP
Resultados
• Anotação transitiva por associação com o KOG (exemplo)
• O grupo ortólogo “1.736” possui três proteínas, uma de cada eimeria• Eace_0350 – KOG1154• Eten_2431 – KOG1154• Emax_0723 – sem classificação
• KOG1154 – serine/threonine/tyrosine protein kinase
Coccilab – ICB/USP
Resultados
• Anotação transitiva por associação com a base KOG (exemplo)
Eace_0350
Eten_2431
Coccilab – ICB/USP
The Eimeria Transcript Database
• Anotações – Mapeamento de termos de GO (árvore expansível)
Coccilab – ICB/USP
The Eimeria Transcript Database
• Anotações – Mapeamento de termos de GO (tabela de ontologias)
Coccilab – ICB/USP
The Eimeria Transcript Database
• Anotações – Classificação em grupos ortólogos do KOG
Coccilab – ICB/USP
The Eimeria Transcript Database
• Anotações – Classificação em grupos ortólogos do eggNOG
Coccilab – ICB/USP
The Eimeria Transcript Database
• Anotações – Mapeamento em vias metabólicas do KEGG
Equipe de pesquisa
Ø Sequenciamento de ORESTES de Eimeria § Prof. Alda M.B.N. Madeira – ICB-USP§ Jeniffer Novaes§ Alessandra Popov
Ø Desenvolvimento de programas § Prof. Alan M. Durham – IME-USP § Luiz Thibério L. D. Rangel § Milene Ferro § Ricardo Yamamoto Abe § Leonardo Varuzza § André Yoshiaki Kashiwabara § Fernando Tadashi § Paulo Henrique Ahagon