Minicurso 2013

BioinformáticaProf. Dr. Gabriel da Rocha Fernandes

Universidade Católica de Brasília

BioinformáticaProf. Dr. Gabriel da Rocha Fernandes

Universidade Católica de Brasília

+Pré História

nMendel identifica caracteres hereditários.

nLinus Pauling descreve o DNA como uma hélice simples.

nWatson e Crick descrevem a dupla hélice do DNA.

nDogma central da biologia molecular.

Proteínas$

Variação$Normal$ou$Patológica$

+A era genômica

n1977 - Sanger sequencia um bacteriófago.

nAnos 90 - Automatização do processo através de sequenciadores capilares.

n1995 - Primeiro genoma completo (Haemophilus influenzae)

nComeça o projeto genoma humano.

+A evolução

+Novas tecnologias e a era pós-genômica

+A explosão de sequências

+Análise dos dados

+Dogma Central

Croma&na(

mRNA( ncRNA(

Proteínas(

Variação(Normal(ou(Patológica(Ambiente(

Variação(em(seqüência( Variação(estrutural( Variação(química(na(croma&na(

Epigenômica(

Genômica(

Transcritômica(

Proteômica(

+Hardware

nComponentes do computador:n Processadoresn Memórian Discos

nDesempenha as funções da máquina.

+Software

nParte lógica do computador.

nConjunto de instruções processados pelos hardwares.

nInteração entre usuário e máquina.

nTorna o computador útil.

+Sistemas operacionais

nÉ um conjunto de programas que fazem a inteface do usuário e seus programas com o Hardware.

Programas HardwareSistema Operacional

Linux, Windows, Mac

+Windows

nMicrosoft

nUser friendly.

nPopular.

nServiço de licenças

nLimitado.

+MacOS

nApple

nVem de brinde nos Mac.

nSistema Unix.

nAmbiente gráfico => Windows.

nDesenvolvimento => Linux.

+Porque usamos o Linux?

nÉ livre;

nÉ gratuito;

nNâo é vulnerável a vírus;

nRecebe apoio de grades empresas como IBM, HP, Sun etc;

nMultitarefa e Multiusuário;

nModularização, somente é carregado para memória o que usado durante o processamento;

nNão há necessidade de reinicar o sistemas após cada modificação;

+Distribuições do Linux

+Porque usamos o Linux?

nÉ livre;

nÉ gratuito;

nNâo é vulnerável a vírus;

nRecebe apoio de grades empresas como IBM, HP, Sun etc;

nMultitarefa e Multiusuário;

nModularização, somente é carregado para memória o que usado durante o processamento;

nNão há necessidade de reinicar o sistemas após cada modificação;

nwww.ncbi.nlm.nih.gov

National Instituteof Health

National Libraryof Medicine

+A análise bioinformática

+Análise Genômica

nInterdependência entre as diversas etapas de análises.

nNovas metodologias e melhorias constantes.

+Como fazer um genoma

nA abordagem shotgun

nParte-se o DNA em pedacinhos

nCorre-se um gel

nEscolhe-se o tamanho dos fragmentos a trabalhar

nPedacinhos são clonados em vetores (montagem da biblioteca genômica)

nSequenciamento com primers do vetor

nMonta-se a sequência por sobreposição

+Estratégia de sequenciamento

+Genômica

+Sequenciadores

+Base calling

+Base calling - PHRED

nLê os arquivos – compatível com os principais formatos de arquivos: SCF (standard chrmoatogram format), ABI (373/377/3700), ESD (MegaBACE) e LI-COR.

nChama as bases – atribui uma base para cada pico identificado com um taxa de erros menor do que os programas de base calling padrões.

nAssina um valor de qualidade às bases – um “valor de Phred” baseado na estimativa da taxa de erros é calculado para cada base.

nCria arquivos de saída – as bases chamadas e os valores de qualidade são escritos em arquivos de saída.

+Região de boa qualidade

+Região de média qualidade

+Região de baixa qualidade

+Fórmula do valor de PHRED

nq = - 10 x log10 (p) n q - Valor de qualidaden p - Probabilidade estimada de erro na base

nq = 20 significa p = 10-2 (1 erro em 100 bases)

nq = 40 significa p = 10-4 (1 erro em 10,000 bases)

+Montagem

+Montagem do genoma

nAlinhamento das sequencias para geração de um consenso.

nIdentificação e eliminação dos gaps.

+O que sequenciar?

nQuebrar o DNA original em fragmentos aleatórios e selecionar os fragmentos de determinado tamanho (Ex: 2Kbp)

singlet

DNA original

+A montagem ab initio

nReconstruir a sequência do genoma, dados vários (potencialmente milhões) fragmentos curtos de sequência (os reads)

nOs reads têm tamanho entre 35-800 bp

nOs reads podem conter erros de sequenciamento (mismatches ou indels)

nA orientação (5`3` ou 3`5`) de cada read é desconhecida

+Terminologia

nRead: fragmento sequenciado

nContig: Pedaço contíguo de sequência formado a partir da sobreposição dos reads

nSinglet: read sem sobreposição com nenhum outro

nGap: região do genoma não capturada por nenhum read

nCobertura: Total de bases sequenciadas dividido pelo tamanho do genoma

+Contigs e cobertura

nTenho um álbum de figurinhas, com 24 figurinhas em uma página.

nCompro 5 pacotes, totalizando 25 figurinhas.

nContigs e singlets.

Contig 1 Contig 2

Contig 3

nCompro mais 5 pacotes, totalizando 50 figurinhas.

nCompro mais 20 pacotes, totalizando 150 figurinhas. E ainda assim faltou uma.

nPrimer walking é ligar na Panini e comprar as figurinhas que faltam.

+Estratégias

+Problemas

nSequências repetitivas.

nTamanho dos reads.

nSequencias Alu.

+Sequencias repetitivas.De onde veio o meu read?

+Tamanho do read

+Montando um “genoma”

+Uso dos paired-ends

nDecisão sobre repetições.

nMontagem de scaffolds.

+Predição de genes

nIdentificação de genes codificadores de proteínas.

nCombinam métodos não comparativos e comparativos.

nPredição ab initio usa informações de ORFs, uso de códons, e sequências consenso de sítios de splicing.

nGeneMark, SNAP, GENSCAN...

+Predição de genes

+Arquivo GFF

nGeneral Feature Format

nIndica as posições no contig de cada item identificado.

+No GenBank file

+No EMBL

+Visualização

nArtemis - Sanger Institute

+Análise Funcional

nAssocia uma função aos genes preditos.

nBaseada na homologia entre sequências.

nUtiliza bases de dados de sequências conhecidas e programas de alinhamento.

+Análise funcional

270!!Predição dos genes!

270!!BLAST! Base de dados!

+Objetivos

nIdentificar as funções dos genes.

nCaracterizar os processos celulares.

nMapear em vias metabólicas.

nElucidar o funcionamento do organismo.

+Ferramentas

nFerramenta de alinhamento:n BLASTn HMMER

nBase de dados:n COGn KEGG Orthologyn PFamn Gene Ontology

+Dicas

nProcurar por Hits que tenham descrição clara.n Evitar: hypothetical protein, putative..

nBuscar em várias bases de dados.n Aumentar a quantidade de entradas anotadas.n Hits não identificados em uma base podem ser anotados por outra.

nObservar a cobertura do alinhamento.n BLAST faz alinhamento local.n Não classificar uma proteína como um todo baseado apenas em

alinhamento a um unico domínio.

+Blast2GO

+KEGG Mapper

+iPath

npathways.embl.de

+Arquivo de sequência - FASTA

>gi|197101743|ref|NP_001125556.1| myoglobin [Pongo abelii]MGLSDGEWQLVLNVWGKVEADIPSHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISESIIQVLQSKHPGDFGADAQGAMNKALELFRKDMASNYKELGFQG

>gi|386872|gb|AAA59595.1| myoglobin [Homo sapiens]MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAEGAMNKALELFRKDMASNYKELGFQG

+Alinhamentos

nSimples X Múltiplo

n Local X Global

n Heurístico X Ótimo

Score = 276 bits (139), Expect = 3e-78 Identities = 139/139 (100%) Strand = Plus / Plus Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619 Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679 Query: 446 gcgaaacttctctcagaaa 464 |||||||||||||||||||Sbjct: 680 gcgaaacttctctcagaaa 698

+Alinhamento simples

n Aquele realizado entre seqüências de DNA ou proteínas, desde que duas a duas

Score = 652 bits (329), Expect = 0.0 Identities = 240/240 (100%) Strand = Plus / Plus

Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195

Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255

Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315

Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240

||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375

+Alinhamento multiplo

nAquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas

Seq1 ------------------------------------------------------------ Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA

Seq1 ------------------------------------------------------------ Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA

Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT ***************************************

+Alinhamento global e local

nGlobal: as seqs são alinhadas de ponta a ponta

nLocal: pedaços das seqs é que são comparados

+Alinhamentos ótimos e heurísticos

nheurística -- do dicionário Houaiss

nmétodo de investigação baseado na aproximação progressiva de um dado problema

nAlinhamento ótimo: produz o melhor resultado computacionalmente possível

nAlinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz

+Ferramentas de alinhamento

+Elementos do alinhamento

+Matrizes de substituição

A C G T

A 1 -2 -2 -2

C -2 1 -2 -2

G -2 -2 1 -2

T -2 -2 -2 1

A C G T

A 1 -2 -1 -2

C -2 1 -2 -1

G -1 -2 1 -2

T -2 -1 -2 1

+Matrizes de substituição

+BLAST

nBasic Local Alignment Search Tool

nFerramenta de alinhamento mais utilizada no mundo

nTodo pesquisador em biologia molecular já usou alguma vez (ou centenas de vezes)

nDiz-se que o trabalho original onde a ferramenta foi publicada é o mais citado da história das ciências biológicas

nÉ um algoritmo de alinhamento simples, heurístico e local

nAlinha um seqüência de entrada contra uma base de dados desejada

+Programas do BLAST

Formato da Seqüência de

Entrada

Banco de dados

Formato da seqüência que é comparado

Programa BLAST

adequado

Nucleotídeos

BLASTn

Proteínas

BLASTp

Nucleotídeos

Proteínas

BLASTx

Proteínas

Nucleotídeos

Proteínas

TBLASTn

Nucleotídeos

Proteínas

TBLASTtx

+Alinhamento multiplo

conservation profile

conserved residues

secondary structure

+Filogenia a partir do alinhamento

nMatriz de distância entre as proteínas alinhadas

nClustal: 1 - (resíduos idênticos/resíduos alinhados)

- .17 - .59 .60 - .59 .59 .13 - .77 .77 .75 .75 - .81 .82 .73 .74 .80 - .87 .86 .86 .88 .93 .90 -

Hbb_human Hbb_horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla

1 2 3 4 5 6 7

+Árvore filogenética

nMétodo fenético

nNão considera a evolução de cada caráter (coluna no alinhamento)

nProduz uma árvore a partir de uma matriz de distância gerada ao considerar todo o conjunto de dados

nVizinhos mais-próximos

nNeighbor-joining

nAverage neighbor

nNearest neighbor

nFarthest neighbor

+Transcritoma

nConjunto de todas as moléculas de RNA encontradas em uma população celular:n mRNAn tRNAn rRNAn miRNA

nTotal de transcritos encontrados em um organismo, tipo celular, condição...

nReflete os genes que estão sendo expressos em um determinado momento.

nSnapshot da função celular.

+Métodos de estudo

nExpressed Sequence Tags.

nSequenciado por método de Sanger.

nClonagem dos fragmentos usando vetores.

nNão funciona em procariotos.

nLow throughput.

+Métodos de estudo

nMicroarray.

nArranjos com os genes em locais determinados.

nComparação de amostras par a par.

nHibridização.

+Next Generation Sequencing

+Custo do sequenciamento

+RNA-seq

nUltra larga escala.

nNão necessita de clonagem.

nBaixo custo.

nValores absolutos.

nAnálise multi amostras.

nGrande cobertura.

+Protocolo

nProtocolo para montagem da biblioteca pode variar de acordo com a tecnologia e com o objetivo:

nRemoção de rRNA.

nAmplificação por PCR.

nConversão a cDNA.

nSingle read ou pair end.

+Genoma referência vs. Montagem de novo

nMapeamento dos reads a um genoma referência.n Quantificação da expressão.n Identificação de variantes de splicing.

nMontagem de novo do transcritoma.n Caracterização dos genes expressos.n Identificação de isoformas.n Ausência de genoma referência.

+O que sai do sequenciador?

nFormato padrão para análises é o FastQ.

n @SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC+!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF»»»CCCCCCC65

nPrimeira linha: identificador da sequência.n Nome da sequência.n Informação sobre filtros.

nTerceira linha: qualidade da chamada da base (em código).

+Montagem

+Mapeamento e quantificação

nAs sequências produzidas são mapeadas a um genôma referência.

nAlinhou em apenas uma região = ótimo.

nAlinhou em mais que uma região = dilema.

nO uso de replicatas é FUNDAMENTAL!

Repl. 1 Repl. 2 Repl. 3

Gene A 5 3 12

Gene B 16 25 35

Gene C 10 15 3

Gene D 750 500 500

Gene E 1504 1005 1030

+Interpretando a contagem dos genes

nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D:

nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D:n Gene E é expresso duas vezes mais que o Gene D.

nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D:n Gene E é expresso duas vezes mais que o Gene D.n Ambos os genes se expressam na mesma intensidade, mas o Gene E é

duas vezes maior que o Gene D.

duas vezes maior que o Gene D.n Ambos os genes tem o mesmo tamanho e se expressam na mesma

intensidade, mas o Gene D tem um parálogo no genoma ao qual metade dos seus reads foram mapeados.

duas vezes maior que o Gene D.n Ambos os genes tem o mesmo tamanho e se expressam na mesma

intensidade, mas o Gene D tem um parálogo no genoma ao qual metade dos seus reads foram mapeados.

nA causa é os três ao mesmo tempo.

+Identificando genes diferencialmente expressos.

nComparar diferentes condições: controle com testes.n Célula normal com célula tumoral.n Planta sem e com estresse hídrico.n Animal sem e com parasita...

nGenes em duas condições diferentes VÃO apresentar quantidades de reads diferentes.

nEssa variação pode ser diferença biológica entre as duas condições, ou ruído experimental.

nAplicação de testes estatísticos.

+Identificando genes diferencialmente expressos.

nPara identificar uma diferença estatisticamente significantes, é necessário que a diferença de expressão entre as duas condições seja maior que a imprecisão do nível de expressão sob uma determinada condição.

+Sou pobre, não vou usar replicata.

nLição de vida:n Um Gene H, em uma célula normal extraída do Zé Moreno, tem 5 reads.n O mesmo Gene H, em célula tumoral extraída do mesmo Zé Moreno,

tem 10 reads.n Uoua! O Gene H é duas vezes mais expresso na célula tumoral!

n Ganhei uns trocados e fiz transcritoma da célula normal de mais 2 pacientes. De brinde, ganhei o sequenciamento do Zé moreno de novo.

n O Gene H teve 12 reads na célula do Zé Moreno, 17 reads na Maria Tolé, e 22 reads na célula do Tião Torresmo.

nMoral da história: quanto mais medições fizer, mais vai ter certeza dos níveis de expressão dos genes.

+Replicata técnica vs. Replicata biológica

nTécnica: explica a variação encontrada que pode ter sido causada por critérios técnicos: preparação da biblioteca, qualidade do sequênciamento, cobertura do gene...

nBiológica: explica a variação encontrada que pode ter sido causada pela variabilidade de expressão que não está associada à mudança nas condições do experimento.

+Fontes de variaçãoVariância de Poisson

nÉ a incerteza existente em qualquer medição em que algo é amostrado e contado.

nComo é baseado no valor da contagem em si, não é específico do experimento.

nEssa variância está relacionada a quantidade total de reads.

nPor exemplo, a diferença na expressão de um gene medido com 1 read versus 2 reads é inerentemente menos seguro do que as diferenças na expressão de um gene medido com 100 reads versus 200 reads, apesar de ambas as diferenças serem, nominalmente, uma mudança 2X.

+Fontes de variaçãoVariância de Poisson

+Fontes de variaçãoVariação Técnica Não-Poisson

nAssociado à incapacidade da técnica não conseguir medir a expressão perfeitamente.

nVisto em replicatas técnicas.

nCausas:n Seleção de miRNA.n Depleção de rRNA.n Amplificação por PCR.n Armazenamento.n RNA-later.

nMoral da história: Manipule sua amostra o mínimo possível.

+Fontes de variaçãoVariação Biológica

nOcorre naturalmente nas amostras.

nA expressão naturalmente flutua em células sob a mesma condição.

nCausas da variações biológicas podem ser diferenças genéticas, de maquinaria celular, ou de resposta a variação do ambiente.

nVariação biológica também sofre a influência das outras duas variações vistas.

+Filosofando...

nMais replicatas vs. Mais reads.

nComo lidar com batch-effects?

nPreciso validar com RT-PCR?

nEu considero como diferencialmente expresso genes com p-value < 0.01.

nCalcular FDR (False discovery rate)

nLeia artigos que tenham usado benchmarks.

nConverse com o bioinformata que vai fazer as análises.

+Metagenômica

nMetagenoma: material genético recuperado diretamente de amostras ambientais.

nFornece informações sobre os organismos em seu habitat natural.

+Metagenômica

nCerca de 99% das bactérias não são cultiváveis.

nPermite o estudo de organismos que não são facilmente cultivados em laboratório.

nIdentificação de funções em espécies ainda não identificadas.

+Análise do gene do rRNA 16s

nGene altamente conservado em bactérias e archaea.

nRegião hiper variável confere sequências com assinatura específica.

nFornece um perfil da diversidade na amostra.

+Whole Genome Shotgun e nova geração de sequenciadores

nPermite uma visão mais global da comunidade.

nAnálise dos níveis da diversidade filogenética e polimorfismos intraespecíficos.

nEstudo de genes completos e de vias metabólicas da comunidade.

nReconstrução dos genomas.

nDemanda intensa análise bioinformática.

+Etapas da análise metagenômica

nFatores influentes.

nInterdependências ocultas.

+Métodos de estudo - Funcional

nIsolamento do DNA da amostra.

nClonagem do DNA em um hospedeiro.

nExpressão do gene e análise funcional.

nAnálise das sequências.

+Métodos de estudo - Genômico

nDNA isolado pode ser submetido a um sequenciamento aleatório ou direcionado.

nPermite montagem de todo metaboloma.

nAnálise filogenética.

nMetagenômica comparativa.

+Análise filogenética e funcional

+Pipeline de análise

+Assinatura filogenética

nCada read é associado a um organismo (espécie, gênero, família…)

nUtiliza bases de dados de genômas referência ou base de dados NT do NCBI.

nFerramenta de alinhamento.

nValores de identidade para definir o nível cladístico assinado.

88% 98% 99%

Bacteroides fragilis

Escherichia coli

+Assinatura filogenética

nComposição geral da amostra

nPrograma: MEGAN

nAgrupa multiplos alinhamentos em um nível cladístico.

+Análise filogenética

nQual clado prevalece na amostra?

nExiste um perfil filogenético?

nIdentificação de marcadores filogenéticos.

nAssociação da presença de um clado a uma determinada característica.

+Anotação funcional

nAvaliar o potencial genético da amostra.

nMontagem dos contigs.

nPredição dos genes.

nAlinhamento dos genes preditos a uma base de dados.

+Análise funcional

nQual função está mais presente?

nExiste alguma função do seu interesse?

nMontagem do mapa metabólico do ambiente.

nRastrear a função e identificar o organismo que executa.

+Visualização

Minicurso 2013

Documents

Transcript of Minicurso 2013

Minicurso - MSP430

Minicurso c++-see-2013

Minicurso educacao

MINICURSO GALVANOPLASTIA

Minicurso biogás

Minicurso HTML

MINICURSO 15

Minicurso Endnote

Minicurso Smsi

Minicurso Ruby

Minicurso encoding

InfoPI 2013 - Minicurso - A Bioinformática na Cura de Doenças

Minicurso introdesen

Minicurso normalização

Minicurso PostgreSQL

Minicurso Matlab IVSEE 2013 UERJ

Minicurso - SAE

Abnt minicurso

Minicurso Oratoria

Certificado ensino do minicurso educacao e mobilidade congresso abed 19ciaed 2013