Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro...
Transcript of Genómica Licenciatura em Ciências Biomédicas Departamento de Ciências da Saúde, UCP Fevereiro...
Genómica
Licenciatura em Ciências BiomédicasDepartamento de Ciências da Saúde, UCP
Fevereiro 2013
Genómica 12-13 MJC 2
Sumário
3. Montagem de genomas• Montagem hierárquica• Montagem de genomas completos• Montagem de genomas com base em modelos• Problemas associados à montagem dos
genomas– Controlo de qualidade
18-03-2013
Genómica 12-13 MJC 3
Aumenta o número de peças para 2-3 triliões.
Sobreposições em média de duas centenas de pares de bases. Equivale a ter um puzzle de 30 milhões de peças
Montagem de genomas
• Após a sequenciação temos fragmentos (de tamanhos que vão de 1000 a 40 pbs) que é preciso reordenar na sequência original.
18-03-2013
Genómica 12-13 MJC 4
Algumas das peças…
• Faltam– Problemas na construção das bibliotecas– Problemas com a amplificação por PCR
• Têm erros– Zonas repetitivas– Erros no PCR
18-03-2013
Aumentamos o nº de vezes que cada peça é
sequenciada!Entre 8 e 100 vezes
Genómica 12-13 MJC 5
A sequência (read) ideal
• É longa• Não tem erros
18-03-2013
Genómica 12-13 MJC 6
Podemos considerar 2 tipos
• Única (single read)– Resulta da sequenciação do
fragmento em si.• Emparelhada (paired read)– Nestas leituras eu sei a
sequência das pontas e a que distância estão uma da outra.
18-03-2013
Genómica 12-13 MJC 7
MONTAGEM HIERÁRQUICA OU DE CLONES
18-03-2013
Genómica 12-13 MJC 8
Abordagem usada para alinhar grandes inserções clonadas
– Primeiro é feito o mapeamento dos clones por padrões de digestão, marcadores de linkage ou mutações induzidas.
18-03-2013
Genómica 12-13 MJC 9
Desse mapeamento….
18-03-2013
• Escolhem-se os fragmentos a vermelho pois implicam a menor sobreposição.
• É feita a sequenciação desses fragmentos:– Cada sequenciação (read) é avaliada quanto à sua
qualidade.– É reconstruida a sequencia inicial usando as
sobreposições.
Genómica 12-13 MJC 10
MONTAGEM DE GENOMAS COMPLETOS
18-03-2013
11
Método mais aplicado atualmente
• Uma vez que a maioria da sequenciação já não implica clonagem.
• Dispensa o passo do mapeamento.• São sequenciadas as extremidades dos vários
fragmentos que são depois alinhadas.
Genómica 12-13 MJC18-03-2013
12
Desse alinhamento surge o “contig”
18-03-2013 Genómica 12-13 MJC
• Inclui 3 fases:– Sobreposição– Alinhamento – Consenso
13
Desse alinhamento surge o “contig”
18-03-2013 Genómica 12-13 MJC
A localização vai ser determinada pela
homologia
14
Vários contigs dão um scaffold
18-03-2013 Genómica 12-13 MJC
Genómica 12-13 MJC 1518-03-2013
Genómica 12-13 MJC 16
ALGUNS ALGORITMOS DE MONTAGEM DE GENOMAS
18-03-2013
Genómica 12-13 MJC 17
Greedy
• Como a homologia é a única condição este tipo de algoritmos é muito influenciado pelas sequências repetitivas ou homologias.
18-03-2013
Genómica 12-13 MJC 18
Overlap-Layout-Consensus
• Todas as sobreposições são mapeadas (Overlap)• É eliminada a informação redundante (Layout)• Usando a teoria de grafos é desenhado o mapa mais
simples e que corresponderá à organização inicial.
18-03-2013
Genómica 12-13 MJC 19
Overlap-Layout-Consensus
• Pode ser substituído pelo: Align-Layout-Consensus pois já há vários genomas de referência sequenciados.
18-03-2013
Genómica 12-13 MJC 20
CONTROLO DE QUALIDADE
18-03-2013
Genómica 12-13 MJC 21
Em genomas de novo
• Não se sabe quase nada– Nº de scaffolds e contigs que representam o
genoma.– A proporção de reads que consegue ser – O comprimento dos contigs e scaffolds
relativamente ao comprimento do genoma.
18-03-2013
Genómica 12-13 MJC 22
N50
• Tamanho do contig mais curto acima do qual se inclui 50% do genoma.
18-03-2013
Genómica 12-13 MJC 23
Os vários algoritmos devem ser comparados• Foi feita uma comparação no artigo GAGE:
18-03-2013
Genómica 12-13 MJC 24
O algoritmo deve ter em conta• Dependendo do organismo– Tamanho diferente dos genomas– Heterozigotia diferente• Humanos (1 par de bases pair/1000) • Lesmas do mar 1/50–100
18-03-2013
Genómica 12-13 MJC 25
Independentemente do algoritmo…
• Entra lixo• Sai lixo– Muitos sequenciadores têm controlos de
qualidade para contaminações, quimeras e erros de leitura.
18-03-2013
Genómica 12-13 MJC 26
MONTAGEM COMPARATIVA
18-03-2013
Genómica 12-13 MJC 27
Genomas de referência
Genomas de mesma espécie ou espécies semelhantes que servem de modelo.Os algoritmos tentam alinhar as sequências obtidas ao que já está sequenciado
18-03-2013
Genómica 12-13 MJC 28
PROBLEMAS NA MONTAGEM DE GENOMAS
18-03-2013
Genómica 12-13 MJC 29
Dificuldades• Contaminação
– Sequências que não pertencem ao genoma que se quer sequenciar.• Erros de montagem
– As sequências repetidas podem induzir os algoritmos de montagem em erro. As secções podem ser montadas como mais curtas ou sobrepostas pelo que desaparecem do genoma final.
• Homologia em grande escala.– Nos genomas dos mamíferos há zonas com uma grande percentagem de
homologia (>90%) mas que são zonas diferentes do genoma. Como a homologia éusada para fazer os alinhamentos as montagens ficammal feitas.
• Polimorfismo genómico– Dado que muitos genomas são poliploides a montagem de genomas muitas
vezes não consegue distinguir estes polimorfismos como possibilidades alternativas do mesmo locus.
18-03-2013
Genómica 12-13 MJC 30
Efeito das zonas repetidas
18-03-2013
Genómica 12-13 MJC 3118-03-2013
Genómica 12-13 MJC 32
Bibliografia
• http://www.ncbi.nlm.nih.gov/projects/genome/assembly/assembly.shtml
• http://www.cbcb.umd.edu/research/assembly_primer.shtml
• Artigo: de novo genome assembly; GAGE ambos na pasta
18-03-2013