lista1
-
Upload
heidimuniz484 -
Category
Documents
-
view
4 -
download
1
Transcript of lista1
Bioinformatica 2011Facom-UFMS
Lista de Exercıcios 1
5 de agosto de 2011
1. Pesquise sobre os topicos:
(a) sıntese de proteınas em procariotos
(b) taxonomia
2. Escreva um programa que determina o tamanho de todas as sequencias em um arquivono formato FASTA.
3. Escreva um programa que conta o numero de As, Cs, Gs e Ts de uma sequencia no formatoFASTA.
4. Escreva um programa que extrai uma subsequencia de uma sequencia s no formatoFASTA. O usuario especifica como entrada:
(a) o arquivo FASTA contendo s
(b) a posicao b de inıcio da subsequencia
(c) a posicao e do final da subsequencia (b ≤ e)
e recebe como saıda outro arquivo FASTA contendo a sequencia s[b . . . e].
5. Melhore o programa anterior de tal forma que:
(a) se e for omitido, retorna s[b . . . `(s)], onde ` e o tamanho de s
(b) se b for omitido, retorne s[1 . . . e]
6. Combine o programa anterior e o programa para achar o complemento-reverso de umasequencia de DNA (visto em aula) para escrever um novo programa que retorna ocomplemento-reverso de s[b . . . e], se b > e.
1
7. Escreva um programa que simula uma sequencia genomica com tamanho fornecido pelousuario, em duas versoes:
(a) uma sequencia totalmente randomica de As, Cs, Gs eTs
(b) uma sequencia obedecendo a segunda regra de Chargaff; neste caso o progrma devereceber como entrada o %GC desejado
Os exercıcios a seguir deverao ser entregues via e-mail ate as 23h59m do dia17/8 ([email protected]).
8. Escreva um programa que calcula a variacao de %GC e a variacao de GC skew de umadada sequencia de DNA no formato FASTA, sequencia essa representando um genomacircular. Seu programa deve usar a tecnica de janela deslizante para ambos os casos,ou seja, dado um valor w para o tamanho da janela (em bp) e um step k, dados pelousuario, o programa deve calcular o %GC para cada janela de tamanho w, com k bp entreuma janela e a proxima. O mesmo deve ser feito para o GC skew, com parametros w′ ek′. A saıda deve ser composta dos seguintes arquivos:
(a) arquivo texto contendo um par de numeros por linha (separados por um espaco);o primeiro numero e a coordenada do centro da janela (um numero inteiro) e osegundo o %GC daquela janela (um numero real)
(b) arquivo texto contendo um par de numeros por linha (separados por um espaco);o primeiro numero e a coordenada do centro da janela (um numero inteiro) e osegundo o GC skew daquela janela (um numero real)
(c) dois graficos gerados pelo programa Gnuplot, semelhantes aos vistos abaixo, noformato PostScript
Dica: no caso de GC skew, use computacao incremental, ou seja, calcule o valor da janelaatual usando o valor da janela anterior.
40
45
50
55
60
65
0 500000 1e+06 1.5e+06 2e+06
GC
con
tent
(%
)
bp
-0.04
-0.02
0
0.02
0.04
0 500000 1e+06 1.5e+06 2e+06
GC
ske
w
bp
2
9. Rode o programa do exercıcio anterior para genoma simulado (totalmente aleatorio) epara os genomas abaixo, para notar a diferenca. Para GC content, use w = 5000 ek = 200. Para GC skew, use w′ = 400 e k′ = 1 para se obter melhor uma resolucao.
(a) Agrobacterium tumefaciens str. C58, accession number NC 003062
(b) Borrelia burgdorferi ZS7 str. ZS7, accession number NC 011728
(c) Escherichia coli str. K-12 substr. MG1655, accession number NC 000913
Entregue por e-mail um diretorio zipado contendo o programa em Perl, os graficos geradose um arquivo README.txt com o nome dos participantes do grupo, e informacoes sobre osarquivos e programas entregues.
3