Pesquisa em Genética - Instituto de Matemática e ...pavan/pdf/MAE0540-MAE5757-Aula5-2016.pdf ·...

MAE0540-Genética de Populações

MAE5757-Métodos Estatísticos em

Genética e Genômica

Júlia Maria Pavan Soler

pavan@ime.usp.br

IME/USP - 1°Sem/2016

MotivaçãoMAPEAMENTO DE “GENES” NAS POPULAÇÕES MUNDIAIS

Já vimos: “Genoma é um espaço estruturado”

Inferências sobre “Efeitos Genéticos” em dados gerados de

delineamentos:

Estudos com indivíduos não relacionados e fenótipos quantitativos

Estudos Observacionais Caso-Controle

Estudos Observacionais com Famílias

Estudos de Expressão Gênica (Microarrays)

No Nível Molecular

Transcrição

Célula

Núcleo

Proteína

(citoplasma)

Translação

Transcriptoma

Análise de Microarrays

Fonte: Doerge, R.W. Nature

Reviews 3, 2002

Do Gene ao Fenótipo

Variação Quantitativa em cada estágio “janelas” para a coleta de dados

Proteoma

Genoma

Análise de QTL’s

Dogma Central da Biologia

Coleta de Dados

Amostra da

População

Amostra do

Genoma

FAM INDIV PAI MÃE FENO1 FENO2 … FENOf SNP1 SNP2 … SNP2.882

REPL1 REPL2 REPL1 REPL2 … REPL1 REPL2

… …

14 ~200

FENOExp2 FENOExp3.554FENOExp1U.A. Fenótipos Genótipos Expressão de Genes

Motivação - Projetos InCor

Análise de QTL’s

e QTN´s

Estudos de

Associação (GWA´s)

Delineamentos com

Expressão Gênica

Delineamentos F2

Delineamentos com Famílias

Projeto Corações do Brasil

Delineamentos com Trios

Estudos Caso-Controle

Grupo A AC

Caso 60 40 100

Controle 40 60 100

Alelo Marcador

G U A A U C C U C

transcriptase

reversa

Experimentos com

Microarrays

Experimentos RT-PRC

(modelos animais)

Experimentos com Microarrays

Quantificar a Expressão de (Muitos) Genes (Simultaneamente)

(núcleo)

RNA (citoplasma)

Transcrição: “janela” para se observar

a Função Celular

Transcriptoma

Motivação: Medir a quantidade de

mRNA quais “genes” estão

sendo expressos ( quais “genes”

estão participando da função

celular)

GTAATCCTC

CATTAGGAG

Transcrever DNA, Sintetizar DNA, Hibridizar,

(núcleo)

RNA (citoplasma)

GTAATCCTC

CATTAGGAG

Transcrição

GUAAUCCUC

Transcrição Reversa

Construção das Lâminas de Microarrays

Fragmentos de DNA de interesse são fixados nos spots em uma

lâmina de vidro

Tecnologia que permite a avaliação simultânea da expressão de

milhares de fragmentos

cDNA: cada sequência é avaliada para dois canais de fluorescência

(Cy3=verde, Cy5=vermelho)

Oligonucleotídeos: sequências são avaliadas em um único canal (Cy3)

lâminas com 20, 30 mil fragmentos

sequências são geradas e spotadas

mecanicamente por um robô

Affymetrics: sequências curtas (20-25 bases), match/dismatch

Codelink: sequências longas

Clones cDNA

(probes)

printing

microarray Hibridização

Amostras mRNA

(Folha/raiz, raiz1/raiz2, …)

Experimentos com Microarrays de cDNA

Construção das lâminasRobô fixa quantidades do fragmento de

cDNA nos spots nas lâminas

Volume de material na agulha: 100-250nl

Volume do spot: 0.2-1.0nl

Spot“Background”

• A anotação do cDNA

em cada spot deve ser

muito criteriosa

• Há diferentes

propostas para definição

da área do background

RNA 1(Cy 3)

RNA 2(Cy 5)

lavagem

hibridização

Scan 1 Scan 2

Imagem combinada

Imagem 1 Imagem 2

550 nm 650 nm

expressão do gene

na amostra 1

expressão do gene

na amostra 2

Hibridização

RNA 1(Cy 3)

RNA 2(Cy 5)

Hibridização

Spot verde/vermelho: maior pico de leitura

Amarelo: mesma intensidade de sinal

Preto: não hibridização

Branco: “estouro” na leitura (saturação)

Escala da intensidade de fluorescência

igual em cy5 em cy3

Scaner

Leitura das intensidades de expressão

1=20 65.536=216

Quantificação da Expressão GênicaMedidas normalizadas

de expressão diferencial

Unidades amostrais: indivíduos ou pool

Spots: Replicação dentro das lâminas (“não concordantes”)

Intensidades variam com a distribuição dos spots

Muitos spots com nenhum sinal

Variação nos canais: Cy5: Intensidade fixação

Quantidade de cDNA (spot): variação

Propriedades de hibridação variam entre as sequências de cDNA

RNA 1(Cy 3)

RNA 2(Cy 5)

Análise dos

sinais R/G

Teoria de

Hibridização

Variação Biológica e Variação da Técnica

Medidas de expressão empíricas são imprecisas

Etapas da Análise de Dados de

Microarrays

Controle de fontes de

variação à priori

Controle de fontes de

variação à posteriori

Problema Biológico

Planejamento

Experimental

Experimento de Microarray

Pré-processamento dos

Análise Exploratória de DadosAnálise da Expressão

Diferencial entre Grupos

Predição de Redes

Regulatórias

Análise da Imagem Quantificação da Expressão

Correção pelo Background Normalização

Microarrays de cDNA

Planejamento de Experimentos (a Priori)

Experimento de Microarrays

Análise de Imagens (discordância entre Scaners)

Correção pelo Background

Controle de Fontes de Variação Externas (a Posteriori)

Normalizações (F.V. da Técnica)

Análise Estatística

Modelos ANOVA, Correção para Múltiplos Testes

Análises Exploratórias Multivariadas

Avaliação Simultânea da Expressão de “Muitos” Genes em

Diferentes Condições

Estudos Transversais

Grupo(s) Caso(s) x Grupo Controle(referência)

Experimentos Comparativos, Análise de Agrupamento e Discriminante

Estudos “Longitudinais”

Seguimento de etapas intermediárias de um sistema funcional

Inferência Funcional (células tronco, desenvolvimento)

Característica dos Experimentos “poucas” unidades amostrais

“muitos” genes (FV de interesse)

“muitas” fontes de variação sistemáticas

Experimentos com MicroarraysObjetivo: Comparar níveis/quantidades específicas de mRNA (expressão

de genes) em diferentes condições experimentais

Diferentes tecidos do mesmo organismo

raiz x folha, rim doente x rim não doente

Mesmo tecido, mesmo organismo, submetido a diferentes

intervenções raiz em stress hídrico x raiz em condição normal

Mesmo tecido, diferentes organismos

folha sp1 x folha sp mutante

Amostras de RNAm

Grupo SHR x Congenico Lâmina - Pool (n=3)

Controle SHR-Cy5 SHR/BN-Cy3 Rat 85

SHR-Cy3 SHR/BN-Cy5 Rat 89

NaCl SHR-Cy5 SHR/BN-Cy3 Rat 88

SHR-Cy3 SHR/BN-Cy5 Rat 86

Projeto InCor

Lâminas de cDNA : 26.912 Spots (2 réplicas dentro lâmina) Genes >> u.a.

inversão dos

corantes

SHRCSHR/BNC

SHRNaCl SHR/BNNaCl

comparações diretas

25/75SHR

Em 20 gerações todo o material genético do BN é eliminado

12,5/87,5( . . . )

Geração de animais congênicos

SHR modificados: com as

regiões candidatas do animal BN

Lâmina RAT85: SHR-Cy5 SHR/BN-Cy3

26.912 Spots

32 quadrantes

(2 réplicas)

Amostras de RNAm

Grupo SHR x Congenico # lâminas (Pool:n=3)

Controle SHR-Cy5 SHR/BN-Cy3 1

SHR-Cy3 SHR/BN-Cy5 1

NaCl SHR-Cy5 SHR/BN-Cy3 1

SHR-Cy3 SHR/BN-Cy5 1

Experimento com Microarrays

Lâmina Spot Réplica Cy3 Cy5 T=Cy3/Cy5 log( T )

... ... ... ... ... ...

1 13000 1

1 13000 2

4676 8064 0,010 0,003

-285 890 0,045 0,020

Diferenças entre réplicas DENTRO de lâmina (13000 spots)

Médias entre

réplicas da

variável T:

variabilidade

Planejamento de Experimentos com

Microarrays

Construção das matrizes (lâminas) de microarray

seleção de uma amostra de “genes” (fragmentos cromossômicos) que

seja representativa do genoma sob estudo (representativo dos possíveis

genes envolvidos na regulação do sistema biológico sob estudo)

replicações dentro da lâmina, spots controle negativo (brancos), spots

controle positivo

Amostras de mRNA

unidades amostrais: indivíduos ou pool de indivíduos

replicações biológicas

Atribuição dos corantes aos Grupos (Sistema de Duas Cores)

Lâmina : fator bloco (recebe ambos os tratamentos)

Genes (dentro da lâmina): é um fator adicional

Microarrays

Lâmina : fator bloco

Estrutura de Tratamento: 1 fator em dois níveis (A e B)

Cy3 Cy5

Tipos de Delineamentos:

rOs tratamentos A e B são aplicados em r

lâminas de microarrays

A: recebeu Cy3 B: recebeu Cy5

Única situação de

blocos completos

Tamanho dos

blocos é 2

Microarrays

Cy3 Cy5

Cy5 Cy3

Dye- swapp • Controlar a variabilidade devido ao corante

Lâmina Cy3 Cy5

… … …

O efeito do

tratamento pode

estar confundido

com corante!

Aleatorizar a atribuição dos corantes

aos tratamentos tratamentos nas r

lâminas!

Comparações Diretas entre as Intensidades de Expressão

Cy3 Cy5

Dye- swapp

Representação Gráfica dos Experimentos

A B A B

1 lâmina

2 lâminas

BA2 lâminas: delineamento desbalanceado (A e B:1 réplica, C:2 réplicas)

Delineamento indireto: “log(A/B)” é estimado indiretamente por

“log(A/C) – log(B/C), mas com 1 réplica”

(Yang and Speed, 2002)

Estrutura de Tratamento: 1 fator em três níves (A, B e C)

Delineamento em blocos incompletos

Possíveis Configurações:

Lâmina Cy3 Cy5

Delineamentos em Loop:

em blocos incompletos

balanceados (2 réplicas)

Delineamento Looping

3 lâminas

Blocos Incompletos Balanceados

A B B C C A

Looping Dye Swapp

Experimentos com MicroarraysA

Lâmina Cy3 Cy5

Por simulação o delineamento Loop tem produzido erros padrão (em média)

menores que o de referência (Yang e Speed, 2001)

O Del. de Referência tem sido mais adotado. A amostra de mRNA de

referência tem que ser escolhida de forma criteriosa (ter alta expressão e não

ter especificidade)

É aconselhável aleatorizar a atribuição dos corantes

Planejamento de Experimentos

Replicação Biológica Replicação deve ser feita no nível das unidades amostrais que

compõem a população alvo (sobre a qual desejamos realizar inferências)

Deseja-se identificar genes diferencialmente expressos em qual

“população”? o pesquisador deve saber responder a qual população ele

deseja inferir seus resultados (para uma sp, para uma população F2, ...)

Em geral a fonte de variação ENTRE indivíduos é maior que outras fontes

de variação (corante, hibridização,...) ter arrays para diferentes u.a.

(tantas quanto possível para se ganhar precisão. Lembre-se que o efeito de

tratamento é a fonte de variação que se deseja mensurar.)

Pool como unidade amostral (recomendado para populações

homogêneas, F2) reduz variabilidade biológica (o que é a medida de

expressão de uma amostra de mRNA combinada de muitos indivíduos?)

Replicação (do spot) dentro do array útil para normalização

Nos Experimentos de Microarrays não existe um delineamento

ótimo universal. Os princípios de Planejamento de

Experimentos devem nortear a decisão do pesquisador e

assegurar que estaremos acumulando e atualizando nosso

conhecimento e não simplesmente gerando uma enorme

quantidade de dados.

(Churchill e Oliver, 2001)

Microarrays

Problema Biológico

Planejamento

Experimental

Experimento de Microarray

Pré-processamento dos

Análise Exploratória de DadosAnálise da Expressão

Diferencial entre Grupos

Predição de Redes

Regulatórias

Análise da Imagem Quantificação da Expressão

Correção pelo Background Normalização

Pré-Processamento dos Dados

Dados amostrais sujeitos a muitas fontes de variações

(conhecidas e desconhecidas):

Leituras dos scaners

Spots com nenhum sinal ou saturação

Variação espacial

Variação do canal de fluorescência

Outras F.V. sistemáticas

Eliminar efeitos indesejáveis calibrar, normalizar,

transformar, ponderar os dados encontrar uma “escala”

apropriada que permita comparar os níveis de expressão

entre e dentro das lâminas

Pré-Processamento dos Dados

Visualização cuidadosa dos dados de intensidade de expressão

Correções nos dados de expressão observados são necessários

por diferentes razões. Possíveis correções:

MeYYYa Aparadak ,,,

Distribuição de Y

Y: intensidade de expressão

YYY ˆ*

Rj Gj (Red, Green)

Spot j (“ Gene j ” )

Spot verde/vermelho: maior pico de leitura

Amarelo: mesma intensidade de sinal

Preto: não hibridização

Branco: “estouro” na leitura (saturação)

Leitura da intensidade

de expressão de um

spot abre uma grade de

pontos 50x50 (pixels)

Background

Foreground

Dados de um único Spot ( j -ésimo)

Gjjj BMedianaGMedianaG *

Rjjj BMedianaRMedianaR *

Visualização da Expressão Diferencial

Os spots (pontos no gráfico) fora (abaixo ou acima) das retas indicadas

têm expressão diferencial entre as amostras de mRNA (segundo um ponto

de corte arbitrário adotado)

A anotação dos spots é muito importante identificação do fragmento

cromossômico e de sua função em algum sistema biológico

Diagrama de Dispersão das Intensidades de Expressão

Visualização da Expressão

Diferencial

Normalizações

Ainda há fontes de variação conduzindo a “erros/vícios” nas

medidas de intensidade de expressão:

Eliminar Vícios Sistemáticos

Ocorrência de “outliers”

Tendências: Variância crescendo com a média das

intensidades, não Normalidade (assimetria)

Dados de cada Spot já normalizados pelo

Background:

Cy3 Cy5 *jR*jG

log Gj

log Rj

Análise Baseada na Razão(Chen et al., 1997)

Assume para o g-ésimo gene:

kR e ~ i.i.d. Normais homocedásticaskG

kkk GRT /

c: coeficiente de variação estimado dos dados

Outras alternativas são usadas para distribuições

assimétricas.

Transformação Log

Modelo de Efeitos Multiplicativos Linearizar

Distribuição Assimétrica Positiva Normalizar

Log2 escala conveniente

Análise Baseada no Log

Log2 R

Log2 G

T= R/G

Log2 T = Log2 R - Log2 G

dados de cada Gene

Corrigir as medidas de expressão gênica para muitas

fontes de variação possíveis Normalização

Normalização

Cy5 Rj

Cy3 Gj

Normalização Não Paramétrica x Normalização Paramétrica

Normalização: Eliminar Vícios Sistemáticos

Controle de Qualidade das Medidas

dados de cada Spotj

RLogGLogRLogTLog 2222

cTLogTLogTLog 222 *

A expressão

diferencial é avaliada

na escala Logaritmica

(base 2)

Transformação Razão: R/G

Há algum padrão

(espacial) na distribuição

das razões ?

Visualizar a

distribuição de

RLogTLog 22

Normalização Não Paramétrica

Normalização pela Energia Total (Global)

2 loglog

RMédiac 2log

Mediana, Média Aparada

j-ésimo Spot

tais correções também

podem ser feitas por sub-

array.

Normalização Não Paramétrica

Normalização dependente da Intensidade de Expressão

loglog

A x M Gráfico do através estimado:jAc

j-ésimo Spot j=1, 2, ..., n

jj TT 2log de )(suavizado ajustadovalor :ˆ

Neste gráfico

podemos visualizar

a distribuição de

log2T.

Gráfico M x A

Gráfico MxA é uma rotação 45° do gráfico de dispersão Log R x Log G

M = log R – log G

M = Minus

A = ½[ log R + log G ]

A = Add

Dependência funcional entre

média e variância?

Gráfico M x A

Gráfico MxA é uma rotação 45° do gráfico de dispersão Log R x Log G

M = log R – log G

A = ½[ log R + log G ]

Quadrantes que indicam

Genes diferencialmente

expressos?

Eliminar tendências na distribuição dos

pontos no gráfico MxA gráfico da

“média” pelo desvio padrão das medidas

de intensidade dos vários genes

Normalização: Gráfico M x A

Não Normalizado Normalizado

Eliminar tendência

Obter uma regressão robusta para MxA obter M* : valores residuais

jjj MMM ˆ* j-ésimo Spot j=1, 2, ..., n

Normalização por Lowess (locally weighted scatterplot smoothing)

Normalização por Splines

Normalização Lowess: Gráfico M x A Não Normalizado Normalizado

M* = log2 T* : valores normalizados/residuais de M

2logˆloglog :ˆ

jT Ajuste lowess para Tj

Tamanho da janela (f= 0,20 - 0,40 )

Consultar Mestrado de Adèle Ribeiro, IME/USP/2014: Estimativas

melhoradas da expressão diferencial (valor M)

Normalização Splines Smoothing

Normalização dependente da Intensidade de Expressão mais

adaptativo, escolha ótima dos parâmetros de suavização

2 loglog

jj TT de )(suavizado ajustadovalor :ˆ

j-ésimo Spot j=1, 2, ..., 26912

jA para splines ajuste do estimado:jAs

resíduo

Normalização: Gráfico M x A

Não Normalizado Normalizado (Lowess por Subarray)

Note como a variabilidade é maior para spots com baixos níveis de expressão

A significância estatística de uma diferença de expressão depende da escala

Lâmina

Dados Normalizados

Global por Subarray Lowess por Subarray Splines por Subarray

Global Lowess Splines Lâmina

Dados Normalizados

Lâminas:

Rat85, Rat86,

Rat88, Rat89 2 réplicas (dye

swap):

Média: Rat85

e Rat89

Média: Rat86

e Rat88

Controle:

Rat85, Rat89

Rat88, Rat89

Seleção de Genes Candidatos

Normalizações para Inversão de Corantes (“dye swap”)

como combinar as lâminas?

2121 AAA

Gráfico M x A:

ControleNaCl

|M|>1 A>10

Microarrays de Oligonucleotídeos

Sequência mRNA 3’ ____________________________ 5’

Probes DNA ___

______

______ ___

Construção das Lâminas:

Oligonucleotídeos com 25 pares de bases (pequenos)

Há um conjunto de probes para representar cada sequência de interesse

cerca de 16 – 20 pares (PM,MM)

PM: seq. de interesse MM: seq. Controle negativo

PM (perfect match): A-C-T-G-T-T-T-A-C-G-C-T -C- A-G-T-G-C-C-T-C-T-A-A-T

MM (mismatch): A-C-T-G-T-T-T-A-C-G-C-T -A- A-G-T-G-C-C-T-C-T-A-A-T

troca de base no meio da

sequência

Plataformas de UM ÚNICO canal de Fluorescência Affymetrix

Sequência mRNA 3’ ____________________________ 5’

Oligos são gerados por fotolitografia diretamente na lâmina

Cada lâmina é hibridizada com UM ÚNICO canal de fluorescência

Oligonucleotídeos com 25 pares de bases (pequenos)

Conjunto de probes : cerca de 16 – 20 pares (PM,MM)

hibridização cruzada: muitos genes podem hibridizar o mesmo spot

a expressão de cada gene é medida usando a informação do conjunto

de probes que o representam

Microarray com 5K - 20K conjuntos de probes

PM (perfect match): A-C-T-G-T-T-T-A-C-G-C-T -C- A-G-T-G-C-C-T-C-T-A-A-T

MM (mismatch): A-C-T-G-T-T-T-A-C-G-C-T -A- A-G-T-G-C-C-T-C-T-A-A-T

Outras plataformas de UM ÚNICO canal Codelink

Os spots contêm “grandes” fragmentos cromossômicos

Há réplicas dentro da lâmina (em geral, 2)

Estrutura da lâmina semelhante àquela de cDNA, exceto o # de canais

Plataforma Affymetrics

K entre 16 e 20: número de representantes de

cada fragmento sob estudo

Objetivo: Identificar “genes” diferencialmente expressos sob

diferentes condições experimentais

SHRCSHR/BNC

SHRNaCl SHR/BNNaCl

Experimento com Animais Congênicos (cDNA)

Experimento Veia/Artéria (Plataforma Codelink)

Paciente Venoso (Controle) Arterial (Experimental)

1 A11 A12

2 A21 A22

3 A31 A32

4 A41 A42

Um único canal

8 lâminas

Amostras pareadas

Normalização ENTRE

Dois canais: “blocos”

4 lâminas

Amostras independentes

Normalização DENTRO da lâmina

Normalização Quantílica - Entre Lâminas

Generalização do Q-Q Plot de ² para n (de 2 para n lâminas)

Considere os dados de expressão de p fragmentos e n arrays

dispostos na matriz Xpxn

Ordene os dados de cada coluna: XSORT

Calcule as médias de cada linha e substitua pelos valores das

linhas: XSORT-MEAN

Retorne as linhas para as posições originais: X*pxn matriz de dados

normalizados

Array1 Array2

Array2

Array1Min Max

kjkkkk

kqualtil

kkk qqqqqqqq

Pareamento entre lâminas

pelos quantis: Q-Q Plot

Normalização Quantílica (Entre)

Tratamento Venoso

Tratamento Arterial

Dados Normalizados

Tentativa 1: Normalização quantílica das 4 lâminas de cada tratamento (NÃO leva em

conta a estrutura de pareamento dos pacientes): há muita variabilidade entre lâminas

Dados Veia/Arteria

Identificação de Genes Diferencialmente expressos

(Análise Exploratória)

Gráfico MxA: média das 4 lâminas

Normalização quantílica

entre lâminas (sem

considerar o pareamento

entre os indivíduos).

Não há indicação de

nenhum gene com

expressão diferencial entre

as amostras de mRNA

Normalização (Entre)

Não Normalizado Normalizado (Spline Global)

Opção 2: Gráficos MxA dos Pareamentos entre Tratamentos (Veia/Arteria)

Dados Veia/Artéria

A normalização das

respostas de

intensidade ENTRE

lâminas do mesmo

indivíduo

(pareamento) resultou

em um ganho em

precisão, tanto que foi

possível identificar

diferencialmente

expressos.

Lista dos 20 genes mais diferencialmente expressos

Outras Normalizações

Normalização Paramétrica

Seguida de procedimentos de inferência sobre os genes

diferencialmente expressos

Normalização Paramétrica

(Wolfinger et al., 2000; Kerr e Churchill, 2001)

Cy5 Rj

Cy3 Gj j

RT cTLogTLogTLog jjj 222 *

Já vimos diferentes normalizações não paramétricas dos dados:

:;ˆˆijjijiji YYYe Log2 intensidade de expressão gênica observada

no spot j sujeito ao canal de coloração i

É um valor residual

Uma alternativa à normalização não paramétrica é obter o valor

residual de Y, resultante do ajuste de modelos paramétricos que

incluem fontes de variação indesejáveis mas conhecidas.

Modelos Paramétricos de Normalização e

Seleção de Genes

Fontes de Variação nos Experimentos de Microarrays:

1. D: canal de fluorescência (Dye)

2. A: lâmina (Array)

3. S: spot (considerado como unidade amostral)

4. G: gene

5. T: tratamento

6. etc.

(Wolfinger et al., 2000; Kerr e Churchill, 2001)

ijklmlkjiijklm eGTDAy ...

Modelos ANOVA: Normalização e

Seleção de Genes Diferencialmente

Expressos

yijklm log2 da medida de intensidade corrigida pelo background

Ai : efeito do array Dj : efeito do Dye ADij : efeito de interação

Gil : efeito do Gene TGkl : efeito de interação (o de maior interesse)

AGil : efeito do Spot DGjl : efeito de interação do Dye e Gene

e ijklm ~ N (0, ²e ) efeito residual (variância constante ?)

Normalização e seleção de genes em um único ajuste ?

ijklmjlilkllijjiijklm eDGAGTGGADDAy

(Kerr e Churchill, 2001)

Modelos ANOVA: Normalização e Seleção de

Genes Diferencialmente Expressos

ijklmjlilmkllijjiijklm eDGAGTGGADDAy

Quais são os fatores (fontes de variação) indesejáveis (que serão usados

para normalização) e os desejáveis (que identificam genes diferencialmente

expressos)?

Efeito de Interesse (interação TG), os demais termos fazem o papel

de normalização dos dados

A expressão do gene l é a mesma para cada nível de tratamento?

LlH Klll ,...,2,1...: 21 Modelo de efeitos fixos

Uso de todos os dados (spots e lâminas) em um único ajuste

Desvantagem: Modelo com muitos parâmetros (baixa precisão)

(Kerr e Churchill, 2001)

Seleção de Genes (Wolfinger et al., 2000)

Proposta de um Modelo (Misto) em Dois Estágios:

1° Estágio: Modelo de Normalização

Correção das medidas de intensidade, eliminando-se o efeito de fatores

indesejáveis análise supervisionada na escolha do que deve ser

eliminado (diferentemente do procedimento não paramétrico)

Uso de todas as medidas de intensidade de expressão (de todos os

genes e de todas as lâminas) para o ajuste do modelo

2° Estágio: Modelo Genético:

Identificação dos genes com expressão diferencial significante: uso do

resíduo co modelo do 1° estágio como var resposta

O modelo paramétrico é ajustado para cada gene independentemente

Seleção de Genes

1º Estágio: Ajuste do Modelo de Normalização

yijg log2 da medida de intensidade corrigida pelo background

Ti efeito do tratamento i Aj ~ N (0, ²A ) efeito do array j

(T*A)ij ~ N (0, ²TA ) efeito do tratamento i no array j

e ijg ~ N (0, ²e ) efeito residual; i=1,...,I; j=1,...,J; g=1,...,G

Expressão Gênica Normalizada

(Wolfinger et al., 2000)

ijgijjiijg eATATy )(

Efeitos Sistemáticos a serem eliminados

ijgijgijgijg yyer ˆˆ

Gg ,...,2,1

Modelo considera

todos os genes

Ajustes separados para cada gene (spot) família de valores p

Correção para múltiplos testes

rijg : expressão gênica normalizada

Sig efeito do spot g no array j (bloco) ijg ~ N (0, ²g ) efeito residual

Efeito de interesse

2º Estágio: Ajuste do Modelo Paramétrico Genético

Para cada gene (spot) de um experimento cDNA:

ijgigjggijg TSr

g = fixo; g =1, 2, ..., G

Modelo ajustado para os

dados de cada gene

Modelo Completo (ajuste em duas fases)

Yi j g log2 da medida de intensidade de expressão corrigida pelo background

Ti efeito do i-ésimo tratamento

Aj efeito do j-ésimo array

g média da intensidade de expressão do g-ésimo gene

(T*A)ij efeito do i-ésimo tratamento no j-ésimo array

Tig efeito do g-ésimo gene no i-ésimo tratamento

Sjg efeito do g-ésimo gene no j-ésimo array

yijg = + Ti + Aj + (T*A)ij + g + Sjg + Tig + ijg

yijg - ( + Ti + Aj + (T*A)ij ) = g + Sjg + Tig + ijg

Problema: O número de réplicas é pequeno e a variância da resposta é

grande, logo mesmo valores “altos” da razão de expressão não serão

significantes. Além disso, são realizados milhares destes testes e a correção

no nível descritivo dificultará ainda mais a chance de rejeitar H muitos

falsos negativos

rijg : expressão gênica normalizada ijg ~ N (0, ²g ) efeito residual

Efeito de interesse

2º Estágio: Ajuste do Modelo Paramétrico Genético

ijgigjggijg TSr

g = fixo; g =1, 2, ..., G

iH gig :0

dados de cada gene

Rejeita H0 : gene diferencialmente expresso

Genes Diferencialmente Expressos(Wolfinger et al., 2000; Churchill, 2002)

g ,...,1

Estatística “t” regularizada: informação adicional de subconjuntos de

Problema de Múltiplos Testes: correções no nível de significância

empírico (permutações, Bonferroni, FDR)

Estatísticas “t” : Teste Global (combinando “genes” / muitas réplicas) e

Teste Específico (para cada Gene / poucas réplicas)

Nível descritivo: calculado

via permutações

Múltiplos Testes

Suponha que 10 testes de Hipóteses independentes são realizados:

A probabilidade de um particular teste ser declarado significante

(quando na verdade não é) é igual a (1-0,95)=0,05 (valor α fixado)

Mas a probabilidade de pelo menos um teste dentre “10” ser declarado

significante (quando na verdade não é) é 1 – 0.9510 = 0.401

Se 20.000 destes testes são realizados esta probabilidade aumenta ...

Rej H0 N Rej H0

H0 V Erro Tipo I Nenhum Erro

H0 F Nenhum Erro Erro Tipo II

Decisão

Múltiplos Testes

= 0.05 em média 5% dos genes que verdadeiramente não se

expressam diferencialmente serão considerados significantes

ocorrência de falsos positivos por chance se temos cerca de

20.000 testes é esperado 20.000 x 0,05 = 1000 falsos positivos ...

Correção de Bonferroni: A = /2g

FDR: False Discovery Rate

Permutações ou Bootstrap (como re-amostrar ?)

Gráfico de dispersão: -log(p) x log2 (R/G)

gráfico vulcano

Múltiplos Testes Estatísticos Controle de Falsos Positivos e

Falsos Negativos

Análise Descritiva (Gráfico Vulcão)

Gráfico de Dispersão: -log(p) x log2 (R/G)

IIIII : genes não

significantes

estatisticamente mas

significativos factualmente

I: genes estatisticamente

significantes mas não

significativos factualmente

II III

estatísticamente

significantes

(p<10-5)

Experimentos com MicroarraysIdentificar “genes” diferencialmente expressos sob diferentes

condições experimentais

Delineamento Fatorial 5x2 com Animais Congênicos

Replic \ Cong. A B C D E A B C D E

Tabela de dados de expressão para o probe g (g=1, 2,..., 35.129)

Fator Linhagem: A=SHR, B=C2a, C=C2c, D=C4, E=C16

Fator Exposição ao Sal: Sal (+), Controle (-) Estrutura de Blocos

A+ B+ C+

A- B- C-

B+ D+ E+

B- D- E-

E- A- D-

E+ A+ D+

C- E- B-

C+ E+ B+

D- C- A-

D+ C+ A+

R1 R2 R3

Estrutura de Blocos: Hibridizações simultâneas dos 10 tratamentos

Experimentos com MicroarraysDelineamento Fatorial 5x2 com Animais Congênicos

Intensidades de Expressão do “gene” xxxx

Corrigidas pelo Background

Replic \ Cong. A B C D E A B C D E

Normalização ENTRE lâminas, Respeitar a estrutura de Blocos

Normalização Não Paramétrica ?? (normalização quantílica)

Tabela ANOVA para cada “Gene” (g=1, 2, …, 35.129)

F.V. g.l. S.Q. Q.M. F p

Linhagem 4

Bloco 4

Resíduo 36

Total 49

Obter CLASSES de genes de acordo com o efeito dos fatores

na variação das respostas de expressão gênica:

Genes com expressão diferencial no efeito de interação: FL*S “significante”

Genes com expressão diferencial no efeito principal de Sal: FL*S “signif.”

Genes com expressão diferencial no efeito principal de Linhagem: FL*S “signif.”

Genes Diferencialmente Expressos(Wolfinger et al., 2000; Churchill, 2002)

g ,...,1

Estatística “F” regularizada: informação adicional de subconjuntos

de genes

Problema de Múltiplos Testes: correções no nível de significância

empírico (permutações, Bonferroni, FDR)

Estatísticas “F” : Teste Global e Teste Específico (para cada Gene)

0QMRQMR

Rg Nível descritivo: análise de

permutações

Resultados da ANOVA – Efeito de Interação (L*S)

Contraste Estimativa E.P. "t" p

Controle

C2a-SHR

C2c-SHR

C4-SHR

C16-SHR

C2a-SHR

C2c-SHR

C4-SHR

C16-SHR

Linhagem

13 possíveis

contrastes de

interesse

Experimento com Microarrays – Animais Congênicos

ANOVA – Interação: Efeito da Linhagem para Sal+

ANOVA – Interação: Efeito da Linhagem para Sal-

ANOVA – Interação: Efeito do Sal em cada Grupo

Comparação entre Métodos de

Normalização

Normalização proposta por Wolfinger:

- PARAMÉTRICA

- Atribui pesos iguais às obs na obtenção dos resíduos (NORMAL)

- LINEAR (na escala log2)

- Os resíduos são correlacionados por construção e são modelados

como independentes resultados similares na prática (Wolfinger et

al., 2001)

Normalizações NÃO PARAMÉTRICAS:

- Parecem produzir resultados mais robustos e adaptativos

- Não há controle de quais efeitos estão sendo eliminados: análise

não supervisionada

Pré-Genômica/Genômica/Pós-Genômica

Mapeamento Genético Clássico

Análises de Ligação, QTL’s, L.D, QTN´s

Polimorfismo funcional (Diferenças no

DNA entre membros de uma População)

Genômica

Identificar genes diferencialmente

expressos (sob diferentes condições)

Genômica Genética

... a análise da expressão de genes encontra a Genética.

Análise de eQTL

qq Qq QQ

Modo Dominante de Herança

Média Y

qq Qq QQ

Média y

Intensidades de expressão são

altamente correlacionadas com fenótipos

clássicos (ex: estudos de sobrevivência)

A variação das respostas de expressão

(para um spot) entre indivíduos pode ser

explicada pelo efeito de Marcadores

Moleculares específicos

Validação dos Dados de MicroarraysShadt et al. (2003): Microarrays de Oligonucleotídeos

Análises Combinadas: Genética Genômica (Análise de eQTL)

Análise da Expressão Relativa de Genes: Quantitativo RT-PCR

Genética Genômica... onde a análise da expressão de genes encontra a Genética

(Jansen and Nap, 2001; Darvasi, 2003)

(Shadt et al., 2003)

Tratar as medidas de intensidade de expressão gênica

como traços quantitativos em uma análise de QTL

jj EY 2log novo traço

eQTL (ou eQTN) estão na mesma

localização cromossômica dos

genes que estão sendo expressos

a variação na expressão gênica

não é ruído aleatório

FAM INDIV PAI MÃE FENO1 FENO2 … FENOf SNP1 SNP2 … SNP2.882

REPL1 REPL2 REPL1 REPL2 … REPL1 REPL2

… …

14 ~200

FENOExp2 FENOExp3.554FENOExp1

Genética Genômica

Banco de Dados

Estrutura

das u.a.

Fenótipos Genótipos

Mapa de SNP’s

Fenótipos de

Expressão

Quantos Locos? Quantos

Transcripts?

Cruzamentos controlados

Famílias

Indivíduos Não relacionados

Genética Genômica – Interação Genética

30 __ Probe 1

__ Probe 2

** * *

EProbe1

EProbe2

eQTL BS

entender o padrão

de correlação*

Shadt et al. (2003)

Genética Genômica – Interação Genética

30 __ Probe 1

__ Probe 2

** * *

EProbe1

EProbe2 eQTL2

eQTL1 BB BS SS

BB * * *

BS * * *

SS * * *

Perspectivas

Para medir a Expressão Gênica pode-se ajustar um modeloestatístico linear para as respostas de intensidades(i) corrigidas pelo background, (ii) normalizadas e (iii) log-transformadas ...

O sistema de regulação celular, gerador das medidas de intensidade de

expressão gênica, parece ser tão complexo para ser completamente

descrito por modelos estatísticos clássicos!

A resposta de expressão gênica tem uma base herdável de variação

(mais uma fonte de variação??)

Por que log-transformar os dados sem qualquer análise exploratória

prévia?

Modelos Estocásticos Robustos

Modelos de Efeitos Aleatórios (generalização sobre o conjunto de

probes amostrados)

Perspectivas

Métodos de normalização/calibração:

- Caso não paramétrico utilizar métodos cada vez mais adaptativos

- Caso paramétrico adotar distribuições mais gerais

Identificação de Genes diferencialmente expressos (modelos ANOVA):

- Modelo Genético Misto

- Incorporar heterocedasticidade (entre genes)

- Múltiplos testes: controle da taxa de falso positivo

Validação da análise de Microarrays

- Intensidades de expressão são altamente correlacionadas com

fenótipos clássicos

- Análises Combinadas: Genética Genômica (Análise de eQTN)

Recursos Computacionais

MAANOVA (R)

MANMADA (SAS)

http://statgen.ncsu.edu/ggibson/Manual.htm

BIOCONDUCTOR (R)

www.bioconductor.org

Consolidando Conhecimento

Como planejar cada experimento ?

Como a Teoria de Ligação entre Locos é utilizada no mapeamento genético ?

Como estão definidos os fenômenos de Ligação e Desequilíbrio de Ligação ?

Como a informação do QTL é predita da informação de Marcadores ?

Como decidir sobre modelos de efeitos fixos ou aleatórios do gene ? Cite exemplos.

Qual a diferença entre modelos poligênicos e oligogênicos ?

O que são efeitos de pleiotropia e epistasia ?

Como está definida a matriz de covariância entre unidades amostrais nos

experimentos com cruzamentos controlados e nos familiares ?

Que diferenças podem ser estabelecidas considerando mapeamento genético

clássico e experimentos de expressão gênica ?

Por que realizar normalizações dentro e entre lâminas nos experimentos de

expressão gênica ?

Como construir as lâminas de cDNA ? Como o número limitado de réplicas biológicas

pode ser compensado considerando o grande número de genes avaliados ?

Bibliografia

• Churchill, G.A. (2002). Fundamentals of experimental design for cDNA

mocroarrays. Nature Genetics Suppl 32: 490-495.

• Durbin, B and Rocke, DM. (2002). Exact and approximate variance-stabilizing

transformations for two-color microarrays. Bioinformatics, 18: S105-S110.

• Kerr, M.K.; Churchill, G.A. (2001). Statistical Design and the Analysis of Gene

Expression Micro Array Data. Genet. Res. 77: 123-128.

• Speed, T (Ed) (2003). Statistical of gene expression microarray data. Chapman

& Hall.

• Storey, JD and Tibshirani, R. (2003). Statistical significance for genomewide

studies. PNAS 100(16): 9440-9445.

• Yang, HY; Dudoit, S; Luu, P and Speed, TP. (2001) Normalization for cDNA

Microarray Data. Em www.citeseer.nj.nec.com/406329.

• Wolfinger, R.D.; Gibson, G.; Wolfinger, E.D.; Bennett, L.; Hamadeh, H.; Bushel,

P.; Afshari, C.; Paules, R.S. (2001). Assessing Gene Significance from cDNA

Microarray Expression Data via Mixed Models. J. Compu. Biol. 8(6): 625-637.

Seleção de Genes Diferencialmente

Expressos

ggiBg MMmn

Caso de 2 Tratamentos com réplicas dentro da Lâmina (Gordon et al.,2005):

Para o g-ésimo gene (g=1,…,G):

Lâmina Spot A B

gigijW g MMmn

Variância ENTRE lâminas

Variância DENTRO da lâminan=4 m=2

gggg m

nmNM 11

ˆ)1(1

2 W gBg

Pesquisa em Genética - Instituto de Matemática e ...pavan/pdf/MAE0540-MAE5757-Aula5-2016.pdf ·...

Documents

Transcript of Pesquisa em Genética - Instituto de Matemática e ...pavan/pdf/MAE0540-MAE5757-Aula5-2016.pdf ·...

Joel Perdiz Arrais Sistemas de informação para DNA microarrays · 3.3.3 Desafios na gestão de dados de . ... OTIVAÇÃO À INTEGRAÇÃO DE DADOS BIOLÓGICOS ... EVANTAMENTO E CLASSIFICAÇÃO

UNIVERSIDADE ESTADUAL DE SANTA CRUZ PRÓ-REITORIA …nbcgib.uesc.br/genetica/admin/images/files/Dissertação Formatada... · Estudo do proteoma e transcriptoma de sementes de Jatropha

1 Risco e Retorno Prof. Dr. Roberto Arruda de Souza Lima Setembro 2013 Baseado em Ross, S.A.; Westerfield, R.W.; Jordan, B.D. Princípios de Administração.

Ian Adams e R.W. Dyson - Thomas Hobbes

Microarrays Princípios e Potencial

DISCIPLINAS - uft.edu.br das Disciplinas.pdf · Endogamia e Heterose. Variedades Híbridas. ... Biotecnologia. Bibliografia - ALLARD, R.W. Princípios do melhoramento genético das

Www.lge.ibi.unicamp.br Microarrays Princípios e Potencial PG- Bioquímica - 23/09/03.

Estudo do transcriptoma associado ao déficit hídrico e ... · de cromatina em cana de açúcar para estudos de redes regulatórias transcricionais . Versão corrigida (Versão original

Revista Brasileira de Zootecnia - SciELO · de diversas espécies animais e vegetais. A tecnologia de microarrays tem sido também gradativamente incorporada na pesquisa com animais

Transcriptoma da glândula mucosa de Rhinella schneideri · Versão corrigida da Dissertação de Mestrado apresentada ao Programa de Pós-Graduação em toxicologia em 05/08/2016.

CÍCERA MARIA GOMES Análise do transcriptoma do fígado da ... · CÍCERA MARIA GOMES Análise do transcriptoma do fígado da serpente Bothrops jararaca utilizando expressed sequences

DNA Microarrays. O que é DNA Microarray? Também conhecido como chip de DNA Permite a medida do nível de transcrição de cada gene no genoma (expressão.

Mecânica dos Fluidos (SEM5749) - Escola de Engenharia de ... · FOX, R.W.; McDONALD, A. T. Introdução à Mecânica dos Fluidos. LTC Editora Guanabara Dois S.A., Rio de Janeiro,

BIOINFORMATICS at USPjb/lectures/bioinformatics/bioinfo_usp.pdf · Transcriptoma Genoma Metabolic pathways ... • USP PhD program on Bioinformatics, with the participation of seven

ANÁLISE PRELIMINAR DO TRANSCRIPTOMA DE CÉLULAS …repositorio.unb.br/bitstream/10482/21574/1/2016_NataliaGilJaramill… · Universidade de Brasília Natalia Gil Jaramillo –Transcriptoma

Anotação Funcional de Sequências com BLAST2GO - CORE · gênicas. A outra, seria sequenciar o transcriptoma, ou seja, os genes transcritos. Resumidamente, para sequenciar o genoma

“CARACTERIZAÇÃO DO TRANSCRIPTOMA E PAREDE …repositorio.unicamp.br/bitstream/REPOSIP/316765/1/Salazar_Marcela... · envolvidos na formação da madeira, fonte de biomassa para

SERVIÇO DE PSICOLOGIA HOSPITALAR AVALIAÇÃO PSICOLÓGICA ( SEBASTIANI, R.W. & FONGARO, M.L - in ANGERAMI, V. A. [org] -"E a Psicologia Entrou no Hospital",

Validação do transcriptoma por meio da análise de ...repositorio.unb.br/.../1/2018_AmandaPereiraRocha.pdf · AMANDA PEREIRA ROCHA Validação do transcriptoma por meio da análise

Metodologias de Classificação Supervisionada para Análise de Dados de Microarrays Orientadora: Professora Doutora Lisete Sousa (CEAUL, DEIO-FCUL) Co-orientadora: