ANA¶L ISE B AY E SIANA D E M O D E L O S M IST O S NO R...

ANAL IS E B AY E S IANA D E M O D E L O S M IS T O S NO R M AIS

AS S IM E T R IC O S E M D AD O S D E E X P R E S S AO G E NIC A

O R IG INAD O S D E P E D IG R E E S C O M P L E X O S

Daniela Carine Ramires de OLIVEIRA1

J u lio S ılv io de S o u sa B U EN O F ILH O2

RESUMO: Estimativas de herdabilidade para a expressao genica sao escassas e, em

geral, provenientes de estru tu ras de famılias, em q u e se assu me covariancia u niforme

para os indivıdu os relacionados. P ara tais estimativas u sam-se modelos lineares (mistos)

G au ss-Mark ov normais, mas em estu dos com microarray s e comu m encontrar assimetria

de resıdu os ao analisar o aju ste de dados previamente normalizados. Isto por si so

ju stifi caria o u so de modelos assimetricos. N este estu do, avaliou -se u m delineamento

proveniente de u ma genealogia com famılias e indivıdu os identifi cados, para os q u ais se

mediu as intensidades das expressoes genicas de 3 5 5 4 sondas. N este sentido, este trabalho

trata do desenvolvimento e implementacao compu tacional do modelo aditivo-dominante

normal assimetrico para a analise dessas expressoes genicas, originadas de u m pedigree

complexo, permitindo assimetria nas distribu icoes de todos os efeitos aleatorios. P ara as

inferencias, foram calcu lados os fatores de B ay es, para a selecao dos melhores modelos

e intervalos de credibilidade de maxima densidade a posteriori, para a estimacao dos

parametros. F oram apresentados os resu ltados dos aju stes dos modelos para du as das

sondas estu dadas. P ara estas sondas, hou ve maior evidencia em favor do modelo misto

normal assimetrico.

P A L A V RA S-C H A V E: Simu lacao Monte C arlo via cadeias de Mark ov; modelos mistos;

distribu icao normal assimetrica mu ltivariada; inferencia bay esiana.

1Universidade Federal de Sao Joao del-Rei - UFSJ, Departamento de Matematica, Estatıstica

e C iencias da C ompu tacao, C EP : 3 6 3 0 7 -3 5 2 , Sao Joao del-Rei, MG , B rasil. E-mail:

[email protected] Federal de L avras - UFL A , Departamento de C iencias Ex atas, C aix a P ostal 3 7 , C EP :

3 7 2 0 0 -0 0 0 , L avras, MG , B rasil. E-mail: ju liobu [email protected]

R ev . B ras. B iom., Sao P au lo, v.2 8 , n.2 , p.1 3 7 -1 6 0 , 2 0 1 0 1 3 7

1 Introducao

A concentracao relativa de RNA mensageiro de um determinado gene emcelulas de um tecido e, em geral, um indicativo do q uanto esse gene esta sendoex p resso, isto e, do q uanto a celula esta investindo do seu maq uinario b ioq uımicop ara p roduz ir a p roteına codifi cada p elo gene. Com isso, p esq uisadores de diversasareas voltaram suas atencoes ao desenvolvimento de tecnologias, visando medir talconcentracao relativa em diversos tecidos. Uma das p rincip ais ferramentas p araeste tip o de estudo sao os microarray s (Saraiva et al., 2 0 0 7 ; Sp eed, 2 0 0 3 ).

A tecnologia de microarray s p ossib ilita a avaliacao simultanea da ex p ressaode milh ares de genes, em diferentes tecidos de um determinado organismo e emdiferentes estagios de desenvolvimento ou condicoes amb ientais. Esta tecnologiatem sido largamente utilizada em ex p erimentos de genomica funcional em diversasesp ecies animais e vegetais. No entanto, os ex p erimentos com microarray s aindasao consideravelmente caros e trab alh osos e, como conseq uencia, sao geralmenteconduz idos com tamanh os amostrais relativamente p eq uenos. T ais ex p erimentosenvolvem uma serie de p rocedimentos lab oratoriais, os q uais introduzem diferentesfontes de variacao aos dados. Desta maneira, a conducao de ensaios com microarray sreq uer cuidados no delineamento ex p erimental e na analise dos dados (Rosa et al.,2 0 0 7 ; K err e Ch urch ill, 2 0 0 1 ).

Em estudos com microarray s e comum encontrar assimetria e alta variab ilidadenos resıduos, ao analisar o ajuste de dados p reviamente normalizados (Durb inet al., 2 0 0 2 ; Ritz e Eden, 2 0 0 8 ). Isto p or si so justifi caria o uso de outrostip os de modelos nos resıduos em tais dados, p ara cap turar e ajustar de maneiramais rob usta essas caracterısticas (assimetria e sup erdisp ersao). Alem disso, saop oucos os delineamentos p ara microarray s q ue envolvem famılias e indivıduos e, emgeral, nestes delineamentos p revalece a manifestacao do carater em estudo, o q uejustifi caria o uso de um modelo em q ue tanto os erros q uanto os efeitos geneticosaleatorios tenh am uma distrib uicao mais rob usta q ue a normal.

Assim, consideravel esforco tem sido direcionado p ara relax ar a sup osicaode normalidade e, conjuntamente, estimar a densidade dos efeitos aleatorios ep arametros do modelo. Arellano-Valle et al. (2 0 0 7 ) ap resentam uma versao dadistrib uicao normal assimetrica multivariada p ara ser utilizada na distrib uicaodos efeitos aleatorios em modelos lineares mistos. Esta distrib uicao tem comocaso p articular a distrib uicao normal multivariada, q uando o p arametro deassimetria for uma matriz comp osta de zeros. Os autores utilizam a ab ordagemb ay esiana na estimacao dos p arametros do modelo, p ois oferece a vantagemde fornecer estimadores e algoritmos mais efi cientes comp utacionalmente p ara arealizacao das inferencias nos p arametros do modelo comp arado com o uso daab ordagem freq uentista. Roh r e Hoesch ele (2 0 0 2 ) p rop useram o uso de distrib uicoesassimetricas somente p ara os resıduos em modelos utilizados no contex to demelh oramento animal. Varona et al. (2 0 0 8 ) ap resentam o uso da distrib uicaonormal assimetrica p rop osta p or Sah u et al. (2 0 0 3 ), somente p ara os resıduos emmodelos mistos com efeitos aleatorios aditivos. Leiva et al. (2 0 0 9 ) ap resentam a

138 Rev. Bras. Biom., Sao Paulo, v.28, n.2, p.137-160, 2010

distribuicao glog-normal, suas propriedades e o seu ajuste em dados de microarrays.Este trabalho apresenta um modelo classico da genetica quantitativa,

conhecido como modelo aditivo-dominante, para ajustar dados de microarrays,oriundo da plataforma Aff ymetrix, com a seguinte modificacao: suposicao denormalidade assimetrica para os efeitos aleatorios. Basicamente, esse modeloaditivo-dominante normal assimetrico e uma adaptacao do modelo misto normalassimetrico proposto por Arellano-Valle et al. (2007). Os dados de microarraysutilizados nesse trabalho foram previamente analisados por M orley et al. (2004 ),com o ajuste de um modelo misto G auss-M ark ov com efeito aleatorio de famılia eestrutura de covariancia uniforme entre os indivıduos relacionados e posteriormentefornecido no G enetic Analysis W ork shoop 15 (G AW 15 ), em 2006 . Diferentes formasde analise desses dados foram apresentadas no G AW 15 , em que se destaca o usode modelos bayesianos hierarquicos para as medias e covariancias dos dados deexpressao genica dentro de famılias, o uso do modelo de mistura de normais paraanalise de todos os genes conjuntamente, dentre outros.

Nesse trabalho, foram utilizadas tres estrategias de analise: (i) modelo mistocom efeito aleatorio de famılia, em que a variabilidade das respostas entre edentro das famılias sao comparadas sob uma estrutura de covariancia uniformepara as respostas de indivıduos relacionados; (ii) modelo misto com efeito aleatorioaditivo, em que a covariancia entre indivıduos e dada em funcao do grau deparentesco que os relaciona; (iii) modelo misto com efeito aleatorio aditivo e efeitoaleatorio dominante, tambem considerando a estrutura das famılias nas matrizesde covariancias. Foram apresentadas todas as configuracoes possıveis de ajustes(assimetria apenas no efeito aleatorio, assimetria apenas no resıduo e assimetriaem ambos os efeitos) com estes tres tipos de modelos, utilizando a distribuicaonormal assimetrica proposta por Arellano-Valle et al. (2007). As estimativas dosparametros dos modelos foram realizadas sob o enfoque bayesiano.

O objetivo deste trabalho foi selecionar o melhor modelo; estudar os tiposde assimetrias presentes nos efeitos aleatorios e obter a densidade a posteriori dasherdabilidades, que sao medidas de extrema importancia em genetica, referentes aporcao herdavel da variacao de um carater e, tambem, sao medidas muito escassaspara estes tipos de dados, principalmente em casos em que ha fuga de normalidade(devido a assimetria), utilizando a inferencia bayesiana.

P ara a implementacao computacional, foi utlizado o programa R1, por ser um

software estatıstico gratuito e por fornecer uma estrutura amigavel, de modo quemodelos complexos possam ser facilmente manipulados.

Este artigo esta organizado em 3 secoes. A secao 2 apresenta adistribuicao normal assimetrica multivariada, uma descricao sobre os dados reais,os modelos mistos normais assimetricos, a modelagem bayesiana e a implementacaocomputacional dos modelos. A secao 3 apresenta os resultados e as discussoes dosmesmos e, por fim, as conclusoes.

1http : / / w w w .r − pr o j e c t.o r g /

Rev. Bras. Biom., Sao Paulo, v.28, n.2, p.137-160, 2010 139

2 Material e metodos

2.1 Distribuicao normal assimetrica multivariada

A primeira versao da distribuicao normal assimetrica multivariada foiapresentada em Azzalini e Dalla-Valle (1996). Atualmente, existem varias versoesda distribuicao normal assimetrica multivariada. Considera-se neste trabalho umcaso especial da distribuicao normal assimetrica proposta por Arellano-Valle eGenton (2005) e que foi apresentada por Arellano-Valle et al. (2007). Esta versaogeneraliza a apresentada por Sahu et al. (2003), por causa da matriz de variancias ecovariancias, que neste caso e assumida ser uma matriz positiva definida e em Sahuet al. (2003), uma matriz diagonal. A seguir, apresenta-se a definicao desta versaoe algumas propriedades, com suas respectivas demonstracoes, que tambem podemser encontradas em Oliveira (2009).

Para apresentar a densidade da normal assimetrica multivariada, proposta porArelano-Valle et al. (2007) e algumas propriedades e necessario introduzir a notacaoque se segue.

Seja φn(y|µ, Σ) a funcao densidade de probabilidade (fdp) e Φn(y|µ, Σ) afuncao de distribuicao acumulada (fda) da normal multivariada, Nn(µ, Σ), avaliadaem y. Considere tambem as seguintes notacoes: d ia g (c1, . . . , cn), para representaruma matriz diagonal com elementos c1, . . . , cn na sua diagonal e In, para representaruma matriz identidade de dimensao n × n.

Um vetor aleatorio n-dimensional Y segue uma distribuicao normal assimetricamultivariada (S Nn) com vetor de locacao µ ∈ < n, matriz de dispersao Σ(uma matriz de dimensao n × n positiva definida) e matriz de assimetria∆ = d ia g (δ1, . . . , δn), com δk ∈ < , k = 1, . . . , n, se sua fdp e dada por

f(y|µ, Σ, ∆) = 2nφn(y|µ, Σ + ∆2) ×

Φn(∆(Σ + ∆2)−1(y − µ)|0, (In + ∆Σ−1∆)−1). (1)

Sera utilizada a notacao Y ∼ S Nn(µ, Σ, ∆). Note que quando ∆ e uma matrizde zeros de dimensao n × n, a equacao (1) se reduz a usual distribuicao normalmultivariada, Nn(µ, Σ).

A seguir, serao apresentados um lema, duas proposicoes e um corolario.Estes facilitaram o trabalho de inferencia com a distribuicao normal assimetricamultivariada.

Lema 1: Seja Y |X = x ∼ Np(µ + Ax, Σ) e X ∼ Nq(η, Ω). E n tao,

φp(y|µ + Ax, Σ)φq(x|η, Ω) = φp(y|µ + Aη, Σ + AΩA>) ×

φq(x|η + Λ A>Σ−1(y − µ − Aη), Λ ),

em qu e Λ = (Ω−1 + A>Σ−1A)−1.

Prop osicao 1: Seja Y ∼ S Nn(µ, Σ, ∆). E n tao

Y d=

∆|X0| + X1,


em que X0 ∼ Nn(0, In) e X1 ∼ Nn(µ, Σ). O vetor aleatorio Y tem d istribuic ao igual

a d e ∆|X0| + X1, d esd e que os vetores aleatorios X0 e X1 sejam ind epend entes.

Uma consequencia direta da Proposicao 1, relacionada com os momentos dovetor aleatorio normal assimetrico e dada pelo seguinte Corolario.

Corolario 1: Seja Y ∼ SNn(µ, Σ, ∆). Entao

E[Y ] = µ +

√

2

πδ e V ar [Y ] = Σ +

(

1 −2

π

)

∆2,

em que δ = (δ1, · · · , δn)> e a d iagonal d a matriz ∆.

Proposicao 2: Seja Z ∼ SNn(0, In, ∆) e consid ere a transformac ao linear Y =µ + Σ1/2Z, ond e Σ e positiva d efi nid a. Entao, Y ∼ SNn(µ, Σ, ∆).

2.2 Dados reais

O conjunto de dados reais a ser analisado foi fornecido no G enetic A naly sis

W orksh op 15 (G A W 15), em 2006. Esses dados foram coletados em 2004 no estadode Utah nos Estados Unidos pelo Centro de Estudos de Polimorfismos Humano(CEPH - Centre d’Etude du Polymorphisme Humain).

O banco de dados contem as variaveis que permitem o calculo do parentesco,isto e, o numero do indivıduo (1, 2, · · · , 194), seu pai e sua mae, caso sejamconhecidos. Alem disso, tambem contem o sexo dos indivıduos (1: masculinoe 2: feminino) e 3554 colunas correspondentes a respostas das intensidadesdas expressoes genicas de celulas linfoblastoides do tipo B em laminas do tipoA ff ymetrix r, isto e, sao intensidades de expressoes normalizadas utilizando oprocedimento MAS da Affymetrixr (Cheung e Spielman, 2007).

Um dos problemas de pesquisa do GAW 15 foi investigar se a expressao genicadefinida como fenotipo tem componente herdavel. Por isso foram avaliados dadosde famılias que nao sao comuns em experimentos com microarrays. Morley et al.(2004) usam um modelo de analise de variancia classico para comparar a varianciados nıveis de expressao entre indivıduos nao relacionados e entre replicas do mesmoindivıduo. Com base nesta metodologia simples estes autores conseguem reduzirde 8500 sondas para 3554 sondas informativas para a pesquisa de ligacao dosnıveis de expressao, sendo essas 3554 sondas disponibilizadas no GAW 15 paraserem analisadas. Diversos trabalhos foram realizados com essas 3554 sondas, taiscomo o estudo do efeito da normalizacao na analise de ligacao, ajuste de modelosmultivariados para a analise conjunta das sondas, entre outros.

2.3 Modelos mistos normais assimetricos

O seguinte modelo, tambem encontrado em Sorensen e Gianola (2002), eajustado para cada uma das 3554 sondas do banco de dados

Y = Xβ + Za + W d + ε , (2)


em que Y representa a intensidade da expressao genica de dimensao 194 × 1, X euma matriz que contem a incidencia do efeito fixo (sexo) de dimensao 194×2, β e ovetor de efeitos fixos (sexo) de dimensao 2×1, Z e a matriz de incidencia dos efeitosaleatorios (aditivos), sendo ela uma identidade de dimensao 194 × 194, a e o vetorde efeitos aleatorios aditivos de dimensao 194 × 1, W e a matriz de incidencia dosefeitos aleatorios (dominantes), sendo ela uma identidade de dimensao 194 × 194,d e vetor de efeitos aleatorios dominantes, de dimensao 194 × 1 e ε, os resıduos dedimensao 194 × 1.

Assume-se que os efeitos aleatorios do modelo apresentam as seguintesdistribuicoes

a|σ2

a, δa ∼ SN19 4 (0, σ2

aA, δaI19 4 ), (3)

d|σ2

d, δd ∼ SN19 4 (0, σ2

dD, δdI19 4 ) (4)

ε|σ2

ε , δε ∼ SN19 4 (0, σ2

εI19 4 , δεI19 4 ). (5)

Note que em (3) e (4), as matrizes de dispersao de a e d sao σ2

aA e σ2

dD,respectivamente. A matriz A refl ete as identidades alelicas entre indivıduos demesma ascendencia. A construcao dessa matriz envolve o coeficiente de parentesco,uma matriz φ, tambem chamada de IBD (Identity by Descent), com elementos φij ,multiplicado por 2, isto e, A = 2φ. Em particular, para os dados reais analisadosneste trabalho, essa matriz tem dimensao 194×194 e e obtida computacionalmenteatraves do pacote kinship do R. Lynch e Walsh (1998) apresentam os valores parao coeficiente de parentesco (φ), conforme o grau de parentesco entre os indivıduos,isto e, quando i = j, φij = 1/2, quando i 6= j e os indivıduos i e j sao irmaos oupai e filho, entao φij = 1/4, se os indivıduos i e j sao avo e neto, entao φij = 1/8,para os indivıduos i e j que nao possuem relacao familiar, entao φij = 0.

A matriz D, em particular, de dimensao 194 × 194 e uma matriz que contema probabilidade esperada do par de indivıduos i e j compartilharem exatamentedois alelos IBD para um dado loco (Lynch e Walsh, 1998). Q uando i = j, Dij =1. Se i 6= j e os indivıduos i e j sao irmaos, entao Dij = 1/8, para os outrosrelacionamentos entre os indivıduos i e j, Dij = 0.

Atraves das suposicoes apresentadas em (3), (4) e (5) e utilizando aProposicao 2, o modelo (2) pode ser escrito da seguinte forma hierarquica:

Y |β, a, d, σ2

ε , δε ∼ SN19 4 (Xβ + Za + Wd, σ2

εI19 4 , δεI19 4 ),

a|σ2

a, δa ∼ SN19 4 (0, σ2

aA, δaI19 4 ) e (6)

d|σ2

d, δd ∼ SN19 4 (0, σ2

dD, δdI19 4 ).

Note que a densidade condicional do vetor aleatorio Y nos efeitos aleatorios(verossimilhanca) e dada por (ver expressao (1))

f(Y |β, a, d, σ2

ε , δε) = 219 4 φ19 4 (Y |Xβ + Za + Wd, (σ2

ε + δ2

ε)I19 4 ) × (7)

Φ19 4

(

δε

σ2ε + δ2

ε

(Y − Xβ − Za − Wd)

∣

∣

∣

∣

∣

0,σ2

ε

σ2ε + δ2

ε

I19 4

)

.


O principal interesse e fazer inferencias sobre o vetor de parametrosθ = (β>, a>, d>, σ2

ε , σ2

a, σ2

d, δε, δa, δd)>, que sera tratada na secao a seguir, no

enfoque bayesiano.

2.4 Modelagem Bayesiana

Uma parte fundamental da analise bayesiana e especificar distribuicoes a prioripara todos os parametros desconhecidos do modelo. Conforme Arellano-Valle etal. (2007), para garantir distribuicoes a posteriori proprias, adota-se o uso deprioris proprias para todas as quantidades desconhecidas do modelo. As priorisespecificadas a seguir sao analogas as especificadas por Arellano-Valle et al. (2007),exceto para os parametros de assimetria (δ), em que os mesmos sugeriram o uso dadistribuicao normal truncada positiva, mas na pratica, dificilmente se sabera paraqual lado se encontra a assimetria dos efeitos aleatorios e dos resıduos.

Assim, considera-se uma distribuicao normal multivariada para a priori dovetor de parametros β de dimensao p × 1. Para os parametros de escala, σ2,considera-se a distribuicao gama inversa, G I( τ

2, T

2) e para os parametros de

assimetria δ assume-se a distribuicao normal univariada, isto e, N(0, γ 2).Considerando a distribuicao condicional de Y apresentada de forma explıcita

em (7), as distribuicoes dos efeitos aleatorios apresentadas em (3) e (4) e asprioris especificadas, tem-se que a distribuicao a posteriori conjunta de todas asquantidades envolvidas e dada por

π(β, a, d, σ2

ε , σ2

a, σ2

d, δε, δa, δd|y) ∝ φ194(y|Xβ + Za + Wd, (σ2

ε + δ2

ε)I194)

×Φ194

(

δε

σ2ε + δ2

ε

(y − Xβ − Za − Wd)

∣

∣

∣

∣

∣

0,σ2

ε

σ2ε + δ2

ε

I194

)

×φ194(a|0, σ2

aA + δ2

aI194)

×Φ194

(

δa(σ2

aA + δ2

aI194)−1a

∣

∣

∣

∣

∣

0,

(

I194 +δ2

a

σ2a

A−1

)−1)

×φ194(d|0, σ2

dD + δ2

dI194)

×Φ194

(

δd(σ2

dD + δ2

dI194)−1d

∣

∣

∣

∣

∣

0,

(

I194 +δ2

d

σ2

d

D−1

)−1)

× exp[

−1

2(β − β0)

>S−1

β (β − β0)]

×

(

1

σ2ε

)

τε

2+1

exp

[

−

Tε

2σ2ε

] (

1

σ2a

)

τa

2+1

exp

[

−

Ta

2σ2a

] (

1

σ2d

)

τd

2+1

exp

[

−

Td

2σ2d

]

× exp[

−

1

2

(

δε

γε

)2]

exp[

−

1

2

(

δa

γa

)2]

exp[

−

1

2

(

δd

γd

)2]

. (8 )

D a d a a fo rm a a lg eb ric a d a po sterio ri c o n ju n ta d a d a em (8 ), pa ra ser m a isfa c il o b ter u m a a m o stra d esta o u d e d istrib u ic o es m a rg in a is d e in teresse, fo i

Rev. B ra s. B io m ., S a o P a u lo , v .2 8 , n .2 , p .1 3 7 -1 6 0 , 2 0 1 0 1 4 3

implementado o esquema MCMC. A seguir apresenta-se os passos necessarios paraimplementar o amostrador de G ibbs, que e um caso especial do MCMC e necessitada especifi cacao das condicionais completas a posteriori para cada parametro.

A fi m de especifi car o modelo (6 ) em uma estrutura conv eniente paraimplementar o procedimento MCMC, usa-se a representacao estocatica apresentadana P roposicao 1, tal que essas distribuicoes assimetricas possam ser representadash ierarquicamente como segue

Y |β, a, d, σ2ε , δε, wε ∼ Nn(Xβ + Za + Wd + δεwε, σ

2εIn),

wε ∼ Nn(0 , In)Iwε>0, (9 )

a|σ2a, δa, wa ∼ Nqa

(δawa, σ2aA),

wa ∼ Nqa(0 , Iqa

)Iwa>0, (10 )

d|σ2d, δd, wd ∼ Nqd

(δdwd, σ2dD),

wd ∼ Nqd(0 , Iqd

)Iwd>0, (11)

em que n = qa = qd = 19 4 . As v ariav eis w sao as v ariav eis latentes com distribuicaonormal truncada positiv a e I e uma funcao indicadora do domınio de v ariacao dew.

P or meio do modelo completo especifi cado em (9 )-(11) e as prioris apresentadasanteriormente, as condicionais completas sao facilmente obtidas, pois as mesmassao proporcionais ao produto da v erossimilh anca com a priori dos parametrosenv olv idos. As manipulacoes algebricas para a obtencao das condicionais completasdos parametros do modelo se encontram em O liv eira (20 0 9 ). A seguir saoapresentados os resultados das condicionais completas.

β|a, d, σ2ε , δε, wε, Y ∼ Np(M

−1

β mβ , M−1

β ), (12)

em que Mβ = S−1

β +X>X/ σ2ε e mβ = β0S

−1

β +X>(Y −Za−Wd− δεwε)/ σ2ε .

a|β, d, σ2ε , σ2

a, δε, δa, wε, wa, Y ∼ Nqa(M−1

a ma, M−1a ), (13 )

com Ma = A−1/ σ2a + Z>Z/ σ2

ε e ma = δaA−1wa/ σ2a + Z>(Y − Xβ − Wd −

δεwε)/ σ2ε .

d|β, a, σ2ε , σ2

d, δε, δd, wε, wd, Y ∼ Nqd(M−1

d md, M−1

d ), (14 )

com Md = D−1/ σ2d + W>W/ σ2

ε e md = δdD−1wd/ σ2

d + W>(Y − Xβ − Za −δεwε)/ σ2

ε .

wε|β, a, d, σ2ε , δε, Y ∼ Nn(M−1

wεmwε

, M−1wε

)Iwε>0, (15 )

em que Mwε= [

δ2

ε

σ2ε

+ 1]In e mwε= δε

σ2ε

(Y − Xβ − Za − Wd).

wa|a, σ2a, δa ∼ Nqa

(M−1wa

mwa, M−1

wa)Iwa>0, (16 )


em que Mwa=

δ2

a

σ2a

A−1 + Iqae mwa

= δa

σ2a

A−1a.

wd|d, σ2d, δd ∼ Nqd

(M−1wd

mwd, M−1

wd)Iwd>0, (17 )

em que Mwd=

δ2

d

σ2

d

D−1 + Iqde mwd

= δd

σ2

d

D−1d.

σ2ε |β, a, d, δε, wε, Y ∼ G I(

n + τε

2,Tε + µσ>

εµσε

2), (18)

com µσε= Y − Xβ − Za − Wd − δεwε.

σ2a|a, δa, wa ∼ G I(

n + τa

2,Ta + µσ>

aA−1µσa

2), (19)

em que µσa= a − δawa.

σ2d|d, δd, wd ∼ G I(

n + τd

2,Td + µσ>

d

D−1µσd

2), (20)

em que µσd= d − δdwd.

δε|β, a, d, σ2ε , wε, Y ∼ N(M−1

δεmδε

, M−1δε

), (21)

em que Mδε= 1

γ2ε

+w>

εwε

σ2ε

e mδε=

w>

ε(Y −X β−Z a−W d)

σ2ε

.

δa|a, σ2a, wa ∼ N(M−1

δamδa

, M−1δa

), (22)

com Mδa= 1

γ2a

+w>

aA−1wa

σ2a

e mδa=

w>

aA−1a

σ2a

.

δd|d, σ2d, wd ∼ N(M−1

δdmδd

, M−1δd

), (23)

com Mδd= 1

γ2

d

+w>

dD−1wd

σ2

d

e mδd=

w>

dD−1d

σ2

d

.

Os calculos das herdabilidades no sentido amplo e no sentido restrito, seraobaseadas nas amostras das condicionais completas a posteriori de a e d e na varianciado vetor observado y, isto e, a cada iteracao as herdabilidades nos sentidos amploe restrito serao calculadas, conforme as expressoes

h2am plo =

C o v (a + d, y)

V ar (y)e h2

r e s tr ito =C o v (a, y)

V ar (y). (24)

Com esses valores, tem-se uma distribuicao para representar as herdabilidadese estatısticas descritivas desta distribuicao permitem inferir a respeito dasherdabilidades das sondas consideradas.

Para implementar esta metodologia e necessario atribuir valores iniciais paratodas as variaveis do modelo e as iteracoes geram amostras das distribuicoescondicionais apresentadas anteriormente ate alcancar a convergencia, que pode serverificada e estudada atraves do pacote coda no softw are estatıstico R. Os valoresiniciais e os detalhes computacionais se encontram na secao a seguir.


2.5 Implementacao computacional

Como foi apresentado anteriormente, o conjunto de dados reais contem3554 sondas para serem analisadas. Como o modelo aditivo-dominante normalassimetrico exige grande esforco computacional, optou-se por selecionar poucassondas, para se explorar detalhadamente esse modelo e tambem compara-lo comoutros modelos.

Para selecionar essas sondas, primeiramente, foram ajustados modelos mistosnormais usuais para as 3554 sondas, isto e, observe o modelo 2, foi considerado βrepresentando o sexo, como efeito fixo de dimensao 2×1, a, as famılias, como efeitosaleatorios de dimensao 14 × 1, com a ∼ N(0, Sa), em que Sa = I14×14 e o vetor dfoi desconsiderado. Atraves dos ajustes destes modelos, foram obtidos os resıduosestimados (fazendo ε = y − Xβ − Za) para cada sonda e estabelecido o seguintecriterio: selecionar as sondas que apresentarem valores altos para a assimetria dosresıduos, calculada da seguinte forma

as s ime tria =

∑19 4i= 1(εi − ¯ε)3

n σ3ε

e, conforme Morley et al. (2004), valores altos para h2a = σ2

a/σ2y, em que σ2

a foi obtidoutilizando o algoritmo E M e E MV R e σ2

y e a estimativa da variancia amostral dosvalores observados de y. E ssa escolha foi feita com o objetivo de tentar captarsondas que apresentassem assimetria pelo menos no resıduo e tambem que fossemcandidatas a apresentar componente herdavel.

Com cada uma das sondas selecionadas foi feito o ajuste de tres tipos demodelos:

1. Modelo misto com efeitos aleatorios de famılias (MMF ),

2. Modelo Misto com efeitos aleatorios aditivos (MMA) e

3. Modelo Misto com efeitos aleatorios aditivos e dominantes (MMAD).

Para os tres tipos de modelos foram consideradas como variaveis resposta asintensidades de expressao genica ja normalizadas e o efeito de sexo foi consideradofixo.

O MMF , mais especificamente, Y = Xβ + Zf + ε, com β representando osexo de dimensao 2 × 1, f representando a famılia de dimensao 14 × 1, ε, o vetorde resıduos de dimensao 194 × 1, X a matriz de incidencia do sexo, de dimensao194× 2 e Z a matriz de incidencia das famılias, de dimensao 194× 14, foi ajustadopara quatro tipos de configuracoes:

1. com distribuicao normal assimetrica para f e para ε (MMF cafe);

2. com distribuicao normal assimetrica apenas em f (MMF caf);

3. com distribuicao normal assimetrica apenas em ε (MMF cae);


4. com distribuicao normal simetrica (sem assimetria) para f e para ε (MMFsa).

As verossimilhancas para os MMFcafe, MMFcaf, MMFcae e MMFsa sao dadaspor

LMMFcafe(β>, f>, σ2

f , σ2ε , δf , δε|y) = 2194φ194(y|Xβ + Zf, (σ2

ε + δ2ε)I194)

×Φ194

(

δε

σ2ε + δ2

ε

(y − Xβ − Zf)|0,σ2

ε

σ2ε + δ2

ε

I194

)

;

LMMFcaf (β>, f>, σ2f , σ2

ε , δf |y) = φ194(Y |Xβ + Zf, σ2εI194);

LMMFcae(β>, f>, σ2

f , σ2ε , δε|y) = 2194φ194(y|Xβ + Zf, (σ2

ε + δ2ε)I194) ×

×Φ194

(

δε

σ2ε + δ2

ε

(y − Xβ − Zf)|0,σ2

ε

σ2ε + δ2

ε

I194

)

;

LMMFsa(β>, f>, σ2f , σ2

ε |y) = φ194(Y |Xβ + Zf, σ2εI194). (25)

O MMA, mais especificamente, Y = Xβ + Za + ε, com β representando osexo de dimensao 2 × 1, a representando os efeitos aditivos de dimensao 194 × 1,ε, o vetor de resıduos de dimensao 194 × 1, X a matriz de incidencia do sexo,de dimensao 194 × 2 e Z a matriz de incidencia dos efeitos aditivos, de dimensao194 × 194 tambem foi ajustado para as mesmas quatro configuracoes apresentadaspara o MMF, a saber: MMAcaae, MMAcaa, MMAcae e MMAsa. Assim, as quatroverossimilhancas sao iguais a (25), mas com Z de dimensao 194 × 194; no lugar def , substituir por a de dimensao 194 × 1 e no lugar de δf substituir por δa.

O MMAD, mais especificamente, Y = Xβ + Za + Wd + ε e como o MMA,com a adicao dos elementos W , a matriz de incidencia dos efeitos dominantes dedimensao 194 × 194 e d, representando os efeitos dominantes de dimensao 194 × 1.Para esse modelo, foram ajustadas 8 configuracoes:

1. com distribuicao normal assimetrica em a, d e ε (MMADcaade);

2. com distribuicao normal assimetrica em a e d (MMADcaad);

3. com distribuicao normal assimetrica em a e ε (MMADcaae);

4. com distribuicao normal assimetrica em d e ε (MMADcade);

5. com distribuicao normal assimetrica em a (MMADcaa);

6. com distribuicao normal assimetrica em d (MMADcad);

7. com distribuicao normal assimetrica em ε (MMADcae);

8. com distribuicao normal simetrica em a, d e ε (MMADsa).


As verossimilhancas para todos os modelos considerados sao dadas por

LMMADcaade(β>, a>, d>, σ2

a, σ2d, σ2

ε , δa, δd, δε|y) =

2194φ194(y|Xβ + Za + Wd, (σ2ε + δ2

ε)I194) ×

Φ194

(

δε

σ2ε + δ2

ε

(y − Xβ − Za − Wd)|0,σ2

ε

σ2ε + δ2

ε

I194

)

;

LMMADcaad(β>, a>, d>, σ2

a, σ2d, σ2

ε , δa, δd|y) = φ194(y|Xβ + Za + Wd, σ2εI194);

LMMADcaae(β>, a>, d>, σ2

a, σ2d, σ2

ε , δa, δε|y) =

2194φ194(y|Xβ + Za + Wd, (σ2ε + δ2

ε)I194) ×

Φ194

(

δε

σ2ε + δ2

ε

(y − Xβ − Za − Wd)|0,σ2

ε

σ2ε + δ2

ε

I194

)

;

LMMADcade(β>, a>, d>, σ2

a, σ2d, σ2

ε , δd, δε|y) =

2194φ194(y|Xβ + Za + Wd, (σ2ε + δ2

ε)I194) ×

Φ194

(

δε

σ2ε + δ2

ε

(y − Xβ − Za − Wd)|0,σ2

ε

σ2ε + δ2

ε

I194

)

;

LMMADcaa(β>, a>, d>, σ2a, σ2

d, σ2ε , δa|y) = φ194(y|Xβ + Za + Wd, σ2

εI194);

LMMADcad(β>, a>, d>, σ2

a, σ2d, σ2

ε , δd|y) = φ194(y|Xβ + Za + Wd, σ2εI194);

LMMADcae(β>, a>, d>, σ2

a, σ2d, σ2

ε , δε|y) =

2194φ194(y|Xβ + Za + Wd, (σ2ε + δ2

ε)I194) ×

Φ194

(

δε

σ2ε + δ2

ε

(y − Xβ − Za − Wd)|0,σ2

ε

σ2ε + δ2

ε

I194

)

;

LMMADsa(β>, a>, d>, σ2a, σ2

d, σ2ε |y) = φ194(y|Xβ + Za + Wd, σ2

εI194). (26)

N ote que para se fazer um estudo mais detalhado, foram formuladas paracada sonda 16 configuracoes de modelos. Para cada uma dessas 16 configuracoes,o primeiro passo foi atribuir valores iniciais a todos os parametros. Para o efeitofixo β foi atribuıdo um vetor de dimensao 2 × 1 com a media dos valores de Yrepetido 2 vezes; para os σ2 gerou-se um valor da N(0, 1) e elevou-se ao quadrado;para os δ gerou-se de uma distribuicao normal com media 0 e variancia 10.000 e,finalmente, uma normal multivariada Nq(0, Iq), para gerar os vetores u com q = 14e para a e d, com q = 194. Para os hiperparametros do modelo tomou-se β0 = β,Sβ uma matriz 2×2 com a diagonal igual a variancia de Y e o restante igual a zero,τε = τd = τa = 5, Tε = Td = Ta = 10 e γε = γd = γa = 1000.

O amostrador de Gibbs foi implementado no software R. Foram usadas 50000iteracoes e determinou-se atraves do pacote coda do R um bu rn -in igual a 1000e um ju m p igual a 25, determinado pelo criterio de Raftery e L ewis (1992). Emseguida, foram utilizadas 101000 iteracoes, com o bu rn -in e o ju m p mencionados,totalizando uma cadeia com 4000 iteracoes (pontos amostrais) para cada parametrodo modelo. Foi observado que nao houve problemas de convergencia nas cadeias.


3 Resultados e discussao

Foram selecionadas duas sondas dentre as 3554 para explorar com detalhediversas configuracoes de ajustes de modelos mistos normais assimetricos, segundoo criterio apresentado no inıcio da secao 2.5.

Para esse conjunto de dados a sonda que mais se destacou pelos criteriosmencionados anteriormente foi a 1950. Optou-se por selecionar tambem a sonda2323, para a comparacao dos resultados.

Na T abela 1, apresenta-se uma analise descritiva dos valores das intensidadesja normalizadas.

T abela 1 - Medidas descritivas das intensidades das expressoes das sondas 1950 e2323

Medidas Descritivas S onda 1950 S onda 2323Mınimo -0,152 1,433Q uartil 1 7,230 4,295Mediana 8,525 9,343Media 7,476 7,568

Q uartil 3 9,138 10,110Maximo 10,360 11,620Variancia 7,644 10,267

3.1 Selecao de modelos

Como foi mencionado anteriormente, foi implementado 16 configuracoes demodelos mistos apresentadas na T abela 2.

T abela 2 - Configuracoes de modelos mistos para cada sonda

Modelos Parametros Modelos Parametros1) MMFcafe β, f, σ2

f , σ2ε , δf , δε 9) MMADcaade β, a, d, σ2

a, σ2d, σ2

ε , δa, δd, δε

2) MMFcaf β, f, σ2f , σ2

ε , δf 10) MMADcaad β, a, d, σ2a, σ2

d, σ2ε , δa, δd

3) MMFcae β, f, σ2f , σ2

ε , δε 11) MMADcaae β, a, d, σ2a, σ2

d, σ2ε , δa, δε

4) MMFsa β, f, σ2f , σ2

ε 12) MMADcade β, a, d, σ2a, σ2

d, σ2ε , δd, δε

5) MMAcaae β, a, σ2a, σ2

ε , δa, δε 13) MMADcaa β, a, d, σ2a, σ2

d, σ2ε , δa

6) MMAcaa β, a, σ2a, σ2

ε , δa 14) MMADcad β, a, d, σ2a, σ2

d, σ2ε , δd

7) MMAcae β, a, σ2a, σ2

ε , δε 15) MMADcae β, a, d, σ2a, σ2

d, σ2ε , δε

8) MMAsa β, a, σ2a, σ2

ε 16) MMADsa β, a, d, σ2a, σ2

d, σ2ε

Para cada configuracao considerada calculou-se o numerador do fator de B ayes(conforme K ass e Raftery, 1995), para as sondas 1950 e 2323, respectivamente (veros resultados na T abela 3), para finalmente, efetuar-se o calculo do fator de B ayes.


Tabela 3 - Resultados do numerador do fator de Bayes (conforme Kass e Raftery,1995), para as sondas 1950 e 2323, para o calculo do fator de Bayes

Modelos NFB1950 NFB2323MMFcafe 7,9471e-221 7,8066e-284MMFcaf 3,0774e-220 2,8400e-281

MMFcae 1,5173e-272 1,4302e-295MMFsa 6,2271e-272 4,4766e-298MMAcaae 8,1825e-208 8,4647e-235MMAcaa 1,5132e-204 3,5172e-231

MMAcae 2,3003e-268 0,0000e+000MMAsa 1,1004e-202 9,4682e-234MMADcaade 0,0000e+000 0,0000e+000MMADcaad 1,2620e-199 1,1923e-229MMADcaae 0,0000e+000 0,0000e+000MMADcade 0,0000e+000 0,0000e+000MMADcaa 9,6390e-194 1,2131e-216

MMADcad 7,9 9 52e-185 6,2196e-226MMADcae 2,4495e-307 0,0000e+000MMADsa 6,0012e-187 5,8030e-226

Pode-se observar na Tabela 3 que para a sonda 1950 os maiores valores parao numerador foram com os modelos MMFcaf (modelo misto com efeito aleatoriode famılia e assimetria no efeito de famılia), MMAsa (modelo misto com efeitoaleatorio aditivo sem assimetria nos efeitos aleatorios) e MMADcad (modelo mistocom efeitos aleatorios aditivo e dominante e com assimetria no efeito dominante).J a para a sonda 2323 os maiores valores para o numerador foram com os modelosMMFcaf, MMAcaa (modelo misto com efeito aleatorio aditivo com assimetria noefeito aditivo) e MMADcaa (modelo misto com efeitos aleatorios aditivo e dominantee com assimetria no efeito aditivo).

Foram apresentados para cada sonda os resultados nas Tabelas 4 e 5,repectivamente, do logaritmo natural do fator de Bayes (FB) multiplicado por 2 paraselecionar o melhor modelo entre os tres modelos considerados para cada uma delas,por meio dos resultados apresentados na Tabela 3. Foi aplicado essa transformacaopara os resultados serem interpretados conforme Kass e Raftery (1995). Os modelosapresentados na primeira coluna sao os modelos considerados no numerador do FB, eos modelos que estao na primeira linha sao os modelos considerados no denominadordo FB.

Todos os resultados apresentados na Tabela 4 a seguir indicam evidenciasmuito fortes a favor dos modelos apresentados no numerador, pois os valoresencontrados sao maiores que 10, isto e, MMAsa e melhor que o MMFcaf eMMADcad e melhor que o MMAsa e MMFcaf. Logo, para as 16 configuracoesconsideradas, o melhor modelo atraves do FB para a sonda 1950 e o MMADcad.


Novamente, todos os resultados apresentados na Tabela 5 a seguir indicamevidencias muito fortes a favor dos modelos apresentados no numerador. Logo, paraas 16 configuracoes consideradas, o melhor modelo atraves do FB para a sonda 2323e o MMADcaa.

Tabela 4 - Logaritmo natural do fator de Bayes multiplicado por 2 para os modelosdestacados para a sonda 1950

Modelos (1) MMAsa MMFcafMMADcad 82,2562 163,0770

MMAsa 80,8209

(1) O s m od e los apre sentad os na prim e ira coluna sao os m od e los consid e rad os no num e rad or d o

F B , e os m od e los q ue e stao na prim e ira linh a sao os m od e los consid e rad os no d enom inad or d o F B .

Tabela 5 - Logaritmo natural do fator de Bayes multiplicado por 2 para os modelosdestacados para a sonda 2323

Modelos (1) MMAcaa MMFcafMMADcaa 66,9367 297,6420MMAcaa 230,7050

(1)O s m od e los apre sentad os na prim e ira coluna sao os m od e los consid e rad os no num e rad or d o F B ,

e os m od e los q ue e stao na prim e ira linh a sao os m od e los consid e rad os no d enom inad or d o F B .

3.2 Descricao dos melhores modelos

Para fins de comparacao, foi analisado a media dos resıduos a posteriori paraos 3 melhores modelos para cada sonda (Chaloner e Brant, 1988; Albert e Chib,1995).

A Figura 1 a seguir contem o ındice das observacoes no eixo das abscissas eos resıduos preditos no eixo das ordenadas. Os graficos (a), (b) e (c) apresentam osresıduos preditos para os modelos MMFcaf, MMAsa e MMADcad, respectivamente,para a sonda 1950 e os graficos (d), (e) e (f) apresentam os resıduos para osmodelos MMFcaf, MMAcaa e MMADcaa, respectivamente, para a sonda 2323.Fica muito claro que os modelos MMADcad (Figura 1-(c)) e MMADcaa (Figura1-(f)) apresentam resıduos bem menores que os demais modelos.

A Figura 2 a seguir contem os valores observados das intensidades da expressaogenica no eixo das abscissas e os valores preditos no eixo das ordenadas. Osgraficos (a), (b) e (c) foram construıdos com base nos modelos MMFcaf, MMAsae MMADcad, respectivamente, para a sonda 1950 e os graficos (d), (e) e (f) foramconstruıdos com base nos modelos MMFcaf, MMAcaa e MMADcaa, repectivamente,para a sonda 2323. Novamente, houve melhor ajuste com os modelos MMADcad(Figura 2-(c)) e MMADcaa (Figura 2-(f)).

Foram apresentados na Figura 3 os histogramas das amostras a posterioridos parametros β (sexo), σ2 (variancia) e δ (assimetria, caso seja suposta no


0 50 150−1

0−5

05

10

MMFcaf

(a)

0 50 150

−10

−50

510

MMAsa

(b)

0 50 150

−10

−50

510

MMADcad

(c)

0 50 150

−10

−50

510

MMFcaf

(d)

0 50 150

−10

−50

510

MMAcaa

(e)

0 50 150

−10

−50

510

MMADcaa

(f)

Figura 1 - Indice das observacoes no eixo das abscissas versus os resıduos preditosno eixo das ordenadas. Os graficos (a), (b) e (c) apresentam os resultadospara a sonda 1950 e os graficos (d), (e) e (f), para a sonda 2323.

−2 2 6 10

02

46

810

MMFcaf

(a)

−2 2 6 10

02

46

810

MMAsa

(b)

−2 2 6 10

02

46

810

MMADcad

(c)

−2 2 6 10

02

46

810

MMFcaf

(d)

−2 2 6 10

02

46

810

MMAcaa

(e)

−2 2 6 10

02

46

810

MMADcaa

(f)

Figura 2 - Valores observados no eixo das abscissas versus valores preditos no eixodas ordenadas. Os graficos (a), (b) e (c) apresentam os resultados paraa sonda 1950 e os graficos (d), (e) e (f), para a sonda 2323.


modelo) para os tres melhores modelos atraves do FB, relativos as 16 configuracoesconsideradas para a sonda 1950.

MMFcaf

ββmasculino

frequ

ênci

a

8.5 10.5

050

010

00

MMFcaf

ββfeminino

frequ

ênci

a

8.5 10.5

050

010

00

MMFcaf

σσf2

frequ

ênci

a

0.04 0.08

050

010

00

MMFcaf

σσe2

frequ

ênci

a

2.5 4.5

050

010

00

MMFcaf

δδf

frequ

ênci

a

−7 −4

050

010

00

MMAsa

ββmasculino

frequ

ênci

a

6.0 7.5 9.0

050

010

00

MMAsa

ββfeminino

frequ

ênci

a

6.5 8.0

050

010

00

MMAsa

σσa2

frequ

ênci

a

2 4 6

050

010

00MMAsa

σσe2

frequ

ênci

a

1.0 3.0

050

010

00

MMADcad

ββmasculino

frequ

ênci

a

6.5 8.0

050

010

00

MMADcad

ββfeminino

frequ

ênci

a

6.5 8.0

050

010

00

MMADcad

σσa2

frequ

ênci

a

1 3 5

050

010

00

MMADcad

σσd2

frequ

ênci

a

0.5 2.5

050

010

00

MMADcad

σσe2

frequ

ênci

a

0.5 2.0 3.5

050

010

00

MMADcad

δδd

frequ

ênci

a

−0.5 0.5

050

010

00

Figura 3 - H istogramas das amostras a posteriori dos parametros β (sexo), σ2

(variancia) e δ (assimetria, caso seja suposta no modelo) para ostres melhores modelos atraves do FB, relativos as 16 configuracoesconsideradas para a sonda 1950.

Foram apresentados na Tabela 6 os resultados da media, do desvio padrao edo H PD com 95% de credibilidade dos parametros β, σ2 e δ dos 3 melhores modelospara a sonda 1950.

Por meio da Tabela 6 pode-se notar que nao houve diferenca entre os βmasculino

e o βfeminino. Para o modelo MMFcaf e obervada uma assimetria negativa para


Tabela 6 - Media, desvio padrao e HPD com 95% de credibilidade dos parametrosβ, σ2 e δ dos modelos MMFcaf, MMAsa e MMADcad, para a sonda 1950

Modelos Parametros Media DP HPD

MMFcaf βmasculino 9 ,5 5 8 0 0 ,4 2 3 8 [ 8 ,7 9 0 9 ; 1 0 ,4 3 7 8 ]βfe minino 9 ,6 4 6 0 0 ,4 1 8 9 [ 8 ,8 7 0 7 ; 1 0 ,4 4 6 1 ]

σ2

f 0 ,0 5 4 5 0 ,0 0 5 7 [ 0 ,0 4 4 0 ; 0 ,0 6 5 7 ]σ2

ε 3 ,5 2 5 1 0 ,3 7 1 1 [ 2 ,8 6 5 5 ; 4 ,2 8 0 9 ]δf -3 ,2 2 8 6 0 ,7 8 2 5 [-4 ,9 1 7 0 ; -1 ,9 8 6 8 ]

MMA sa βmasculino 7 ,5 6 4 0 0 ,3 3 7 2 [ 6 ,9 0 4 2 ; 8 ,2 2 1 1 ]βfe minino 7 ,7 2 5 0 0 ,3 4 1 3 [ 7 ,0 3 0 8 ; 8 ,3 7 6 4 ]

σ2

a 3 ,6 3 8 0 0 ,7 0 0 9 [ 2 ,3 5 6 6 ; 5 ,0 6 7 2 ]σ2

ε 2 ,2 6 7 0 0 ,4 3 1 0 [ 1 ,4 9 8 6 ; 3 ,1 5 8 9 ]

MMA D cad βmasculino 7 ,5 9 4 0 0 ,3 7 0 8 [ 6 ,8 2 3 2 ; 8 ,3 0 3 7 ]βfe minino 7 ,6 9 7 0 0 ,3 7 2 5 [ 6 ,9 8 9 1 ; 8 ,4 0 2 7 ]

σ2

a 3 ,2 3 1 6 0 ,6 7 3 8 [ 2 ,0 0 6 9 ; 4 ,5 8 5 7 ]σ2

d 1 ,4 7 9 4 0 ,4 6 0 9 [ 0 ,6 5 0 0 ; 2 ,3 8 7 8 ]σ2

ε 1 ,2 3 2 3 0 ,4 0 0 3 [ 0 ,5 0 2 1 ; 1 ,9 7 9 3 ]δd -0 ,0 1 0 3 0 ,2 1 7 3 [-0 ,4 2 3 6 ; 0 ,4 2 2 0 ]

o efeito de famılia. Para o MMADcad, embora tenha a suposicao de assimetriapara o efeito dominante, o H PD com 9 5 % de credibilidade contem o zero, ou seja,o parametro de assimetria do efeito dominante nao e relev ante.

O mesmo foi feito para a sonda 2 3 2 3 , isto e, a F ig ura 4 a seg uir contem oshistog ramas das amostras a posteriori dos parametros β, σ2 e δ para os tres melhoresmodelos para essa sonda.

F oram apresentados na T abela 7 a seg uir os resultados da media, do desv iopadrao e do H PD com 9 5 % de credibilidade dos parametros β, σ2 e δ dos 3 melhoresmodelos para a sonda 2 3 2 3 .

N ov amente, os resultados apresentados na T abela 7 a seg uir rev elaram q uenao houv e diferenca entre os βmasculino e o βf e minino. Para o modelo MMF caf eoberv ado uma assimetria positiv a para o efeito de famılia. Para os modelos MMAcaae MMADcad, embora tenham a suposicao de assimetria para os efeitos aditiv os, oH PD com 9 5 % de credibilidade para ambos os modelos contem o zero, ou seja,tambem nao sao estatisticamente diferentes de zero.

N ote q ue, embora os interv alos H PD para os parametros de assimetriasδd e δa para os modelos aditiv os-dominantes normais assimetricos (MMADcad eMMADcaa) contenham o zero (v er T abelas 6 e 7 ), esses modelos apresentaram sermelhores q ue todas as demais confi g uracoes consideradas nesse trabalho, tanto emtermos do fator de B ay es, q uanto do comportamento dos resıduos do modelo.

C omo esse resultado chamou a atencao, foi feita uma analise de resıduos e og rafi co dos v alores observ ados v ersus os v alores preditos com os modelos MMADcom assimetria (no efeito dominante para a sonda 1 9 5 0 e no efeito aditiv o para asonda 2 3 2 3 ) e os modelos MMAD sem assimetria para as duas sondas consideradas.

154 Rev. B ra s. B io m ., S a o P a u lo , v .2 8 , n .2 , p .13 7 -16 0 , 2 0 10

MMFcaf

ββmasculino

frequ

ênci

a

1 3 5

010

00

MMFcaf

ββfeminino

frequ

ênci

a

2 3 4 5 6 70

1000

MMFcaf

σσf2

frequ

ênci

a

0.04 0.07

010

00

MMFcaf

σσe2

frequ

ênci

a

5 7 9 11

010

00

MMFcaf

δδf

frequ

ênci

a

2 4 6 8

010

00

MMAcaa

ββmasculino

frequ

ênci

a

5 6 7 8 9

010

00

MMAcaa

ββfeminino

frequ

ênci

a

6 7 8 90

1000

MMAcaa

σσa2

frequ

ênci

a

2 6 10 14

010

00

MMAcaa

σσe2

frequ

ênci

a

0 2 4 6

010

00

MMAcaa

δδa

frequ

ênci

a

−1.5 −0.5 0.5

010

00

MMADcaa

ββmasculino

frequ

ênci

a

5.5 7.0 8.5

010

00

MMADcaa

ββfeminino

frequ

ênci

a

6 7 8 90

1000

MMADcaa

σσa2

frequ

ênci

a

2 6 10 14

010

00

MMADcaa

σσd2

frequ

ênci

a

0 2 4 6

010

00

MMADcaa

σσe2

frequ

ênci

a

0 1 2 3 4 5

010

00

MMADcaa

δδa

frequ

ênci

a

−1.0 0.0 1.0

010

00

Figura 4 - Histogramas das amostras a posteriori dos parametros β (sex o), σ2

(variancia) e δ (assimetria, caso seja suposta no modelo) para ostres melhores modelos atraves do FB, relativos as 16 configuracoesconsideradas para a sonda 2323.


Tabela 7 - Media, desvio padrao e HPD com 95% de credibilidade dos parametrosβ, σ2 e δ dos modelos MMFcaf, MMAcaa e MMADcaa, para a sonda2323


MMFcaf βmasculino 4,3020 0,6525 [ 3,0616 ; 5,6399]βfeminino 4,6160 0,6581 [ 3,3788 ; 5,9350]

σ2

f 0,0549 0,0059 [ 0,0446 ; 0,0672]σ2

ε 7,2567 0,7729 [ 5,8122 ; 8,7906]δf 3,8227 1,0206 [ 2,0189 ; 5,8264]

MMAcaa βmasculino 7,3380 0,5066 [ 6,3451 ; 8,2825]βfeminino 7,6170 0,5131 [ 6,5866 ; 8,5658]

σ2

a 7,9841 1,7963 [ 4,3789 ; 11,3766]σ2

ε 2,2375 0,8925 [ 0,7911 ; 4,0443]δa -0,0354 0,3449 [-0,6945 ; 0,6373]

MMADcaa βmasculino 7,3160 0,4866 [ 6,3424 ; 8,25139]βfeminino 7,5950 0,4922 [ 6,6270 ; 8,54210]

σ2

a 6,5226 1,5657 [ 3,5748 ; 9,71320]σ2

d 1,6337 0,7087 [ 0,5649 ; 3,08911]σ2

ε 1,6907 0,6926 [ 0,5683 ; 3,10289]δa -0,0168 0,3121 [-0,6513 ; 0,58085]

Observou-se que os resıduos com os modelos MMAD com assimetria sao muitoparecidos com os resıduos com os modelos sem assimetria, sendo, no entanto,consistentemente menores para os modelos com assimetria. J a para as estimativasdos parametros, verificou-se que retirando a assimetria, as estimativas dos β e σ2

a

sao muito parecidas com os modelos que possuem assimetria, mas os componentesde variancias dos efeitos dominantes e dos resıduos aumentaram com os modelosMMAD sem assimetria. Isto indica que os parametros de assimetria modificam asestimativas de componentes da variancia e podem levar a conclusoes diferentes sobrea herdabilidade das sondas, sendo necessarios estudos mais detalhados (por exemplo,simulacao extensiva) para verificar quais as relacoes entre componentes da varianciae parametros de assimetria. No entanto, os valores preditos com os modelos comassimetria e com os modelos sem assimetria tambem foram semelhantes.

Para as estimativas das herdabilidades foram obtidas as densidades dasexpressoes apresentadas em (24), atraves das medias das amostras a posteriori de f ,com os modelos MMFcaf, de a, com os modelos MMAsa e MMAcaa e, de a e d, comos modelos MMADcad e MMADcaa, para as sondas 1950 e 2323, respectivamante.Os resultados da media, do desvio padrao e dos HPD de 95% de credibilidade dasherdabilidades se encontram nas Tabelas 8 e 9.

Pode-se observar, com os resultados apresentados nas Tabelas 8 e 9, que osvalores para as herdabilidades no sentido amplo com os modelos aditivos-dominantessao ligeiramente maiores que os encontrados pelos demais modelos, indicando maior“ acuracia” da predicao dos valores geneticos (a e d) (segundo W hite e Hodge, 1992).


Alem disso, a herdabilidade para a selecao de pais (sentido restrito) caiu do modeloMMA para o MMAD como era de se esperar, pois foi estimada uma variancia dedominancia nao nula.

Tabela 8 - R esultados da media, desvio padrao e HPD de 95% de credibilidade dasherdabilidades com os modelos MMFcaf, MMAsa e MMADcad, para asonda 1950


MMFcaf Cov(f , yobservado)/ V ar (yobservado) 0,54 0,04 [ 0,46 ; 0,61]

MMAsa Cov(a, yobservado)/ V ar (yobservado) 0,70 0,06 [ 0,58 ; 0,81]

MMADcad Cov(a, yobservado)/ V ar (yobservado) 0,64 0,07 [ 0,50 ; 0,76]

Cov((a + d),yobservado)/ V ar (yobservado) 0,84 0,05 [ 0,73 ; 0,94]

Tabela 9 - R esultados da media, desvio padrao e HPD de 95% de credibilidade dasherdabilidades com os modelos MMFcaf, MMAsa e MMADcad, para asonda 2323


MMFcaf Cov(f , yobservado)/ V ar (yobservado) 0,28 0,04 [ 0,20 ; 0,36]

MMAcaa Cov(a, yobservado)/ V ar (yobservado) 0,78 0,09 [ 0,59 ; 0,93]

MMADcaa Cov(a, yobservado)/ V ar (yobservado) 0,68 0,09 [ 0,49 ; 0,84]

Cov((a + d),yobservado)/ V ar (yobservado) 0,83 0,07 [ 0,69 ; 0,96]

Portanto, para as duas sondas consideradas, concluiu-se que o modelo aditivo-dominante com assimetria apresentou melhores resultados para os resıduos, ajuste eacuracia das estimativas dos valores geneticos, tendo inclusive absorvido a assimetriado modelo misto com efeito aleatorio de famılias e assimetria no efeito aleatorio defamılia(MMFcaf).

Conclusoes

O modelo aditivo-dominante com assimetria mostrou-se mais provavel paraas duas sondas consideradas e atraves deste trabalho pode-se concluir que, apesarde relativamente trabalhoso do ponto de vista computacional, o modelo aditivo-dominante normal assimetrico e uma alternativa eficiente para a analise de dados demicroarrays, pois por meio deste pode-se ter o modelo aditivo-dominante usual comocaso particular; incorporar informacoes de genealogia no calculo das matrizes deidentidade alelica (associada aos efeitos aditivos) e genotıpica (associada aos efeitosde dominancia); usar o modelo para qualquer fenotipo que apresente distribuicaoassimetrica e para qualquer estrutura de pedigree; obter o melhor modelo atravesdo fator de Bayes com as 16 configuracoes possıveis de ajustes (assimetria apenasno efeito aleatorio, assimetria apenas no resıduo e assimetria em ambos os efeitos);


investigar os tipos de assimetrias nos efeitos aleatorios; notar que atraves do fatorde Bayes e com os modelos analisados que a assimetria do efeito aleatorio defamılia, ficou melhor descrita pelo modelo aditivo-dominante; obter as densidadesa posteriori das herdabilidades no sentido restrito e amplo e fazer predicoes dosvalores geneticos com maior acuracia.

OL IV E IRA, D. C. R. de; BU E NO FIL HO, J. S . S . Bayesian analysis of sk ew normalmixed models in gene expression data from a complex pedigree. Rev. Bras. Biom.,S ao Paulo, v.28, n.2, p.137-160, 2010.

ABSTRACT: Estimates of heritability for gene expression are scarce and commonly

originated from family stru ctu res, in w hich the v ariability of responses among and w ithin

families is prov ided u nder a u niform cov ariance stru ctu re for related indiv idu als. G au ss-

M ark ov normal mixed models are the u su al choice for su ch estimates, bu t in microarrays

stu dies it is common to fi nd asymmetry in residu als of the adju stment of data prev iou sly

normalized. This, by itself, ju stifi es the u se of sk ew models. In this stu dy it w as analyzed

a family based pedigree w ith gene expression measu red by microarrays for all indiv idu als.

Thu s, this w ork deals w ith the dev elopment and compu tational implementation of sk ew

normal additiv e-dominance model for the analysis of microarrays by complex pedigrees,

that allow s sk ew ness in all distribu tions of random eff ects. It w as calcu lated the Bayes

factors for the selection of the best models and H P D interv als for marginal estimates.

Resu lts are show n for tw o of the analyzed probes. F or these probes, there w as more

ev idence in fav or of sk ew normal additiv e-dominance model.

K EY W O RD S: M CM C; mixed models; mu ltiv ariate sk ew normal distribu tion; Bayesian

inference.

Referencias

AL BE RT, J.; CHIB, S . Bayesian residual analysis for binary response regressionmodels. Biometrika, L ondon, v.82, n.4, p.747-759, 1995.

ARE L L ANO-V AL L E , R. B.; BOL FARINE , H.; L ACHOS , V . H. Bayesian inferencefor sk ew -normal linear mixed models. J . A p p l. S tat., Abingdon, v.34, n.6, p.663-682,2007.

ARE L L ANO-V AL L E , R. B.; G E NTON, M. G . On fundamental sk ew distributions.J . M u ltiv. A n al., New Y ork , v.96, n.1, p.93-116, 2005.

AZ Z AL INI, A.; DAL L A-V AL L E , A. The multivariate sk ew -normal distribution.Biometrika, L ondon, v.83, n.4, p.715-726, D1996.

CHAL ONE R, K .; BRANT, R. A. Bayesian approach to outlier detection and resi-dual analysis. Biometrika, L ondon, v.75, n.4, p.651-659, 1988.

CHE U NG , V . G .; S PIE L MAN, R. S . D ata for gen etic an aly sis w orksh op (G A W )1 5 : p roblem 1 : gen etics of gen e exp ression variation in h u man s. BMC Proceedings,


Florida, 2007. Supllement. Disponıvel em:< http : //w w w .bio m e dce n tr al.co m /co n te n t/pdf/1753− 6561− 1−S1−S2.pdf >.Acesso em: 18 set. 2008.

DURBIN, B. P.; HARDIN, J. S.; HAWKINS, D. M.; ROCKE, D. M. A variancestabilizing transformation for gene-expression microarray data. Brief. Bioinform.,London, v.18, p.105-110, 2002. Supllement.

GENETIC ANALYSIS WORKSHOOP. Southwest found ation for biomed -ical research. San Antonio: GAWs, 2006. Diponıvel em: < http ://w w w .g aw o r k sho p.o r g / >. Acesso em: 12 out. 2008.

KASS, R. E.; RAFTERY, A. E. Bayes factors. J. Am. Stat. Assoc., New York, v.90,n.430, p.773-795, 1995.

KERR, M. K.; CHURCHILL, G. A. Experimental design for gene expressionmicroarrays. Biostatistics, Oxford, v.2, n.2, p.183-201, 2001.

LEIVA, V.; SANHUEZA, A.; KELMANSKY, D. M.; MARTINEZ, E. J. Onthe glog-normal distribution and its application to the gene expression problem.C omput. Stat. Data Anal., Amsterdam, v.53, n.5, p.1613-1621, 2009.

LYNCH, M.; WALSH, B. Genetics and analysis of quantitative traits. Hardcover:Sinauer, 1998. 980p.

MORLEY, M.; MOLONY, C. M.; WEBER, T. M.; DEVLLN, J. L.; EWENS, K.G.; SPLELMAN, R. S.; CHEUNG, V. G. Genetic analysis of genome-wide variationin human gene expression. N ature, London, v.430, n.7001, p.743-747, 2004.

OLIVEIRA, D. C. R. Mod elos mistos normais assimetricos em d ad os d e microarraysoriginad os d e ped igrees complexos, 2009. 106f. Tese (Doutorado em Estatıstica eExperimentacao Agronomica) - Universidade Federal de Lavras, Lavras, 2009.

R Development Core Team. R: A language and environment for statisticalcomputing. Vienna: R Foundation for Statistical Computing, 2009. Disponıvel em:< http : //w w w .r − pr o j e ct.o r g >. Acesso em: 15 apr. 2009.

RAFTERY, A. E.; LEWIS, S. H ow many iterations in the Gibbs sampler? . In:BERNARDO, J. M.; BERGER, J. O.; DAWID, A. P.; SMITH, A. F. M. (Ed.).Bayesian statistics. 4.ed. Oxford: University, 1992. p.763-773.

RITZ, C.; EDEN, P. Accounting for one-channel depletion improves missing valueimputation in 2-dye microarray data. BMC Genomics, London, v.9, n.25, 2008.Disponıvel em: < http : //w w w .bio m e dce n tr al.co m /1471 − 2164/9/25 >. Acessoem: 15 set. 2008.

ROHR, P. von; HOESCHELE, I. Bayesian Q TL mapping using skewed Student tdistributions. Genet. Sel. E vol., Paris, v.34, n.1, p.1-21, 2002.

ROSA, G. J. M.; ROCHA, L. B.; FURLAN, L. R. Estudos de expressaogenica utilizando-se microarrays: delineamento, analise, e aplicacoes na pesquisazootecnica. Rev. Bras. Z ootec., Vicosa, v.36, n.4, p.186-209, 2007.


SARAIVA, E. F.; MILAN, L. A.; DIAS, T. C. M. Metodos estatısticos aplicados aanalise da expressao genica. Bol. ISBrA, Sao Paulo, v.1, n.3, p.5-8, 2007.

SAHU, S. K.; DEY, D. K.; BRANCO, M. D. A new class of multivariatedistributions with applications to Bayesian regression models. Can. J. Stat.,Toronto, v.31, n.2, p.129-150, 2003.

SORENSEN, D.; GIANOLA, D. L ikelihood, Bayesian, and MCMC methods inquantitative genetics. New York: Springer Verlag, 2002. 740p.

SPEED, T. P. Statistical analysis of gene expression microarray data. Boca Raton:CRC, 2003. 12 p.

VARONA, L.; IBANEZ-ESCRICHE, N.; QUINTANILLA, R.; NOGUERA, J. L.;CASELLAS, J. Bayesian analysis of quantitative traits using skewed distribution.Gen. Res., Cambridge, v.90, p.179-190, 2008.

WHITE, T. L.; HODGE, G. R. P redicting breeding values with applications in foresttree improvement. 2. ed. Kluwer: Dema, 1992. 367p.

Recebido em 15.12.2009.

Aprovado apos revisao em 13.04.2010.


ANA¶L ISE B AY E SIANA D E M O D E L O S M IST O S NO R...

Documents

Transcript of ANA¶L ISE B AY E SIANA D E M O D E L O S M IST O S NO R...