Aplica˘c~ao dos modelos log stico e gompertz em dados de...

Universidade Estadual da Paraıba

Centro de Ciencias e Tecnologia

Departamento de Estatıstica

Luzidark Alves Maciel

Aplicacao dos modelos logıstico e gompertzem dados de crescimento

Campina Grande

Julho de 2014

Luzidark Alves Maciel

Aplicacao dos modelos logıstico e gompertzem dados de crescimento

Trabalho de Conclusao de Curso apresentadoao curso de Bacharelado em Estatıstica doDepartamento de Estatıstica do Centro deCiencias e Tecnologia da Universidade Esta-dual da Paraıba em cumprimento as exigen-cias legais para obtencao do tıtulo de bacha-rel em Estatıstica.

Orientadora:

Profa. Dra. Ana Patricia Bastos Peixoto

Campina Grande

Julho de 2014

É expressamente proibida a comercialização deste documento, tanto na forma impressa como eletrônica.Sua reprodução total ou parcial é permitida exclusivamente para fins acadêmicos e científicos, desde que nareprodução figure a identificação do autor, título, instituição e ano da dissertação.

Aplicação dos modelos Logístico e Gompertz em dados decrescimento [manuscrito] / Luzidark Alves Maciel. - 2014. 33 p. : il. color.

Digitado. Trabalho de Conclusão de Curso (Graduação em Estatística)- Universidade Estadual da Paraíba, Centro de Ciências eTecnologia, 2014. "Orientação: Prof. Dr. Ana Patricia Bastos Peixoto,Departamento de Estatística".

M152a Maciel, Luzidark Alves.

21. ed. CDD 519.5

1. Modelo não linear. 2. Métodos iterativos. 3. Métodosestatísticos. I. Título.

Dedicatoria

Aos meus pais Adao e Luzitana

e ao meu amado Francisco,

que sempre acreditaram na minha capacidade

e me apoiaram em todos os momentos, dedico com muito amor e carinho.

Agradecimentos

A DEUS por ter me concedido a vida e me dado forcas nas horas difıceis.

Aos meus pais, Adao Francisco Maciel e Luzitana Alves Maciel, ao meu irmao Luziardo

Alves Maciel pelo amor, carinho e dedicacao.

Ao meu amado, Francisco Aranha Neto, por sempre estar ao meu lado dando-me

forca, coragem e companhia nos momentos mais difıceis.

A minha doce e amada vo Eugenia (in memorian), pelo seu amor e carinho.

A minha sogra, Maria de Lourdes, pelo carinho e atencao.

A todos os familiares que mesmo de longe, de forma especial,torcem por mim. Ainda,

aos colegas de turma com quem tive momentos de estudo, e tambem de descontracao.

A minha orientadora Ana Patricia Bastos Peixoto, pela paciencia, amizade e de-

dicacao.

Aos professores Nyedja Fialho Morais e Tiago Almeida de Oliveira por participarem

da banca e todos os professores do Departamento de Estatıstica.

Aos meus amigos, Andreza Jardelino, Arnete Campos, Klaini Clemente, Marcia Mar-

ciele e Jose Severino Neto por todos os momentos vividos juntos que jamais esquecerei.

A todos que acreditaram em mim e fazem parte da minha vida, o meu

MUITO OBRIGADA!!!

”Embora isto possa parecer um paradoxo,

toda ciencia exata e dominada pela ideia de

aproximacao.”

Bertrand Russell.

Resumo

Este trabalho tem por finalidade comparar modelos nao lineares, especificamente osmodelos Logıstico e Gompertz, ambos aplicados em dados de crescimento. Para o metodode estimacao foi considerado,o metodo de mınimos quadrados ressaltando o metodos ite-rativos de Gauss-Newton. Alem disso, foi realizado uma analise de diagnostico afim deverificar a adequacao do modelo, bem como identificar pontos discrepantes. Verificou-se, para tanto, a importancia dos ajustes de modelos nao linaeres, representados atravesdas curvas de crescimentos, pois alem de simples e facil interpretacao, tem se mostradomuito util para caracterizar a especie em estudo. Os modelos ajustados, o Logıstico e oGompertz se mostraram apropriados para descrever a curva de crescimento para os dadosapresentados. Apos a analise dos dados, atraves dos criterios e dos metodos estatısticos omodelo que melhor descreveu o aumento do conteudo de agua das celulas da raiz do feijaofoi o Logıstico, sendo o mais indicado para representar a curva de crescimento medio.

Palavras-chaves: Modelo nao linear, Metodos iterativos, Analise de di-agnostico

Abstract

This study aims to compare non-linear models, specifically Logistic and Gompertzmodels, both applied to growth data. For the estimation method was considered themethod of least squares, emphasizing iterative methods of Gauss-Newton. In addition, adiagnostic analysis in order to verify the adequacy of the model was carried out to identifyoutliers. It was verified the importance of adjustments in nonlinear models representedthrough the growth curves, as well as simple and easy to interpret, it also has provedvery useful for characterizing the species under study. Adjusted models, the Logistic andGompertz has proved appropriate to describe the growth curve to the presented data.After analyzing the data, using the criteria and statistical methods the model that couldbest describe the increase in the water content in the cells of the bean root was thelogistical model, which makes it the most suitable to represent the average growth curve.

Keywords: Nonlinear Model, Iterative methods, Analysis Diagnostic

Sumario

Lista de Figuras

Lista de Tabelas

1 Introducao p. 11

2 Fundamentacao Teorica p. 13

2.1 Marco Historico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 13

2.2 Modelos de regressao linear . . . . . . . . . . . . . . . . . . . . . . . . p. 14

2.3 Modelos de regressao nao linear . . . . . . . . . . . . . . . . . . . . . . p. 15

2.4 Estimacao dos parametros nao lineares . . . . . . . . . . . . . . . . . . p. 17

2.4.1 Metodo dos mınimos quadrados . . . . . . . . . . . . . . . . . . p. 18

2.4.1.1 Metodo de Gauss-Newton . . . . . . . . . . . . . . . . p. 18

2.5 Selecao de modelos e qualidade do ajuste . . . . . . . . . . . . . . . . . p. 19

2.5.1 Coeficiente de determinacao . . . . . . . . . . . . . . . . . . . . p. 19

2.5.2 Criterios de informacao AIC e BIC . . . . . . . . . . . . . . . . p. 20

2.5.3 Analise de Resıduos . . . . . . . . . . . . . . . . . . . . . . . . . p. 21

2.5.3.1 Matriz de projecao . . . . . . . . . . . . . . . . . . . . p. 21

2.5.3.2 Resıduo projetado . . . . . . . . . . . . . . . . . . . . p. 21

2.5.4 Medidas de Influencia . . . . . . . . . . . . . . . . . . . . . . . p. 23

3 Aplicacao p. 25

3.1 Material e metodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 25

3.2 Resultados e discussao . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 27

4 Conclusao p. 31

5 Referencias Bibliograficas p. 32

Lista de Figuras

1 Representacao grafica do modelo logıstico com tres parametros, sendo θ1

a assıntota horizontal assıntota quando x → ∞, θ2, o valor de x para o

qual y = (θ1)/2 , e θ3 e o parametro de escala sobre o eixo x . . . . . . p. 26

2 Ajuste do conteudo de agua das celulas da raiz do feijao em funcao da

distancia da ponta para o modelo logıstico e gompertz . . . . . . . . . . p. 27

3 Grafico dos resıduos projetados para a relacao existente entre o conteudo

de agua das celulas da raiz do feijao em funcao da distancia da ponta

para o modelo logıstico e gompertz . . . . . . . . . . . . . . . . . . . . p. 29

4 Grafico das distancias de Cook para para a relacao existente entre o

conteudo de agua das celulas da raiz do feijao em funcao da distancia da

ponta para o modelo logıstico e gompertz . . . . . . . . . . . . . . . . . p. 29

5 Grafico dos elementos da diagonal da matriz de projecao versus a ordem

das observacoes do conteudo de agua das celulas da raiz do feijao em

funcao da distancia da ponta para o modelo logıstico e gompertz . . . . p. 30

Lista de Tabelas

1 Observacoes conteudo de agua das celulas da raiz do feijao (y) em funcao

da distancia da ponta (x) . . . . . . . . . . . . . . . . . . . . . . . . . p. 25

2 Estimativas dos parametros dos modelos logıstico e gompertz, erro padrao

da estimativa (E.P.E.), valores p para o teste t e intervalos de confianca

(IC) de 95%, para o conteudo de agua das celulas da raiz do feijao em

funcao da distancia da ponta . . . . . . . . . . . . . . . . . . . . . . . . p. 27

3 Coeficiente de determinacao (R2a) e valores de AIC e BIC para os dois

modelos ajustados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . p. 28

11

1 Introducao

A analise de dados por meio do modelo classico de regressao tambem denominado

modelo linear, e uma das tecnicas mais usadas de estimacao. Porem, em muitas situacoes

praticas algumas de suas suposicoes, como a normalidade e a linearidade nos parametros,

nao sao satisfeitas. Este fato alavancou o desenvolvimento de novas tecnicas estatısticas

para os modelos de regressao, surgindo, entao, novas classes de modelos, dentre elas a dos

modelos de regressao nao linear.Nos modelos de regressao lineares e nao lineares o criterio

de estimacao mais usual utilizado e o criterio de mınimos quadrados,quando o modelo e

linear, o estimador de mınimos quadrados tem uma formula explıcita, entretanto no caso

nao linear, isso geralmente nao ocorre e para obter estimativas desses parametros deve-se

recorrer a procedimentos iterativos, por exemplo, o metodo de Gauss-Newton.

Ate o inıcio da decada de 70, as principais tecnicas desenvolvidas para os modelos de

regressao nao linear se restringiam a suposicao de normalidade para a variavel resposta.

Em 1972, Nelder e Wedderburn mostraram que uma serie de tecnicas estatısticas, comu-

mente estudadas separadamente, podiam ser formuladas, de uma maneira unificada, como

uma classe de modelos de regressao. Mesmo assim, os modelos nao lineares continuaram

recebendo um tratamento especial, surgindo diversos artigos cientıficos na decada de 70

e em decadas posteriores. Particularmente, destaca-se o livro de Ratkowsky (1983), que

descreve varios modelos nao lineares segundo diversos aspectos.

Para os modelos de regressao nao linear a distribuicao dos resıduos e matematicamente

trabalhosa, principalmente em pequenas amostras. Alem disso, os resıduos, em geral, tem

esperanca diferente de zero e distribuicao dependendo fortemente dos valores ajustados

que pode conduzi-los a nao refletirem exatamente a distribuicao dos erros (CORDEIRO;

PRUDENTE; DEMETRIO, 2009). Logo, nesse caso, os criterios de diagnostico da re-

gressao normal linear podem falhar. Cook e Tsai (1985) definiram um novo resıduo,

denominado resıduo projetado, que apesar de algebricamente mais complexo, tem propri-

edades mais proximas das propriedades correspondentes do resıduo ordinario da regressao

linear.

O objetivo deste trabalho foi obter estimativas para os parametros dos modelos nao

lineares de curva de crescimento Logıstico e Gompertz atraves de metodos numericos, alem

12

de compara-los entre si, bem como realizar uma analise de diagnostico afim de verificar

a adequacao do modelo, bem como identificar pontos discrepantes, obtendo-se o modelo

que melhor se ajusta ao padrao de crescimento.

13

2 Fundamentacao Teorica

O conteudo desta secao relata os principais aspectos da utilizacao dos modelos nao

lineares e analise de resıduos, utilizando-se de artigos praticos e teoricos, com o objetivo

de obter-se informacoes precisas sobre o assunto abordado.

2.1 Marco Historico

O primeiro a formular um modelo em termos de erros aleatorios foi Moivre (1756),

em seu trabalho Doctrine of Chances, cuja a primeira edicao foi publicada em 1738. Sua

contribuicao e conhecida como “Princıpio da Media Aritmetica”. A partir dessa data,

varios estudiosos passaram a estudar e obter mais informacoes sobre temas relacionados.

O termo regressao foi utilizado pela primeira vez por Galton, por volta de 1885,

quando investigava relacoes entre caracterıstica antropometricas de sucessivas geracoes

de pessoas. Ele observou dentre outros fatos, que os filhos apresentavam as mesmas

caracterısticas dos seus pais, porem em uma intensidade menor. Por exemplo, pais com

estatura baixa tem filhos de estatura baixa, mas em media, a estatura destes e maior. O

mesmo ocorre, mas em direcao contraria, para pais com estatura maior. Este fenomeno,

da altura dos filhos mover-se em direcao a altura media de todos os homens (regredirem

para a media), ele denominou de regressao (CHIACCHIO, 1993).

Ate o inıcio da decada de 70, as principais tecnicas desenvolvidas para os modelos de

regressao nao linear se restringiam a suposicao de normalidade para a variavel resposta.

E mesmo apos a extensao da distribuicao da variavel resposta para a famılia exponen-

cial de distribuicoes, quando os modelos lineares generalizados foram desenvolvidos por

(NELDER; WEDDERBURN, 1972), os modelos normais nao lineares, comumente conhe-

cido como (MNNL) continuaram recebendo um tratamento especial, surgindo diversos

artigos cientıficos na mesma decada e em decadas posteriores, destacando-se o livro de

(RATKOWSKY, 1983), que descreve varios MNNL, segundo diversos aspectos.

14

2.2 Modelos de regressao linear

A analise de regressao consiste na realizacao de analise estatıstica com o objetivo de

verificar a existencia de relacao funcional significativa entre variaveis. Em outras palavras,

consiste na obtencao de uma equacao que explica a variacao da variavel dependente Y

pela variacao dos nıveis de variaveis independentes X (CHARNET et al., 1999). Ajustar

modelos de regressao lineares, e um dos metodos estatısticos utilizados quando se quer

estudar o comportamento de variaveis quantitativas e os efeitos lineares produzidos por

elas.

As variaveis Y e X podem estar relacionadas de forma linear, polinomial, exponencial,

logarıtmica, entre outras. Especificamente os metodos que estabelecem relacoes lineares

para os parametros de um modelo entre uma ou mais variaveis sao denominados metodos

de regressao linear.

Seja o modelo de regressao linear simples, dado por:

yi = βo + β1Xi + εi, com i = 1, . . . , n, (2.1)

em que Xi representa cada observacao da variavel explicativa X; β0 representa o coefici-

ente linear da reta, ou seja, representa o ponto inicial para a variavel Y ; β1 representa o

coeficiente angular da reta, ou seja, o grau que a reta faz com o eixo X, e define tambem

o quanto aumenta, ou diminui, o valor de Y em relacao a X; por fim, ε, sendo o erro

associado a cada observacao em relacao a reta de regressao linear. Os valores de β0 e

β1 devem ser estimados respeitando as suposicoes impostas ao modelo de regressao. Sao

elas:

i Existe relacao linear entre X e Y ;

ii A media do erro e nula, ou seja, E(ε) = 0;

ii A variancia do erro, ou variancia residual, e uma constante igual a σ2 , para todos

os valores de X;

iv Os erros nao sao correlacionados entre si;

v Os erros tem distribuicao normal, ou seja, ε ∼ N(0, σ2)

Quando se tem mais de uma variavel regressora na pratica, tem-se n observacoes so-

bre Y e X1, X2, . . ., Xk, segue-se o seguinte modelo de regressao linear multipla (HOFF-

15

MANN, 2006)

yi = βo + β1Xi1 + · · ·+ βkXik + εi, com i = 1, . . . , n. (2.2)

Deste modo, para facilitar calculos e notacoes, usa-se uma representacao matricial

para o modelo (2.2)

Y = Xβ + ε (2.3)

em que se tem:

Y =

Y1

Y2...

Yn

, X =

1 X11 · · · Xk1

1 X12 · · · Xk2

......

. . ....

1 X1n · · · Xkn

, β =

β0

β1

β2...

βk

, e ε =

ε1

ε2...

εn

As suposicoes sobre o modelo de regressao multipla sao as mesmas descritas no mo-

delos simples, apenas com algumas adaptacoes,

i Existe relacao linear entre Y e Xj ; j = 1, 2, ..., k;

ii Os valores dos xj sao sempre fixos, ou seja, eles nao sao variaveis aleatorias;

iii As variaveis aleatorias εi tem distribuicao normal;

iv E(ε) = 0 em que 0 representa o vetor nulo;

v V ar(ε) = σ2 , para todos os valores de Xj;

vi Os erros sao nao correlacionados dois a dois.

A abordagem geometrica na estatıstica fornece entre outras coisas, uma compreensao

dos metodos dos mınimos quadrados lineares e da analise de variancia usual, e subsequen-

temente, da regressao nao linear.

2.3 Modelos de regressao nao linear

De acordo com Draper e Smith (1998), os modelos de regressao sao classificados como,

lineares em relacao aos parametros, modelos linearizaveis e os modelos inerentemente nao

16

lineares.

Considere o modelo

Yi = β1Xβ22i + εi (2.4)

Derivando-se o modelo em relacao aos parametros, tem-se que

∂yi∂β1

= Xβ22i ,

∂yi∂β2

= β1Xβ22i ln(X2i)

Assim, como as derivadas obtidas no modelo tem dependencia nos parametros, pode-se

dizer que e um modelo nao linear. Porem, neste caso, se for feita uma transformacao de

variaveis, podem se tornar modelos de regressao lineares em novos parametros de acordo

com Gujarati (2006). Os modelos nao lineares sofrem essa reponderacao tornando-se dessa

forma, linearizados para facilitar a obtencao das estimativas dos parametros (BATES;

WATTS, 1988).

Por exemplo, aplicando-se o logaritmo neperiano em ambos os lados da igualdade

(2.4), o modelo passou a ser:

W i = α + β2 lnX2i + εi (2.5)

Com α = lnβ1 e W i = lnYi, e as seguintes derivadas parciais em relacao aos novos

parametros∂Wi

∂α= 1

∂Wi

∂β2= lnX2i

Agora, para a terceira classificacao diz-se que um modelo de regressao e intrinseca-

mente nao linear nos parametros, quando ele nao e linear e nem intrinsecamente linear.

Consideraremos o seguinte modelo neste caso,

yi = f(xi,θ) + εi, com i = 1, . . . , n, (2.6)

em que yi e a observacao da variavel dependente; f(xi,θ) e a funcao resposta nao linear

em θ, xi representa a variavel independente; θ e um vetor de parametros e ε e o erro ex-

perimental nao observavel diretamente, suposto independente e identicamente distribuıdo

(i.i.d) de uma distribuicao normal com media 0 e variancia σ2 desconhecida.

17

As derivadas parciais de Yi em relacao aos parametros dependem dos mesmos,

∂f

∂β0= 1,

∂f

∂β1= eβ2X

f

∂β1= β1Xe

β2X

Logo, o modelo nao satisfaz a definicao de um modelo de regressao linear e nao ha formas

de transforma-lo em um modelo linear nos parametros, dessa forma, o modelo e chamado

de intrinsecamente nao linear. Para o presente trabalho, o interesse concentra-se no ultimo

modelo (2.6). Assim, modelos em que no mınimo uma das derivadas parciais da funcao

em relacao aos parametros depende de no mınimo um dos parametros do modelo, sao

umas das definicoes de regressao nao linear apresentadas por alguns autores, tais como

Draper e Smith (1998), Bates e Watts (1988), Ratkowsky (1983) entre outros.

Um modelo de regressao e nao linear se pelo menos um dos seus parametros aparecem

de forma nao linear. Por exemplo,

E(Y ) = exp(θ1 + θ2X)

E(Y ) = θ1 + θ2exp(−θ3X)

E(Y ) = (θ1 + θ2X)−1

E(Y ) = (θ1 − θ2)−1[exp(−θ1X) + exp(−θ2X)]

sao modelos de regressao nao lineares onde E(·) denota a funcao esperanca ou funcao de

regressao.

Um dos motivos pelo qual a nao lineariedade ocorre, pode estar ligeiramente ligado

as diferencas entre os numeros de coeficientes de regressao e o numero de regressoras

(OLIVEIRA, 2004). A principal vantagem no modelo nao linear em relacao ao modelo

linear, esta na associacao a um conhecimento previo sobre a relacao a ser modelada, e

ainda que, na maioria das vezes, o MNL apresenta certos parametros que sao quantidade

de interesse para o pesquisador providos de uma interpretacao, o modelo e dito mais par-

simonioso pois possuem menos parametros. Entretanto, a desvantagem esta na estimacao

dos parametros que e por meio de procedimentos iterativos.

2.4 Estimacao dos parametros nao lineares

A maioria dos algoritmos computacionais para obtencao das estimativas de mınimos

quadrados θ e os metodos inferenciais para modelos nao lineares sao baseados em metodos

iterativos que consideram uma aproximacao linear local para o modelo (BATES; WATTS,1988).

Rawlings, Pantula e Dickey (1998) relataram que para os modelos de regressao nao linea-

18

res, o sistema de equacoes normais nao e resolvido facilmente, sendo necessarios metodos

iterativos na obtencao dessas estimativas.

2.4.1 Metodo dos mınimos quadrados

O modelo descrito em (2.4), a estimativa de mınimos quadrados de θ, denotado por θ,

minimiza a soma de quadrados dos resıduos (SQRes). Essa soma, associada ao modelo,

e dada pela seguinte expressao:

SQRes(θ) =n∑i=1

[yi − f(xi,θ)]2 (2.7)

sobre θ ∈ Θ.

Para encontrar o estimador de mınimos quadrados, e necessario fazer a diferenciacao

de (2.5) com relacao a cada um dos parametros e igualar as equacoes a zero,isto e,

∂SQRes(θ)

∂θr

∣∣∣θ

= 0 com r = 1, 2, . . . , p.

n∑i=1

[yi − f(xi,θ)]∂f(xi,θ)

∂θr

∣∣∣θ=θ

= 0 com r = 1, 2, . . . , p. (2.8)

Desta forma, determina-se um sistema de p equacoes normais (2.6) para o modelo nao

linear.

2.4.1.1 Metodo de Gauss-Newton

O metodo de Gauss-Newton, tambem conhecido como metodo da linearizacao, que se

baseia em aproximacoes lineares para a funcao esperanca f(xi,θ), a cada passo.

Suponha que θ(e) e uma aproximacao da estimativa de mınimos quadrados θ de um

modelo nao linear. Para θ proximo de θ(e) considera-se uma expansao em serie de Taylor

de primeira ordem como

f(x,θ) ≈ f(x,θ(e)) + [F (θ(e)(θ − θ(e))] (2.9)

em que, F (θ) = ∂f(x,θ)∂θ′

= ∂f(xi,θ)∂θj

.

19

Definindo r(θ) como sendo um vetor de erros, pode-se escrever

r(θ) = y − f(x,θ)

≈ r(θ(e))− F (e)(θ − θ(e))

em que, F (e) = F (θ(e)).

Substituindo r′(θ)r(θ) em SQRes(θ) obtem-se,

SQRes(θ) ≈ r′(θ(e))r(θ(e))− 2r′(θ(e))F (e)(θ − θ(e)) + (θ − θ(e))′F ′(e)F (e)(θ − θ(e))

Portanto, SQRes(θ) sera minimizada quando

θ − θ(e) = [F ′(e)F e]−1F ′(e)r(θ(e))

.

Assim, devido a aproximacao θ(e), a proxima aproximacao e dada por

θ(e+1) = θ(e) + [F ′(e)F (e)](−1)F ′(e)r(θ(e)) (2.10)

resultando no processo iterativo conhecido como Metodo de Gauss-Newton. O qual (2.10)

e repetido ate obter a convergencia.

2.5 Selecao de modelos e qualidade do ajuste

Exceto com relacao aos resıduos, as tecnicas mais usuais de diagnostico em regressao

nao-linear sao simples adaptacoes da regressao linear. Algumas dessas tecnicas serao

apresentadas nesta secao.

2.5.1 Coeficiente de determinacao

Este ajuste R2 mede a proporcao da variacao total dos dados que e explicada pelo

modelo, onde o valor do R2 pertence ao intervalo [0, 1] (FONSECA,2004) . Porem, para

o modelo nao linear nao e tao simples a aplicacao desta definicao, pois um dos criterios

para sua definicao requer a presenca do intercepto no modelo, o qual, nem sempre esta

20

presente no modelo de regressao nao linear. Desta maneira, consideraremos o R2a como

sendo uma medida proxima ao R2.

Assim segue-se que:

R2a = 1− SQE(θ)

‖y − y‖2

em que SQRes(θ) e a soma dos quadrados dos resıduos avaliados em θ, y e o valor

observado e y indica o valor estimado. Entretanto, apenas o valor do R2a nao serve como

um criterio adequado para verificacao de ajuste dos modelos, pois, em muitos casos no

ajuste de modelos nao lineares e comum a obtencao de R2a assintoticos altos e similares

(REZENDE et al.,2007).

2.5.2 Criterios de informacao AIC e BIC

O princıpio do Criterio de Informacao de Akaike (AIC) e selecionar uma combinacao

de variaveis exploratorias a modelos para a funcao de correlacao que minimize o valor

do AIC (AKAIKE, 1974) . E importante observar que, em muitas situacoes classicas,

tais como regressao linear ou em modelos de series temporais, o AIC nao e uma condicao

consistente para a selecao de modelos. Ou seja, com o crescente aumento do tamanho

das amostras, ha uma alta probabilidade de que um modelo selecionado pelo AIC nao

corresponda ao verdadeiro modelo.

O criterio de informacao de Akaike e expresso por:

AIC = −2 logL+ 2(p+ 1),

em que, L e o log de verossimilhanca maximizado e p e o numero de parametros. Segundo

este criterio, o melhor modelo e o que possui menor valor de AIC.

A comparacao de modelos tambem pode ser feita a partir de medidas de adequa-

bilidade, como o Bayesian Information Criterion (BIC) de Schwarz (SCHWARZ, 1978),

os quais sao aproximacoes do fator de Bayes. O BIC resolve este problema atraves da

introducao de um termo de penalidade para o numero de parametros do modelo dado

por:

BIC = −2 logL+ (p+ 1) ln(n)

em que, n e o numero de observacoes, ou equivalente ao tamanho da amostra, p e o

numero de parametros livres a serem estimados e logL e o valor maximizado da funcao

21

de verossimilhanca para o modelo estimado. Menor valor do BIC indica o melhor ajuste

do modelo aos dados.

2.5.3 Analise de Resıduos

Na analise de resıduos, verificam-se as pressuposicoes sob o modelo em estudo. Uma

ou mais observacoes sao ditas discrepantes (outliers) se seus resıduos sao muito grandes

(em valor absoluto) em relacao aos demais (DRAPER;SMITH,1998); PRUDENTE,(2009);

(PANOSSO; MALHEIROS,2011). Ja os pontos influentes sao observacoes que, embora

nao apresentem resıduos grandes, podem alterar significativamente as estimativas dos

parametros do modelo escolhido. Assim, para detectar a presenca de pontos influentes ou

de outliers, podem ser aplicadas tecnicas com base nos resıduos ordinarios e resıduos

padronizados. Contudo, (PRUDENTE, 2009) afirmou que os resıduos projetados sao

melhores que os resıduos ordinarios para tais verificacoes.

2.5.3.1 Matriz de projecao

Para o modelo nao linear normal, para encontrar pontos mais distantes dos demais,

provavelmente pontos influentes, se faz necessario a utilizacao da matriz de projecao

definida como: F= {hij}= X(XT ,X)−1XT , em que X deve ser avaliada em β. Os pontos

que se apresentarem afastados, sao considerados alavancas e influentes, exercendo em

geral uma grande influencia na matriz de variancias e covariancias. Diferentemente da

regressao linear classica, essa matriz e de projecao local, pois e dependente de β e devera

ser estimada em β. Ainda assim, o criterio hii ≥ 2p/n permanece sendo adotado como

referencia para detectar pontos suspeitos de serem influentes.

2.5.3.2 Resıduo projetado

Os resıduos ordinarios no modelo nao linear sao definidos por ri = yi − f(xi,θ),

i = 1, . . . , n. Em alguns casos, esses resıduos podem produzir resultados enganosos quando

usados em metodos de diagnosticos analogos aos da regressao linear, nao refletindo de

forma correta a distribuicao dos erros. Cook e Tsai (1985) apresentaram um novo tipo de

resıduo que pode superar muitas deficiencias dos resıduos usuais.

Seja C(F ) o subespaco gerado pelas colunas de F e C(F ) para representar o subespaco

ortogonal a C(F ), ou seja, o subespaco gerado pelas colunas ortogonais aquelas de F .

Definem-se as matrizes p × p, W i = ∂2f(xi,θ)∂θr∂θs

, r, s = 1, . . . , p, de derivadas de segunda

22

ordem para i = 1, . . . , n, e W como uma matriz n× (p× p) com n faces, cuja i-esima

face e igual a W i. E apresentado por Cook e Tsai (1985) uma aproximacao para o resıduo

ordinario r,dado da seguinte maneira

r ∼= (I − P )ε−Fn∑i=1

riW iδ −1

2(I − P )δ′Wδ, (2.11)

tal que δ = (θ − θ), δ′Wδ representa δ′Wiδ pra produzir a i-esima componente de r.

A matriz W apresenta p faces, e cada uma de suas faces e uma matriz n × p, em que,

n e o numero de observacoes e p o de parametros. Projeta-se cada coluna de derivadas

de segunda ordem de W sobre C(F ), tem-se P1 = S(S′S)−1S′ que e o operador de

projecao ortogonal do espaco gerado por sobre essa projecao. S = (I − P )T , em que T

e uma matriz n × q obtida pelos vetores nao nulos, de derivadas de segunda ordem e

P = F (F ′F )−1F ′. Apresenta-se V uma matriz n× (p+q) definida como V = (F, S) e

P 2 = V (V ′V )−1V ′ o operador de projecao ortogonal em C(V ). Utilizando as matrizes

descritas anteriormente, Cook e Tsai (1985) definem o resıduo projetado dado por

(I − P2)r = (I − P )ε− (I − P1)ε. (2.12)

O primeiro termo de (2.12) e a aproximacao linear para o resıduo ordinario r, enquanto

o segundo termo reflete a perda de informacao necessaria para remover os componentes

nao lineares de (2.11). Alem disso, de (2.12), mostra-se que

E(I − P2)r = 0, V ar(I − P2)r = σ2(I − P2)

e

Er′(I − P2)r = σ2tr(I − P2)

Logo, uma estimativa alternativa para σ2 e expressa por

σ2 =r′(I − P2

)r

tr(I − P2

)Em geral, os resıduos projetados apresentam maior qualidade de diagnostico do que

os ordinarios, e, algumas das tecnicas de diagnostico utilizadas na regressao linear, sao

validas para esses resıduos. Na regressao linear, mesmo para erros nao-correlacionados e de

variancia constante, os resıduos sao correlacionados e tem variancias diferentes. Definem-

se, entao, os resıduos estudentizados que mesmo correlacionados, apresentam media zero

23

e variancia constante e igual a um. O i-esimo resıduo ordinario estudentizado e expresso

por

ti =ri

s(1− pii)1/2), i = 1, · · ·, n

Os resıduos projetados estudentizados tem esperanca nula e variancia σ2(I − P2) e

podem ser, entao, definidos, como

si =(I − P2)ri

σ(I − P2)1

ii/2, i = 1, · · ·, n (2.13)

De acordo com Prudente (2009) para avaliar se os erros ε′is tem distribuicao, aproxi-

madamente, normal, assim como para detectar se ha pontos aberrantes e/ou influentes,

o grafico de probabilidades dos resıduos projetados ordenados si versus Φ−1(i− 3

8n+

14

) pode

ser util, sendo Φ(.) a funcao de distribuicao acumulada da normal padrao. A analise dos

resıduos em (2.12) procede-se, similarmente, ao modelo normal linear.

2.5.4 Medidas de Influencia

Ocasionalmente algumas observacoes exercem grande influencia na determinacao dos

coeficientes de regressao do modelo. Tais observacoes sao denominadas influentes. A

deteccao de observacoes atıpicas deve ser considerada simultaneamente com a deteccao das

observacoes que exercem grande influencia na determinacao dos coeficientes de regressao

do modelo (PEIXOTO, 2013).

A estrategia de eliminar pontos e uma tecnica usual para avaliar o impacto da retirada

de uma observacao particular nas estimativas dos parametros. A distancia de Cook (1977),

originalmente desenvolvida para modelos normais lineares, foi rapidamente assimilada e

estendida para diversas classes de modelos. A eliminacao individual de pontos pode

ocasionar um problema conhecido como efeito de “mascarar”, ou seja, deixar de detectar

pontos conjuntamente discrepantes.

A disposicao dos pontos no espaco das variaveis de regressao e importante na de-

terminacao das propriedades do modelo. Em particular, as observacoes remotas podem,

potencialmente, exercer o efeito de uma “alavanca”nas estimativas dos parametros, nos

valores previstos e nas estatısticas utilizadas.

A matriz jacobiana da transformacao F = F (θ) = X(X>X

)−1X> e util na identi-

ficacao dessas observacoes influentes. Os valores dos elementos hij da matriz F podem

24

ser interpretados como a intensidade da “alavancagem”exercida pelos valores observados

(yi) sobre os valores ajustados (yi). Portanto, a inspecao dos elementos da matriz F pode

revelar pontos potencialmente influentes devido a sua localizacao no espaco das variaveis

independentes.

Os elementos da diagonal da matriz F sao denotados por hii. Pode-se demonstrar que∑Ni=1 hii = p. Portanto, a magnitude media dos elementos hii da diagonal da matriz X e

P/N . Assim, uma forma aproximada, mas eficaz, de verificar se a i-esima observacao yi

e um ponto de grande ”alavancagem”, e verificar se o elemento hii da diagonal da matriz

F e maior que 2P/N , ou seja, se o valor de hii associado a i-esima observacao yi e duas

vezes maior que a media de todos os hii da diagonal da matriz X. Caso seja constatado

que um ou mais valores de hii sao maiores que 2P/N , entao pode-se concluir que estas

observacoes especıficas sao pontos de grande “alavancagem”(MYERS, et al. 2002).

Cook (1977) sugeriu a utilizacao de uma medida do quadrado da distancia entre

a estimativa dos mınimos quadrados θ e uma estimativa obtida excluindo-se o i-esimo

ponto, θ(i). Em geral, a medida desta distancia, denominada distancia de Cook, pode ser

expressa como sendo:

Di =(θi − θ)T (XTX)(θi − θ)

P ×MSE(2.14)

em que, MSE e a media dos quadrados do erro. Portanto, pode-se interpretar Di, tambem,

como a medida da mudanca no vetor dos valores ajustados quando nao usa-se a observacao

i para estimar θ.

A versao escalar da expressao para a estatıstica Di proposta por Atkinson (1985) e,

Di =r2i hii

P (1− hii)2

sendo ri o i-esimo resıduo ordinario estudentizado.

A distancia de Cook prove uma ordenacao das observacoes em termos da sua influencia

sobre o vetor das estimativas dos coeficientes. A intencao nao e aplicar um teste formal, e

sim fornecer uma ajuda para detectar as observacoes influentes. Cook e Weisberg (1982)

afirmam que e conveniente analisar casos em que Di > 0, 5 e e sempre importante analisar

casos em que Di > 1. Esta analise consiste em verificar se a observacao e realmente

influente ou se e consequencia de um modelo inadequado.

25

3 Aplicacao

Encontram-se nesta secao as principais metodologias que serviram de base para este

trabalho, tanto no que se refere ao ajuste do modelos , quanto na utilizacao das tecnicas

de diagnosticos.

3.1 Material e metodos

Os dados para realizacao deste trabalho foram utilizados os dados que encontra-se em

Ratkowsky (1983, p.88), em que avaliou-se conteudo de agua das celulas da raiz do feijao

(y) em funcao da distancia da ponta (x), totalizando 15 observacoes (Tabela 1).

Tabela 1: Observacoes conteudo de agua das celulas da raiz do feijao (y) em funcao dadistancia da ponta (x)

x y

0,5 1,31,5 1,32,5 1,93,5 3,44,5 5,35,5 7,16,5 10,67,5 16,08,5 16,49,5 18,310,5 20,911,5 20,512,5 21,313,5 21,214,5 20,9

O modelo de regressao nao linear utilizado, afim de inferir sobre a relacao existente

entre as variaveis foram os modelos logısitico e o gompertz.

Segundo Pinheiro e Bates (2000), o modelo logıstico assumiram a seguinte estrutura

f(xn;θ) =θ1

1 + exp [(θ2 − xn)/θ3], θ = (θ1, θ2, θ3). (3.1)

26

Se θ3 > 0, entao θ1 e a assıntota horizontal quando x → ∞ e 0 e a assıntota horizontal

quando x → −∞. Se θ3 < 0, esses papeis sao invertidos. O parametro θ2 e o valor de

x para o qual a resposta e θ1/2, este e o ponto de inflexao da curva. O parametro de

escala θ3 representa a distancia no no eixo x entre o ponto de inflexao e o ponto em que

a resposta e θ1/(1 + e−1)≈ 0, 73θ1.

Os parametros do modelo (3.1) sao apresentados na Figura 1.

Figura 1: Representacao grafica do modelo logıstico com tres parametros, sendo θ1 aassıntota horizontal assıntota quando x→∞, θ2, o valor de x para o qual y = (θ1)/2 , eθ3 e o parametro de escala sobre o eixo x

O modelo Gompertz e definido como

f (xn,θ) = θ1 exp [−θ2 exp (−θ3x)] (3.2)

em que, o parametro θ1 e definido como peso assintotico. Um outro parametro, θ3 deter-

mina a eficiencia do crescimento e o θ2 e denominado parametro de inflexao (SILVA et

al., 2001).

Para a estimacao dos parametros do modelo nao linear foi utilizada a tecnica dos

mınimos quadrados ordinarios, com o uso do metodo iterativo de Gauss-Newton (BATES;

WATTS, 1988). Dentre as estatısticas fornecidas pelo procedimento de estimacao, foram

obtidos intervalos de confianca para os parametros e a correlacao entre eles, bem como

o coeficiente de determinacao assintotico (R2a). Para a comparacao do modelo logıstico

com o gompertz foi utilizado os criterios de informacao AIC e BIC. Apos obtencao das

estatisticas citas acima, procedeu-se a analise dos resıduos do modelo para verificar a

qualidade do ajuste.

27

3.2 Resultados e discussao

As estimativas encontradas para os parametros do modelo obtida por meio de apro-

ximacao assintotica, bem como os valores do erro padrao da estimativa, o valor-p e os

intervalos de confianca a 95%, para a concentracao de potassio estao nas Tabelas 2 en-

contrados ao longo dos dias.

Tabela 2: Estimativas dos parametros dos modelos logıstico e gompertz, erro padrao daestimativa (E.P.E.), valores p para o teste t e intervalos de confianca (IC) de 95%, para oconteudo de agua das celulas da raiz do feijao em funcao da distancia da ponta

.

Modelo Parametros Estimativas E.P.E. V alor p IC (95%)

Logistico θ1 21,5089 0,4154 <,0001 (20,6039; 22,4138)θ2 6,3604 0,1388 <,0001 ( 6,0578; 6,6628)θ3 1,6072 0,1152 <,0001 (1,3562; 1,8582)

Gompertz θ1 22,5066 0,8373 <,0001 (20,6823; 24,3308)θ2 8,2175 1,9320 <,0001 (4,0079; 12,4270)θ3 0,3881 0,0459 <,0001 (0,2881; 0,4881)

Observa-se que a maioria dos parametros sao significativamente diferente de zero a

95%, pois o intervalo assıntotico nao contem a constante zero (Tabela 2).

Na Figura 2 sao apresentados os ajustes de cada modelo em relacao oa dados, verifcando-

se um aumento no conteudo da agua das celulas da raiz de feijao a medida que a raız se

distancia da ponta.

Figura 2: Ajuste do conteudo de agua das celulas da raiz do feijao em funcao da distanciada ponta para o modelo logıstico e gompertz

Uma vez realizadas as analises univariadas, foram empregados criterios para verificar a

qualidade do ajuste, alem de comparar os modelos. Os avaliadores da qualidade de ajuste

28

(Tabela 3) indicam que o modelo logıstico apresentou maior R2a. O criterio de informacao

AIC e BIC tambem indicaram que, o modelo logıstico e o mais adequado, pois o mesmo

apresentaram menores valores de AIC e BIC para os modelos ajustados aos dados. Varios

autores, em diversas areas, baseiam-se nos criterios citados acima para selecionar o melhor

modelo. O AIC nao e uma prova sobre o modelo, no sentido de testar hipoteses, mas uma

ferramenta para a selecao de modelos, nao e um teste de hipoteses, e como tal nao ha

significancia e nem valor de probabilidade associado (valor-p) (BURNHAM; ANDERSON,

2002).

Tabela 3: Coeficiente de determinacao (R2a) e valores de AIC e BIC para os dois modelos

ajustados

Modelo R2 AIC BICLogıstico 0,9927 37,3404 40,1726Gompertz 0,9866 47,9415 50,7737

Segundo Floriano et al. (2006), o uso do criterio de Akaike mostrou-se adequado como

criterio de selecao de modelos para representar uma serie temporal de dados de altura de

arvores. Segundo Peixoto (2013), quando se ajusta um modelo a um conjunto de dados e

imprescindıvel que as estimativas obtidas a partir do modelo proposto sejam resistentes

a pequenas perturbacoes nos dados ou no modelo. Se o modelo ajustado nao apresentar

uma boa descricao dos dados que foram observados, esse pode conduzir a inferencias

erroneas. Assim, e necessario verificar as suposicoes dos erros, a presenca de possıveis

pontos influentes e a validacao do ajuste do modelo adotado. Para essa etapa, metodos

de analise de sensibilidade e resıduos sao ferramentas essenciais para detectar anomalias

do modelo ajustado.

Foi possıvel observar por meio da Figura 3 suspeitas da presenca de valores discrepan-

tes nos dados observados, conforme o grafico de resıduos projetados, convem ressaltar, no

entanto, que o numero de observacoes e pequeno e assim, mesmo supondo que a distri-

buicao dos erros seja normal, a probabilidade de aparecerem valores discrepantes e grande.

Pode-se notar que, os resıduos projetados estao dispostos de maneira aleatoria em torno

de zero. No ajuste dos modelos logıstico foi verificado resıduo fora do intervalo (-2; 2),

indicando que pode haver uma certa correlacao entre as observacoes, podendo ser ser um

possıvel outlier.

Mickey et al. (1967) e Draper e Smith (1998) tambem declararam que um outlier

nao precisa ser influente depois de analisar alguns experimentos. E util considerar uma

29

Figura 3: Grafico dos resıduos projetados para a relacao existente entre o conteudo deagua das celulas da raiz do feijao em funcao da distancia da ponta para o modelo logısticoe gompertz

observacao influente como um tipo particular de outlier. Na Figura 4 foi possıvel verificar

que a observacao em destaque, para o ajsute do modelo logıstico, e uma observacao

influentes sobre todos os valores ajustados, pois os valores encontrados pela distancia

de Cook, Di, foi maior qua a unidade absoluta (< 1 em modulo). O valor destacado

apresenta indıcios de ser um possıveloutliers).

Figura 4: Grafico das distancias de Cook para para a relacao existente entre o conteudode agua das celulas da raiz do feijao em funcao da distancia da ponta para o modelologıstico e gompertz

Reajustou-se o modelo eliminando conjuntamente a observacao detectada na analise

de diagnostico. Todos os parametros continuaram sendo individualmente significativos ao

nıvel de significancia 5% mesmo excluindo a observacao do grupo.

Na Figura 5 encontram-se os graficos dos elementos da diagonal da matriz de projecao

para os dois modelos ajustados, para tanto, nenhum ponto excedeu o valor crıtico de

30

2p/n = 0, 4, sendo que o ponto em destaque nao pode ser considerado influente.

Figura 5: Grafico dos elementos da diagonal da matriz de projecao versus a ordem dasobservacoes do conteudo de agua das celulas da raiz do feijao em funcao da distancia daponta para o modelo logıstico e gompertz

31

4 Conclusao

Por meio deste trabalho verificou-se a importancia dos ajustes de modelos nao lina-

eres representados atraves das curvas de crescimentos, pois alem de simples e facil inter-

pretacao, tem-se mostrado muito util para caracterizar a especie em estudo. Os modelos

ajustados, o Logıstico e o Gompertz se mostraram apropriados para descrever a curva de

crescimento para os dados apresentados. Apos a analise dos dados, atraves dos criterios

e dos metodos estatısticos, o modelo que melhor descreveu o aumento do conteudo de

agua das celulas da raiz do feijao foi o Logıstico, sendo o mais indicado para representar

a curva de crescimento medio.

32

5 Referencias Bibliograficas

AKAIKE, H. A A new look at the statistical model identification. IEEE Transation

on Automatic Control. New York, v. 19, p. 716-723, 1974.

BATES, D. M.; WATTS, D. G. Relative curvature measures of nonlinearity (With dis-

cussion). Journal of the Royal Statistical Society, Ser. B, v.42, n. 1, p. 1-25,

1980.

BATES, D. M.; WATTS, D. G. Nonlinear regression analysis and its applications.

New York: Wiley series in probability e mathematical statistics, 1988. 365p.

CHARNET, R. et al. Analise de modelos de regressao linear com aplicacoes. Sao

Paulo: Unicamp, 1999. 354p.

CHIACCHIO, E. Regressao nao linear desenvolvimento de um sistema compu-

tacional e aplicacoes. 1993. 149 p. Dissertacao (Mestrado em Agronomia) - Escola

Superior de Agricultura ”Luiz de Queiroz”, Universidade de Sao Paulo, Piracicaba, 1993.

COOK, R. D.; TSAI, C. L.; WEI, B. C. Bias in nonlinear regression. Biometrika,

London, v. 73, n. 3, p. 615-623, Dec. 1986.

DRAPER, N. R.; SMITH, H. Apllied regression analysis. 3. ed. New York: J. Wiley,

1998. 706p.

FONCECA, J. S.; MARTINS, G. A.; TOLEDO, G. L. Estatıstica Aplicada. 2nd ed.

Sao Paulo:Atlas, 2011.

GUJARATI, D. Econometria basica. 4. ed. Sao Paulo: Campus, 2006. 806p.

HOFFMAN, R.; VIEIRA, S. Analise de Regressao: Uma Introducao a Econome-

tria. Sao Paulo: Hucitec, 2006.

MOIVRE, A. The doctrine of chances: or, a method of calculating the pro-

babilities of events in play. London: Millar. 3.ed., 348 p., 1756. Disponıvel em:

¡http://books.google.com.br/booksv=onepage f=false¿. Acesso em: 10 abril. 2014.

OLIVEIRA, M. M.; Modelos de Regressao nao Lineares. 2004 Disponıvel em:

¡http://www.fep.up.pt/disciplinas/2E103/nlin.pdf¿. Acesso em: 20 junho. 2014.

33

PRUDENTE, A. A. Modelos nao-lineares de regressao: Alguns aspectos de teoria

assintotica. 2009.

RATKOWSKY, D. A. Nonlinear regression modelling. a unified practical approach,

New York: Marcel Dekker, 1983. 276p.

RAWLINGS, J. O.; PANTULA, S.G.; DICKEY, D. A. Applied regression analysis.

2nd ed. New York: Springer, 1998. 659 p.

REZENDE, D.M.L.C.; MUNIZ, J.A.; FERREIRA, D.F.; SILVA, F.F.; AQUINO, L.H.de.

Ajuste de modelos de plato de resposta para a exigencia de zinco em frangos de corte.

Ciencia e Agrotecnologia, Lavras, v.31, p.468-478, 2007.

SCHWARZ, G. Estimating the dimension of a model. Annals of Statistics. Hayward,

v. 6,n. 2, p. 461-464, 1978.

Aplica˘c~ao dos modelos log stico e gompertz em dados de...

Documents

Transcript of Aplica˘c~ao dos modelos log stico e gompertz em dados de...