Regressão Logística e Aplicações em Software Estatísticos

29
Regressão Logística e Aplicações em Software Estatísticos Orientando : Alexandro Vieira Lopes Orientadora : Profª. Drª.Vilma Mayumi Tachibana Co-Orientador : Prof. Dr. Fernando Antônio Moala 1/ 2 9

description

Regressão Logística e Aplicações em Software Estatísticos. Orientando : Alexandro Vieira Lopes Orientadora : Profª. Drª.Vilma Mayumi Tachibana Co-Orientador : Prof. Dr. Fernando Antônio Moala. 1/ 29. INTRODUÇÃO. Modelagem Regressão Logística Simples - PowerPoint PPT Presentation

Transcript of Regressão Logística e Aplicações em Software Estatísticos

Page 1: Regressão Logística e Aplicações em Software Estatísticos

Regressão Logística e Aplicações em Software

EstatísticosOrientando : Alexandro Vieira Lopes

Orientadora : Profª. Drª.Vilma Mayumi Tachibana

Co-Orientador : Prof. Dr. Fernando Antônio Moala

1/ 29

Page 2: Regressão Logística e Aplicações em Software Estatísticos

INTRODUÇÃO

2/ 29

ModelagemRegressão Logística SimplesRegressão Logística MúltiplaSeleção de Variáveis STEPWISEAvaliação do ajuste do modeloNoções sobre Regressão Logística

Multinomial

Page 3: Regressão Logística e Aplicações em Software Estatísticos

MODELAGEM

3/ 29

OBJETIVO: Refletir sobre uma porção da realidade, na tentativa de explicá-la, de entendê-la.

O processo é selecionar no sistema, argumentos ou parâmetros considerados essenciais e formalizá-los : o modelo. (representação do sistema).

Quanto mais complexo for o modelo, mais difícil será mostrar sua validade, isto é, que ele descreve a realidade.

Page 4: Regressão Logística e Aplicações em Software Estatísticos

MODELAGEM

4/ 29

Etapas da Modelagem

1 Experimentação : obtenção os dados. 2 Abstração : procedimento formulação dos modelos matemáticos, procura-se estabelecer:

-Seleção de variáveis: variáveis de estado que descrevem a evolução do sistema variáveis de controle que agem sobre o sistema.

-Formulação de hipóteses: observação dos fatos, comparação com outros estudos, dedução lógica,etc.

Page 5: Regressão Logística e Aplicações em Software Estatísticos

MODELAGEM

5/ 29

3 Resolução: A Formulação as vezes só pode ser viabilizada através de métodos computacionais, dando uma solução numérica aproximada.

4 Validação: é o processo de aceitação ou não do modelo proposto.

Teste dos dados empíricos, comparando suas soluções e previsões com os valores obtidos no sistema real.

Page 6: Regressão Logística e Aplicações em Software Estatísticos

MODELAGEM

5 Modificação: alguns fatores ligados ao problema original podem provocar a rejeição ou aceitação dos modelos.

Alguma hipótese : falsa ou não suficientemente próxima da verdade, ou seja, os pressupostos de partida são incorretos;

Alguns dados ou informações podem ter sido obtidos de maneira incorreta;

Existem outras variáveis envolvidas na situação real que não foram utilizadas.

6/ 29

Page 7: Regressão Logística e Aplicações em Software Estatísticos

MODELAGEM

Escolha de temasBuscar informações relacionadas com o assunto.

Uma das formas é a coleta de dados qualitativos ou numéricos que pode ser executada de várias formas:

Entrevistas & pesquisas executadas com métodos de amostragem aleatória.

Pesquisa bibliográfica, utilizando dados já obtidos e catalogados em livros e revistas especializadas.

7/ 29

Page 8: Regressão Logística e Aplicações em Software Estatísticos

MODELAGEM

A natureza dos dados orienta a formulação matemática dos modelos.

A relação funcional entre duas variáveis é expressa por uma fórmula matemática:

y = f (x)

x variável independentey variável dependente

8/ 29

Page 9: Regressão Logística e Aplicações em Software Estatísticos

REGRESSÃO LOGÍSTICA SIMPLES

9/ 29

P(Y = 1) relacionada com X1, X2, ..., Xp.

p assume valores no intervalo ]0,1[, não é possível admitir uma relação linear da forma p(x) = 0 + 1x1 + ... + pxp,

Contornar este problema transformação g, g(p(x)) pertença ao intervalo ]- , +[ modelada pela função linear 0 + 1x1 + ... + pxp.

Contexto de modelos lineares generalizados, a função g é denominada função de ligação.

Page 10: Regressão Logística e Aplicações em Software Estatísticos

REGRESSÃO LOGÍSTICA SIMPLES

10/29

)

11(1

))(1(1)(1

)(

1)(

)(

)()(

)(

)(

)(

)(

)(

i

i

i

i

i

i

i

i

xg

xgxg

xg

ixg

xg

i

ixg

xg

i

e

ee

e

xe

e

x

x

e

ex

, g(xi) = 0 + 1xii

i

x

x

i e

exYPx

10

10

1)|1()(

Função de

Ligação

Page 11: Regressão Logística e Aplicações em Software Estatísticos

REGRESSÃO LOGÍSTICA SIMPLES

11/29

)(

)(1

)(ixg

i

i ex

x

)()(1

)(ln i

i

i xgx

x

)(

)()()(

)(

1

11

i

ii

i

i

xg

xgxgxg

xg

e

eee

e

Transformação Logito

g(xi) = 0 + 1xiLogito

x varia de - a +, g(xi) apresenta a mesma variação.

Page 12: Regressão Logística e Aplicações em Software Estatísticos

REGRESSÃO LOGÍSTICA SIMPLES

12/ 29

Estimar 0 e 1 por Método da Máxima Verossimilhança

f (xf (xii)) é a função que expressa a probabilidade dos dados observados como uma função de parâmetros desconhecidos, seus estimadores maximizam esta função e se aproximam mais dos dados observados.

n

i 1

L() =

n

i

yi

yi

ii xx1

1))(1()( Função de Verossimilhança

ln L() =

[ yi ln (xi)+ (1-yi)ln(1-(xi)) ]

Page 13: Regressão Logística e Aplicações em Software Estatísticos

REGRESSÃO LOGÍSTICA SIMPLES

13/ 29

Não é possível igualar as expressões das derivadas parciais a zero para obter os estimadores, pois estas expressões em Regressão Logística não são lineares em 0 e 1 e assim requerem métodos especiais para suas soluções.

Estes métodos são de natureza iterativa e têm sido programados em software disponíveis de Regressão Logística.

n

iii xy

L

10

)()(ln

n

iiii xyx

L

11

)()(ln

Equações de Verossimilhança

&

Page 14: Regressão Logística e Aplicações em Software Estatísticos

REGRESSÃO LOGÍSTICA MÚLTIPLA

14/ 29

Logito Regressão Logística Múltipla :g(x) = 0 + 1x1 + 2x2 + ...+ p xp

Modelo da Regressão Logística :

Regressão Logística Simples uma variável independenteRegressão Logística Múltipla diferentes escalas e várias variáveis independentes.

)(

)(

1)(

x

x

xg

g

e

e

Probabilidade Sucesso : P ( Y = 1| x) = (x)

em que x’ = (x1, x2, ..., xp)

Page 15: Regressão Logística e Aplicações em Software Estatísticos

SELEÇÃO DE VARIÁVEIS STEPWISE

15/ 29

Etapa (0): Supondo p variáveis independentes:

ajuste do modelo apenas com o intercepto e seja L0 o log da verossimilhança.

ajuste de cada um dos p possíveis modelos univariados de regressão logística e os log de verossimilhança são comparados.

As variáveis mais importantes são aquelas com menor p-valor. Usa-se p-valor de entrada = 0,25.

)(2 0)0()0( LLG jj )0()0(2 ))(( jj pGvP

Page 16: Regressão Logística e Aplicações em Software Estatísticos

SELEÇÃO DE VARIÁVEIS STEPWISE

16/ 29

Etapa (0): Exemplo Hipotético

y x1 x2 x3 x4

Modelo com Intercepto: y = 0

y = 0 + 1x1 y = 0 + 1x2 y = 0 + 1x3 y = 0 + 1x4

menor p valor

Page 17: Regressão Logística e Aplicações em Software Estatísticos

SELEÇÃO DE VARIÁVEIS STEPWISE

17/ 29

Etapa (1): Ajuste do modelo de Regressão Logística contendo X3. log da verossimilhança deste modelo.

y = 0 + 1x3 + 2x1y = 0 + 1x3 + 2x2y = 0 + 1x3 + 2x4

Comparação do log verossimilhança Razão de Verossimilhanças (G)p-valor < pENTRADA

menor p valor

Page 18: Regressão Logística e Aplicações em Software Estatísticos

SELEÇÃO DE VARIÁVEIS STEPWISE

18/ 29

Etapa (2): devido a entrada de X2, a variável X3, não seja mais importante. Seleção Backward.Para decidir se X3 deve ser removido comparação com um segundo nível “alfa” pREMOÇÃO escolhido anteriormente.

Comparação de log de verossimilhançasp-valor > pREMOÇÃO.

pR > pE para que o algoritmo não introduza e remova a mesma variável nas etapas sucessivas.

Na fase de Seleção Forward, cada um dos p – 2 modelos de Regressão Logística são ajustados. 

Page 19: Regressão Logística e Aplicações em Software Estatísticos

SELEÇÃO DE VARIÁVEIS STEPWISE

19/ 29

Etapa (3): O algoritmo representa uma verificação na eliminação backward seguida por uma seleção forward continuando desta maneira até última etapa (S). 

Etapa (S): A etapa (S) ocorre se:todas as p variáveis que entraram no modelo OU

todas as variáveis no modelo que têm p-valores para sair menores que pR, e as variáveis não incluídas no modelo têm p-valores para entrar maiores que pE.

y = 0 + 2x2 + 3x3

Page 20: Regressão Logística e Aplicações em Software Estatísticos

VERIFICAÇÃO DO AJUSTE: TABELA DE CLASSIFICAÇÃO

20/ 29

Resume os resultados do ajuste do modelo de Regressão Logística.

Classificação cruzada da variável resposta y com os valores dicotômicos derivados da probabilidade estimada logística.

Ponto de corte c comparado com a probabilidade estimada de c. Se a probabilidade exceder c, então a variável derivada é igual a 1, senão é igual a 0.

O valor comum para c = 0,5.

Page 21: Regressão Logística e Aplicações em Software Estatísticos

VERIFICAÇÃO DO AJUSTE: TABELA DE CLASSIFICAÇÃO

21/ 29

A razão geral da Classificação correta é estimada como: 100 [(16 + 417) /575]% = 75,3 % de acerto do modelo.

Observado

Classificado Y = 1 Y = 0 Total

Y = 1 16 11 27

Y = 0 131 417 548

Total 147 428 575

SENSITIVIDADESENSITIVIDADE

ESPECIFICIDADE

Page 22: Regressão Logística e Aplicações em Software Estatísticos

VERIFICAÇÃO DO AJUSTE DO MODELO:

22/ 29

Teste de Homer-Lemeshow

Área abaixo da Curva ROC (curva Característica do Recebimento de Operação ou Receiver Operating Characteristic).

Estatística R2

Estatística Pearson Qui-Quadrado e Deviance

Page 23: Regressão Logística e Aplicações em Software Estatísticos

REGRESSÃO LOGÍSTICA MULTINOMIAL

23/ 29

Variável resposta qualquer número de níveis.

Exemplo: Estudo da escolha de um plano de saúde. A variável resposta indica o tipo de plano: A, B ou C com as covariáveis: idade, tamanho da família, renda, etc.

A Regressão Logística Multinomial também pode ser chamada Regressão Logística Politômica.

Page 24: Regressão Logística e Aplicações em Software Estatísticos

REGRESSÃO LOGÍSTICA MULTINOMIAL

24/ 29

Exemplo: 3 categorias da variável resposta

Modelo necessita de 2 funções logito.

Comparação de Categorias:

Y = 0 como referência e comparar com Y =1 e Y = 2.

....)|0(

)|1(ln)( 121211101 1 1βx'x

xx

pp xxxYP

YPg

....)|0(

)|2(ln)( 2222221202 1

βx'x

xx

ppxxxYP

YPg

Page 25: Regressão Logística e Aplicações em Software Estatísticos

RELATÓRIO FINAL

25/ 29

Comparação entre Software Comparação entre Software EstatísticosEstatísticos

Diagnóstico em Regressão LogísticaDiagnóstico em Regressão Logística

Regressão Logística OrdinalRegressão Logística Ordinal

Page 26: Regressão Logística e Aplicações em Software Estatísticos

REFERÊNCIAS

26/ 29

BASSANEZI, R. C. Ensino-aprendizagem com modelagem matemática. São Paulo: Contexto, 2004. 389 p. BUSSAB, W. de O.; MORETIN, P. A. Estatística básica. 5. ed. São Paulo: Saraiva, 2002. 526 p. COLLETT, D. Modelling binary data. London: Chapman & Hall, 1991. 369 p. FARHAT, C. A. V. Análise de diagnóstico em regressão logística. 2003. 113 f. Dissertação (Mestrado em Estatística) – Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo.

Page 27: Regressão Logística e Aplicações em Software Estatísticos

REFERÊNCIAS

27/ 29

HOSMER, D. W.; LEMESHOW, S. Applied logistic regression. 2nd ed. New York: Wiley, 2000. 375 p. ISHIKAWA, N. I. Uso de transformações em modelos de regressão logística. 2007. 92 f. Dissertação (Mestrado em Ciências) – Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo. KUBRUSLY, R. S. O tamanho do infinito. Projeto novas tecnologias de ensino. Rio de Janeiro, 2004. Disponível em: <http://www.dmm.im.ufrj.br/projeto/diversos/tamanho.html>. Acesso em: 1 jan. 2008. SOUZA, E. C. Análise de influência local no modelo de regressão logística. 2006. 101 f. Dissertação (Mestrado em Agronomia) – Escola Superior de Agricultura “Luiz de Queiroz”, Universidade de São Paulo, Piracicaba. Disponível em: <http://www.teses.usp.br/teses/disponiveis/11/11134/tde-12042006-143935/>. Acesso em: 19 mar. 2008.

Page 28: Regressão Logística e Aplicações em Software Estatísticos

BIBLIOGRAFIA

28/ 29

BUSSAB, W. de O. Análise de variância e de regressão. São Paulo: Atual, 1986. 147 p. HAIR Jr, J. F. et al. Análise multivariada de dados. Tradução de Adonai Schlup Sant’ana , Anselmo Chaves Neto. Bookman, 2005. 593 p. MOOD, A. M.; GRAYBILL, A. F.; BOES, C. D. Introduction to the theory of statistics. 3rd ed. New York: McGraw-Hill, 1974. 564 p. SOUZA, A. D. P. Métodos aproximados em modelos hierárquicos dinâmicos bayesianos. 1999. 142 f. Tese (Doutorado em Ciências em Engenharia de Produção) – COPPE, Universidade Federal do Rio de Janeiro, Rio de Janeiro. TACHIBANA, V. M. Métodos aproximados em modelos bayesianos de resposta aleatorizada e regressão logística. 1995. 133 f. Tese (Doutorado em Ciências em Engenharia de Produção) – COPPE, Universidade Federal do Rio de Janeiro, Rio de Janeiro.

Page 29: Regressão Logística e Aplicações em Software Estatísticos

Alexandro Vieira Lopes

PRESIDENTE PRUDENTE2008

4º ANO ESTATÍSTICA

Contato: [email protected]

Regressão Logística e Aplicações em Software

Estatísticos

29/ 29