Análise de Regressão Múltipla com informação qualitativa: variáveis binárias (dummy)
1
variáveis binárias (dummy)
Como descrever informações qualitativas?
Fatores qualitativos podem ser incorporados a modelos de regressão.
Neste caso, classificamos os dados conforme algumas características qualitativas.
2
Exemplos: ser homem ou ser mulher; ser branco ou negro; morar no Rio ou em Niterói.... etc.
Estas variáveis qualitativas podem ser regressoresou variáveis dependentes.
Existem formas de incorporá-las ao modeloeconométrico.
Variáveis binárias ou dummy
Nestes casos, as informações relevantes podem ser captadas pela definição de uma variável binária (variável zero-um)
Definição de uma dummy: identificar o Definição de uma dummy: identificar o evento que assumirá o valor um e o evento que assumirá o valor zero.
É sempre bom denominar a variável pelo evento que é igual a um:� Ser homem é igual a 1 – chamar a variável de
“homem” 3
Variáveis binárias ou dummy
Como fica o banco de dados?
4
Exemplo: com uma variável binária
Somente dois fatores afetam os salários: gênero e escolaridade
Qual a diferença entre o salário hora do homem e da mulher, dado o mesmo nível educacional?
5
6
Exemplo 2:
Se educação, experiência e permanência foram características relevantes para a produtividade, a hipótese nula para não existência de diferença entre homens e mulheres seria:
A alternativa seria que existe discriminação contra mulheres:
7
0: 0 =δo
H
0: 0 <δo
H
Banco de dados: wage1.gdt
Rode o modelo acima
Quanto a mulher ganha , em média, a Quanto a mulher ganha , em média, a menos que o homem?
8
Modelo 1: MQO, usando as observações 1-526 Variável dependente: wage
Coeficiente Erro Padrão razão-t p-valor
const -1,56794 0,724551 -2,1640 0,03092 ** female -1,81085 0,264825 -6,8379 <0,00001 *** educ 0,571505 0,0493373 11,5836 <0,00001 *** exper 0,0253959 0,0115694 2,1951 0,02860 **
9
exper 0,0253959 0,0115694 2,1951 0,02860 ** tenure 0,141005 0,0211617 6,6632 <0,00001 ***
Média var. dependente 5,896103 D.P. var. dependente 3,693086 Soma resíd. quadrados 4557,308 E.P. da regressão 2,957572 R-quadrado 0,363541 R-quadrado ajustado 0,358655 F(4, 521) 74,39801 P-valor(F) 7,30e-50
Banco de dados: wage1.gdt
Rode o mesmo modelo acima, mas excluindo todos controles com exceção da dummy feminino.
� Qual o salário hora médio dos homens?
� O que é o intercepto?
� Teste de comparação das médias
10
Modelo 2: MQO, usando as observações 1-526 Variável dependente: wage
Coeficiente Erro Padrão razão-t p-valor
const 7,09949 0,210008 33,8058 <0,00001 *** female -2,51183 0,303409 -8,2787 <0,00001 ***
11
female -2,51183 0,303409 -8,2787 <0,00001 ***
Média var. dependente 5,896103 D.P. var. dependente 3,693086 Soma resíd. quadrados 6332,194 E.P. da regressão 3,476254 R-quadrado 0,115667 R-quadrado ajustado 0,113979 F(1, 524) 68,53668 P-valor(F) 1,04e-15
Banco de dados: GPA1.gdtEfeitos de se possuir computadores na avaliação de cursos superiores
� PC = 1 se o aluno tem computador em casa.
� hsGPA: nota no final do ensino médio
� ACT: nota do exame vestibular� ACT: nota do exame vestibular
Qual o efeito sobre a nota média final prevista no curso superior?
O que acontece com o efeito se retirar hsGPA e ACT? Interprete o significado do coeficiente de PC.
12
Modelo 1: MQO, usando as observações 1-141 Variável dependente: colGPA
Coeficiente Erro Padrão razão-t p-valor
const 1,26352 0,333126 3,7929 0,00022 *** PC 0,157309 0,0572875 2,7460 0,00684 *** hsGPA 0,447242 0,0936475 4,7758 <0,00001 ***
13
hsGPA 0,447242 0,0936475 4,7758 <0,00001 *** ACT 0,00865901 0,0105342 0,8220 0,41251
Média var. dependente 3,056738 D.P. var. dependente 0,372310 Soma resíd. quadrados 15,14868 E.P. da regressão 0,332527 R-quadrado 0,219386 R-quadrado ajustado 0,202292 F(3, 137) 12,83426 P-valor(F) 1,93e-07
Modelo 2: MQO, usando as observações 1-141 Variável dependente: colGPA
Coeficiente Erro Padrão razão-t p-valor
const 2,98941 0,0395018 75,6779 <0,00001 *** PC 0,169517 0,0626804 2,7045 0,00770 ***
14
Média var. dependente 3,056738 D.P. var. dependente 0,372310 Soma resíd. quadrados 18,43601 E.P. da regressão 0,364188 R-quadrado 0,049989 R-quadrado ajustado 0,043154 F(1, 139) 7,314107 P-valor(F) 0,007697
Avaliação de políticas
Qual efeito de um programa econômico ou social sobre os indivíduos, empresas, etc...
Dois grupos de estudo: Dois grupos de estudo: � Grupo de controle: não participa do programa
� Grupo de tratamento: participa do programa
Escolha dos grupos de controle e tratamento não é aleatória.
15
Avaliação de políticas
Definição do grupo de controle e tratamento:� Grupo de Tratamento: pessoas (do público- alvo) que serão atendidas pelo projeto.que serão atendidas pelo projeto.
� Grupo de Controle: pessoas com características similares, mas que não serão atendidas pelo projeto.
16
Banco de dados. JTRAIN.GDTEfeitos da concessão de subsídios sobre as horas de treinamento
Dados de 1988 indústrias de Michigan
hrsemp: horas de treinamento por empregado no nível da empresa.
Subs = 1 se a indústria recebeu subsídio17
Variável dependente na forma log
Regressão dos preços dos imóveis
Banco de dados Hprice1.gdt
Dummy colonial: igual a 1 se o imóvel tiver estilo colonial. Qual a sua interpretação?
18
Reestimar o exemplo 2
Use log(salário hora)
Inclua termos quadráticos para experiência e tempo de permanência.e tempo de permanência.
Quanto as mulheres ganham a menos que os homens?
Qual a diferença percentual exata entre homens e mulheres?
19
20
Reestimar o exemplo 2
)297,0exp(/
)297,0exp())/exp(log(
297,0)/log(
297,0)log()log(
−=
−=
−=
−=−
salariohsalariom
salariohsalariom
salariohsalariom
salariohsalariom
21
257,01)297,0exp(
1
)297,0exp(/
−=−−=−
−=−
−=
salarioh
salariohsalariom
salarioh
salariom
salarioh
salariohsalariom
salariohsalariom
Dummies para múltiplas categorias
Suponha que seus dados sejam sobre pessoas que trabalham nos setores primário, secundário e terciário da economia.
Para compará-los, inclua 2 variáveis dummies:
22
Para compará-los, inclua 2 variáveis dummies:
prim = 1 se a pessoa trabalha no setor primário e= 0 caso contrário; e sec = 1 se ela trabalha no setor secundário e = 0 caso contrário.
Dummies para múltiplas categorias
Suponha que seus dados sejam sobre pessoas que trabalham nos setores primário, secundário e terciário da economia.
Para compará-los, inclua 2 variáveis dummies:
23
Para compará-los, inclua 2 variáveis dummies:
prim = 1 se a pessoa trabalha no setor primário e= 0 caso contrário; e sec = 1 se ela trabalha no setor secundário e = 0 caso contrário.
Categorias múltiplas (cont.)
Qualquer variável expressa em categorias pode ser transformada em uma variável dummy.
Como o caso base é representado pelo
24
Como o caso base é representado pelo intercepto, se há n categorias, devem havern – 1 dummies.Se há muitas categorias, pode-se agrupar algumas delas.
Exemplo: Equação do log salário hora
Modelo que considere as diferenças salariais entre quatro grupos: � Homens casados (marrmale)
Homens solteiros (grupo base)
25
� Homens solteiros (grupo base)� Mulheres casadas (marrfem)� Mulheres solteiras (singfem)
O “prêmio” por ser casado não é o mesmo para homens e mulheres!!!
Exemplo: Equação do log salário hora
26
Lembre do grupo base!!!!
As estimativas das três variáveis medem a diferença proporcional nos salários relativamente aos homens solteiros.
Exemplo: Equação do log salário hora
Os homens casados ganham cerca de 21,3% mais que os homens solteiros.Uma mulher casada deve ganhar 19,8% a menos que um homem solteiro.
27
que um homem solteiro.Diferença proporcional estimada entre as mulheres solteiras e as casadas é (-0,110-(-0,198)) = 0,088. Mulheres solteiras ganham 8,8% a mais que as mulheres casadas.
Interação entre dummies
Interagir dummies é como subdividir o grupo. Exemplo: ter dummies para homens assim como para prim e sec.Adicione homem*prim e homem*sec, para um total de 5 dummies e 6 categorias.
28
total de 5 dummies e 6 categorias.O caso base é: mulher no terciário. prim é para mulheres no setor primário e sec é para mulheres no setor secundário.As interações refletem homens no primário e homens no secundário.
Mais sobre dummies de interaçãoFormalmente, o modelo é y = β0 + δ1homem + δ2prim + δ3sec + δ4homem*prim + δ5homem*sec+ β1x + u. Então, por exemplo:Se homem = 0, prim = 0 e sec = 0:y = β + β x + u
29
y = β0 + β1x + u
Se homem = 0, prim = 1 e sec = 0:y = β0 + δ2prim + β1x + u
Se homem = 1, prim = 0 e sec = 1:y = β0 + δ1homem + δ3prim + δ5homem*sec + β1x + u
Exemplo:
30
Outra forma de encontramos diferencias de salário entre homens casados, homens solteiros, mulheres casadas e mulheres solteiras.
Outras interações com dummies
Podemos também interagir uma dummy, d, com uma variável contínua, x:
y = β0 + δ1d + β1x + δ2d*x + u.
31
y = β0 + δ1d + β1x + δ2d*x + u.
Se d = 0, então y = β0 + β1x + u.
Se d = 1, então y = (β0 + δ1) + (β1+ δ2) x +
u.
Temos uma mudança na inclinação.
y
y = β0 +β1x
Exemplo de δ0 > 0 e δ1 < 0
d = 0
32x
y = (β0 + δ0) + (β1 + δ1) x
d = 1
Exemplo:
Queremos verificar se o retorno da educação é o mesmo para homens e mulheres:
mede a diferença nos interceptos entre homens e mulheres
oδ
33
homens e mulheres
mede a diferença no retorno da educação entre homens e mulheres.
1δ
interação
34
35
• O retorno estimado da educação dos homens é 8,2%.
• Para as mulheres, o retorno é 0,082-0,0056 = 0,0764 (7,6%).
• Esta diferença de retorno é pouco significativa. Logo, não podemos rejeitar a hipótese nula de que o retorno para homens e mulheres é igual.
Teste para diferenças entre grupos
Testar se uma função de regressão é diferente para um grupo em relação a outro pode ser pensado simplesmente como um teste para a significância conjunta da dummy e suas interações com todas as outras variáveis x.
36
com todas as outras variáveis x.
A hipótese nula é que os modelos não sãodiferentes para os grupos.Então, estimam-se os modelos com e sem todas as interações e calcula-se a estatística F.
Mas quando há muitas interações, há um procedimento mais fácil.
Teste para diferenças entre grupos
Suponha que temos dois grupos e queremos testar se
interceptos e inclinações são diferentes para estes dois
grupos:
37
uxxxxy kkggggg ++++++= ....3... ,3,22,11,0, βββββ
Temos k+1 restrições.
O teste de ChowÉ possível calcular a estatística F sem estimarmos o modelo irrestrito completo.Estima-se o SQR do modelo irrestrito, estimando o modelo para cada grupo: obtenha a SQR1; depois, faça o mesmo para o outro grupo e
38
depois, faça o mesmo para o outro grupo e obtenha a SQR2:
Estima-se o modelo restrito considerando todos os grupos juntos e obtenha a SQR. Então:
( )[ ] ( )[ ]1
12
21
21
+
+−
+
+−=
k
kn
SQRSQR
SQRSQRSQRF
O teste de Chow (cont.)
O teste de Chow é apenas um teste F usual de exclusão de variáveis, se você observar que SQRir
= SQR1 + SQR2.
Observe que há k + 1 restrições (cada uma das
39
Observe que há k + 1 restrições (cada uma das inclinações e o intercepto).
Observe que o modelo irrestrito estimaria dois diferentes interceptos e duas inclinações diferentes, logo temos n – 2k – 2 graus de liberdade no denominador.
Modelo de Probabilidade Linear
Regressão múltipla para explicar um evento qualitativo.
y é 0 ou 1.y é 0 ou 1.
40
Top Related