Introdução ao STATA vs. 9 (PDF)

13
Universidade Federal do Rio de Janeiro Faculdade de Medicina Departamento de Medicina Preventiva Instituto de Estudos de Saúde Coletiva Introdu Introdu çã çã o ao o ao STATA STATA Tania Guillén de Torres ([email protected]) Rejane Sobrino Pinheiro (rejane @iesc.ufrj.br) Introdu Introdu çã çã o ao STATA o ao STATA técnicas descritivas simples ou ajuste de modelos complexos O STATA é um Software que permite analisar grandes bases de dados, usando métodos estatísticos. Introdu Introdu çã çã o ao STATA o ao STATA Vantagens: Vantagens: 1. Requer pouco espaço no disco rígido 2. Requer pouca memória RAM - se necessário é possível aumenta-la, através do comando “set mem 300m” por exemplo. 3. Métodos gráficos poderosos na parte de diagnóstico de modelos 4. Boa interface com processadores de texto e impressoras 5. É atualizado con freqüência - e publica o Stata Technical Bulletin . 6. Na página http://www.stata.com encontram-se disponíveis diversas rotinas que podem ser copiadas para o diretório c:\ado e executadas dentro do Stata. Desvantagens Desvantagens Não importa arquivos de bancos de dados (Dbase, Epi Info, Acces, etc.) diretamente requer de um programa de interface (Stat-Transfer) Introdu Introdu çã çã o ao STATA o ao STATA Operadores usados pelo STATA : Operadores usados pelo STATA : Operadores Aritméticos + Adição - Subtração * Multiplicação / Divisão ^ exponenciação Operadores Lógicos & e | ou ~ não Operadores Relacionais = igual ( Obs. Após o comando “if” devemos usar == ) ~= diferente > maior >= maior igual < menor <= menor igual Obs. As expressões lógicas assumem o valor 1 para “verdadeiro” e 0 para “falso”.

Transcript of Introdução ao STATA vs. 9 (PDF)

Page 1: Introdução ao STATA vs. 9 (PDF)

Universidade Federal do Rio de JaneiroFaculdade de MedicinaDepartamento de Medicina PreventivaInstituto de Estudos de Saúde Coletiva

IntroduIntrodu çãção ao o ao STATA STATA

Tania Guillén de Torres([email protected])

Rejane Sobrino Pinheiro(rejane @iesc.ufrj.br)

IntroduIntrodu çãção ao STATA o ao STATA

� técnicas descritivas simples

� ou ajuste de modelos complexos

O STATA é um Software que permite analisar grandes bases de dados, usando métodos estatísticos.

IntroduIntrodu çãção ao STATA o ao STATA Vantagens:Vantagens:

1. Requer pouco espaço no disco rígido

2. Requer pouca memória RAM - se necessário é possível aumenta-la, através do comando “set mem 300m” por exemplo.

3. Métodos gráficos poderosos na parte de diagnóstico de modelos

4. Boa interface com processadores de texto e impressoras

5. É atualizado con freqüência - e publica o Stata Technical Bulletin .

6. Na página http://www.stata.com encontram-se disponíveis diversas rotinas que podem ser copiadas para o diretório c:\ado e executadas dentro do Stata.

DesvantagensDesvantagens

� Não importa arquivos de bancos de dados (Dbase, Epi Info, Acces, etc.) diretamente requer de um programa de interface (Stat-Transfer)

IntroduIntrodu çãção ao STATA o ao STATA Operadores usados pelo STATA :Operadores usados pelo STATA :

Operadores Aritméticos

+ → Adição

- → Subtração

* → Multiplicação

/ → Divisão

^ → exponenciação

Operadores Lógicos

& → e

| → ou

~ → não

Operadores Relacionais= → igual ( Obs. Após o comando “if” devemos usar == )

~= → diferente

> → maior

>= → maior igual

< → menor

<= → menor igual

Obs.As expressões lógicas assumem o valor 1 para “verdadeiro” e 0 para “falso”.

Page 2: Introdução ao STATA vs. 9 (PDF)

Iniciando o STATAClicar 2 vezes no ícone do STATA do Windows

Caso não exista o ícone clique a seguinte seqüência

iniciar →→→→ Programas →→→→ Stata →→→→

� Command : Dos comandos a serem executados

� Results : Saídas dos comandos executados

� Variables : Lista de variáveis do banco em uso

� Review : Comandos já executados

� Stata Graph : Gráficos

Janelas do STATAJanelas do STATA

Os comandos também podem ser digitados a partir da janela dos comandos.

Barra de FerramentasO menu do STATA permite a execução de diversas tarefas de forma análoga a maioria dos programas para o sistema Windows.

e se necessário podem ser repetidos clicando duas vezes no comando desejado a partir da janela [Review]

Permite realizar tarefas do tipo:

� Abrir e salvar bases de dados no formato STATA (*.dta)

� Abrir e salvar gráficos criados pelo STATA

� Executar programas de comandos criados pelo usuário (*.do)

� Abrir e salvar arquivo que guarde as saídas da janela de resultados,

� Importar e salvar arquivos em formato ASCII

FileFile

Page 3: Introdução ao STATA vs. 9 (PDF)

EditEdit

É possível: Copiar e colar

� bases de dados

� Saídas da janela de Resultados em formato texto ou tabela

PreferencesPreferences

Permite personalizar

• As cores das janelas do Stata

• Dos Gráficos

• Voltar as configurações Padrão.

DataData

Descrever o banco de dados

Editar a base de dados

Sortear o banco

Combinar bases de Dados do tipo: “Append” ou “Merge”

Criar rótulos para a base de dados, variáveis ou categorias de variáveis

Mudar o nome das variáveis,

eliminar observações / variáveis

Procurar observações duplicadas

Operações com matrizes

Calculadora

GraphicsGraphics

Elaborar gráficos tipo:

� Histograma

� Boxplot

� Barra

� Setores

� Dispersão,

� Diagnósticos para os modelos de regressão

� Series Temporais

� Controle de qualidade

� Etc.

Page 4: Introdução ao STATA vs. 9 (PDF)

� Estatística descritiva (Médias, proporções, intervalos de confiança, testes de hipóteses, etc.

� Modelos de Regressão :

� Linear

� Logística

� Sobrevida

� Lineares Generalizados

� Séries Temporais (Arima, Arch/Garch)

� Dados Longitudinais

� Amostragem Complexa

� Analise Multivariada (Componente principais, Analise Fatorial, etc.)

� Bootstrap/Jackknife

StatisticsStatistics

Permite lembrar a sintaxe dos comandos,

� Pesquisar tópicos no site do STATA.

� Obter versões atualizadas do STATA.exee dos programas com extensão *.ado

� Importar e instalar rotinas desenvolvidas por outros pesquisadores,

Janela do HELP:Janela do HELP:

Barra de Ferramentas ....contBarra de Ferramentas ....cont

• Abrir arquivos do tipo *.dta

• Salvar arquivo *.dta em uso

• Janela do Log

• Editar base de dados

• Browse – nao permite modificar a base de dados

• Editor de arquivos de comandos (*.do)

• Janela do “Help”

• Interrompe execução de comandos

Janela [[[[Log…]…]…]…]: As saídas da janela de “Resultados ” podem ser salvas em formato:

*.log ou *.smcl

O formato *.log pode ser editado no bloco de notas, Word, etc.

Barra de FerramentasBarra de Ferramentas

� mostrar conteúdo do arquivo que guarda as saídas

� fechar o arquivo *.log

� suspender temporariamente a gravação das saídas no

arq.log

� Resume → redireciona as saídas novamente ao

arq.log

Page 5: Introdução ao STATA vs. 9 (PDF)

1. É possível criar a base diretamente no editor

2. Importar ou exportar arquivos do tipo ASCII e planilhas

3. E copiare colar no editor do STATA dados de outras planilhas

Bases de Dados no STATABases de Dados no STATA

Obs. Não esquecer de apertar o botão “Preserve” para manter as alterações feitas no banco de dados no editor de dados

Entrada de DadosEntrada de DadosClicar no botão [Editor]

Digitar os dados na planilha Stata - uma coluna por variável e uma linha por paciente.

O Stata automaticamente escolhera o tipo da variável de acordo com os valores digitados.

Para dar nome à variável clique 2 vezes numa célula da coluna correspondente e digite o nome da variável, que deverá ter no máximo 8 caracteres no campo “Name” e o rótulo da variável no campo “Label”.

Stata usa o ponto “.” para indicar que a observação émissing

Nome de variáveis Adicionando novas observaAdicionando novas observaçõçõesesNa janela do [Data Editor ] , bastará digitar as novas observações nas linhas vazias que se encontram após a última preenchida.

Adicionando novas variAdicionando novas variááveisveisNa janela do editor basta digitar os valores da nova variavel numa coluna vazia e depois atribuir-lhe um nome

� Não esqueça de apertar o botão [Preserve] para que o Stata guarde as mudanças feitas no banco de dados

� Aperte o [X] no canto superior direito para sair da janela do editor.

� Salve o banco na opção File � [Save as] indique o diretório e escreva o nome do arquivo.

Page 6: Introdução ao STATA vs. 9 (PDF)

ImportaImporta çãção / Exportao / Exportaçãção de dadoso de dados

Lembre que o Stata tem os recursos do windows “copiar” e “colar” que permitem importar qualquer planilha tipo windows ou salvar bancos do tipo Stata (*.dta) em outros tipos de planilhas.

Exemplo:

1. Abrir a planilha “leucemia0.xls” no programa Excell

2. Marque e copie as linhas e colunas com o nome e o conteúdo das variáveis que serão coladas no Stata (use o ícone de copiar ou “Ctrl+c")

3. No Stata posicione o cursor na célula da primeira linha e primeira coluna e cole a área selecionada, apertando o botão direito do mouse selecione a opção colar ou use a opção “Ctrl+v”

ImportaImporta çãção / Exportao / Exportaçãção de dadoso de dados

Lembre que o Stata tem os recursos do windows “copiar” e “colar” que permitem importar qualquer planilha tipo windows ou salvar bancos do tipo Stata (*.dta) em outros tipos de planilhas.

Os comandos “Import” ou “infile – na janela de comandos ” do STATA permitem ler um banco de dados em formato ASCII e “Export” ou “outfile- na janela de comandos ” permitem salvar o banco de dados em uso, no formato ASCII, para que possa ser importado por qualquer outro pacote que leia este formato.

Existem ainda 2 aplicativos o Stat/Transfer do propio STATA e o DBMSCOPY que permitem transformar bancos tipo Stata para outros formatos.

StatStat//Transfer Transfer É possível transformar bancos de dados em formatos DBASE, Lotus, Excel, Paradox, SPSS, Splus, SAS, etc. para o formato STATA ou para qualquer um dos formatos anteriores

• input file type o tipo do banco de dados de entrada

• file especificationa unidade, a pasta, e onome do banco origem

• ouput file type o tipo do banco de dados de saida

• file especificationa unidade, a pasta, e onome do banco destino

Obs: Também é possível escolher as variáveis e as observações a serem incluídas no banco destino.

Sintaxe de um comando STATASintaxe de um comando STATA[by varlist:] comando [varlist] [=exp] [if exp] [in range] [weight] [, options]

os elementos nos colchetes são opcionais

by : o comando é repetido para cada valor da variável ou variáveis contidas navarlist

varlist : lista de variáveis para as quais será executado o comando, sevarlist for omitida, o comando será executado para todas as variáveis

=exp : opção usada nos comandosgenerate, replace, egenpara definir ou transformar variáveis ( generate imc=peso/(altura*altura)

if : restringe a ação do comando a aquelas observações para as quais a expressão é verdadeira (edit if sexo==”masculino” � editor de dados mostrara as observações de indivíduos do sexo masculino )

in : restringe a ação do comando a aquelas observações contidas no intervalo definido no “range” (ex.: edit in1/10 � editor de dados mostrara as primeiras 10 observações)

weight : variável contendo os pesos que serão usados para ponderar as observações

options : indica as opções específicas a cada comando que serão usadas, devem ser precedidas sempre por uma vírgula.

Page 7: Introdução ao STATA vs. 9 (PDF)

Conhecendo o conteúdo do BancoConhecendo o conteúdo do Banco

Describe variables in memory

Data Describe Data

describe ou desc:

permite conhecer o conteúdo de um banco de dados tipo STATA,

fornecendo uma série de detalhes como por exemplo: número de

observações, número de variáveis, data da última atualização, lista de

variáveis com seus respectivos tipos e formatos e os rótulos criados.

Conhecendo o conteúdo do Banco

. desc

Contains data from F:\Regressao\Introd_Stata9\leucemia _wbc0.dta

obs: 42 Leukemia Remission Study

vars: 8 6 Aug 20 08 08:26

size: 1,008 (99.9% of memory free)

--------------------------------------------------- -----------------

storage display value

variable name type format label varia ble label

--------------------------------------------------- -----------------

weeks byte %8.0g Weeks in remission

relapse byte %8.0g yesno Relapse

trtment byte %8.0g trtment Treatment

logwbcc float %9.0g White blood cell count (ln)

sex byte %8.0g sexlbl Sex

trtwbcc float %9.0g trtment x logwbcc

lgwbccat float %9.0g wbc

trlwbcat float %9.0g

--------------------------------------------------- -----------------

Sorted by:

Label: colocando Rótulos

Podemos associar descrições (rótulos oulabels) a uma base de dados, a uma variável ou aos códigos de uma variável.

No Banco de Dados

Para associar uma descrição, de até 31 caracteres, a uma base de dados

Data ���� Labels ���� Label dataset

label dataset

Para associar uma descrição, de até 31 caracteres, a um banco dedados.

Data ���� Labels ���� Label dataset

Inserir comentário sobre o banco de dados

Page 8: Introdução ao STATA vs. 9 (PDF)

Label Variable

Para associar uma descrição, de até 31 caracteres, a uma variável do banco de dados.

Data ���� Labels ���� Label variable

Inserir comentário sobre a variável

Labels a definir nas observações

. label list

wbc: 0: Baixo 1: Medio 2: Alto

yesno: 0:Nao 1:Sim

sexlbl: 0: Feminino 1: Masculino

trtment: 0:tratamento 1:placebo

Nas Observações

Para criar e associar uma descrição, as categorias ou valores deuma variável do banco de dados

1. Defina os rótulos para cada uma das categorias

a. Clique 2 vezes no

botão “Define....”

Data ���� Labels ���� Label values ���� Define or modify value labels

Nas Observações

d. Digite os códigos e seus respectivos rótulos para cada uma das categorias

e. Após digitar o último código e rótulo, clique no [Cancel]e na janela seguinte no [Close]

c. Clique em “OK”

b. Nome do conjunto de rótulos

Código

Rótulo

Page 9: Introdução ao STATA vs. 9 (PDF)

Associar o conjunto de rótulos à variável originalAssociar o conjunto de rótulos à variável original

1

2 – escolha avariável

3 – escolha oconjunto de rótulos

4

Labels ���� Label values ���� Assign value labels to variables

Gerando novas variáveis: Gerando novas variáveis: logwbcclogwbcc == loglog (( wbccwbcc ))

Create new Variable

DataCreate or change variables

Cria uma variável “newvar” adicional no banco de dados, que irá receber o valor da expressão “exp” , para as observações selecionadas na condição “if” e/ou no intervalo “in”.

. generate float logwbcc = log(wbcc)

nome da nova variável: logwbcc

Expressão que define a nova variável: log(wbcc)

Create new Variable

DataCreate or change variables

. generate float wbcc2 = (wbcc)^2

Gerando novas variáveis: Gerando novas variáveis: wbcc2 = (wbcc2 = ( wbccwbcc )^2)^2

Obs: Quando há muitas categorias, é interessante buscar uma fórmula matemática que automatize a atribuição de valores às categorias.

. generate float logwbcat = int(logwbcc/2)

Gerando novas variáveisGerando novas variáveis

Create new Variable

DataCreate or change variables

Page 10: Introdução ao STATA vs. 9 (PDF)

Corrigindo os valores de uma variCorrigindo os valores de uma variCorrigindo os valores de uma variCorrigindo os valores de uma variCorrigindo os valores de uma variCorrigindo os valores de uma variCorrigindo os valores de uma variCorrigindo os valores de uma variáááááááávelvelvelvelvelvelvelvelReplace- muda o conteúdo de variáveis e/ou de observações já definidas de acordo

com as regras especificadas na expressão “=exp”

Change contentsof Variable

DataCreate or change variables

. replace wbcc2 = sqrt(wbcc)(42 real changes made)

Muda conteúdo da variável: wbcc2

Expressão que corrige a variável: sqrt(wbcc)

Observação:

sqrt(wbcc)= raíz quadrada da variável ¨wbcc¨

Corrigindo valores Corrigindo valores Recode Recode -- muda o conteúdo de alguns valores ou de toda a variável já

definida de acordo as regras especificadas

Change contentsof Variable

DataCreate or change variables

. replace wbccat2 = 2 if logwbcc>=4(7 real changes made)

Gerando novas variáveis: variável IndicadoraGerando novas variáveis: variável Indicadora

Create new Variable

DataCreate or change variables

. generate float wbccat2 = (wbcc>10) & wbcc~=.

Condição

Gerando novas variáveis: Pontos de corte (2.3, 3)Gerando novas variáveis: Pontos de corte (2.3, 3)

Create new Variable extended

DataCreate or change variables

. egen float logwbccat3 = cut(logwbcc), at(0,2.29999, 2.999999,5.1) icodes

Opção: pontos de corte

Indicar: mínimo, valores anteriores aos pontos de corte e máximo

Page 11: Introdução ao STATA vs. 9 (PDF)

Gerando novas variáveis: Pontos de corte (com largura Gerando novas variáveis: Pontos de corte (com largura de intervalo fixa)de intervalo fixa)

Create new Variable extended

DataCreate or change variables

. egen float logwbccat5 = cut(logwbcc), at(0(1)6) icod es

Opção: ¨Cut¨ -pontos de corte

Indicar: mínimo, (largura do intervalo) e máximo.

Obs: 0(1)6 vai gerar os códigos: 0,1,2,3,4 que representam as faixas:

1|-2, 2 |-3, 3 |-4, 4 |-5 e 5 |-6

Nome da nova variável

Nome da variável original

Usar os códigos: 0,1,2,..

Escolha de variEscolha de variááveis e/ou observaveis e/ou observaçõçõesesDrop – elimina as variáveis ou observações selecionadas do banco em uso.

keep – é um comando similar aodrop, porem neste comando especifica-se as variáveis e/ ou observações que ficaram no banco

Keep or drop variablesData Variables utilities

Escolha de observaEscolha de observaçõçõeses

Keep or drop observationsData Variables utilities

. keep in 1/35(7 observations deleted)

Manter as observações 1 até 35

Keep

Escolha de observaEscolha de observaçõçõeses

Keep or drop observationsData Variables utilities

Exemplos

drop wbcc2 ���� elimina a variável “wbcc2”

keep weeks relapse trtment sex wbcc logwbcc���� variáveis que ficam no banco

drop if relapse==1 � elimina todas as observações para as

quais “ relapse==1”

Page 12: Introdução ao STATA vs. 9 (PDF)

Olhando somente algumas observaçõesOlhando somente algumas observações

Existem diferentes maneiras de visualizar o conteúdo dos arquivos de dados:

Edit,

List e

Browse.

Olhando somente algumas observaçõesOlhando somente algumas observações

EditEdit ::

� O icone do “Edit” permite, acessar a planilha de dados do [Editor] do Stata. Apresentando o conteúdo de todas as variáveis e todos os registros, sendo possível também criar novas variáveis, fazer entrada de novas observações, edição dos já existentes, etc.

� O comando “edit” (digitado na janela de comandos) pode ser usado para visualizar subconjuntos de variáveis ou de observações.

EditEdit ::

Data ���� Data editor Exemplos para digitar na janela de comandos:

� edit weeks relapse

� edit weeks relapse if trtment==0

� edit weeks relapse if trtment==0 in 15/35

Olhando somente algumas observaçõesOlhando somente algumas observações

EditEdit ::

Page 13: Introdução ao STATA vs. 9 (PDF)

List

É um comando permite que os valores das variáveis e/ou observações selecionadas na expressão dolist sejam apresentados na janela de resultados.

Para tal siga a seqüência:

Data ���� Describe data ���� List data

Na Janela “Main ” do “List – List values of variables” selecione as variáveis que serão listadas na janela de resultados.

se deseja selecionar somente algumas observações digite acondição no retângulo do “if”

por exemplo: “sexo==0” ou se deseja pode usar a opção [Usea range of observations] na janela “by/if/in”

List

Na Janela “Main ” do “List – List values of variables” selecione as variáveis que serão listadas na janela de resultados.

List – List values of variables”

Se deseja selecionar somente algumas observações digite acondição no retângulo do “if” (por exemplo: “sex==0 & trtment==1”) na opção [Restrict to observations] na janela “by/if/in”

. list weeks relapse ifsex==0 & trtment==1

+-----------------+

| weeks relapse |

|-----------------|

5. | 17 0 |

6. | 19 0 |

13. | 10 1 |

15. | 6 1 |

17. | 11 0 |

|-----------------|

20. | 13 1 |

21. | 10 0 |

25. | 9 0 |

27. | 6 0 |

38. | 6 1 |

|-----------------|

41. | 7 1 |

+-----------------+

Browse:

É um comando que também permite visualizar a planilha de dados ou uma parte dela, com a diferença que este comando não permite realizar mudanças nas celulas da planilha.

É uma alternativa ao comando “list”

. browse weeks relapse if trtment==0 in 15/35 , nolabel

Data ���� Data browser (read-only editor)