Capítulo 1 - Análise Exploratória de Dados

30
Capítulo 1 Análise Exploratória de Dados

Transcript of Capítulo 1 - Análise Exploratória de Dados

Page 1: Capítulo 1 - Análise Exploratória de Dados

Capítulo 1Análise Exploratória de Dados

Page 2: Capítulo 1 - Análise Exploratória de Dados

Introdução

A finalidade da Análise Exploratória de Dados (AED) éexaminar os dados previamente à aplicação de qualquertécnica estatística. Desta forma o analista consegue umentendimento básico de seus dados e das relações existentesentre as variáveis analisadas.

Após a coleta e a digitação de dados em um banco de dadosapropriado, o próximo passo é a análise descritiva. Esta etapaé fundamental, pois uma análise descritiva detalhada permiteao pesquisador familiarizar-se com os dados, organizá-los esintetizá-los de forma a obter as informações necessárias doconjunto de dados para responder as questões que estãosendo estudadas.

Page 3: Capítulo 1 - Análise Exploratória de Dados

Etapas da AED

Para realizar uma AED recomenda-se seguir as seguintesetapas:

preparar os dados para serem acessíveis a qualquertécnica estatística;realizar um exame gráfico da natureza das variáveisindividuais a analizar e uma análise descritiva que permitaquantificar alguns aspectos gráficos dos dados;realizar um exame gráfico das relações entre as variáveisanalisadas e uma análise descritiva que quantifique o graude inter-relação entre elas;identificar os possíveis casos atípicos (outliers);avaliar, se for necesário, a presença de dados ausentes(missing);avaliar, se for necesário, algumas suposições básicas,como normalidade, lineariedade e homocedasticidade.

Page 4: Capítulo 1 - Análise Exploratória de Dados

Etapas da AED

A AED extrai informações de um conjunto de dados sem opeso das suposições de um modelo probabilístico. As técnicasgráficas desempenham um importante papel nesta forma deabordagem.

Para que a AED possa ser compreendida, a seguir mostramosa estratégia de análise da Estatística Clássica, EstatísticaBayesiana e estas duas são confrontadas com a AnáliseExploratória de Dados.

Page 5: Capítulo 1 - Análise Exploratória de Dados

Etapas da AED

Abordagem Estratégia

Estatística Clássica Problema→ Dados→ Modelo→ AnáliseEstatística Bayesiana Problema→ Dados→ Modelo Priori→ AnáliseEDA Problema→ Dados→ Análise→ Modelo

De acordo com o quadro acima, diferentemente do que é feitona Estatística Clássica e Estatística Bayesiana, na AnáliseExploratória de Dados não há a imposição de um modelo aosdados, mas sim um trabalho de mineração nos dados quepode eventualmente indicar qual o melhor modelo.

A AED vai além do uso descritivo da estatística, procura olharde forma mais profunda os dados, sem resumir muito aquantidade de informações.

Page 6: Capítulo 1 - Análise Exploratória de Dados

Técnicas Gráficas e Resumos Numéricos

Os gráficos constituem uma das formas mais eficientes deapresentação de dados. Um gráfico é, essencialmente, umafigura constituída a partir de uma tabela, pois é quase semprepossível localizar um dado tabulado num gráfico.

Enquanto as tabelas fornecem uma idéia mais precisa epossibilitam um tratamento mais rigoroso aos dados, osgráficos são mais indicados em situações cujo objetivo é daruma visão mais rápida e fácil das variáveis às quais se referemos dados.

Portanto, a qualidade na representação gráfica deve serpautada na clareza, simplicidade e autoexplicação. Astécnicas gráficas desempenham um papel fundamental naAED.

Page 7: Capítulo 1 - Análise Exploratória de Dados

Escalas de Mensuração

As técnicas a serem utilizadas dependem da natureza demensuração das variáveis de interesse:

Nominal: as variáveis são medidas em classes discretas,mas não é possível estabelecer ordem.Ordinal: as variáveis são medidas em classes discretasentre as quais é possível definir uma ordem, segundo umarelação descritível mas não quantificável.Intervalar: as variáveis assumem valores quantitativos,não possuem zero absoluto, i.e. não possuem umamedida de ausência de atributo.Razão: as variáveis assumem valores quantitativos, cujarelação exata entre estes é possível definir porque estaescala possui um zero absoluto.

Page 8: Capítulo 1 - Análise Exploratória de Dados

Escalas de Mensuração

O tipo da análise que pode ser realizado depende da escala demedida da variável analizada. Na tabela a seguir se sugeremas representações gráficas e resumos descritivos numéricosmais recomendáveis para realizar essa análise.

Escala de Representações Medidas de Medidas demedida Gráficas tendência central dispersão

Diagrama de barrasNominal Diagrama de linhas Moda

Diagrama de pizza

Ordinal Boxplot Mediana Intervalo Interquartílico

HistogramasIntervalo Polígono de frequências Média Desvio padrão

Razão Média Geométrica Coeficiente de Variação

Page 9: Capítulo 1 - Análise Exploratória de Dados

Tipos de variáveis

Variável:Qualquer característica associada a uma população

Classificação:Qualitativa: são aquelas que apresentam como possíveisrealizações uma qualidade ou atributo do indivíduopesquisado

Nominal: sexo, cor dos olhosOrdinal: classe social, grau de instrução

Quantitativa: são aquelas que apresentam comopossíveis realizações números resultantes de umacontagem ou mensuração

Contínua: peso, alturaDiscreta: número de filhos, número de carros

Page 10: Capítulo 1 - Análise Exploratória de Dados

Variáveis Quantitativas

Medidas de posição: valor ao redor do qual os dados estãodistribuídos.

Máximo (max): a maior observaçãoMínimo (min): a menor observaçãoModa (Mo): é o valor (ou atributo) que ocorre com maiorfrequência.Média (X ): soma de todos os valores da variável divididapelo número de observações.Mediana (Me): valor que deixa 50% das observações àsua esquerdaQuartis: divide um conjunto de valores dispostos em formacrescente em quatro partes.

Primeiro Quartil (Q1): valor que deixa 25% dasobservações à sua esquerda.Terceiro Quartil (Q3): valor que deixa 75% dasobservações à sua esquerda.

Page 11: Capítulo 1 - Análise Exploratória de Dados

Variáveis Quantitativas

Medidas de Dispersão: A finalidade é encontrar um valor queresuma a variabilidade de um conjunto de dados

Amplitude: diferença entre o valor máximo e o valormínimoIntervalo-Interquartil: É a diferença entre o terceiro quartile o primeiro quartil, ou seja, Q3 - Q1Variância: média dos quadrados dos desvios em relação àmédia aritméticaDesvio Padrão: mede a variabilidade independente donúemro de observações e com a mesma unidade demedida da médiaCoeficiente de Variação: mede a variabilidade numaescalapercentual independente da unidade de medida ou daordem de grandeza da variável

CV =sX

100%

Page 12: Capítulo 1 - Análise Exploratória de Dados

Exame Gráfico dos Dados

Distribuição:Histograma, ramo-e-folhas

Relação entre as variáveis:Diagrama de dispersão

Diferenças entre grupos:Box-plot (observações atípicas podem aparecer somente apósagrupamento)

Page 13: Capítulo 1 - Análise Exploratória de Dados

Descrição dos dados

É importante conhecer e saber construir os principais tipos detabelas, gráficos e medidas resumo para realizar uma boaanálise descritiva dos dados. Cada ferramenta fornece um tipode informação e o seu uso depende, em geral, do tipo devariável que está sendo investigada.

variável qualitativa* variável quantitativa

tabela de frequências medidas de posição: média, mediana, modagráfico de barras medidas de dispersão: variância, desvio-padrão,diagrama circular (pizza) amplitude, coeficiente de variação

tabela de frequênciashistogramaboxplotgráfico de linha ou sequênciapolígono de frequências

*Esta abordagem também pode ser interessante para as variáveis quantitativas

discretas.

Page 14: Capítulo 1 - Análise Exploratória de Dados

Tabela de frequências

Como o nome indica, conterá os valores da variável e suasrespectivas contagens, as quais são denominadas frequênciasabsolutas ou simplesmente, frequências.

No caso de variáveis qualitativas ou quantitativas discretas, atabela de frequência consiste em listar os valores possíveis davariável, numéricos ou não, e fazer a contagem na tabela dedados brutos do número de suas ocorrências.

A frequência do valor i será representada por ni , a frequênciatotal por n e a frequência relativa por hi = hi/n.

Page 15: Capítulo 1 - Análise Exploratória de Dados

Tabela de frequências

Para variáveis cujos valores possuem ordenação natural(qualitativas ordinais e quantitativas em geral), faz sentidoincluirmos também uma coluna contendo as frequênciasacumuladas Ni e Hi , obtidas pela soma das frequências detodos os valores da variável, menores ou iguais ao valorconsiderado.

No caso das variáveis quantitativas contínuas, que podemassumir infinitos valores diferentes, a tabela de frequênciaprecissa de classes ou faixas de valores e contamos o númerode ocorrências em cada faixa.

Apesar de não adotarmos nenhuma regra formal paraestabelecer as faixas, utilizaremos em geral, de 5 a 8 faixascom mesma amplitude. Eventualmente, faixas de tamanhodesigual podem ser convenientes para representar valores nasextremidades da tabela.

Page 16: Capítulo 1 - Análise Exploratória de Dados

Tabela de frequências

Frequência Frequência Frequência FrequênciaClasses Intervalos absoluta relativa absoluta relativa

acumulada acumulada

C (LIi − LSi ) ni hi Ni Hi

c1 (LI1 − LS1) n1 h1 =n1n N1 = n1 H1 =

N1n = h1

. . . . . . . . . . . . . . . . . .

cj (LIj − LSj ) nj hj =njn Nj = n1 + n2 + . . . + nj Hj =

Njn = h1 + h2 + . . . + hj

. . . . . . . . . . . . . . . . . .

ck (LIk − LSk ) nk hk =nkn Nk = n Hk = 1

Page 17: Capítulo 1 - Análise Exploratória de Dados

Medidas de posição no caso de dados agrupados

Média: Sejam y1, y2, . . . , yk os pontos médios de cadaintevalo de classe de uma distribuição de frequência de kclasses

Y =

∑kj=1 niyi

nMediana:

Me = LIj = c((n/2)− Nj−1

nj)

Moda:

Mo = LIj + c(nj − nj−1

(nj − nj−1) + (nj − nj+1))

Page 18: Capítulo 1 - Análise Exploratória de Dados

Exemplo

Adaptado do dataset Household Expenditures (Aitchison, 1986):Gastos domiciliares de 38 domicílios (HK$) em quatro grupos de despesas:

1 Moradia, gás, luz, etc2 Alimentação, incluindo bebidas e tabaco3 Outros bens, incluindo vestuário e bens duráveis4 Servicos, incluindo transporte e veículos

Dataset:

sex: sexo do chefe da família (male/female)

children: número de filhos (adaptado por Marcelo Lauretto)

housing, foodstuffs, othergoods, services: gastos mensais em cada grupo dedespesas

Page 19: Capítulo 1 - Análise Exploratória de Dados

Gráfico de barras

Para construir um gráfico de barras, representamos os valoresda variável no eixo das abscissas e suas frequências ouporcentagens no eixo das ordenadas. Para cada valor davariável desenhamos uma barra com altura correspondendo àsua frequência ou porcentagem.

Este tipo de gráfico é interessante para as variáveis qualitativasordinais ou quantitativas discretas, pois permite investigar apresença de tendência nos dados.

Page 20: Capítulo 1 - Análise Exploratória de Dados

Gráfico de Barras

Figura: Número de filhos por sexo do chefe de familia

Page 21: Capítulo 1 - Análise Exploratória de Dados

Diagrama Circular

Para construir um diagrama circular ou gráfico de pizza,repartimos um disco em setores circulares correspondentes àsporcentagens de cada valor (calculadas multiplicando-se afrequência relativa por 100). Este tipo de gráfico adapta-semuito bem para as variáveis qualitativas nominais.

Page 22: Capítulo 1 - Análise Exploratória de Dados

Diagrama Circular

Figura: Esq: Percentual de domicílios por sexo do chefe de familia;Dir: Percentual de domicílios por número de filhos

Page 23: Capítulo 1 - Análise Exploratória de Dados

Diagrama Circular

Figura: Percentuais de domicílios por número de filhos(segmentação por sexo)

Page 24: Capítulo 1 - Análise Exploratória de Dados

Histograma

O histograma consiste em retângulos contíguos com base nasfaixas de valores da variável e com área igual à frequênciarelativa da respectiva faixa. Desta forma, a altura de cadaretângulo é denominada densidade de frequência ousimplesmente densidade definida pelo quociente da área pelaamplitude da faixa.

Alguns autores utilizam a frequência absoluta ou aporcentagem na construção do histograma, o que podeocasionar distorções (e, consequentemente, másinterpretações) quando amplitudes diferentes são utilizadasnas faixas.

Page 25: Capítulo 1 - Análise Exploratória de Dados

Histograma

Page 26: Capítulo 1 - Análise Exploratória de Dados

Boxplot

Para construí-lo, desenhamos uma caixa com o nível superiordado pelo terceiro quartil (Q3) e o nível inferior pelo primeiroquartil (Q1). A mediana (Q2) é representada por um traço nointerior da caixa e segmentos de reta são colocados da caixaaté os valores máximo e mínimo, que não sejam observaçõesdiscrepantes.

O critério para decidir se uma observação é discrepante podevariar; chamaremos de discrepante os valores maiores do queQ3 + 1, 5 ∗ (Q3−Q1) ou menores do queQ1− 1, 5 ∗ (Q3−Q1).

O Boxplot fornece informações sobre posição, dispersão,assimetria, caudas e valores discrepantes.

Page 27: Capítulo 1 - Análise Exploratória de Dados

Boxplot

Figura: Consumos domiciliares por grupo de despesa, em escalanatural (esq) e logarítmica (dir)

Page 28: Capítulo 1 - Análise Exploratória de Dados

Gráfico de linha ou sequência

Adequados para apresentar observações medidas ao longo dotempo, enfatizando sua tendência ou periodicidade.

Page 29: Capítulo 1 - Análise Exploratória de Dados

Polígono de frequências

Semelhante ao histograma, mas construído a partir dos pontosmédios das classes.

Page 30: Capítulo 1 - Análise Exploratória de Dados

Diagrama de dispersão

Adequado para descrever o comportamento conjunto de duasvariáveis quantitativas. Cada ponto do gráfico representa umpar de valores observados.