aula03

26

description

Aula n.3, de alguma coisa que não me lembro muito bem.

Transcript of aula03

Page 1: aula03

Análise Exploratória de DadosAula 03

Etapas da Análise Exploratória/Variáveis/SériesEstatísticas

Prof. Hemílio Fernandes Campos Coêlho

30 de Abril de 2014

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 2: aula03

Etapas da Análise Exploratória/EstatísticaDescritiva

(1) De�nição do problema: Trata de uma completa formulaçãodo problema em questão.

(2) De�nição do objetivo: Trata de de�nir a meta a seralcançada diante do problema em questão.

(3) Planejamento: Consiste em determinar a metodologia paralidar com o problema em questão, através do levantamento deinformações sobre o tema em estudo. O planejamento implicaem obter respostas para uma série tradicional de perguntasenvolvendo

�quem�, �o que�, �sempre�, �por que�, �para que�, �paraquando�.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 3: aula03

Exemplo

Suponha que em João Pessoa exista o interesse na obtenção deinformações sobre determinada virose que atinge parte da populaçãoda cidade em determinada época do ano. O primeiro trabalho daequipe encarregada da pesquisa, será evidentemente, o de obterresposta para as perguntas organizadas da seguinte forma:

Quem tem interesse em obter as informações?

O que devemos procurar saber?

Será executada sempre? A pesquisa será periódica ouocasional?

Por que as informações são necessárias e desejáveis?

Para que se desejam as informações?

Para quando a pesquisa deve ser concluída?

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 4: aula03

Exemplo

Suponha que em João Pessoa exista o interesse na obtenção deinformações sobre determinada virose que atinge parte da populaçãoda cidade em determinada época do ano. O primeiro trabalho daequipe encarregada da pesquisa, será evidentemente, o de obterresposta para as perguntas organizadas da seguinte forma:

Quem tem interesse em obter as informações?

O que devemos procurar saber?

Será executada sempre? A pesquisa será periódica ouocasional?

Por que as informações são necessárias e desejáveis?

Para que se desejam as informações?

Para quando a pesquisa deve ser concluída?

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 5: aula03

continuação

Sempre é preciso levar em consideração o seguinte:

(a) O exame das informações disponíveis, ou seja, análise de tudoque foi publicado sobre o assunto, obtendo-se relatórios sobreatividades semelhantes ou correlatas;

(b) A de�nição da população de interesse, ou seja, é necessáriosaber qual o conjunto que vai ser pesquisado, distribuindo eclassi�cando os elementos pertencentes a esse conjunto, demodo a permitir um trabalho mais organizado e mais fácil;

(c) A construção adequada de um questionário;

(d) A escolha pelo tipo de levantamento, ou seja, deve-se decidirpor um censo (analisar todos os indivíduos da população) oupor um levantamento amostral (obtenção de amostra a partirde uma metodologia existente).

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 6: aula03

continuação

(e) A programação das atividades a serem desenvolvidas;

(f) O custo total de todas as etapas do trabalho a serdesenvolvido;

(g) Cuidadosa análise das informações disponíveis;

(h) Se em (b) a opção for um levantamento amostral, realizar odelineamento da amostra.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 7: aula03

continuação

(4) Coleta de dados:

(a) Feita após o planejamento e a devida determinação dascaracterísticas mensuráveis do fenômeno de interesse(coletivamente típico) que se quer pesquisar.

(b) A coleta de dados pode ser feita de várias formas. A formaideal é aquela que maximiza todos os recursos disponíveis,dados os objetivos e a precisão estipulados de forma prévia.

(c) Quando os dados forem referentes a indivíduos, a coletapoderá ser realizada mediante respostas a questionáriospreviamente elaborados.

(d) Por �m, é importante lembrar da classi�cação dos dados(primários e secundários) e das formas de coleta de dados(direta e indireta) de�nidos anteriormente.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 8: aula03

continuação

(5) Apuração e apresentação dos dados: A apuração baseia-sena validação dos dados coletados, buscando eventuais falhasque tenham ocorrido durante a coleta de dados.

(6) Apresentação dos dados: Consiste da apresentação dosdados através de tabelas e grá�cos, tornando mais fácil oexame do fenômeno sob estudo.

(7) Análise estatística e apresentação dos resultados: Sãocalculadas quantidades de interesse através de alguma técnicaexistente, com o intuito de descrever, de forma aproximada, arealidade referente ao fenômeno em questão. O interessemaior reside em se tirar conclusões que auxiliem o pesquisadora resolver seu problema. Nesta fase, calculam-se medidas cuja�nalidade principal é descrever o fenômeno que se estáinvestigando.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 9: aula03

Variáveis

Quando temos o interesse de investigar elementos em umadeterminada pesquisa, é de nosso interesse analisar umresultado referente à uma ou mais características de interesse.

É da natureza dos dados em qualquer área do conhecimentoque exista variação, ou ainda, variabilidade.

Nesse sentido, de�nimos como variável como sendo umacaracterística de interesse que está sujeita à variabilidade.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 10: aula03

continuação

Alguns exemplos de variáveis:

Nome da Variável Possíveis valores (ou rótulos)

Sexo Masculino (1); Feminino (2)Estado Civil Solteiro(a) (1); Casado(b) (2); Viúvo(c) (3)Idade 0, 1, 2, 3, . . .Peso 0, 24.5, 100.2, . . .Altura 1.55, 2.10, . . .

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 11: aula03

continuação

Nesse contexto, temos então que Variável é qualquer característicasujeita a variação.

Algumas variáveis, como sexo e estado civil apresentam comopossíveis resultados ou realizações uma qualidade (ouatributo);

Já outras variáveis como peso e altura (por exemplo)apresentam como possíveis realizações números resultantes decontagens ou medições.

Normalmente, são utilizadas letras (A, B, X, Y, Z, etc.) pararepresentar as variáveis.

Conforme suas características particulares, as variáveis podemser classi�cadas como: quantitativas e qualitativas

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 12: aula03

Níveis de Mensuração das Variáveis

(1) Variável Qualitativa:

Uma variável é dita ser qualitativa quando apresenta comopossíveis realizações qualidades ou atributos.

Exemplos: Sexo, Estado Civil, Escolaridade, Bairro, Curso,Departamento, Etnia, etc.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 13: aula03

continuação

Variáveis qualitativas são divididas em dois tipos:

(a) Nominais: Nomeiam, rotulam ou classi�cam um objeto,pessoa ou alguma característica por meio de números ououtros símbolos;Exemplos: Sexo, Bairro, etc.

(b) Ordinais: As categorias mantém uma relação de ordem.Exemplos: Escalas de qualidade(Péssimo/Ruim/Regular/Bom/Ótimo), Escolaridade, etc.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 14: aula03

continuação

(2) Variável Quantitativa:

Uma variável é dita ser quantitativa quando apresenta comopossíveis realizações números ou quantidades.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 15: aula03

continuação

Variáveis quantitativas são divididas em dois tipos:

(a) Discretas: Assumem apenas valores pertencentes a umconjunto �nito ou enumerável;Exemplos: Número de �lhos (0, 1, 2, . . .), Número de livroscomprados (0, 1, 2, . . .), Número de acidentes de trânsito(0, 1, 2, . . .), etc.

(b) Contínuas: Assumem qualquer valor num certo intervalo devariação.Exemplos: Peso, Altura, Renda, Preço do Dólar, Teor alcoólicode bebidas, Taxa de mortalidade, etc.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 16: aula03

Esquema Ilustrativo 1

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 17: aula03

Esquema Ilustrativo 2

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 18: aula03

EXEMPLO

Exemplo: Uma empresa realizou uma pesquisa junto a seusfuncionários. Os funcionários responderam a um questionário queoriginou a seguinte tabela:

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 19: aula03

Tabelas Estatísticas

Em geral, uma tabela estatística deve apresentar a seguinteestrutura:

Cabeçalho;

Corpo;

Rodapé.

O cabeçalho deve conter informação su�ciente para responder àsseguintes questões:

O que está representando?

Onde ocorreu?

Quando ocorreu?

observação: Uma tabela sempre apresenta as laterais abertas.Caso as laterais estejam fechadas, chamamos de quadro.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 20: aula03

continuação

O corpo são as colunas e subcolunas onde efetivamente registramosos dados e o rodapé é reservado para observações pertinentes àtabela, e para o registro da fonte dos dados.De um modo geral, em uma tabela estatística devem serconsiderados os seguintes itens:

Elementos essenciais:

1 Título: Indicação que precede a tabela e que contém adesignação do fato observado, o local e a época em foiregistrado;

2 Cabeçalho: Parte superior da tabela que especi�ca oconteúdo das colunas;

3 Coluna Indicadora: Parte da tabela que especi�ca o conteúdodas linhas.

4 Corpo da Tabela: Conjunto de colunas e linhas que contémas informações sobre a variável em estudo.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 21: aula03

continuação

Elementos complementares:

(a) Fonte: Indicação da entidade responsável pelo fornecimentodo conjunto de dados ou pela sua elaboração;

(b) Notas: Informações de natureza geral destinadas a conceituarou esclarecer o conteúdo das tabelas ou a indicar ametodologia adotada no levantamento ou na elaboração dosdados;

(c) Chamadas: Informações da natureza especí�ca sobredeterminada parte da tabela, que tem como objetivoconceituar ou esclarecer sobre os dados obtidos.

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 22: aula03

Séries Estatísticas

Consistem na apresentação das informações em forma de tabelas,objetivando sintetizar os dados observados. Em um sentido amplo,uma série estatística é uma sucessão de valores expressando dadosestatísticos referidos a qualquer variável. Uma Série Estatísticapode ser:

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 23: aula03

continuação

1. Histórica, Cronológica ou TemporalOs dados são observados segundo a época de ocorrência. Ou seja,identi�ca-se pelo caráter variável do fator cronológico. Assim, temos queo elemento variável é a época, enquanto que os elementos �xos são olocal e o fato.;

Exemplo:

Evolução da relação candidato/vaga (2002�2006) do curso deBiomedicina da Universidade Federal de Pernambuco

Ano Candidato/vaga2002 11, 72003 12, 22004 9, 842005 13, 62006 9, 3Fonte: COVEST

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 24: aula03

continuação

2.Geográ�ca ou de LocalizaçãoApresenta como elemento variável o fator geográ�co. Ou seja, os dadossão observados segundo a localidade de ocorrência;

Exemplo:

Produto Interno Bruto (PIB) a preços correntes segundo Grandes Regiões- 2004 (em unidades de R$ 1.000)

Região PIBNorte 93.423.001Nordeste 248.445.303Sul 321.781.051Sudeste 970.244.552Centroeste 132.727.147Fonte: IBGE

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 25: aula03

continuação

3.Especí�ca, por categoria ou especi�cativaÉ identi�cada pelo caráter variável do elemento fator. Ou seja, os dadossão agrupados segundo a modalidade de ocorrência;

Exemplo:

Número de acidentes de trânsito por tipo de veículo na RegiãoMetropolitana do Recife, em setembro de 2007

Tipo de Veículo No de acidentes

Automóvel de passeio 243Caminhão 123Ônibus 97Motocicleta 415Total 878Fonte: Dados Hipotéticos

Prof. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03

Page 26: aula03

continuação

4.Mista (ou tabela cruzada)É a combinação de um ou mais tipos de séries descritas anteriormente.

Exemplo:

Produção Agrícola por região, segundo os principais produtos - 1994(valores em toneladas)

Fonte: Dados �ctíciosProf. Hemílio Fernandes Campos Coêlho Análise Exploratória de Dados Aula 03