Data Science For Dummies From a Dummy

47
Data Science For Dummies Eduardo Bonet

Transcript of Data Science For Dummies From a Dummy

Page 1: Data Science For Dummies From a Dummy

Data Science For Dummies

Eduardo Bonet

Page 2: Data Science For Dummies From a Dummy

O que essa palestra NÃO vai ser

● Não será uma palestra técnica

● Não será uma palestra motivacional

● Você não vai sair daqui um Cientista de Dados

2

Page 3: Data Science For Dummies From a Dummy

O que essa palestra vai ser

● O que um Cientista de Dados faz

● As habilidades esperadas de um Cientista de Dados.

● Onde procurar recursos para ir em busca dessas habilidades.

Os slides estarão disponíveis em github.com/ebonet/presentations/

3

Page 4: Data Science For Dummies From a Dummy

O que é um Cientista de Dados?

4

Page 5: Data Science For Dummies From a Dummy

Ninguém Sabe!

5

Page 6: Data Science For Dummies From a Dummy

Cientista de Dados: Uma pessoa que é melhor em estatística do que qualquer Engenheiro de Software e melhor em engenharia de software que qualquer estatísto.

6

Page 7: Data Science For Dummies From a Dummy

Cientista de Dados: Um estatístico que usa Mac

7

Page 8: Data Science For Dummies From a Dummy

Autor: Halan Harris8

Page 9: Data Science For Dummies From a Dummy

Dia a dia de Ciência de Dados, exemplificado

9

Encontrar Problema Buscar Dados Limpar e Explorar Dados

Estabelecer HipóteseValidar HipóteseComunicar

Resultados

Hipótese Incorreta

HipóteseCorreta

Page 10: Data Science For Dummies From a Dummy

Encontrar um problema

É possível estimar um aluguel em Florianópolis?

10/50

Dia a dia exemplificado

Page 11: Data Science For Dummies From a Dummy

Coletar DadosViva Real: site de imóveis para aluguel. http://api.vivareal.com:80/api/1.0/api-docs

Retorna informações como (Exemplo).

● Bairro● Latitude, Longitude● Preço● Número de banheiro, quartos, garagens, etc…● Preço de condomínio

11

Dia a dia exemplificado

Page 12: Data Science For Dummies From a Dummy

Limpar dados● Corrigir localidades com coordenadas incorretas● Remover entradas com valores estranhos

12

Dia a dia exemplificado

Page 13: Data Science For Dummies From a Dummy

Explorar Dados● Verificar distribuições de preços● Estudar possíveis correlações

13

Dia a dia exemplificado

Page 14: Data Science For Dummies From a Dummy

Explorar Dados

14

Dia a dia exemplificado

Page 15: Data Science For Dummies From a Dummy

Elaborar Hipótese ou Proposta de solução

O preço do aluguel pode ser calculado com um modelo linear em cima das seguintes variáveis:

ÁreaNúmero de quartos

Número de banheirosLatitude

LongitudeNúmero de garagens

15

Dia a dia exemplificado

Page 16: Data Science For Dummies From a Dummy

Testar Hipótese (e falhar miseravelmente)

16

Dia a dia exemplificado

R² deveria ser perto de 1

Page 17: Data Science For Dummies From a Dummy

Comunicar Resultados

17

Dia a dia exemplificado

O código está disponível em github.com/ebonet/pythonandr/

Page 18: Data Science For Dummies From a Dummy

Encontrar nova hipótese● Usar bairro em vez de latitude / longitude

● Cruzar entradas com banco de dados de crimes

● Banco de dados de tráfego

● Usar métodos estatísticos e algébricos para descobrir as variáveis que mais

influenciam no preço

Implementar, testar … e continuar falhando miseravelmente

18

Page 19: Data Science For Dummies From a Dummy

Alguns aspectos

19

● Um cientista de dados é um generalista, não um especialista

● CIÊNCIA de dados = Método Científico

● Um bom cientista é quase um unicórnio: precisa ter perfil acadêmico e de mercado, ter noção de visualização, saber garimpar dados, como armazenar esses dados, achar maneira de processar tudo isso, gerar insights e trazer esses insights para produção

● É possível encontrar vagas com graduação, mas muitos pedem pelo menos mestrado

Page 20: Data Science For Dummies From a Dummy

Quais são as habilidades de um Cientista de Dados?

E onde consigo encontrá-las?

20

Page 21: Data Science For Dummies From a Dummy

http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram21

Diagrama de Venn de Drew Conway

Page 22: Data Science For Dummies From a Dummy

Habilidades - Programação

22

Page 23: Data Science For Dummies From a Dummy

Python● Versátil e fácil de aprender● Serve tanto para fazer análise quanto

para colocar em produção

23

Especialização Python (University of Michigan) | Python (CodeAcademy) | Python Class (Google)Codewars, Codility, Hackerrank

Programação

Page 24: Data Science For Dummies From a Dummy

R● Linguagem feita para estatísticos● Amplamente usada no meio acadêmico● Tem entrado forte no mercado, recebendo grandes

investimentos.

24/50

Aprendendo R com R | Udacity + Facebook - Data analysis with R | R-bloggers | DataCamp - Intro to RCoursera - R Programming | R-Cookbook

Programação

Page 25: Data Science For Dummies From a Dummy

Bancos de Dados● Grande disponibilidade de DBMS ● PostreSQL, MongoDB, MySQL, ….● SQL vs NoSQL

25

Programação

Databases (Stanford) | SQL Tutorial

Page 26: Data Science For Dummies From a Dummy

Computação Distribuída● Algumas vezes, um computador apenas não dá

conta● MapReduce, Apache Spark, Hadoop, etc …

26

MapReduce e Hadoop (Udacity + Cloudera) | Intro to Parallel Programming (Nvidia + Udacity )

Programação

Page 27: Data Science For Dummies From a Dummy

Aquisição e Limpeza de Dados● 80% do processo é gasto entre aquisição e

limpeza de dados● Inconsistência de dados é algo comum● Sem dados não há Ciência de Dados

27

Model Building and Validation (Udacity) | Cleaning Data in R (pago) (Data Camp) Data Mining (University of Illinois)

Programação

Page 28: Data Science For Dummies From a Dummy

Machine Learning● Permite criar modelos extramente complexos e

poderosos● Sistemas Recomendadores, Busca, Aprendizado

Dinâmico● Redes Neurais, KNN, Máquinas de Vetor Suporte

28

Intro to Machine Learning, Supervised ML, Unsupervised ML, Reinforcement Learning (Udacity)Machine Learning Specialization (University of Washington)Machine Learning (Stanford)

Programação

Page 29: Data Science For Dummies From a Dummy

Programação - Algoritmos● Eficiência faz diferença!● Saber implementar algoritmos paralelizáveis

29

Algoritmos Parte I e II (Princenton)Algoritmos I e II (Stanford)

Especialização (UC San Diego)

Programação

Page 30: Data Science For Dummies From a Dummy

Habilidades - Estatística e Matemática

30

Page 31: Data Science For Dummies From a Dummy

Operações Matriciais

● Multiplicação● Fatoração matricial● Autovalores e Autovetores

31

Coursera - Coding the Matrix | MIT- Linear Algebra

Matemática / Estatística

Page 32: Data Science For Dummies From a Dummy

Cálculo Multivariável

● Matrizes Jacobiana e Hessiana● Base para Modelos Estatísticos,

Otimização e Aprendizado de Máquina.

32

Berkeley - Multivariate Calculus | MIT - Multivariate Calculus - 2007 | MIT - Multivariate Calculus - 2010

Matemática / Estatística

Page 33: Data Science For Dummies From a Dummy

Otimização

● Métodos para minimizar uma função específica● Base para a maioria dos algoritmos de

Aprendizado de Máquina e Regressões Estatísticas

33

Stanford - Convex Optimization (Avançado) | Cursos de Cálculo Multivariável | Coursera - Linear Programming

Matemática / Estatística

Page 34: Data Science For Dummies From a Dummy

Matemática - Processamento de Sinais

● Detectar peridiocidade em eventos● Remover ruído nos dados

34

Matemática / Estatística

Digital Signal Processing | DSP (MIT - Oppenheim)

Page 35: Data Science For Dummies From a Dummy

Estatística - Distribuições● Poisson, Normal, Uniforme, Gama● Saber qual distribuição melhor

representa o problema● Testes de Hipóteses● Lidar com amostras enviesadas

35

Intro to Statistics | Intro to Descriptive Statistics | Intro to Inferential Statistics

Matemática / Estatística

Page 36: Data Science For Dummies From a Dummy

Testes A/B

● Permite comparar resultados de duas ou mais modificações

● Muito usado pra marketing e teste de diferentes algoritmos

36

Udacity - A/B Testing

Matemática / Estatística

Page 37: Data Science For Dummies From a Dummy

Visualização de dados

● Comunicação de Resultados● Representar mais do que duas dimensões● Representação de diferentes variáveis

37

Udacity - Data Visualization and D3.js | https://plot.ly | Flowing Data | Edward Turfte - Envisioning Information

Matemática / Estatística

Page 38: Data Science For Dummies From a Dummy

Conhecimentos de Domínio

38

Mercado Financeiro

E-commerce

Biologia

Ecologia

Psicologia

Personalização

Política

Otimização de Processos

Marketing

LogísticaEsportes

Saúde

Page 41: Data Science For Dummies From a Dummy

Tips and Tricks

41

Page 42: Data Science For Dummies From a Dummy

Jupyter● Código + Texto● Python, R, Julia, Go …..

42

Tips and Tricks

Page 43: Data Science For Dummies From a Dummy

Correlação não é Causalidade

43

Tips and Tricks

Page 44: Data Science For Dummies From a Dummy

Cuidado com erro muito baixo

44

Tips and Tricks

Page 45: Data Science For Dummies From a Dummy

Método Científico significa que resultados devem ser reproduzíveis!

45

Tips and Tricks

Page 46: Data Science For Dummies From a Dummy

Concluindo● Um cientista de dados é um generalista, não um especialista

● Muitas habilidades não triviais para se estudar

● Inúmeras oportunidades de criar impacto

● Extremamente desafiador, mas muito divertido

● A graduação não é suficiente, é preciso ir além!

46