Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015

Post on 15-Feb-2017

1.297 views 1 download

Transcript of Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015

brunorocha.org

Data DeveloperTrabalhando com Data Science

não sendo um cientista!

DATA MINING

MACHINE LEARNING

DATA MATCHING

BIG DATA

RECOMMENDATION

NLP

REST APITEXT PARSING

brunorocha.org

Data ScienceUai, que trem é esse?

brunorocha.org

A lenda da fralda e da cerveja

brunorocha.org

Um funcionário do WalMart notou que a venda de fraldas descartáveis estava associada à de cerveja.

Ele notou que os compradores homens, que saíam à noite para comprar fraldas, aproveitavam para levar algumas latinhas para casa.

Ele sugeriu que os produtos fossem postos lado a lado. Resultado: a venda de cervejas disparou durante as noites.

brunorocha.org

Um funcionário do WalMart notou…

- Não escala- Não distribui- Não tem precisão- ...

brunorocha.org

Business Inteligence

Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil.

brunorocha.org

Business Inteligence

Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil.

- Passivo- Manual (Dependente do Analista)

brunorocha.org

Business Inteligence

Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil.

- Passivo- Manual (Dependente do Analista)

brunorocha.org

Business Inteligence

Processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É o conjunto de teorias, metodologias, processos, estruturas e tecnologias que transformam uma grande quantidade de dados brutos em informação útil.

- Passivo- Manual (Dependente do Analista)- Muito útil e relevante mas não

resolve todos os problemas

- Crawling- Mining- Parsing- APIs- Notebooks- Algoritmos- ML- Linguagens- BigData

brunorocha.org

SupermercadoEntrada A Entrada B

brunorocha.org

SupermercadoEntrada A Entrada B

brunorocha.org

SupermercadoEntrada A Entrada B

brunorocha.org

SupermercadoEntrada A Entrada B

brunorocha.org

SupermercadoEntrada A

Grande quantidade de sinais a serem analisados.

- Local do produto- Local da entrada- Tamanho do carrinho

- Local das prateleiras- Iluminação- Embalagens- Preços- Ordem de compra- Horário da compra- Sexo do comprador- Idade do comprador- Duração da compra- ...

Entrada B

brunorocha.org

SupermercadoEntrada A

Features e sinais:

- Local do produto- Local da entrada- Tamanho do carrinho

- Local das prateleiras- Iluminação- Embalagens- Preços- Ordem de compra- Horário da compra- Sexo do comprador- Idade do comprador- Duração da compra- ...

Entrada B

brunorocha.org

Data Science é sobre encontrar, classificar e correlacionar padrões em um conjunto de dados e utilizar essas análises de dados para:

- Business Inteligence- Monitoramento- Análises preditivas- Recomendações- Detecção de novas combinações e novos padrões- Dominar o mundo- Acabar com a fome mundial- Curar doenças- ...

brunorocha.org

Data Science is not always evil

Bio Medical Data Science Initiative http://med.stanford.edu/bdsi.html

- Triagem médica- Correlação entre exames - Recomendação de tratamentos- Detecção e predição de epidêmias- Otimização da fabricação de medicamentos e equipamentos- Diminuição/Abolição de testes em animais- Gerenciamento de desastres- Diagnóstico inteligente- Monitoramento e preservação ambiental- Recomendar filmes legais no NetFlix- Recomendar a próxima empresa em que você pode trabalhar!

brunorocha.org

Aprendizado de Máquina e Inteligência Artificial e Big DataO problema do Big Data (quando os dados são grandes demais em volume, ou complexos demais em correlações que seria inviavél analisar em tempo hábil sem o uso de IA e computação distribuida)

Em um único conjunto de dados existem muitos padrões a serem identificados e conforme os dados se alteram novos padrões são criados, sendo assim inviável seres humanos fazerem todo o trabalho de classificação.

Para isso algoritmos são "treinados" através de exemplos e aprendem a tomar decisões autonomamente, esses "organismos" dotados de inteligência artificial precisam de um cientista de dados para treinar, monitorar e avaliar o desempenho e confiabilidade.

The Machine is Learning

brunorocha.org

"Dadólogo"Ciência dos dados

Aprendizado de Máquina e Inteligência Artificial e Big DataO problema do Big Data (quando os dados são grandes demais em volume, ou complexos demais em correlações que seria inviavél analisar em tempo hábil sem o uso de IA e computação distribuida)

Em um único conjunto de dados existem muitos padrões a serem identificados e conforme os dados se alteram novos padrões são criados, sendo assim inviável seres humanos fazerem todo o trabalho de classificação.

Para isso algoritmos são "treinados" através de exemplos e aprendem a tomar decisões autonomamente, esses "organismos" dotados de inteligência artificial precisam de um cientista de dados para treinar, monitorar e avaliar o desempenho e confiabilidade.

The Machine is LearningBiólogoCiência da Vida

=

brunorocha.org

"Dadólogo"Ciência dos dados

Dadólogo é um termo feio, mas soa melhor do que "cientista de dados", não??

Ou você já viu um "podólogo" ser chamado de cientista de pés?

brunorocha.org

O Data ScientistIn god we trust: All others bring data!

● Profissional cientista das áreas de estatística, matemática, fisica, computação.● Conhecimentos teóricos avançados e boa desenvoltura prática em computação.● Mestre das estruturas de dados.● A profissão mais sexy do século! https://hbr.org/2012/10/data-scientist-the-

sexiest-job-of-the-21st-century/ ● Salários na média entre 10k e 20k no Brasil (2015) - $120k a $200k/year U.S.A

(2015).● Requisitado em todas as industrias de Startups a MultiNacionais.● Sobram vagas e faltam profissionais qualificados e interessados.

brunorocha.org

O quê que o Python tem a ver com isso?

brunorocha.org

Other languages in Data Science- R- Julia- Scala- Java- Lua/Torch- Matlab- Go- ...

brunorocha.org

So…

Why Python?UAI

brunorocha.org

brunorocha.org

Python pode ser usada em todas as etapas do trabalho, desde a captura de dados até a apresentação das análises!

brunorocha.org

Coletar:

Armazenar:

Apresentar:

Automatizar, escalar, distribuir:

SQL*

Agregar, Consultar e Analisar:

NLP NER

brunorocha.org

O Dilema do Full Stack Developer

O desenvolvedor supermanque "em teoria" resolve todos os problemas end-to-end mas ninguém sabe quando ele vai sair voando ou se vai morrer no final.

brunorocha.org

O Dilema do Ben 10 Developer

OU

Que se transforma em mais de 10 monstros para tentar resolver problemas mas acaba tendo crises de identidade durante o projeto.

brunorocha.org

X

Trabaia pa carai…. ou …. ficá di boa?

ou melhor! Contar com ajuda para fazer as duas coisas!

brunorocha.org

- Devops (infra, provisionamento, monitoramento, escalabilidade, cloud)- Engenharia e Arquitetura- Web, APIs e integrações- Project Leadership- Data Mining- Database Administration- P & D- Data Science Algorithms- Fazer café- Atender telefone- Vender- …- candidatos??

brunorocha.org

O Homer Simpsom Developer

Doh… achei que seria mais fácil e que eu ia dar conta de entregar tudo em X dias….

O que eu faço agora? qual banco de dados eu uso? qual linguagem é melhor? VI ou Emacs???

brunorocha.org

Multitask nunca funciona para o desenvolvedor de software ou para o Cientista de Dados!

Melhor manter o foco e priorizar a qualidade de vida!

brunorocha.org

Dia de trabalho para o cientista de dados = 8hrs (ou menos)

Estudo Pesquisa ExperimentosData Mining

Qualidade de vida importa!!!

brunorocha.org

Dia de trabalho para o cientista de dados = 8hrs (ou menos)

Estudo Pesquisa ExperimentosData Mining

Qualidade de vida importa!!!

Engenharia DevOps Project Leadership

Web APIs Testes Automação …..

brunorocha.org

brunorocha.org

Especialização é bom para todos!!!

- Foco = Qualidade- Tempo livre = qualidade de vida- Melhora o mercado de trabalho- Evita retenção de know how

brunorocha.org

Formação do time de Data ScienceAtenção: Contém slides gentilmente roubados do http://pt.slideshare.net/rodsenra

brunorocha.org

brunorocha.org

brunorocha.org

DevOps

brunorocha.org

DevOps

brunorocha.org

O Engenheiro de Dados

brunorocha.org

brunorocha.org

SUPERVISORDIPTABLESCRONTMUXNGINXGUNICORN uWSGI

Domine O Sistema Operacional

brunorocha.org

Cloud / PaaS

brunorocha.org

Persistência Poliglota

brunorocha.org

AUTOMAÇÃO, PROVISIONAMENTO, DEPLOY

brunorocha.org

WEB DEVELOPMENT and REST API

brunorocha.org

Engenharia de Software- Design Patterns- Boas práticas (PEP-8, MCCABE)- Testes e CI- Mineração de dados

- Crawling, Parsing (bs, regex, etc..)- VCS- Modularização, Empacotamento- Documentação

brunorocha.org

brunorocha.org http://guidetodatamining.com/

brunorocha.org