Palestra Ciência de Dados
Transcript of Palestra Ciência de Dados
![Page 1: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/1.jpg)
Muito além dos dados:
Como os Cientistas de Dados estão dominando o mercado global
![Page 2: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/2.jpg)
SobreDiego Cardoso Alves - Linkedin: diegocardosoalves
Engenheiro da Computação pela Unifei-MG
Mestrando em Engenharia da Computação pela Unicamp
Engenheiro de Software no Instituto de Pesquisas Eldorado
Desenvolvedor Android e entusiasta de Ciência de Dados
Artigo publicado na IEEE Services 2016 - San Francisco USA
![Page 3: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/3.jpg)
O que essa palestra NÃO vai ser
★ Não será uma palestra técnica
★ Não será uma palestra motivacional
★ Você não vai sair daqui um Cientista de Dados
![Page 4: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/4.jpg)
O que essa palestra vai ser
★ O que é um Cientista de Dados e qual sua importância
★ Cases envolvendo Ciência de Dados
★ As habilidades esperadas de um Cientista de Dados
★ Onde procurar recursos para ir em busca dessas habilidades
![Page 5: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/5.jpg)
Cientista de Dados
Pessoa que é melhor em estatística que qualquer engenheiro de software e melhor em engenharia de software do que qualquer estatístico.
![Page 6: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/6.jpg)
Cientista de DadosCientista de Dados é um profissional híbrido, um cientista da computação com habilidades de programação , extração e gerenciamento de dados juntamente com um estatístico que sabe como dar sentido a informações supostamente não relacionadas.
![Page 7: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/7.jpg)
Rotina de um Cientista de Dados
Encontrar Problema Buscar Dados Limpar e ExplorarDados
Comunicar Resultados Validar Hipótese Estabelecer
Hipótese
Hipótese Incorreta
![Page 8: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/8.jpg)
Volume de dados
Total de dados sendo capturados e gravados pelas indústrias dobra a
cada 1.2 anos.
A Google sozinha processa em média 40 mil queries por
segundo.
A cada minuto são enviados 204
milhões de emails.
A cada minuto são gerados 1.8 milhões de likes no Facebook e
enviados 278 mil tweets.
Se você gravasse todo conteúdo criado em 1 dia em DVD’s, você
poderia empilhá-los e alcançar a
lua. Obs: 2 vezes.
Youtube recebe 100 horas de vídeo a cada
minuto.
![Page 9: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/9.jpg)
Volume de dados
![Page 10: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/10.jpg)
Filtragem de dados
![Page 11: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/11.jpg)
Desafios
Dados não estruturados
Processamento necessário
Visualização da informação
Privacidade de dados
![Page 12: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/12.jpg)
Importância
Maior precisão
Decisões com mais confiança
Maior eficiência operacional
Redução de custos
Redução de riscos
![Page 13: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/13.jpg)
Mudança de mercado
Novas correlações
Tendências de negócios no local
Prevenção de doenças
Detecção de fraudes
Combate à criminalidade
Recomendações personalizadas
![Page 14: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/14.jpg)
Cases de Ciência de dados
![Page 15: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/15.jpg)
Alemanha, Copa do Mundo ● 12 jogadores
● Parceria SAP e Alemanha
● Análise de dados dos jogadores, performance dos times e estratégias
● Difícil tarefa de analisar dados aparentemente não relacionados
![Page 16: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/16.jpg)
Starbucks vs Consumidor vs Local● Análise de localidade
● Análise de preferências do consumidor
● Estudo de tráfego das ruas
● Possibilidade de abrir nova Starbucks próxima à uma existente.
![Page 17: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/17.jpg)
Apostadores● Análise de apostas de jogos.● Informações sobre histórico das equipes, resultados de jogos, colocações na tabela,
jogadores, momentos das partidas que determinados pontos ocorrem.○ Número muito grande de informações e conexões entre as mesmas.○ Dados sendo atualizados em tempo real.
● Bons modelos trazem chance de retorno nas apostas maior do que zero.● Normalmente, empresas de apostas punem ou banem usuários que criam bons modelos
de predição de resultados.
![Page 18: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/18.jpg)
● 25% dos americanos possuem múltiplas doenças crônicas.
● Pessoas com múltiplas doenças crônicas tem risco maior de mortalidade e de má-qualidade de vida.
● Philips tem investido cada vez mais na coleta de dados sobre as pessoas e do ambiente.
● Dados detalhados obtidos em tempo real (paciente e ambiente) dão uma visão completa sobre o estado do paciente e permite ao médico dar um melhor diagnóstico.
Philips HealthCare
![Page 19: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/19.jpg)
Rede de hotéis utiliza Data Science para aumentar reservas
![Page 20: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/20.jpg)
Rede de hotéis utiliza Data Science para aumentar reservas
● Informações de clima● Informações de cancelamentos de
vôos● Hora do dia● Localização de hotéis e aeroportos● Condições de tráfego
![Page 21: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/21.jpg)
Seguradoras● Análise de fraude de clientes em tempo real● Mais informações sobre as pessoas e conexões do que antigamente ● Diversas fontes de informações● Perda financeira para a seguradora muito menor
![Page 22: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/22.jpg)
Spotify● Milhões de usuários
● Análise de preferências do consumidor
● Recomendação de playlists e lançamentos
● Predição dos ganhadores do Grammy Awards.
○ 4 de 6 ganhadores
![Page 23: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/23.jpg)
Netflix● “Existem 33 milhões de
diferentes versões do Netflix.”
● Comportamento de uso para cada usuário.
● Recomendação de filmes e séries baseado no histórico e correlação entre usuários.
● Predição das atividades futuras dos usuários.
![Page 24: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/24.jpg)
Netflix● Quando você pausa e retorna.● Quais dias você assiste.● Quais horários você assiste.● Onde você assiste.● Quando você para de assistir a
uma série.● Tempo que leva para procura
de um filme e qual o comportamento nesta procura.
● Melhores categorias que você gosta de assistir.
![Page 25: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/25.jpg)
• Interesse em determinar em qual estágio da gravidez estavam seus clientes.
• Dependendo do estágio, determinados itens são mais procurados do que outros.
• Uma semana de gravidez faz diferença, ou seja, precisão é importante.
• Modelos para obter um melhor retorno com cupons de desconto.
• Grande número de dados tanto estruturados quanto não estruturados.
• Pró: Entregar ofertas altamente direcionadas.
• Contra: “Minha filha recebeu isso pelo correio! Ela ainda está no segundo grau, e vocês ficam enviando para ela cupons para roupas de bebê e berços?!?!”
• A filha estava realmente grávida, mas o pai não sabia.
![Page 26: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/26.jpg)
![Page 27: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/27.jpg)
Quais habilidades para um Cientista de dados ?
E onde posso encontrá-las ?
![Page 28: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/28.jpg)
Habilidades
![Page 29: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/29.jpg)
Habilidades:
Programação
![Page 30: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/30.jpg)
Linguagens
Linguagem feita para estatísticos.
Amplamente usada no meio acadêmico.
Forte no mercado, recebe grandes investimentos.
Diversas bibliotecas estatísticas prontas, facilita parte da análise
R
![Page 31: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/31.jpg)
Linguagens
Versátil e fácil de aprender.
Comunidade muito forte de bibliotecas gerais.
Fácil para análise e produção.
Python
![Page 32: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/32.jpg)
Linguagens - Recursos
Aprendendo R com R | Udacity + Facebook - Data analysis with R | R-bloggers Data Camp - Intro to R | Coursera - R Programming | R-Cookbook
Especialização Python ( Universidade de Michigan) | Python (CodeAcademy) | Python Class (Google) | Codewars, Codility, HackerRank
R
Python
![Page 33: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/33.jpg)
Banco de Dados
Grande disponibilidade de SGBD.
PostgreSQL, MongoDB, MySQL, etc
SQL vs NoSQL
Databases | SQL Tutorial
![Page 34: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/34.jpg)
Aquisição e Limpeza de dados
80% do processo é gasto entre aquisição e limpeza de dados
Inconsistência de dados é algo comum
Sem dados não há Ciência de Dados
Model Building and Validation | Cleaning data in R | Data Mining
![Page 35: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/35.jpg)
Machine Learning
Permite criar modelos complexos e poderosos.
Sistemas de recomendação, Aprendizado Dinâmico.
Redes Neurais, KNN, Máquinas de vetor suporte.
Intro to Machine Learning | Supervised ML | Unsupervised ML | Machine Learning especialization | Machine Learning
![Page 36: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/36.jpg)
Algoritmos
Eficiência faz diferença !
Saber implementar algoritmos paralelizáveis.
Algoritmos parte I e II (Princeton) | Algoritmos I e II (Stanford) | Especialização (UC San Diego)
![Page 37: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/37.jpg)
Habilidades:
Estatística & Matemática
![Page 38: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/38.jpg)
Distribuição e Otimização
Saber qual distribuição representa melhor o problema.
Fatoração matricial.
Autovalores e autovetores.
Métodos para minimizar uma função específica.
MIT - Linear Algebra | Convex Otimization | Intro to Statistics
![Page 39: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/39.jpg)
Visualização de Dados
Comunicação de resultados.
Representação mais que duas dimensões.
Representação de diversas variavéis.
Udacity - Data Visualization and D3.js | Flowing Data
![Page 40: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/40.jpg)
Visualização de Dados
Conhecimento de Domínio
Mercado Financeiro
Saúde
Ecologia
Marketing
LogísticaPsicologia
PolíticaBiologia
Esportes
![Page 41: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/41.jpg)
Correlação não é Causalidade !
![Page 42: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/42.jpg)
Faço graduação, como ter tempo?
Adapte seu currículo !
![Page 43: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/43.jpg)
Concluindo
Um cientista de dados é um generalista, não um especialista
Muitas habilidades não triviais para estudar.
Inúmeras oportunidades de criar impacto.
Extremamente desafiador, muito divertido.
É preciso ir além do comum !
![Page 44: Palestra Ciência de Dados](https://reader036.fdocumentos.tips/reader036/viewer/2022081520/5885ed371a28ab864f8b5247/html5/thumbnails/44.jpg)
Dúvidas?