Big Data, o que é isso?
-
Upload
ambiente-livre -
Category
Software
-
view
408 -
download
2
description
Transcript of Big Data, o que é isso?
Big Data, o que é isso? O que é isso?
Rafaela Raganham
● Formada em Sistemas de Informação, pela Faculdades Integradas do Brasil (Unibrasil).
● MBA Business Intelligence (Positivo)● Palestrante FISL, FTSL, SFD e Solisc
Desempenha funções de análise e desenvolvimento de sistemas desde 2008, atualmente trabalha na Ambiente Livre Tecnologia onde presta serviços de desenvolvimento, customizações e consultoria em sistemas open source.
Ecosistema
Todo mundo está falando sobre Big Data
Nossa sociedade está deixando para trás uma pegada digital.As pessoas estão vivendo em linha e todos estamos expressando nossas atitudes, gostos, desgostos, opiniões e perspectivas.
Indivíduos com smartphones e sites de redes sociais continuarão a impulsionar o crescimento de dados exponencialmente
• 90% dos dados no mundo de hoje foram criados nos últimos dois anos
• Previsão IDC: O universo global de dados irá dobrar a cada dois anos, chegando a 40 mil exabytes ou de 40 trilhões de GB até 2020
• Internet Archive tem em torno de 2 petabytes de dados, e está crescendo a uma taxa de 20 terabytes por mês.
• 30 bilhões de conteúdos foram adicionados ao Facebook
• 2 bilhões de vídeos são vistos no Youtube
• 2,5 quintilhões de bytes de dados é criado
● Então o que é BIG DATA ?!
"Big Data é a capacidade de uma empresa para armazenar, processar e acessar todos os dados de que necessita para funcionar, tomar decisões, reduzir riscos, e servir os clientes." - Forrester
"Big Data, em geral, é definido como alto volume, velocidade e variedade ativos de informação que exigem formas eficazes e inovadoras de custos de processamento de informações para uma melhor percepção e tomada de decisão." - Gartner
"Big data são os dados caracterizados por três atributos: volume, variedade e velocidade." - IBM
"Big data são os dados caracterizados por quatro atributos principais: volume, variedade, velocidade e valor." - Oracle
\
\
Byte: um grão de arroz
\
\
Byte: um grão de arroz
Kilobyte: xícara de arroz
\
\
Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
\
\
Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
\
\
Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios com containers
\
\
Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios com containers
Petabyte: Estado de Manhattan
\
\
Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios de containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste
\
\
Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios de containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste Zettabyte: Oceano Pacífico
\
\
Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios de containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste Zettabyte: Oceano Pacífico
Yottabyte: A TERRA
\Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios de containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste Zettabyte: Oceano Pacífico
Yottabyte: A TERRA
Hobbyist
\Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios com containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste Zettabyte: Oceano Pacífico
Yottabyte: A TERRA
Desktop
Hobbyist
\Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios com containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste Zettabyte: Oceano Pacífico
Yottabyte: A TERRA
Internet
Desktop
Hobbyist
\Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios com containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste Zettabyte: Oceano Pacífico
Yottabyte: A TERRA
Hobbyist
Big Data
Desktop
Internet
\Byte: um grão de arroz
Kilobyte: xícara de arroz
Megabyte: 8 sacos de arroz
Gigabyte: 3 caminhões de arroz
Terabyte: 2 navios de containers
Petabyte: Estado de Manhattan
Exabyte: Costa oeste Zettabyte: Oceano Pacífico
Yottabyte: A TERRA
Volume refere-se a grande quantidade de dados gerados a cada segundo.Isso faz com que a maioria dos conjuntos de dados sejam muito grandes para armazenar e analisar usando a tecnologia de banco de dados tradicional.
Novas ferramentas de Big Data utilizam sistemas distribuídos de modo que podemos armazenar e analisar os dados entre bancos de dados que estão espalhados em qualquer lugar do mundo
Velocidade refere-se à velocidade com que os novos dados são gerados e a velocidade com que se move em torno de dados. Basta pensar em mensagens de mídia social que se tornam viral em segundos. A tecnologia nos permite agora a analisar os dados enquanto ele está sendo gerado (por vezes referido como inMemory analytics), sem nunca colocá-lo em bases de dados
Variedade refere-se aos diferentes tipos de dados que podemos agora utilizar. No passado, apenas eram usados dados estruturados cuidadosamente armazenados em bancos de dados relacionais.
80% dos dados do mundo são não-estruturados (texto, imagens, vídeo, voz, etc) com grande tecnologia de dados, podemos agora analisar e reunir dados de diferentes tipos, tais como mensagens, conversas de mídia social, fotos, dados do sensor , vídeo ou gravações de voz.
Veracidade refere-se a confiabilidade dos dados. Com muitas formas de grandes qualidades e precisão dos dados são menos controláveis (basta pensar em posts no Twitter com hash tags, abreviações, erros de digitação e linguagem coloquial, bem como a confiabilidade e a precisão do conteúdo), mas agora a tecnologia permite-nos trabalhar com este tipo de dados .
Veracidade
Valor! Ter acesso a big data não é bom a menos que possamos transformá-lo em valor. As empresas estão começando a gerar valores incríveis com Big Data
Valor
Compreensão e segmentação de clientes
Entendimento e otimização de processos de negócios
● Quantificação pessoal e otimização de desempenho
● Melhorar a Saúde e Saúde Pública
● Melhorando o desempenho Sports
● Melhorar a Ciência e Investigação
● Otimização de máquinas e dispositivos de desempenho
● Melhorar a segurança e aplicação da lei.●
● Melhorar e optimizar Cidades e Países●
● Negociação financeira
• Compreensão e segmentação de clientes•
• O grande objetivo, em muitos casos, é a criação de modelos preditivos
•
• → Empresas de seguros de automóveis entender o quão bem os seus clientes realmente podem conduzir
• → Campanhas eleitorais do governo podem ser otimizada utilizando grandes análise de dados
•
• Entendimento e otimização de processos de negócios
• Big data também é cada vez mais utilizada para otimizar processos de negócios. Os varejistas são capazes de otimizar suas ações com base em previsões geradas a partir de dados de mídia social, as tendências de pesquisa na web e previsões meteorológicas.
•
● Quantificação pessoal e otimização de desempenho•
• Podemos nos beneficiar dos dados gerados a partir de dispositivos portáteis, tais como relógios inteligentes ou pulseiras inteligentes
•
• A outra área em que nos beneficiamos com grandes análises de dados é encontrar o amor. A maioria dos sites de namoro online aplicam ferramentas de big data e algoritmos para nos encontrar os pefis mais adequados.
•
• Melhorar a Saúde e Saúde Pública
• Técnicas de Big Data já estão sendo usados para monitorar bebês em uma unidade de bebê prematuro e doente especialista. Ao registrar e analisar cada batida do coração e padrão de cada bebê respirando, o aparelho foi capaz de desenvolver algoritmos que agora podem prever infecções 24 horas antes de qualquer sintoma físico aparecer
● Melhorando o desempenho Sports•
• Usando a análise em vídeo que monitoram o desempenho de cada jogador em um jogo de futebol ou de beisebol nos permitem obter feedback (via smartphones e servidores em nuvem) nos jogos e como melhorá-los. Muitas equipes desportivas de elite também acompanham os atletas fora do ambiente esportivo - usando a tecnologia inteligente para monitorar a nutrição e sono, assim como as conversas de mídia social para monitorar o bem-estar emocional.
•
•
•
•
•
•
• Copa do Mundo 2014 - Seleção Alemanha
Treino - Em 10 minutos de treino, 10 jogadores geram mais de 7 milhões de dados que são processados em tempo real
Jogo – Com o histórico de dados coletados nos treinos o técnico pode saber quando um jogador chegou ao seu limite físico
Pós treino e jogo – Cada jogador recebe acesso a curtos clipes de sua participação nos jogos além do seu desempenho físico e média da equipe
→ Magazine Luiza investe em projeto de Big Data, a niciativa busca direcionar recomendações de produtos em tempo real para seus clientes.
→ Netshoes - Mercado de e-commerce, que permitia e facilitava trabalhar com muita inteligência as informações
→Petrobras - Otimização e Monitoramento da ProduçãoAnálise preditiva para a Logistica de Armazenamento
→ Inpe
Um cientista de dados representa uma evolução do papel de negócios ou analista de dados
O que define o cientista de dados e o que o diferencia é forte visão de negócios, juntamente com a capacidade de comunicar os resultados, tanto para negócios e líderes de TI de uma forma que pode influenciar a forma como uma organização se aproxima de um desafio empresarial. Bons cientistas de dados não vão apenas resolver problemas de negócios, eles vão escolher os problemas certos que têm o maior valor para a organização.
Habilidades para um bom cientista de dados
CuriosidadeCriatividadeFocoAtenção aos detalhes
O cientista de dados, vive em três mundos:
● Negócios● TI● Matemática
É possível visualizar no LinkedIn que muitas das vagas para “data scientist” requerem um “full stack engineer”, alguém que domina todo o processo de ciência de dados.
Muitos das melhores e mais conhecidas ferramentas de dados disponíveis são grandes projetos de código aberto. O mais conhecido deles é o Hadoop, o que está gerando toda uma indústria de serviços e produtos relacionados.
HadoopMapReduceCassandraHbaseMongoDBMahoutPigZookeeper
Como começar um projeto Big Data?
● Problema. Determine quais são os problemas que você pretende resolver.
● Impacto. Entenda como esses problemas vão impactar no seu negócio. É a sua equipe que vai estar fazendo a entrada de dados e análise ? Como é que este problema afeta a sua organização?
● Os critérios de sucesso. Como você mede o sucesso? Quais são as principais métricas que você precisa para acompanhar todo este processo?
● Impacto. O que você precisa entender claramente é que se este problema fosse resolvido, o que significaria para sua empresa? Este é tipicamente um dos passos mais importantes, uma vez que ajuda a determinar o que, como e quando você deve avançar com este projeto
● Cloud. Decida onde a solução deve estar, se deve ser uma nuvem, solução híbrida, etc.
● Requisitos de dados. Avalie sua exigência de dados e entenda quais dados são necessários para resolver este problema. É dados que você já tem? É de dados que você deve buscar?
● Identificar lacunas. Você tem pessoal suficiente para resolver este problema? Eles são capazes de resolver este problema? Você vai precisar de hardware ou software?
● Abordagem ágil. Comece com uma pré-produção ou uma implementação piloto. Defina os objetivos e metas e divida em partes gerenciáveis.
● http://www1.folha.uol.com.br/infograficos/2014/07/84881-futebol-bigdata.shtml
● http://oss-institute.org/latest-news/781-4-hot-open-source-big-data-projects
● http://www.bigdata-startups.com/open-source-tools/
● http://www.itforum365.com.br/noticias/detalhe/19927/habilidades-para-um-bom-cientista-de-dados
● http://pt.slideshare.net/dwellman/what-is-big-data-24401517
● http://pt.slideshare.net/conniedinnella/what-is-big-data-28714627?related=1
● http://www.ikanow.com/8-proven-steps-to-starting-a-big-data-analytics-project/
Contatos
Www.ambientelivre.com.br/blogs/rafaela
Www.ambientelivre.com.br