Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN

Post on 04-Dec-2014

212 views 4 download

description

Palestra sobre Big Data ministrada para funcionários da DATANORTE - Governo do Estado do Rio Grande do Norte em 09 de outubro de 2014.

Transcript of Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN

1

Big DataBig Dataem 8 perguntasem 8 perguntasem 8 perguntasem 8 perguntas

2

Marcos Luiz Lins Filho

Quem eu sou e o que faço?

o Técnico em Processamento de Dados IFPBo Graduado em Ciência da Computação

UFCGo MBA Gestão de TI - UFRNo Mestrado em Computação – UFPEo Há 10 anos trabalho na Petrobras

Distribuidora S/Ao Trabalhei como Analista de Sistemas e

hoje atuo na área de Negócioso Não deixo nunca de estudar e buscar

novos conhecimentos, o famoso CURIOSO

3

Agenda

3

1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) O que Big Data tem de diferente ?4) O que vai mudar com o Big Data ?5) Por que o termo Big Data está em

evidência ?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data ?

4

Agenda

4

1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) O que Big Data tem de diferente ?4) O que vai mudar com o Big Data ?5) Por que o termo Big Data está em

evidência ?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data ?

5

5

Fonte: Bruno Domingues, Big Data com AWS e Intel, 2014

6

Agenda

6

1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) O que Big Data tem de diferente ?4) O que vai mudar com o Big Data ?5) Por que o termo Big Data está em

evidência ?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data ?

História do Big Data

Se divide em dois momentos Expansão no campo científico e de negócios basicamente através do

uso do termo Big Data de forma técnica e acadêmica (1984 – 2007)

(Tilly, 1984) usa pela primeira vez o termo Big Data em textos acadêmicos;

Uma primeira pesquisa publicada em 1987 relativa a uma técnica de programação chamada small code, big data;

Em 1989 e 1993 pesquisas começam a tratar de aplicações de Big Data;

(Laney , 2001) publica trabalho com o título os 3 V´s do Big Data (Volume, Variedade e Velocidade)

Fonte: Francis X. Diebold: A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the Discipline, August 2012

Fonte: Francis X. Diebold: A Personal Perspective on the Origin(s) and Development of “Big Data”: The Phenomenon, the Term, and the Discipline, August 2012

Se divide em dois momentos Difusão do termo já com viés tecnológico e econômico, estudo de

tecnologias, desenvolvimento de ferramentas para análise de dados etc (meados de 2008)

(Lohr, 2008) Jornalista do New York Times publicou artigo em que citava que cientistas de computação e executivos da indústria já enxergavam que o termo Big Data saia da esfera acadêmica e já começava a trazer resultados econômicos.

A Wired publica em junho de 2008 um artigo “The Petabyte Age: because more isn’t just more, more is different”, que apresenta as oportunidades e implicações do Big Data

(Lohr, 2012) – Início do uso do termo Big data pela IBM em 2008 na sua estratégia de Marketing. Em 2011, no Twitter. Em 2012, com a publicação do 1ᵒ ebook sobre tecnologias de Big Data.

História do Big Data

O que é Big Data?

Fonte: IDC. "Big Data Analytics: Future Architectures, Skills and Roadmaps for the CIO," September 2011

“A verdadeira questão não é que você está coletando grandes quantidades de dados, mas sim o que você faz com eles. As organizações terão que ser capazes de aproveitar os dados relevantes e usá-los para tomar as melhores decisões.” (IDC, 2011)

O que é Big Data?

FONTE: EMC

O 3Vs do Big Data “Big Data são os grandes conjuntos de dados que possuem

três características principais: volume, velocidade e variedade.”

Fonte: IBM

12

Agenda

12

1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) O que Big Data tem de diferente ?4) O que vai mudar com o Big Data ?5) Por que o termo Big Data está em

evidência ?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data ?

Por que Big Data é diferente ?

Aumento na quantidade de Dados

Fonte: EMC

Maior demanda por Computação Distribuída

Fonte: http://www.inf.ufsc.br/~frank/INE5418/1.Fundamentos-Slides.pdf

Por que Big Data é diferente ?

Maior demanda por Computação Distribuída

Fonte: https://under-linux.org/entry.php?b=2603

Computação distribuída significa pegar uma tarefa, dividi-la em pedaços menores e dar cada pedaço a uma “máquina” diferente, depois pegar cada resultado, uni-los (de maneira coerente) e apresentá-lo. Dificuldade

Processamento X Distribuição (Divisão)Integridade e Disponibilidade em Cloud

Computing

Por que Big Data é diferente ?

Limitações dos Bancos de Dados Relacionais

Fonte: IMD

Por que Big Data é diferente ?

O 3Vs do Big Data “Big Data são os grandes conjuntos de dados que possuem

três características principais: volume, velocidade e variedade.”

Fonte: IBM

Aumento na quantidade de Dados

Maior demanda por Computação Distribuída

Limitações dos Bancos de Dados Relacionais

+ 3 V’s do Big Data

Fonte: http://cio.uol.com.br/opiniao/2012/05/11/o-caos-conceitual-e-os-5-vs-do-big-data/

VeracidadeVeracidade

ValorValor

ViabilidadeViabilidade

Os dados são de 3 tipos

Estruturados Semi-estruturados Não estruturados

Fonte: Joyanes, 2013

Por que Big Data é diferente ?

EstruturadosDados que possuem esquema de campos fixosFormato bem definidoNormalmente armazenado em BD RelacionaisConhecimento prévio da estrutura dos dadosSão gerados em uma ordem especificada

Fonte: Joyanes, 2013

Por que Big Data é diferente ?

Semi-estruturadosPossuem um fluxo lógicoO formato pode ser bem definido, mas não necessariamente é fixoNão possui fácil compreensão por parte do usuário leigoTem como característica marcante o uso de etiquetas e marcadores para separar elementos dos dadosRegras complexas para manipulação dos dados

Fonte: Joyanes, 2013

Por que Big Data é diferente ?

Não estruturadosSem tipo predefinido;Não possuem estrutura uniforme (ex. Documentos, objetos);Pouco ou nenhum controle sobre eles;Dificuldade de “manipulação” para extração de informação

Fonte: Joyanes, 2013

Por que Big Data é diferente ?

De onde vem os dados do Big Data?

Web e Redes Sociais (clicks, cookies, twitter, facebook)MobilidadeInternet das Coisas (RFID/NFC, Sensores, GPS e Telemetria)Biometria (Reconhecimento fácil, impressão digital, dados genéticos)Dados gerados por pessoas (Voz, email, SMS, etc)Dados gerados por governos, institutos de pesquisas e empresas

Fonte: Soares, 2012

Por que Big Data é diferente ?

24

Agenda

24

1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) Por que o Big Data é diferente ?4) O que vai mudar com o Big Data ?5) Por que o termo Big Data está em

evidência ?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data e em quê ?

IntegraçãoIntegração

O que vai mudar com o Big Data? (Tecnologia)

EstratégiaEstratégia

O que vai mudar com o Big Data? (Negócios)

O que muda?O que muda?

TOMADA DE TOMADA DE DECISÃODECISÃO

O que vai mudar com o Big Data? (Gestão)

BIBI

x x

BIG DATABIG DATA

O que vai mudar com o Big Data? (Gestão)

BI BI (Tradicional)(Tradicional)

Cubo OLAP (On-line Analytical Processing)

• Bases de dados e Datawarehouse

• Ferramentas OLAP• Mineração de Dados

• Sistemas de apoio a decisão• Relatórios

• Visualização

O que vai mudar com o Big Data? (Gestão)

BI x BIG DATABI x BIG DATA Dados transacionais + outros dados

Decisão baseada em dados de tempo real

Análise voltada a predição

Universo de dados ilimitado

Busca aprendizado a partir dos dados

A diferença está nos 3V’sA diferença está nos 3V’s

O que vai mudar com o Big Data? (Gestão)

Dados transacionais

Decisão baseada em dados passados

Análise Intuitiva

Universo de dados limitado

Busca Analisar dados

31

Agenda

31

1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) Por que o Big Data é diferente ?4) O que vai mudar com o Big Data ?5) Por que o termo Big Data está em

evidência ?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data e em quê ?

O que Cloud Computing tem a ver com Big Data? Nova infraestrutura para computação sob demanda

Tornou o Big Data mais próximo da realidade

Big Data evolui em paralelo com a consolidação da computação em Nuvem

SoLoMo e IoT convergem com Cloud Computing e Big Data criando novas perspectivas para as empresas

Por que o Big Data está em evidência?

Fonte: NIST, 2011

Por que o Big Data está em evidência?

Fonte: CONTROL4.COM

Por que o Big Data está em evidência?

35

Agenda

35

1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) Por que o Big Data é diferente ?4) O que vai mudar com o Big Data ?5) Por que o termo Big Data está em

evidência ?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data e em quê ?

36

36

1) Coletar2) Armazenar 3) Processar4) ETL (Extract, Transform, Load)5) Buscar informações6) Machine Learning7) Visualização8) Relatórios

Desafios do Big data?

37

Agenda

37

1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) Por que o Big Data é diferente ?4) O que vai mudar com o Big Data?5) Por que o termo Big Data está em

evidência?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data e em quê ?

38

38

1) Coletar2) Armazenar 3) Processar4) ETL (Extract, Transform, Load)5) Buscar informações6) Machine Learning7) Visualização8) Relatórios

Desafios do Big data?

39

39

Como funciona o Big Data na prática?

BDs - Relacionais, NoSQL e in-memory

Fonte: Soares, 2013

BD Relacionais Largamente utilizados atualmente pelas empresas

Utiliza relações (tabelas) como elementos básicos

Tabelas compostas por linhas e colunas

Faz uso de restrições para manutenção de integridade (chaves)

Utiliza NORMALIZAÇÃO

SQL é a linguagem de consulta

Os SGBDs relacionais implementam outras funções (controle de concorrência, segurança, controle de transações, recuperação de falhas etc)

Fonte: Soares, 2013

BDs No SQL De volta ao passado… (Sistemas de Arquivos)

Estrutura mais flexível

Melhor adaptado para questões de escalabilidade

Não veio para acabar com o Modelo Relacional

Abandonou a NORMALIZAÇÃO

São livres de esquemas de tabelas e sem JOINs

Iniciou em 2004 Big Table (Google), 2007 Dynamo (Amazon), 2008 Cassandra (Facebook)

Escalabilidade Linear, Acesso rápido, Manipulação de dados não estruturados

BDs - Relacionais, NoSQL e in-memory

Fonte: Soares, 2013

BDs - Relacionais, NoSQL e in-memory

Fonte: Joyanes, 2013

BDs - Relacionais, NoSQL e in-memory

Fonte: Joyanes, 2013

BDs - Relacionais, NoSQL e in-memory

Fonte: SAP, 2012

BDs - Relacionais, NoSQL e in-memory

O framework Hadoop

“The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using a simple

Programming model

(Divide to Conquer)

Fonte: https://under-linux.org/entry.php?b=2603

Fonte: Joyanes, 2013

O framework Hadoop

Fonte: Joyanes, 2013

O framework Hadoop

Fonte: Joyanes, 2013

O framework Hadoop

• Baseado no conceito de Dividir para Conquistar

• GRID COMPUTING • Várias implementações existentes: Hadoop,

Disco, Skynet, FileMap e Greenplum;

Fonte: https://under-linux.org/entry.php?b=2603

O algoritmo MapReduce

1. Seleciona os dados de entrada

2. Aplica as duas operações em sequência (MAP/REDUCE)

3. Recupera os dados de saída e obtém a resposta

Dividido em 3 passos

O algoritmo MapReduce

Fonte: Fabiane Nardon, 2013 - QconSP

O algoritmo MapReduce

Fonte: https://under-linux.org/entry.php?b=2603

O algoritmo MapReduce

Fonte: APACHE HADOOP

O que é ???

O framework Hadoop

Fonte: Apache Hadoop

Composto pelos módulos:

• Hadoop Common• Hadoop MapReduce• Hadoop Distributed File System (HDFS)• Hadoop YARN

O framework Hadoop

Fonte: Apache Hadoop

Composto pelos módulos:

•Hadoop Common: The common utilities that support the other Hadoop modules.

• Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.

• Hadoop YARN: A framework for job scheduling and cluster resource management.

• Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.

O framework Hadoop

57

Agenda

57

1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) Por que o Big Data é diferente ?4) O que vai mudar com o Big Data?5) Por que o termo Big Data está em

evidência?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data e em quê ?

Fonte: INFO, 2014

Cases

Ferramenta Match AnalyticsColeta e Análise de informações de treino e jogos

Analisa desde esquema tático até informação de precisão de chutes

Avalia situações de jogo e predizem o melhor treinamento para cada jogador

Possui interface que facilita o uso inclusive pelos jogadores

Roda sob a plataforma HANA da SAP

De quebra, faz análise de redes sociais analisando sentimento de torcedores com relação ao desempenho da equipe e dos atletas

Fonte: INFO, 2014

Cases

ROLLS ROYCEInclusão de sensores nos motoresInformação em tempo real de peçasVantagem competitiva: Substituição de produto por SERVIÇO

SMART METERS - IBMMedições de consumo de energiaSensores enviam dados em tempo realHábitos de consumo e mudança de estratégias com premiaçãoCriação das chamadas Smart Grids

Fonte: JOYANES, 2013

Cases

GOOGLE - FluTrends

Fonte: GOOGLE

Cases

GOOGLE - FluTrends

Fonte: GOOGLE

Cases

Cases

Cases

Cases

66

Agenda

66

1) Por que pensar em Big Data ?2) De onde vem e o que é o Big Data ?3) Por que o Big Data é diferente ?4) O que vai mudar com o Big Data?5) Por que o termo Big Data está em

evidência?6) Quais os maiores desafios do Big Data ?7) Como funciona o Big Data na prática ?8) Quem já usa o Big Data e em quê ?

67

Obrigado !!!

Marcos Luiz Lins Filhowww.facebook.com/marcosluiz.linsfilho

marcoslins@gmail.com

@marcoslinsfilho