Big Data na AWS
José Papo
AWS Tech Evangelist
@josepapo
A análise de grandes volumes de dados está se
tornando a grande barreira para
inovação, competição e
produtividade.
O que é Big Data?Gerados por computador – estruturados, semi-estruturados ou não-estruturados Logs (web sites, jogos) Sensores (tempo, água) Imagens/vídeos (cameras, segurança)
Gerados por pessoas Blogs/Resenhas/Emails/Fotos
Redes Sociais Facebook, Linkedin, Twitter
Onde se vê Big Data
Mídia/
Propaganda
Anuncios Dirigidos
Processa-mento de vídeos e imagens
Óleo e Gás
Análise Sismica
Varejo
Recomen-dações
Análise de Transações
Telecom
Cobrança
Log de Ligações
Uso dos Produtos
Instituições Financeiras
Simulações de Monte
Carlo
Análise de Riscos
Segurança
Anti-virus
Detecção de Fraudes
Reconheci-mento de Imagens
Marketing e Jogos
(sobretudo social)
Analise Comporta-
mental
Análise de Uso
Métricas “In-game”
O que é Hadoop?
Apache Hadoop Sistema de storage distribuído e tolerante a falhas
(HDFS) Usa um algoritmo chamado MapReduce para realizar
análises estatísticas exaustivas sobre um grande conjunto de dados distribuídos
Benefícios-chave Custo mais baixo – Escala linearmente Provado em escala– Petabytes em milhares de nós Flexível – Dados podem ser armazenados com ou sem schema
"Hadoop é um storage confiável e um sistema analítico"
HDFS MapReduce
RDBMS MapReduce (Hadoop)
Schema definido Schema não requerido
Explora índices para recuperação rápida
Análises rápidas de dados e performance uniforme de
queries
SQL apenas Suporta SQL + outras linguagens
Não escala linearmente Escalabilidade linear para reads + writes
Implantar um cluster hadoop é difícil
http://eddie.niese.net/20090313/dont-pity-incompetence/
Big Data requer infraestrutura flexível
Infraestrutura física leva a hardware e software estático e planejado para atender picos…
…e muitas vezes acaba gerando longas filas de processamento
+
Data Warehouse Elástico
Aumenta para 25
instancias
Data Warehouse(Estável)
Data Warehouse(Processo Batch)
Diminui para
9 instancias
Data Warehouse(Estável)
Input data
S3
UNDERTHE
HOOD
ii
Elastic MapReduce
Code
Input data
S3
UNDERTHE
HOOD
ii
Elastic MapReduce
Code Name node
Input data
S3
UNDERTHE
HOOD
ii
Elastic MapReduce
Code Name node
Input data
S3
Elastic cluster
UNDERTHE
HOOD
ii
Elastic MapReduce
Code Name node
Input data
S3
Elastic cluster
HDFS
UNDERTHE
HOOD
ii
Elastic MapReduce
Code Name node
Input data
S3
Elastic cluster
HDFSQueries+ BI
Via JDBC, Pig, Hive
UNDERTHE
HOOD
ii
Elastic MapReduce
Code Name node
OutputS3 + SimpleDB
Input data
S3
Elastic cluster
HDFSQueries+ BI
Via JDBC, Pig, Hive
UNDERTHE
HOOD
ii
OutputS3 + SimpleDB
Input data
S3
UNDERTHE
HOOD
ii
AWS MarketplaceInformatica, MapR, Karmasphere, Marketshare, Acunu Cassandra, Metamarkets, Aspera e mais.
aws.amazon.com/marketplace
OBRIGADO!aws.typepad.com/brasil
slideshare.net/AmazonWebServicesLATAM
José Papo
AWS Tech Evangelist
@josepapo
Top Related