Streaming e Armazenamento de Grandes Volumes de Dados

Gleicon Moraes

Roteiro● Problema

● Fontes de dados comuns

● Lambda Architecture

● Evolução de uma arquitetura de Analytics

● Formato de dados, dimensões, dados repetidos

Problema● Dados de uma ou mais aplicações não cabem em um único storage

● Novas fontes de dados são criadas constantemente

● Nem todo dado precisa estar disponível em baixa latência

● Nem todo dado é útil

● Como reagir a eventos em tempo real ?

● Como refatorar arquiteturas de dados ?

Fontes de dados comuns● Tempo real (analytics, pixels, trackers)

● Bancos de dados

● Comunicação entre serviços

● Integração de fontes externas (DMP, importações)

O que parece

● Dados prontos para serem utilizados● Volume alto mas vale a pena● Insights frescos a cada minuto● Magica pura

Como é

● 99% dos dados não serve para nada● Vai ter um pico no feriado e vou

gastar 12 dias migrando para outro datastore

● A razão pela qual aprendi a usar filas● Consumidores com logica para

limpar/enriquecer os dados● Coleta em tempo real, usa daqui 2

meses.

Tempo real

O que parece

● O schema não é legal mas dá para usar

● Uma API na frente resolve ● XXXX é um banco de dados que

podemos usar.

Como é

● Schema #%$%@ ● Capacity planning● 100000 de conexões● API ? Mas se eu conectar direto ?● Living la vida ETL● A razão pela qual aprendi a usar filas

Bancos de dados

O que parece

● CQRS ajuda a construir serviços robustos.

● Em vez de REST põe um KAFKA ai, se arquivar as mensagens no data lake podemos usar depois

● Vamos gastar um tempo definindo o formato das mensagens e nunca vai mudar.

Como é

● O formato da mensagem muda sempre.

● WTF de onde vem tanta mensagem ?

● As mensagens não são idempotentes

● Um KAFKA não é suficiente/Caiu o broker tudo parou.

Comunicação entre serviços

O que parece

● Receber dados processados para enriquecer nosso data lake

Como é

● O formato não faz sentido● Metadados vem por email ou

telegrama● Conheça o AWS S3 ● Volte aos anos 80 com FTP● Invente seu pipeline para limpar TB

de dados

Integração de fontes externas

Dados crescem de forma inesperada

Dados crescem de forma inesperada● Disponibilidade

● Localidade

● Performance

● Custo

● Compatibilidade

● Single node vs Cluster

Lambda Architecture

Arquitetura mk I● Escritas sincronas (3)● Raw data ● Sensível a mudanças de workload● Relatórios delegados a ELK● Sensível ao sucesso● Histórico em bancos "live"

"Vamos usar o melhor DB para cada caso"

Arquitetura mk II● Escritas sincronas (2)● Raw data ● Sensível a mudanças de workload● Relatórios delegados a ELK● Sensível ao sucesso● Histórico em bancos "live"● Consumidor "sem controle"● Usamos KAFKA para distribuir impressões

Problemas em mk I e II● 40T documentos no ES● 2 Cluster de 42 maquinas d2 com RAID● Incidentes todo dia● Cluster wide queries, timeouts● Mesmo dado em 3 storages● Ainda sensível à mudanças de workload● Otimizado para tempo real em captura, mas os pipelines executam de 12

em 12h● Pre-agregar dados era dificil e dependia de I/O de disco

Arquitetura mk III● Escritas sincronas (2)● Raw data Dados arquivados em Parquet● Sensível a mudanças de workload● Relatórios delegados a ELK● Sensível ao sucesso (escritas sincronas)● Consumidor "sem controle"● Histórico em bancos "live"● Histórico em S3● Nova dependencia: Cassandra

Arquitetura mk IV● Escritas sincronas (2)● Raw data Dados arquivados em Parquet, por data e campanha● Sensível a mudanças de workload● Relatórios delegados a ELK● Sensível ao sucesso (escritas sincronas)● Consumidor "sem controle"● Histórico em bancos "live"● Histórico em S3 - Athena e Spark para relatórios● Mais uma dependência: Cassandra - PGSQL para contadores● Ruim: mantivemos Cassandra e ES, muitos bancos de dados.

Arquitetura mk IV

O que aprendemos● Redução do uso de Elasticsearch > 60% armazenando dados em parquet

● Apenas documentos "matched" (4 a 5% do total) são usados em buscas

refinadas e multi-dimensionais, poderiamos sumarizar o resto dos dados.

● ES usa HyperLogLog acima de 40k docs para agregações, já estávamos

com margem de erro em contadores

O que aprendemos● Armazenar contadores no REDIS é arriscado, tempo de recuperação alto

● Armazenar contadores no PGSQL funcionou bem

● Athena funcionou bem para nossos relatórios

● Repetir os dados no S3 em diferentes dimensões é mais barato que manter

todos os dados live (em média mais de 30 atributos por doc)

● O melhor formato de dados para nós foi o Parquet (tentamos CSV, JSON

per line e um pouco de AVRO)

Futuro● Todos os dados em S3, apenas dados de acesso rápido transferidos para

PGSQL por streaming

● Zero ES

● Serviços menores (API e consumidores)

● Sair do KAFKA para captura de dados

Kafka é dificil ?● Configuração de tópicos: Partições

● Client libraries

● Log Replay

Arquivamento● /ano/mes/dia/hora (fácil de migrar entre storages)● /campanha/ ● /user_id/● Repetir o dado é mais barato que um modelo relacional (200TB)● Diferentes cortes, diferentes storages● Formatos intermediarios

Conclusão● Adotar um formato de dados no inicio é bom● Particione seus dados● Desconfie de soluções all-in-one● Simplifique sua vida

Obrigado !

gleicon@gmail.com

https://github.com/gleicon

https://twitter.com/gleicon

Streaming e Armazenamento de Grandes Volumes de Dados · Redução do uso de Elasticsearch > 60%...

Transcript of Streaming e Armazenamento de Grandes Volumes de Dados · Redução do uso de Elasticsearch > 60%...

Streaming e Armazenamento de Grandes Volumes de Dados · Redução do uso de Elasticsearch > 60%...

Documents

Transcript of Streaming e Armazenamento de Grandes Volumes de Dados · Redução do uso de Elasticsearch > 60%...

Gerencial - jlsistema.com.br · 2 Gerencial © 2007 ... JL Informática Ltda O Botão Gravar salva todas as alterações feitas nos campos, armazenando no banco de dados do sistema.

A CALCULADORA HP 12C - profeltonorris.files.wordpress.com · 12. Usando a Memória - Armazenando e Recuperando Valores - A HP-12C possui 20 memórias para armazenamento de valores,

Aprendizado por Conteúdo Memorização: IBL & K-NNdcm.ffclrp.usp.br/~augusto/teaching/ami/AM-I-IBL-KNN.pdf · armazenando exemplos típicos do conceito Não constrói representações

Proatividade na análise de logs com Elasticsearch ...qconrio.com/rio2015/system/files/presentation-slides/leonardocom... · LOGSTASH ARMAZENAR COLETAR DADOS DO LOG MANIPULAR ENRIQUECER

Fazendo mágica com ElasticSearch

Primeiros Passos Com Elasticsearch

SISTEMA DE TREINAMENTO EM MICROONDAS MT-9000leobravo/TT 402/Manual_Sistema_de... · Isolator – NV204 1 unidade Terminação Casada Matched Termination – NV212 1 unidade Conjunto

PROTEÇÃO AUTO...dos veículos • Não expor diretamente aos raios solares, poderá danificar a superfície da pintura • Não deve ser armazenando em locais cujas temperaturas

Muitas aplicações se faz necessário o acompanhamento da navegação do usuário armazenando informações específicas de cada um. É comum hoje em dia acessarmos.

TDC2016POA | Trilha PHP - Desenvolvendo um buscador com PHP e Elasticsearch

Segmentação de Tecidos Cerebrais Usando Entropia Q em ...€¦ · examinations of 43 patients and 10 healthy controls matched on the sex and age for validation of the algorithm.

PALESTRA PALESTRA ----EE----SOCIALSOCIAL PROSOL … - E-SOCIA… · Coleta de Informações Trabalhistas, Previdenciárias e Tributárias, armazenando-as em um Ambiente Nacional Virtual,

CD/SD RECEIVER KD-AR960 - jvc.net · Para cancelar a demonstração no visor, ... Armazenando canais na memória ... Os seguintes métodos são utilizados para

Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma aplicação de redes sociais

ARTIGO CIENTÍFICO ÁREA CIENTÍFICA DE NEUROFTALMOLOGIA ... · 5 Seven (7) children with albinism and 14 age-matched control subjects have undergone structural MRI at 3T, without

Monitore sua infraestrutura com o Elasticsearch

Armazenando informações

Armazenando Séries de Dados Temporais em Bases de · PDF fileKairosDB Druid Riak TS TempoIQ Blueflood Cityzen Data Hawkular Metrics Newts TimeSeries.Guru SiteWhere Axibase Infiniflux

MANUAL DE ORIENTAÇÃO DO ESOCIAL – VERSÃO · 2014, que tem por objetivo desenvolver um sistema de coleta de informações trabalhistas, previdenciárias e tributárias, armazenando-as

A Cigarra e a Formiga. Durante todo o Verão a Formiga trabalhava sem parar, armazenando comida para o Inverno. Era uma vez uma Formiga…