Pentaho Hadoop Big Data e Data Lakes
-
Upload
ambiente-livre -
Category
Technology
-
view
1.708 -
download
5
Transcript of Pentaho Hadoop Big Data e Data Lakes
![Page 2: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/2.jpg)
Marcio Junior Vieira
● 15 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial.
● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day.
● Organizador Geral do Pentaho Day 2015 e apoio nas edições 2013 e 2014.● Fundador da Ambiente Livre Tecnologia.● Instrutor de Big Data - Hadoop e Pentaho
![Page 3: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/3.jpg)
Ecosistema da Ambiente Livre
![Page 4: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/4.jpg)
Agenda
● Conceitos de Big Data● Conceitos de Hadoop● Conceitos de Data Lakes● Pentaho Orquestrando seus Data Lakes
![Page 5: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/5.jpg)
2005 na apresentação do Papa Bento XVI
![Page 6: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/6.jpg)
2013 na apresentação do Papa Francisco
![Page 7: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/7.jpg)
![Page 8: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/8.jpg)
Big Data
![Page 9: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/9.jpg)
O momento é agora
![Page 10: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/10.jpg)
Tomada de Decisão
● 1 em cada 3 gestores tomam decisão com base em informações que não confiam ou não tem
● 56% sentem sobrecarregados com a quantidade de dados que gerenciam
● 60% acreditam que precisam melhorar captura e entender informações rapidamente.
● 83% apontam que BI & analytics fazem parte de seus planos para aumentar a competitividade
fonte : Survey KPMG.
![Page 11: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/11.jpg)
Ferramentas de Big Data
![Page 12: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/12.jpg)
Software Livre
![Page 13: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/13.jpg)
Muitos das melhores e mais conhecidas ferramentas de dados disponíveis são grandes projetos de código aberto. O mais conhecido deles é o Hadoop, o que está gerando toda uma indústria de serviços e produtos relacionados.
![Page 14: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/14.jpg)
Hadoop
● O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído.
● Filesystem Distribuído● Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programação MapReduce)● Utiliza-se de Hardware Comum ( Commodity cluster computing )● Framework para computação distribuída● infraestrutura confiável capaz de lidar com falhas ( hardware,
software, rede )
![Page 15: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/15.jpg)
Distribuições Hadoop
● Open Source Apache
● Comercial Open Source- Cloudera- HortoWorks- MapR- AWS MapReduce
![Page 16: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/16.jpg)
Motivações Atuais - Hadoop
● Grande quantidade ( massiva ) de dados● Dados não cabem em uma máquina● Demoram muito para processar de forma serial● Máquinas individuais falham● Computação nas nuvens● Escalabilidade de aplicações● Computação sob demanda
![Page 17: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/17.jpg)
Fundação Apache
● Big Data = Apache = Open Source● Apache é lider e Big Data!● ~31 projetos de Big Data incluindo “Apache
Hadoop” e “Spark”●
![Page 18: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/18.jpg)
Ecosistema - Hadoop
![Page 19: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/19.jpg)
O que é HDFS
● Hadoop Filesystem
● Um sistema de arquivos distribuído que funciona em grandes aglomerados de máquinas de commodities.
![Page 20: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/20.jpg)
Características do HDFS
● Projetado para trabalhar com arquivos muito grandes e grandes volumes
● Executado em hardware comum● Streaming de acesso a dados● Replicação e localidade● Projetado para escalar a petabytes de
armazenamento, executa em cima dos sistemas de arquivos do sistema operacional subjacente.
![Page 21: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/21.jpg)
Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
![Page 22: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/22.jpg)
HDFS - Replicação
● Dados de entrada é copiado para HDFS é dividido em blocos e cada blocos de dados é replicado para várias máquinas
![Page 23: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/23.jpg)
MapReduce
● É um modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes
![Page 24: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/24.jpg)
Programação Distribuída
![Page 25: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/25.jpg)
MapReduce by “Subway”
![Page 26: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/26.jpg)
MapReduceMap Reduce
![Page 27: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/27.jpg)
O Profissional“data scientist”
Novo profissional: Cientista de Dados
![Page 28: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/28.jpg)
Competências
● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
![Page 29: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/29.jpg)
Cientista de dados
● Gartner: necessitaremos de 4,4 Milhões de especialistas até 2015 ( 1,9M América do Norte, 1,2M Europa Ocidental e 1,3M Ásia/Pacifico e América Latina)
● Estima-se que apenas um terço disso será preenchido. ( Gartner )
● Brasil deverá abrir 500 mil vagas para profissionais com habilidades em Big Data
● As universidades do Brasil ainda não oferecem graduação para formação de cientistas de dados
![Page 30: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/30.jpg)
TendênciasCitizen Data Scientist
![Page 31: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/31.jpg)
O Termo Data Lake
● Em 2010, James Dixon ( Founder and CTO at Pentaho ) introduziu os conceitos de Data Lake em pequeno artigo em seu Blog.
![Page 32: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/32.jpg)
Os velho Datawarehouse
● Elaborado na Década de 80● Apenas um subconjunto dos atributos são
examinados, para que apenas perguntas pré-determinadas podem ser respondidas.
● Os dados são agregados por isso visibilidade para os níveis mais baixos é perdida
![Page 33: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/33.jpg)
Cenários
● Tradicionalmente temos Dados transacionais ( Financeiro, Estoque, ERPs )
● Muitas empresas estão lidando com dados estruturados ou semi-estruturados (não desestruturada).
● Os dados são normalmente sub-transacional (webLogs, Social/online Media, Eventos de Telecoms ) ou não transacional (Web Pages, Blogs, Documentos, Eventos de IOT... ).
● Há algumas perguntas conhecidos para perguntar dos dados.● Há muitas perguntas desconhecidos que surgirão no futuro.● Os dados são de uma escala ou volume diário de tal forma que ele
não vão caber técnica e / ou economicamente em um RDBMS.
![Page 34: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/34.jpg)
Data LakeData Lake
![Page 35: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/35.jpg)
Data Lake
● Fonte única● Grande Volume● Não Refinado● Pode estar tratado.
![Page 36: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/36.jpg)
Requisitos de um Data Lake
● Armazenar todos os dados● Satisfazer relatório e rotinas de analise● Satisfazer ad-hoc query / analises / relatórios● Balanceamento de performance e custo
![Page 37: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/37.jpg)
Formato Tradicional de BI
Data Mart(s)
Data Source
![Page 38: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/38.jpg)
Arquitetura de Big Data
Data Mart(s)
Data Source
Data Lake(s)
adhoc Datawarehouse
![Page 39: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/39.jpg)
Big Data não Substitui os DataMarts
● Big Data não é um Banco de Dados● Alta latência● Otimizado para “triturar” massiva os dados● Base de dados são imaturas● Banco de Dados são noSQL
![Page 40: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/40.jpg)
● Solução de BI Open Source.● Community Edition● Solução completa de BI e BA ( ETL,
Reporting, Mineração, OLAP e Dashbards, etc)
![Page 41: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/41.jpg)
Pentaho Orquestrando Hadoop
![Page 42: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/42.jpg)
Pentaho Data Integration
![Page 43: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/43.jpg)
Sparkl
● CTools e Pentaho Data Integration (PDI)● Desenvolve frontend com CTools● Implementamos Backends e endPoints com
PDI
![Page 44: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/44.jpg)
![Page 45: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/45.jpg)
![Page 46: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/46.jpg)
Principais desafios
● O Big Data não envolve só mudança de tecnologia, envolve adaptação de processos e treinamento relacionado à mudança de gestão e analise de dados ( MERITALK BIG DATA EXCHANGE, 2013)
● A maioria dos lideres não seba lidar com essa grande variedade e quantidade de informações, e não tem conhecimento dos benefícios que uma analise bem feita destas dados poderia trazer ao seu negocio( COMPUTERWORLD, 2012)
● Falta da cultura: a maioria das empresas não fazem um bom trabalho com as informações que já tem.
● Desafios dos Os 5 V !● Privacidade, A identidade do usuário, mesmo preservada pode ser
buscada... ( Marco Civil da Internet )
![Page 47: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/47.jpg)
Recomendações
● Comece com o problema , e não com os dados
● Compartilhe dados para receber dados● Suporte gerencial e executivo● Orçamento suficiente● Melhores parceiros e fornecedores
![Page 48: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/48.jpg)
Big Data
● “Big Data hoje é o que era a Linux em 1991.
● Sabemos que será algo revolucionário, mas não sabemos o quanto...”
![Page 49: Pentaho Hadoop Big Data e Data Lakes](https://reader033.fdocumentos.tips/reader033/viewer/2022051318/587a16221a28abb4238b5397/html5/thumbnails/49.jpg)
Contatos
● e-mail: ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre● @ambientelivre● @marciojvieira● Blog
blogs.ambientelivre.com.br/marcio● Facebook/ambientelivre