Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Transcript

Page 1: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Disciplina: Procedência de Dados e Data Warehousing. Aluna: Shermila Guerra Santa Cruz.

16/04/13

PrIntCloud

Roteiro 1. Fundamentação Teórica

A.-‐Cloud Computing B.-‐Hadoop C.-‐MapReduce D.-‐NoSql

2. Proposta do projeto PrIntCloud. 3. DesaRios.

Page 3: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

A.-‐ Cloud Compu4ng

Existem servidores com níveis de uso de capacidade computacional bastantes baixos, com medias 5-10%, em períodos de pico usa o 30% a 40%. Se observa uma significativa ociosidade dos ciclos de CPU.

Page 4: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

A.-‐ Arquitetura Cloud Compu4ng

Page 5: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Gerenciamento de dados na Nuvem

Escalabilidade. Elasticidade. Disponibilidade.

Page 6: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

A.-‐O que é escalabilidade?

Se tem duas opções :

1.  Escalabilidade Vertical. 2.  Escalabilidade Horizontal.

Page 7: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

A.- Escalabilidade Vertical Versus Horizontal.

Escalabilidade Vertical Escalabilidade Horizontal

Page 8: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

A.- Elasticidade e disponibilidade

Page 9: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Motivação Computação paralela não é trivial • Rede comum • Escalonamento das subtarefas • Balanceamento de carga Apache Hadoop • Retira a complexidade na computação de alto desempenho

• Máquinas comuns

Page 10: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

B.-‐O que é o Hadoop? Arcabouço para processamento e

armazenamento de dados em larga escala: • Código aberto • Implementado em Java • Inspirado no GFS e MapReduce da Google • Projeto principal da Fundação Apache • Tecnologia recente, porém já muito utilizada

Page 11: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

b.- Onde utilizar o Hadoop

• DataWarehouse • Business Intelligence • Aplicações analíticas • Mídias sociais

Page 12: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Subprojetos do Hadoop (Rogers,2011)

Page 13: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

B.-‐Componentes do Hadoop

•Nó Mestre: • NameNode • DataNode •SecondaryNameNode •Nó(s) Escravo(s): • JobTracker •TaskTracker

Page 14: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

B.-‐Processos do Hadoop

Componentes do Hadoop •Nó Mestre: • NameNode • DataNode •SecondaryNameNode •Nó(s) Escravo(s): • JobTracker •TaskTracker

Page 15: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

B.-HDFS • Hadoop Distributed Filesystem • Características • Divisão em blocos • Replicação de dados

Page 16: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

B.-Características HDFS • Sistema de arquivos distribuídos • Arquitetura Mestre/Escravo •  Inspirado no Google FileSystem (GFS) •  Implementado em Java • Armazenamento de grandes volumes de dados • Recuperação de dados transparente ao usuário

Page 17: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

B.-Replicação de bloco de Dados Três réplicas para cada bloco • Aumento de segurança e disponibilidade • Cada réplica em um diferente nó • Dois em um mesmo armário (rack) e 1 em um armário diferente

• Re-Replicação • Em casos de corromper uma das réplicas

Page 18: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

B.-Replicação de bloco de Dados

Page 19: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

MapReduce • No Hadoop é a parte do arcabouço responsável pelo

processamento distribuído (paralelo) de grandes conjuntos de dados.

• O paradigma MapReduce é adequado para trabalhar com grandes quantidades de dados

• Realiza computação sobre os dados (pouca movimentação de dados)

• Utiliza os blocos armazenados no DFS, logo não necessita divisão dos dados

Page 20: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

MapReduce Como resolver um problema com MapReduce? • Leia uma grande quantidade de dados • Aplique a função MAP: extrai alguma informação de valor! • Fase intermediária: Shuffle & Sort • Aplique a função REDUCE: reúne, compila, • filtra, transforma,... • Grava os resultados

Page 21: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

MapReduce implementado pela Google

Page 22: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Exemplos: Word Count • Lê arquivos texto e conta a frequência das palavras • Entrada: arquivos texto • Saída: arquivo texto • Cada linha: palavra, separador (tab), quantidade • Map: gera pares de (palavra, quantidade) • Reduce: para cada palavra, soma as quantidades

Page 23: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Fluxo lógico de execução da aplicação Map Reduce Word Count

Page 24: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Fluxo de execução de uma aplicação MapReduce no Hadoop

Page 25: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

D.-NoSql

Page 26: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

D.-‐.-‐Caraterís4cas do NoSql Esquema livre.

Distribuídos .

Escalabilidade horizontal.

Consistência eventual(Not ACID).

Fácil suporte replicação .

Fonte: http://nosql-‐database.org/ based on 5 sources, 11 constructive feedback emails and 1 disliking comment.

Page 27: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

2.-PrIntCloud.

Page 28: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Justificação Devido à natureza dinâmica e a necessidade de alto poder de processamento computacional requerida em processos de integração, propõe-se neste projeto de pesquisa adaptar e estender o modelo PrInt para integração de dados em ambientes em nuvem.

Page 29: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Problemática • Na etapa de Coleta dos Dados não proporciona escalabilidade em termos do Número de fontes de dados. • Na etapa de integração de dados não propicia a escalabilidade em termos do número de operações que executa para resolver as inconsistências destas fontes de dados.

Page 30: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Objetivo 1 Adaptar e estender o modelo PrInt para permitir a integração de dados em nível de instância em um ambiente na nuvem.

Page 31: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Objetivo 2 • O modelo a ser proposto visa o desenvolvimento de

estratégias que vislumbrem a integração dos dados na nuvem em níveis de instancia.

Page 32: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Hipótese 1: “O modelo PrIntCloud garante um bom desempenho e provê escalabilidade na coleta de dados e no processamento de operações para a integração de dados em nível de instância considerando volumes de dados, mantendo a qualidade”

Page 33: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Hipótese 2: •  “Uma abordagem PrIntCloud que combine técnicas de

procedência de dados e integração de dados em nível de instância reduz o tempo de processamento e o esforço humano necessário para a integração de dados(quando se restabelece os resultados de processos de integração que já foram executados pelo menos uma vez)”.

Page 34: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Visão Geral do Modelo PrIntCloud

Á´

Repositório de operações A e Á são iguais.

Page 35: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Uma Arquitetura Escalável para Integração de Dados na Nuvem

Page 36: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

3.-Desafios.

Page 37: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Desafios

I.-Propor formas distintas para estender o repositório do modelo PrInt de acordo com diferentes paradigmas de armazenamento de dados em nuvem(NoSql).

Page 38: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

esafios

II.-Propor uma arquitetura escalável para o processamento distribuído de grandes volumes de dados que combine técnicas que permitam integrar dados dos currículos Lattes com suporte à reaplicação de decisões anteriores;

Page 39: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Desafios III.-Definir como os dados integrados em processos de integração anteriores são armazenados para serem acessados por processos de integração subsequentes concorrentes na nuvem. Assim, as transações podem ser armazenadas em um repositório centralizado;

Page 40: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Desafios IV.- Este projeto de doutorado PrIntCloud tem como objeto propor o modelo distribuído na nuvem com acesso multiusuário na web.

Page 41: Apresentação do PrintCloud-3wiki.icmc.usp.br/images/9/94/Mat04-PrIntCloud.pdf · Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato ... São Paulo - IME Livros

Referências Tomazela, B. (2010). MPPI: um modelo de procedência para subsidiar processos de integração. Dissertação de mestrado, Universidade de São Paulo, São Carlos, SP. Alfredo Goldman, Fabio Kon, Francisco Pereira Junior, Ivanilton Polato e Rosangela de Fátima Pereira disponivel BDBCOMP http://www.lbd.dcc.ufmg.br/colecoes/jai/2012/003.pdf, Universidade de São Paulo - IME Livros • Hadoop-The Definitive Guide(Tom White-2 Ed.) • Hadoop in Action by Chuck Lam-1 Ed. • web: http://wiki.apache.org/hadoop

Top Related

PROPOSTA DE INTERVENÇÃO PEDAGÓGICA PARA …ISSN 2176-1396 PROPOSTA DE INTERVENÇÃO PEDAGÓGICA PARA O RECONHECIMENTO, PREVENÇÃO E COMBATE DO Aedes aegypti Henrique José Polato

1 Gerenciamento de Recursos em Sistemas de Grande Escala Jeferson R. Marques Fabio Kon Departamento de Ciência da Computação IME-USP .

1 Planejamento e Estimativas Ágeis Dairton Bassi Fabio Kon .

Copyleft by Fabio Kon1 Middleware Reflexivo Construindo Sistemas Distribuídos Flexíveis, Adaptáveis e Reconfiguráveis Prof. Dr. Fabio Kon Departamento.

A Collaboration Model to Recommend Network Security Alerts ... · esposte@ime.usp.br Fabio Kon kon@ime.usp.br. Title: Título da apresentação Author: Elisa Yumi Nakagawa Created

A Collaboration Model to Recommend Network Security Alerts ... · [email protected] Fabio Kon [email protected]. Title: Título da apresentação Author: Elisa Yumi Nakagawa Created

Agendamento de grupos na Pró-Sangue: Estratégias e Resultadoshemo.org.br/aulas/pdf/11-11/CAPTACAO/11-09H00-SILVIA-POLATO... · PLANILHA DE AGENDAMENTO. Campanhas 2016 JAN FEV MAR

qdqp37 - Sở Tài nguyên Môi trường tỉnh Kon Tumstnmt.kontum.gov.vn/uploads/cong-khai-cong-bo/2019_02/qdqp37.pdf ·

Final proyecto apnea del sueño kon abstract