AULA 4: Continuação ETL e Criação de Dimensões
Transcript of AULA 4: Continuação ETL e Criação de Dimensões
AULA 4: Continuação ETL e Criação de Dimensões
Prof. Esp. Tiago A. Silva
RIBEIRÃO PRETO 19 de Maio 2017
SISTEMAS DE APOIO À DECISÃO
REVISÃO AULA 3 • Inicialização do Spoon
– Arquivo .bat ou .sh
– Correção das variáveis xms e xmx (se necessário)
– Conexão com MySQL.
• INSTALAÇÃO PDI – PENTAHO DATA INTEGRATION:
– Componentes de Input e Output
– Extração de dados do MySQL para Microsoft Excel.
– Extração de Dados de arquivo XML para Microsoft Excel
2 www.tiago.blog.br
PLANO DA AULA 4
EXPOSITIVA E PRÁTICA (90 mim): Transformação de Dados:
XML para SQL
Instalação PostgreSQL
Conceitos Data Warehouse
OLAP
Modelo Dimensional
Tabela Fato
3 www.tiago.blog.br
OBJETIVO: Continuar com ETL e criar dimensões para Data Warehouse no PostgreSQL
Começando Instalação do PostgreSQL
Seguir o assistente.
Definir senha do usuário postgres
Instalar pgAdmin
4 www.tiago.blog.br
Dica: Execute os setups como Administrador.
Enquanto é instalado, pule
para o slide seguinte!
EXERCÍCIO DE FIXAÇÃO Como transformar dados XML para MySQL:
Use os arquivos:
http://www.tiago.blog.br/sad/nfe.zip
5 www.tiago.blog.br
Transformar os dados via PDI?
AULA 3!
Windows: *.bat Outros: *.sh
REVISÃO DE CONCEITOS De onde vem os dados?
– Ferramenta OLTP:
Como ver os dados?
– Ferramenta OLAP:
7 www.tiago.blog.br
Online Transaction Processing: Registrar transações no Banco de Dados: Operacional, Leitura e Escrita, Alto grau de precisão, Eliminar redundância.
Online Analytical Processing: Cubos, navegação pelos dados em diferentes tipos de granularidades: nível detalhamento dos dados
REVISÃO DE CONCEITOS DATA WAREHOUSE
–É um conceito, não um produto!
–Armazenamento de Dados;
–Normalizados ou não;
–Somente leitura;
–Realização de Consultas: • Navegação com ferramentas OLAP:
– Ferramentas Interativas: CUBOS
– Visualização multidimensional
– Variação do nível de detalhamento
8 www.tiago.blog.br
Como construir minha
infraestrutura?
REVISÃO DE CONCEITOS CONCEITOS RELACIONADOS AOS CUBOS:
Hierarquias
Drill Down
Drill Up
Medidas
Fatos
Dimensões
11 www.tiago.blog.br
Dúvidas? Veremos tudo
com mais calma (e na prática)
O que é um Fato?
12 www.tiago.blog.br
Venda do produto X por R$ 50,00 em 18/05/2015 na loja de Sertãozinho com custo de R$ 25,00
Venda do produto Z por R$ 60,00 em 18/05/2017 na loja de Jardinópolis com custo de R$ 26,00
Venda do produto X por R$ 70,00 em 18/05/2017 na loja de Sertãozinho com custo de R$ 30,00
O que são Dimensões?
13 www.tiago.blog.br
No cubo iremos variar as dimensões: trocar produto, trocar data, trocar local, por
exemplo.
Venda do produto X por R$ 50,00 em 18/05/2015 na loja de Sertãozinho com custo de R$ 25,00
Onde? Quando? O que?
O que são Medidas?
14 www.tiago.blog.br
Vai variar de acordo com a regra de
negócio.
Venda do produto Z por R$ 60,00 em 18/05/2017 na loja de Jardinópolis com custo de R$ 26,00
Quantificável
Quantificável
PRÁTICA: Construindo o Data Warehouse
16 www.tiago.blog.br
No pgAdmin: Crie um novo Banco de Dados no PostgreSQL com nome datawarehouse
PRÁTICA: Construindo o Data Warehouse Executar o Spoon:
Criar duas conexões:
Com MySQL (OLTP)
Com PostgreSQL (Data Warehouse)
Crie uma nova transformação!
17 www.tiago.blog.br
Vamos utilizar o PDI para criar as dimensões dentro do Data Warehouse!
NOVO: Para usar as conexões, clique com
o botão direito e vá em share
PRÁTICA: Construindo o Data Warehouse Criando a Entrada de Dados:
Vá na aba Design, depois em Input:
Procure por Table Input
18 www.tiago.blog.br
DICA: Siga os passos ao lado para
configurar a vinda dos dados do OLTP.
1
2
3
4
5
Criando a “Saída” de Dados:
Vá na aba Design, depois em Data Warehouse:
Procure por Dimension lookup/update
PRÁTICA: Construindo o Data Warehouse
19 www.tiago.blog.br
São mais etapas do que estamos acostumados até agora! siga no próximo slide!
Você lembra o que é PK? e FK? Pesquise por: SK
21 www.tiago.blog.br
3
DICA: Depois de selecionar os campos, clique em SQL. O PDI irá gerar a tabela
DIM_CLIENTE para você!
2
1
22 www.tiago.blog.br
Enquanto isso no pgAdmin...
O PDI já criou a tabela da dimensão cliente, além de adicionar os campos version, data_from, data_to. É um dos passos para criarmos o cubo OLAP!