Download - Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

Transcript

Page 1: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

MODELO ZeEN

Miguel Nuno da Silva Gomes Rodrigues Gago

Uma abordagem minimalista

para o desenho de data warehouses

Dissertação apresentada como requisito parcial para

obtenção do grau de Mestre em Estatística e Gestão de

Informação

Dissertation presented as partial requirement for obtaining the

Master’s degree in Statistics and Information Management

Page 2: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

Page 3: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

iii

Instituto Superior de Estatística e Gestão de Informação

Universidade Nova de Lisboa

MODELO ZeEN

Uma abordagem minimalista

para o desenho de data warehouses

por

Miguel Nuno da Silva Gomes Rodrigues Gago

Dissertação apresentada como requisito parcial para a obtenção do grau de Mestre em

Estatística e Gestão de Informação, Especialização em Gestão dos Sistemas e

Tecnologias de Informação

Orientador: Prof. Dr. Miguel de Castro Neto

Março 2013

TÍTULO

Nome completo do Candidato

Subtítulo

Dissertação / Trabalho de Projeto / Relatório de

Estágio apresentada(o) como requisito parcial para

obtenção do grau de Mestre em Estatística e Gestão

de Informação

TÍTULO

Nome completo do Candidato

Subtítulo

Dissertação / Trabalho de Projeto / Relatório de Estágio

apresentada(o) como requisito parcial para obtenção do

grau de Mestre em Gestão de Informação

Page 4: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

Ao meu Pai, o Engenheiro Armando Rodrigues Gago, que me ensinou

a procurar sempre mais além.

Page 5: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

Agradecimentos

À minha Mãe Maria Ondina,

À minha Mulher Luísa,

pelo tempo que lhes subtraí e por acreditarem sempre em mim.

Ao Prof. Dr. Miguel de Castro Neto, por me ter incutido confiança em

desenvolver esta dissertação na área da Business Intelligence.

Page 6: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

Il semble que la perfection soit atteinte, non quand il n'y a plus

rien à ajouter mais quand il n'y a plus rien à retrancher.

Saint-Exupéry, Terre des Hommes

Page 7: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

vii

RESUMO

Constituindo o data warehouse o componente estrutural por

excelência dum sistema de Business Intelligence, alterações à

estrutura do modelo de negócio servido implicam normalmente

alterações ao modelo de dados utilizado e, logo, operações

especializadas de administração e arquitectura, tais como: paragem

do sistema, redesenho e reimplementação do data warehouse,

adaptação dos processos de carregamento e da lógica de acesso à

informação, testes, novo carregamento e novo arranque do sistema.

Tendo em conta o tempo, risco e custo envolvidos nestas operações,

potenciados pela rigidez e complexidade dos modelos de dados,

torna-se oportuno procurar formas de agilizar os processos de

mudança, pela concepção de um novo modelo de dados simples,

seguro, e generalizável.

Focando o âmbito da investigação numa necessidade do modelo de

negócio da indústria farmacêutica, e após revisão de modelos de

dados existentes, propõe-se nesta dissertação um novo modelo

(ZeEN - Zero Effort Entity-Network) com o objectivo referido, cujos

desempenho e complexidade de implementação e manutenção foram

avaliados positivamente face aos modelos tradicionais relacional e

dimensional e à recente abordagem Anchor Modeling.

Desta comparação são retiradas conclusões relativas às necessidades

de Business Intelligence em geral, e são propostas vias para futura

actividade.

PALAVRAS-CHAVE

Base de dados; Data warehouse; Modelação de dados; Business Intelligence;

Normalização; Customer Relationship Management

Page 8: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

viii

ABSTRACT

As the data warehouse is the core framework of a Business

Intelligence system, changes to the business model at stake also

imply changes to the applied data model, which require specialized

maintenance and architecture operations, such as: halting the

system, data warehouse redesign and reimplementation, changes to

loading processes and information retrieval logic, tests, reloading of

data and system rebooting.

Considering time, risk and cost implied in these operations, strongly

related to data model rigidity and complexity, it seems advisable to

seek streamlining of change processes, by framing a new simple, safe

and generalizable data model.

Aiming at this purpose, after reviewing existing data model concepts,

and by focusing research on a specific need of the pharmaceutical

industry, a new model (ZeEN - Zero Effort Entity-Network) is

presented here, which was succesfully benchmarked against

traditional relational and dimensional models and Anchor Modeling

recent approach, for performance, and implementation and

maintenance complexity.

From the experiment, conclusions are drawn over Business

Intelligence generic needs, and future work is suggested.

KEYWORDS

Database; Data warehouse; Data modeling; Business Intelligence; Normalization;

Customer Relationship Management

Page 9: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

ÍNDICE

1. Introdução .................................................................................................................. 21

1.1. Descrição do problema de investigação ............................................................. 21

1.2. Objectivo da investigação ................................................................................... 22

1.3. Questões de investigação ................................................................................... 22

1.4. Metodologia ........................................................................................................ 23

1.5. Valor da investigação .......................................................................................... 24

1.6. Estrutura da dissertação ..................................................................................... 25

2. Revisão da Literatura ................................................................................................. 27

2.1. Introdução ........................................................................................................... 27

2.2. Business Intelligence ........................................................................................... 27

2.3. Modelos de dados ............................................................................................... 29

2.3.1. Dados ........................................................................................................... 29

2.3.2. Ficheiros manuais ........................................................................................ 29

2.3.3. Sistemas baseados em ficheiros .................................................................. 30

2.3.4. Sistemas de gestão de bases de dados ........................................................ 31

2.3.4.1. Primeira geração ........................................................................ 31

2.3.4.2. Segunda geração ....................................................................... 34

2.3.4.3. Normalização de dados ............................................................. 34

2.3.4.4. Temporalidade ........................................................................... 43

2.3.4.5. Modelo dimensional .................................................................. 43

2.3.5. Outras Abordagens ...................................................................................... 54

2.3.5.1. Bases de dados baseadas em objectos ..................................... 54

2.3.5.2. Schema integration, Schema evolution e Schema versioning .. 55

2.3.5.3. Schema matching genérico ....................................................... 56

2.3.5.4. Row modeling / Entity-Attribute-Value ..................................... 57

2.3.5.5. Anchor modeling ....................................................................... 58

2.3.5.6. Data Vault .................................................................................. 61

2.3.5.7. Metodologias ágeis em bases de dados .................................... 64

3. Métodos e Materiais .................................................................................................. 66

3.1. Métodos .............................................................................................................. 66

3.2. Materiais ............................................................................................................. 67

4. Resultados e Discussão .............................................................................................. 69

Page 10: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

4.1. Descrição do modelo de negócio subjacente ao modelo de dados a testar ...... 69

4.2. Descrição dos dados utilizados para teste .......................................................... 71

4.2.1. Estrutura de Eventos .................................................................................... 71

4.2.2. Estrutura de Dimensões ............................................................................... 71

4.2.3. Modelação ................................................................................................... 72

4.2.4. Dados ........................................................................................................... 74

4.2.4.1. Factos ......................................................................................... 74

4.2.4.2. Dados de Estruturas .................................................................. 74

4.3. Descrição do processo de BI considerado .......................................................... 75

4.4. Descrição do dashboard pretendido................................................................... 77

4.4.1. Indicadores de Marketing e Vendas MI e Evol ............................................ 77

4.4.2. Necessidade de um dashboard .................................................................... 80

4.4.3. Configuração do dashboard pretendido ...................................................... 82

4.4.4. Alinhamento com o objectivo da investigação ............................................ 83

4.5. Implementação do modelo relacional ................................................................ 85

4.5.1. Modelo físico (R) .......................................................................................... 85

4.5.2. Consulta de dados ........................................................................................ 85

4.5.3. Modelo relacional com cubo de pré-agregação .......................................... 91

4.6. Identificação de alternativa ao modelo relacional ............................................. 94

4.6.1. Necessidade ................................................................................................. 94

4.6.2. Potencial circunstância impactante ............................................................. 94

4.6.3. Avaliação de impacto ................................................................................... 95

4.6.3.1. Impacto na estrutura de armazenamento ................................ 95

4.6.3.2. Impacto na consulta aos dados ................................................. 97

4.6.4. Objectivo de redução de impacto ................................................................ 98

4.6.5. Estratégia de redução de impacto ............................................................... 98

4.6.6. Desenvolvimento do conceito ................................................................... 100

4.6.7. Aperfeiçoamento do conceito ................................................................... 102

4.7. Implementação do modelo Z ............................................................................ 109

4.7.1. Modelo físico .............................................................................................. 109

4.7.2. Avaliação de impacto de alterações em Z ................................................. 111

4.7.3. Consulta de dados ...................................................................................... 112

4.7.4. Modelo Z com cubo de pré-agregação (Z_c) ............................................. 113

4.7.5. Modelo Z com associações directas (Z_d) ................................................. 115

Page 11: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

4.7.6. Modelo relacional com associações directas ............................................ 118

4.8. Identificação de alternativa ao modelo de factos ............................................ 119

4.8.1. Necessidade ............................................................................................... 119

4.8.2. Solução ....................................................................................................... 119

4.9. Implementação do novo modelo de factos ...................................................... 121

4.9.1. Modelo físico (Z+) ...................................................................................... 121

4.9.2. Consulta de dados ...................................................................................... 122

4.10. Modelo dimensional ................................................................................. 125

4.11. Anchor model............................................................................................ 129

4.12. Sintese dos resultados .............................................................................. 131

4.13. Designação escolhida ................................................................................ 135

5. Conclusões ............................................................................................................... 137

5.1. Cumprimento do objectivo de investigação ..................................................... 137

5.1.1. Esforço e impacto Zero .............................................................................. 137

5.1.2. Simplicidade, imutabilidade e determinismo ............................................ 137

5.1.3. Compromisso aceitável .............................................................................. 138

5.2. Duas variantes, para diferentes necessidades .................................................. 138

5.3. Aproveitamento de infra-estrutura e know-how existentes ............................ 138

5.4. Possível standard para data warehousing ........................................................ 139

5.5. Contributos para o conhecimento .................................................................... 139

5.5.1. Filosofia ZeEN ............................................................................................. 139

5.5.2. Materialização de relações indirectas ....................................................... 140

5.5.3. Flexibilidade temporal ............................................................................... 140

5.5.4. Separação clara dos conceitos e estruturas de dimensões e eventos ...... 140

6. Limitações e Recomendações para Trabalhos Futuros ........................................... 141

6.1. Demonstração teórica formal ........................................................................... 141

6.2. Acomodação de diferentes tipos e domínios de dados.................................... 141

6.3. Máquina universal de análise (ZeEN#) ............................................................. 141

6.4. Detecção automática de fontes ........................................................................ 141

6.5. Acomodação de Metadata e outros dados auxiliares ...................................... 142

6.6. Considerações temporais adicionais ................................................................. 142

6.7. Linguagem de cálculo ........................................................................................ 142

6.8. Linguagem de navegação .................................................................................. 143

6.9. Tecnologia nova ................................................................................................ 143

Page 12: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

xii

7. Apêndices ................................................................................................................. 144

7.1. Script das tabelas do Modelo Relacional (R)..................................................... 144

7.2. Script da consulta on-the-fly do Modelo Relacional (R) ................................... 149

7.3. Output da consulta para o dashboard (R) ........................................................ 153

7.4. Script da rotina de criação do cubo (R) ............................................................. 155

7.5. Script da consulta on-the-fly dos Modelos Relacional (R) e Z sobre cubo ....... 158

7.6. Script da rotina de criação dum modelo Z a partir dum modelo relacional ..... 159

7.7. Script da rotina de criação dum modelo relacional a partir dum modelo Z ..... 162

7.8. Script da consulta on-the-fly do Modelo Z ....................................................... 164

7.9. Materialização de associações indirectas (Z_d) ................................................ 168

7.10. Script da consulta on-the-fly do Modelo Z_d ........................................... 170

7.11. Script de carregamento dos Factos de Z_d para Z+ ................................. 172

7.12. Script da consulta on-the-fly do Modelo Z+ ............................................. 173

7.13. Script da consulta on-the-fly do Modelo Dimensional ............................. 175

7.14. Script da camada inferior da consulta on-the-fly aplicada a AM ............. 176

8. Referências bibliográficas ........................................................................................ 178

Page 13: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

xiii

ÍNDICE DE FIGURAS

Figura 1. Ficheiros manuais. ........................................................................................... 30

Figura 2. Modelo hierárquico. ........................................................................................ 33

Figura 3. Modelo em rede. ............................................................................................. 33

Figura 4. ZNF. .................................................................................................................. 36

Figura 5. 1NF. .................................................................................................................. 36

Figura 6. 2NF. .................................................................................................................. 38

Figura 7. 3NF / BCNF. ...................................................................................................... 39

Figura 8. 4NF / 5NF / DKNF / 6NF. .................................................................................. 42

Figura 9. Modelo relacional monotemporal. .................................................................. 44

Figura 10. Modelo dimensional Star. .............................................................................. 46

Figura 11. Modelo dimensional Constellation. ............................................................... 46

Figura 12. Modelo dimensional Star Cluster. ................................................................. 47

Figura 13. Modelo dimensional Constellation Cluster. .................................................. 47

Figura 14. Modelo dimensional Snowflake. ................................................................... 49

Figura 15. Modelo EAV aplicado à entidade DIM a partir da 2NF. ................................. 59

Figura 16. Modelo Anchor do exemplo .......................................................................... 62

Figura 17. Modelo Anchor do exemplo convertido em relacional (SQL) ....................... 62

Figura 18. Modelo Anchor em tabelas relacionais na 6NF. ............................................ 63

Figura 19. Modelo ER simples. ....................................................................................... 73

Figura 20. O processo de BI. ........................................................................................... 75

Figura 21. Dashboard para Análise de Vendas. .............................................................. 81

Figura 22. Modelo físico relacional (base de dados R). .................................................. 84

Figura 23. Registos de uma consulta efectuada. ............................................................ 86

Figura 24. Camada inferior da consulta: cálculo de MS regional e MS nacional. ........... 87

Figura 25. Camada superior da consulta: cálculo algébrico sobre as métricas auxiliares

e organização dos registos para entrega ao dashboard. ........................................ 88

Figura 26. Dos dados ao dashboard – modelo relacional com e sem cubo. .................. 90

Figura 27. Modelo ER – nova entidade SBU ................................................................... 95

Figura 28. Modelo ER vs modelo de grafos .................................................................... 99

Figura 29. Nós e associações no modelo de grafos. ..................................................... 101

Figura 30. Entidades acrescentadas e associadas como nós. ....................................... 101

Figura 31. Modelos ER, relacional e de grafos (extremo). ........................................... 103

Page 14: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

xiv

Figura 32. Modelo lógico em rede extremo (grafos). ................................................... 104

Figura 33. Modelo lógico em rede e respectivo DSD. .................................................. 105

Figura 34. Modelo Z. ..................................................................................................... 106

Figura 35. Modelo Z - estrutura de dimensões do exemplo da revisão de literatura. . 108

Figura 36. Modelo físico Z. ............................................................................................ 110

Figura 37. Tabela Tables. .............................................................................................. 110

Figura 38. Tabela Groups. ............................................................................................. 111

Figura 39. Camada inferior da consulta para o modelo Z. ........................................... 113

Figura 40. Dos dados ao dashboard - modelo relacional (c/cubo) vs Z_c .................... 114

Figura 41. Camada inferior da consulta para o modelo Z_d. ....................................... 117

Figura 42. Modelação genérica de factos – conceito e exemplo. ................................ 120

Figura 43. Modelação genérica de factos – implementação. ....................................... 121

Figura 44. Camada inferior da consulta para o modelo Z+. ......................................... 122

Figura 45. Evolução dos modelos no sentido da generalização. .................................. 124

Figura 46. Modelo dimensional Snowflake .................................................................. 127

Figura 47. Dos dados ao dashboard - modelo relacional vs dimensional (OLAP) ........ 128

Figura 48. Anchor model do caso estudado ................................................................. 130

Figura 49. Anchor model implementado no modelo relacional. .................................. 131

Page 15: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

ÍNDICE DE TABELAS

Tabela 1. OLTP vs OLAP (Ponniah, 2001) ........................................................................ 50

Tabela 2. Fórmulas de cálculo do MI e do Evol. ............................................................. 78

Tabela 3. Parâmetros de consulta de teste .................................................................... 89

Tabela 4. Parâmetros de criação do cubo de teste ........................................................ 93

Tabela 5. Relação Linha Comercial - SBU ........................................................................ 94

Tabela 6. Esforço necessário para implementar alterações em cada modelo. ............ 133

Tabela 7. Esforço necesssário para implementar alterações em cada modelo (cont.).

.............................................................................................................................. 134

Tabela 8. Quantificação dos factores implicados nas questões de investigação. ........ 136

Tabela 9. Ranking dos modelos. ................................................................................... 136

Page 16: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

xvi

LISTA DE SIGLAS E ABREVIATURAS

1NF Primeira Forma Normal

2NF Segunda Forma Normal

3NF Terceira Forma Normal

4NF Quarta Forma Normal

5NF Quinta Forma Normal

6NF Sexta Forma Normal

AIM Autorização de Introdução no Mercado

AM Agile Modeling

AM Anchor Model(ing)

API Application Programming Interface

BCNF Boyce-Codd Normal Form

BI Business Intelligence

BIU Basic Information Unit

C Nome de uma linguagem de programação

C-DV Conceptual Data Vault

COBOL Common Business-Oriented Language

Page 17: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

CODASYL Conference on Data Systems Languages

CRM Customer Relationship Management

DBA Database Administrator

DBMS Database Management System

DCI Denominação Comum Internacional

DDL Data Definition Language

DIM Delegado de Informação Médica

DKNF Domain/Key Normal Form

DM Data Mining

DML Data Manipulation Language

DMX Data Mining Extensions

DSD Data Structure Diagram

DSDM Dynamic systems development method

DSS Decision Support Sytem

DV Data Vault

DW Data Warehouse

DW 2.0 Data Warehousing 2.0

Page 18: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

EAV Entity-Attribute-Value

EIS Executive Information System

ER Entity-Relationship

EPRS Electronic Patient Record System

ETL Extract-Transform-Load

Evol Evolution Index

FDD Feature-driven development

GUAM Generalized Update Access Method

HOLAP Hybrid OLAP

ID Código Identificador único

KPI Key Performance Indicator

LC Located Contents

MB Megabyte

MDX Multidimensional Expressions

MI Market Index

MIS Management Information System

MOLAP Multidimensional OLAP

MQL Marketing Query Language

Page 19: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

MS Market Share

MS Microsoft

MSN Market Share Nacional

MSR Market Share Regional

MSRM Medicamentos Sujeitos a Receita Médica

MVD Multivalued Dependency

MVS Materialized View Selection

OLAM On-line Analytical Mining

OLAP On-line Analytical Processing

OLTP On-Line Transaction Processing ou On-line Teleprocessing

OODBMS Object-Oriented Database Management System

ORDBMS Object-Relational Database Management System

RAM Random Access Memory

RDBMS Relational Database Management System

ROLAP Relational OLAP

SBU Strategic Business Unit

SQL Structured Query Language

Page 20: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

UoD Universe of Discourse

XML Extensible Markup Language

XMLA XML for Analysis

XP Extreme Programming

ZNF Zero Normal Form

ZeDMS Zero Effort Data Management System

ZeEN Zero Effort Entity-Network

ZeEN+ Zero Effort Entity-Network Plus

ZeEN# Zero Effort Entity-Network Sharp

ZeQL Zero Effort Query Language

Page 21: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

1. INTRODUÇÃO

1.1. DESCRIÇÃO DO PROBLEMA DE INVESTIGAÇÃO

As organizações, comerciais ou outras, necessitam de informação relevante,

correcta e atempada para suportar a tomada das decisões mais acertadas, sempre

necessárias à melhoria contínua do seu desempenho e à sua sobrevivência (Cody,

Kreulen, Krishna, & Spangler, 2002; Lönnqvist & Pirttimäki, 2006; Thomsen, 2002;

Turban, Sharda, Aronson, & King, 2007).

O processo de Business IntelIigence (BI) tem como objectivo suprir esta

necessidade (Golfarelli, Mandreoli, Penzo, Rizzi, & Turricchia, 2012; Rud, 2009;

Turban et al., 2007).

Fá-lo canalizando regularmente dados de actividade para um data warehouse

(DW) onde, após transformação, ficam armazenados de forma persistente e

organizada, permitindo aos utilizadores do sistema explorar a informação obtida

através de aplicações de análise e visualização, e tomar decisões (Agrawal,

Sundararaghavan, Ahmed, Nandkeolyar, 2009; Inmon, 1999).

O DW por definição reproduzindo a estrutura do negócio (Inmon, 2005),

qualquer alteração a este último implica alterações ao modelo de dados (Sen &

Sinha, 2005; Curino, Tanca, Moon, & Zaniolo, 2008), e logo actividades

especializadas de administração e rearquitectura (Rönnback, Regardt, Bergholz,

Johannesson, & Wohed, 2010a).

Por sua vez, alterações ao modelo de dados implicam adicionalmente

alterações às aplicações de exploração da respectiva informação (De Vries &

Roddick, 2007; Simsion & Witt, 2005).

Estas actividades de adaptação, quer no DW quer no software que dela

depende, envolvem tempo, risco e custos elevados (Curino, Moon, & Zaniolo,

2009; Kimball & Ross, 2010; Simsion & Witt, 2005), logo torna-se imperativo

Page 22: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

encontrar forma de agilizar o processo de adaptação do modelo de dados a

mudanças na realidade, cada vez mais frequentes (Curino et al., 2008; Inmon,

2005).

1.2. OBJECTIVO DA INVESTIGAÇÃO

A presente investigação tem como objectivo identificar um modelo de dados

cuja configuração permita atenuar ou eliminar a complexidade e os problemas

decorrentes da adaptação de bases de dados a alterações de requisitos, as quais

ocorrem com frequência (Moody & Kortink, 2000).

1.3. QUESTÕES DE INVESTIGAÇÃO

Logo, colocam-se as seguintes questões de investigação:

Questão genérica:

É possível identificar um modelo de dados com o qual a implementação

de alterações a regras de negócio se traduz em menor impacto nas

operações de adaptação do mesmo, e nos algoritmos de consulta,

comparativamente a um modelo tradicionalmente utilizado?

Questões específicas:

Que operações de carregamento e de adaptação se conseguem eliminar

utilizando o novo modelo?

Haverá operações adicionais necessárias?

Qual o impacto do novo modelo no desempenho das consultas?

Qual o impacto do novo modelo no espaço em disco utilizado?

Qual o impacto do novo modelo nos tempos de carregamento?

Qual o impacto do novo modelo no risco do projecto de BI?

Page 23: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

Que soluções (variantes) existem de equilíbrio entre os factores

anteriores e a que cenários mais se adequam?

1.4. METODOLOGIA

Os fundamentos para responder a estas questões serão investigados na

literatura respeitante a modelos de dados existentes que têm sido habitualmente

adoptados em BI, na maioria o relacional e o dimensional (Jovanovic & Bojicic,

2012; Nagabhushana, 2006; Pedersen & Jensen, 2001; Teorey, Lightstone, Nadeau,

& Jagadish., 2011), assim como a outras abordagens com presumível potencial

para solucionar o problema de investigação.

A solução poderá consistir em algo encontrado na literatura ou prática, uma

adaptação de algo já existente, ou algo essencialmente novo, sendo utilizado no

processo de descoberta quer o raciocínio dedutivo (como quando se aplicam

regras de normalização para aperfeiçoar um modelo) quer o indutivo (inferindo

novos caminhos para uma determinada área a partir de áreas distintas).

Será utilizada uma abordagem experimental para teste de possíveis soluções,

focada numa necessidade concreta, em detrimento duma abordagem algébrica

formal, que poderá ter lugar em desenvolvimentos futuros de investigação.

A solução será testada com um conjunto de dados simulando a actividade de

vendas e promoção duma empresa farmacêutica, procurando responder a um

cenário delimitado de requisitos de análise da área comercial habituais no sector.

O teste será efectuado tendo como benchmark uma implementação

tradicional em modelo relacional e dimensional dos dados para o mesmo objectivo.

Mais do que uma implementação ou versão da solução poderão ser estudadas

consoante a evolução e aperfeiçoamento do conceito. Adicionalmente, será

eventualmente testada alguma abordagem alternativa identificada na literatura

que se revele também poder contribuir para a resolução do problema de

investigação.

Page 24: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

1.5. VALOR DA INVESTIGAÇÃO

A solução a identificar, nas organizações onde for aplicada

deverá permitir reduzir de forma significativa:

- tempo e consequente custo de mão-de-obra com reconfiguração de

sistemas,

- custo de mão-de-obra (interna ou contratada) elevado devido a alto

nível de especialização,

- prejuízos no negócio devidos a tempo de paragem dos sistemas, e

- riscos de inconsistência ou perda de dados devido a complexidade e

novidade de tarefas;

evitará insucesso e abandono de sistemas de BI, frequentemente devidos

a inadaptações ao negócio, em que a opção de reconfiguração ou é

rejeitada por ser demasiado cara, ou falha ou chega tarde demais pela

sua complexidade – a companhia analista do mercado IT Gartner, em

2011 reportava um nível de 70 a 80% de projectos falhados em BI

(Kernochan, 2011), e Watson e Ariyachandra (2005) relataram 30 a 50%

de projectos de DW atrasados ou a ultrapassar o orçamento;

permitirá uma entrada em funcionamento praticamente imediata de

novos sistemas de BI e novas funcionalidades;

facilitará a integração de dados entre sistemas de organizações diferentes

(por exemplo entre empresas envolvidas numa fusão ou pertencentes a

uma multinacional, ou entre o cliente e o fornecedor de dados);

poderá facilitar a migração de dados num contexto de sistemas

integrados, contribuindo para a extensão do conceito de data

warehousing a ambientes distintos da BI (Caetano & Costa, 2012);

poderá reduzir o tempo dos processos de carregamento (ETL), grande

parte dos quais são dedicados à agregação de dados em cubos, que serão

eventualmente tornados obsoletos;

Page 25: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

poderá vir a reduzir o espaço em disco necessário por uma maior

normalização dos dados, evitando pré-agregações redundantes e espaço

perdido com dados esparsos em cubos – frequentemente mais de 90%

(Todman, 2001);

e pelas razões referidas apresenta potencial para se tornar um standard para data

warehousing.

1.6. ESTRUTURA DA DISSERTAÇÃO

A seguir à presente introdução, o capítulo 2 comenta a revisão da literatura,

orientada do seguinte modo:

Primeiro contextualiza-se e refere-se a importância dos dados/DW em BI,

para se passar ao seu estudo ao longo da história, desde os ficheiros manuais, até

aos sistemas gestores de bases de dados (DBMS).

Destes, analisa-se a primeira geração (modelos hierárquico e em rede), e a

segunda, em que surge o modelo relacional, de que uma das vantagens principais é

a possibilidade de normalização de dados. Logo revela-se pertinente analisar de

seguida as várias formas normais aceites na literatura, por grau crescente de

normalização.

Deste modo se pretende, em todo o capítulo 2, percorrer por ordem

crescente de funcionalidade, novidade e/ou sofisticação a evolução das ideias que

estão subjacentes à organização de dados que nos propomos melhorar. Para

reforçar visualmente a evolução dos conceitos, acompanhamos o percurso com um

pequeno exemplo simplificado e contextualizado que ajuda a compreender a

miríade de modos possíveis de representar os mesmos dados, a questionar em que

medida uns modelos são melhores que outros, e a entender porque existem.

Page 26: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

Após a exploração do modelo relacional até à sua implementação

teoricamente mais perfeita no sentido da normalização, passamos paradoxalmente

ao conceito oposto, de desnormalização, em que consiste a passagem ao modelo

dimensional, mais recente e igualmente popular, na sua configuração mais

preconizada em estrela (Jovanovic & Bojicic, 2012), e também em floco-de-neve

(Pedersen & Jensen, 2001).

Conseguimos então obter uma perspectiva total dos modelos mais utilizados

em data warehousing, razão pela qual mais adiante serão escolhidos como

referência neste estudo: os modelos relacional (normalizado) e dimensional.

De seguida, continuando a procurar identificar potenciais soluções ou ideias

para uma solução, vamos examinar abordagens inovadoras que partilham de ideal

alinhado com o desta investigação, como agilizar, facilitar, aligeirar, padronizar,

generalizar, ou universalizar.

Segue-se o capítulo 3 – Métodos e Materiais – que menciona os pormenores

técnicos e o racional das implementações de teste de soluções.

No capítulo 4 – Resultados e Discussão – comentam-se todos os passos

conducentes à concepção e desenvolvimento do novo modelo e variantes, os

testes efectuados e os resultados obtidos.

No capítulo 5, conclui-se acerca destes resultados, destacando as vantagens,

desvantagens e aplicações possíveis do novo modelo nas suas variantes.

O capítulo 6 termina a dissertação, apontando as limitações da investigação

efectuada, e sugerindo vias para desenvolvimento futuro.

Page 27: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

2. REVISÃO DA LITERATURA

2.1. INTRODUÇÃO

Neste capítulo é comentado o conhecimento recolhido considerado mais

relevante no âmbito da procura dum novo modelo de dados simples para suportar

necessidades de informação organizacionais, pelo que os temas investigados são a

Business Intelligence (BI) e a modelação de dados (cujas várias abordagens serão

examinadas e comparadas na forma como se aplicam a um caso prático).

2.2. BUSINESS INTELLIGENCE

Em 1957, é utilizada pela primeira vez a expressão “Business Intelligence” num

texto de investigação. Em “A Preliminary Proposal for a Business Intelligence System”,

já existe preocupação com o crescimento, complexidade e ritmo acelerado do mundo

empresarial, e respectivo impacto na partilha de informação, sendo proposto como

solução um sistema de automatização da codificação e entrega de informação (Luhn,

1957; 1958).

Efectivamente, as organizações, comerciais ou outras, necessitam de informação

relevante, correcta e atempada para suportar a tomada das decisões mais acertadas,

sempre necessárias à melhoria contínua do seu desempenho e mesmo à sua

sobrevivência (Lönnqvist & Pirttimäki, 2006; Turban et al., 2007).

A partir dos anos 1990 (Turban et al., 2007), a expressão “Business Intelligence” -

retomada e promovida em 1989 por Howard Dressner do Gartner Group (Negash &

Gray, 2008) - passa a ser correntemente aceite para designar o processo que responde

a esta necessidade, assegurando a entrega da informação certa na altura certa aos

decisores adequados (Larson, 2009; Rud, 2009)

Page 28: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

BI constitui-se, logo à partida, como um termo popular e abrangente (Collier,

2011) que engloba tanto arquitecturas, como ferramentas, bases de dados e

aplicações, consistindo num processo de transformação sucessiva de dados em

informação, em seguida decisões e finalmente acções (Negash & Gray, 2008;

Raisinghani, 2004; Turban et al., 2007).

A disponibilização de informação aos decisores de forma acessível permitindo-

lhes retirar rapidamente conclusões quanto às acções a tomar, automatizada com o

advento da informática e cada vez mais facilitada pela respectiva evolução (Power,

2007), tem continuado até hoje a ser consensualmente abarcada sob a designação

“Business Intelligence”, não obstante as várias e nem sempre coincidentes definições

do termo usadas na prática (Kobielus, 2010; Sabanovic, 2008), e a sua ainda escassa

sistematização académica (Jourdan, Rainer, & Marshall, 2008; Negash, 2004).

Apesar desta indefinição do termo (Turban et al., 2007), existe significativo

consenso em considerar e classificar os processos de BI em três grandes fases: recolha,

armazenamento e disponibilização de informação de negócio (Hannula & Pirttimäki,

2003; Lönnqvist & Pirttimäki, 2006; Negash & Gray, 2008).

A presente revisão de literatura centra-se na fase do armazenamento, focando a

base de dados por constituir um elemento-charneira cujo posicionamento afecta tanto

a transformação dos dados externos ao sistema de BI como a sua disponibilização de

forma inteligível (informação) ao utilizador/decisor, as quais se pretende tornar mais

adaptáveis a alterações ao modelo de negócio duma organização. O foco é efectuado

na estrutura lógica dos dados, com o objectivo de identificar em que medida as

alternativas já existentes ou propostas podem contribuir para a agilidade pretendida.

Segundo Codd (1980), a reflexão sobre modelos de dados deve contribuir para

lidar com a evolução de bases de dados de modo a minimizar o respectivo impacto em

software existente, e para investigar as propriedades de organizações alternativas dos

dados, motivações que pautarão esta investigação, incluindo a revisão que segue.

Page 29: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

2.3. MODELOS DE DADOS1

2.3.1. Dados

A base de dados, referida como data warehouse (DW) no contexto de BI

(Rainardi, 2008) é o elemento de armazenamento persistente e organizado dos dados

relevantes ao negócio, pronto para ser acedido através de rotinas de consulta (Negash

& Gray, 2008).

O armazenamento de dados tem vindo a ser utilizado desde o advento dos

computadores como auxiliares de gestão nos anos 1960, numa altura em que o termo

BI não tinha ainda sido popularizado e o software de apoio à decisão era designado por

outros nomes e acrónimos como DSS, MIS ou EIS (Power, 2007; Thomsen, 2003;

Turban et al., 2007), e tal como este tem acompanhado a evolução tecnológica.

2.3.2. Ficheiros manuais

Os primeiros sistemas computorizados a usar uma quantidade considerável de

dados foram criados para melhorar o acesso à informação, que até então se fazia por

meio de ficheiros manuais, cada ficheiro tendo informação associada a uma instância

de uma entidade, como um determinado cliente, produto ou projecto (Connolly &

Begg, 2005; Silberschatz, Korth & Sudarshan, 2011).

A Figura 1, que simula de forma simplificada alguns ficheiros manuais duma

empresa comercial, dá uma ideia (imaginando a totalidade dos ficheiros e a

quantidade de gavetas onde estavam armazenados) de como seria difícil num sistema

manual reunir os ficheiros necessários e efectuar as operações de associação e de

1 A expressão “modelo de dados” é correntemente empregue em duas acepções diferentes:

como definição abstracta de estruturas de dados, ou como uma definição específica da estrutura de dados de uma realidade concreta (Date, 2012) – ou seja uma instanciação da primeira. Na presente dissertação, a expressão será utilizada indiferentemente nos dois sentidos, e em alguns casos aplicar-se-á à representação de uma definição abstracta sobre outra definição abstracta (o modelo relacional).

Page 30: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

cálculo, para obter uma informação aparentemente simples como, por exemplo, o

total de vendas dum produto da responsabilidade dum supervisor.

Figura 1. Ficheiros manuais.

2.3.3. Sistemas baseados em ficheiros

Os sistemas computorizados que surgem então são denominados “baseados em

ficheiros” (file-based), mas não se trata apenas dum processo de digitalização de

ficheiros manuais. Existe um pequeno avanço conceptual em que geralmente o novo

ficheiro electrónico representa agora uma entidade, ou seja um conjunto de

instâncias, dispostas em linhas (registos), ficando a informação associada disposta em

colunas (campos) (Connolly & Begg, 2005) – o vulgar conceito de tabela, embora sem

um formato imposto pelo sistema.

Assim, em vez do que observamos na Figura 1, esperaríamos passar a dispor de

um ficheiro de Vendedores, e não de um por Vendedor, passando a existir melhor

organização e logo mais fácil acesso.

No entanto, a tecnologia que então suportava os ficheiros electrónicos padecia

dos seguintes problemas (Ramakrishnan & Gehrke, 2003; Silberschatz et al., 2011):

tratava-se de simples ficheiros do sistema operativo, vulneráveis, sendo difícil

gerir as respectivas políticas de acesso e segurança;

cada programador desenvolvia em separado as suas aplicações

(habitualmente cingidas a um único departamento), pelo que cada ficheiro

Page 31: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

apresentava uma estrutura e uma lógica de acesso próprias, o que acabava

por conduzir a redundância e inconsistência de dados, além de dificultar o

desenvolvimento de novos programas;

qualquer nova análise solicitada sobre os dados requeria um esforço

considerável de programação; e

a dispersão em ficheiros isolados tornava impossível o controlo da

consistência dos dados após um erro e durante o acesso simultâneo por

diferentes utilizadores.

Fundamentalmente, por não incluir nem linguagem de consulta que permitisse

tratar os dados como conjuntos, nem funcionalidade de folha de cálculo que facilitasse

cálculos agregados, no modelo baseado em ficheiros continuava-se a aceder a cada

instância (antes ficheiro manual, agora registo digital) de forma isolada. O acesso aos

dados apenas era possível percorrendo todos os registos um por um através de

linguagens processuais de programação como o COBOL ou o C (Connolly & Begg,

2005). Além disso, os ficheiros gerados eram frequentemente formatados para

responder a necessidades físicas, como o output para determinada impressora, tendo

layouts rígidos pouco compatíveis com a exploração de dados (Stern & Stern, 1993).

2.3.4. Sistemas de gestão de bases de dados

2.3.4.1. Primeira geração

Os sistemas de gestão de bases de dados (DBMS) surgem como resposta às

limitações da utilização de simples ficheiros para armazenamento (Silberschatz et al.,

2011), com o objectivo de providenciar um registo da definição dos dados

independente das aplicações e do hardware, e um mecanismo autónomo de controlo

do acesso e manipulação dos mesmos (Connolly & Begg, 2005).

Na primeira geração de DBMS nasceram dois tipos de sistema: hierárquico e em

rede (network ou CODASYL). O modelo hierárquico aparece nos anos 1960 com o

software GUAM desenvolvido para lidar com a vasta quantidade de informação que

Page 32: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

iria gerar o projecto Apollo de ida à Lua (Connolly & Begg, 2005). Pela prevalência na

altura da utilização de armazenamento em fita magnética, implicando acesso

unidireccional, o sistema fica limitado a gerir relações hierárquicas (um só pai).

Entretanto, tirando partido do surgimento do suporte em disco, de acesso

aleatório imediato, a General Electric desenvolve o DBMS em rede (network) para

permitir uma modelação de relações mais sofisticada que a hierárquica, e também

tentar impôr um standard para a gestão de dados – CODASYL (Bachman, 1969;

Connolly & Begg, 2005).

A Figura 2 e a Figura 3 representam respectivamente, o modelo hierárquico

possível e o modelo em rede das relações entre registos dum exemplo retratando uma

estrutura simplificada dum grupo farmacêutico. A traço sólido estão as associações

hierárquicas (de 1 para n), a tracejado as associações em rede (n para n).

Obviamente no modelo hierárquico estas últimas - um Delegado de Informação

Médica (DIM) pode cobrir várias zonas, e uma zona pode ser coberta por vários DIM -

não puderam ser devidamente representadas, tendo sido necessário recorrer ao

subterfúgio de as representar pelas instâncias duma nova entidade (Zona/DIM) criada

para o efeito.

Podemos logo concluir que o modelo lógico em rede é superior ao hierárquico,

pois permite representar as mesmas associações de 1 para n, e além destas as relações

de n para n.

Em qualquer caso, ambos os sistemas da primeira geração apresentavam no

entanto ainda insuficiências enquanto sistemas de gestão de bases de dados,

necessitando do desenvolvimento de programas complexos mesmo para consultas

simples, e não apresentavam fundamento teórico sólido (Codd, 1970; Connolly & Begg,

2005).

Page 33: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

Figura 2. Modelo hierárquico.

Figura 3. Modelo em rede.

NossaEmpresa1

Linha 2 Linha 10 Linha 3 Produto 2337

CR 007 CR 005 CR 029 CR 027 CR 008

DIM 040 DIM 038 DIM 117 DIM 116 DIM 044

Zona410/DIM 040 Zona400/DIM 038 Zona410/DIM 117 Zona400/DIM 116 Zona400/DIM 044 Zona410/DIM 044

NossaEmpresa2

Linha 1 Linha 7 Linha 8 Produto 2535 Produto 2542

CR 004 CR 019 CR 023

DIM 009 DIM 010 DIM 084 DIM 106 DIM 105

Zona400/DIM 009 Zona410/DIM 010 Zona410/DIM 084 Zona400/DIM 084 Zona400/DIM 106 Zona410/DIM 105

Zona Dim Supervisor Linha Empresa Produto

DIM 038 CR 005 Linha 2 NossaEmpresa1 Produto 2337

DIM 116 CR 027 Linha 10

DIM 009 CR 004 Linha 1

DIM 106 CR 023 Linha 8

Zona400

Produto 2535

DIM 044 CR 008 Linha 3 NossaEmpresa2

Produto 2542

DIM 084 CR 019 Linha 7

DIM 010

DIM 105

Zona410

DIM 040 CR 007

DIM 117 CR 029

Page 34: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

2.3.4.2. Segunda geração

Em 1970 E.F. Codd publica, fortemente fundamentado em formalismo teórico, o

artigo científico (Codd, 1970) em que apresenta o modelo relacional, concebido para

“libertar os utilizadores da tarefa frustrante de lidar com os pormenores de

representação do armazenamento de dados” (Codd, 1979).

O artigo é aceite muito favoravelmente e torna-se influente, dando origem ao

surgimento de DBMS relacionais (RDBMS) experimentais e comerciais (Connolly &

Begg, 2005), à emergência do modelo relacional como um standard a partir do nício

dos anos 1980 (Pendse, 2008), à consolidação da disciplina académica de Sistemas de

Bases de Dados, e à popularização de RDBMS e do seu uso empresarial, tornando-se

prática corrente e predominante até aos nossos dias (Ambler, 2003; Ramakrishnan &

Gehrke, 2003; Silberschatz et al., 2011; Taitslin, 2011).

A ideia prevalente do modelo relacional, ao ser apresentado, foi a da

independência da representação dos dados em relação à máquina, o que constituíu,

juntamente com o conceito de linguagem de acesso a dados não-processual de

elevado nível (Astrahan et al., 1976), um importante distanciamento qualitativo em

relação ao modelo concorrente na altura, o modelo em rede de Bachman (1969), que

por essa razão só a muito custo permitia alterações ao esquema de dados (Silberschatz

et al., 2011).

2.3.4.3. Normalização de dados

Finalidade

Codd (1970) aponta ainda outra vantagem do modelo relacional como sendo a

de permitir endereçar com solidez as questões de derivabilidade, redundância e

consistência das relações. Trata-se da questão da normalização de bases de dados

relacionais, que procura evitar, só pelo desenho, situações ambíguas, potenciais

causadoras de inconsistência ou da necessidade de tarefas adicionais para a evitar

(Chen, 1976).

Page 35: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

A normalização das bases de dados surge pois como uma forma preferencial de

organizar o esquema relacional numa base de dados, uma vez que existem múltiplas

formas possíveis de o fazer (Codd, 1970), constituindo uma condição para que a

promessa de simplicidade e robustez do modelo relacional se cumpra o mais possível.

Investigação subsequente de diversos autores conduziu à demonstração formal

de uma hierarquia de várias formas de normalização (sete geralmente aceites e uma

mais recente e controversa), que ficou sistematizada na literatura (Date, 2012).

Para obter sensibilidade à pertinência dos conceitos estudados face ao objectivo

da presente investigação, retomamos e detalhamos agora o exemplo já usado

anteriormente (para ilustrar os modelos de primeira geração de DBMS), no qual existe

uma hierarquia de Força de Vendas DIM-Supervisor-Linha-Empresa, uma hierarquia de

Produto Produto-Empresa e uma alocação de Zonas geográficas aos DIM (n para n), e

ao qual agora juntamos dados de Vendas e Visitas.

No modelo de negócio farmacêutico de medicamentos, Visitas promocionais são

feitas e registadas pelos DIM e Vendas são obtidas externamente. Neste exemplo a

análise de Visitas é efectuada cruzando DIM, Zona e Produto, e a de Vendas cruzando

apenas Zona e Produto. Este exemplo irá continuando a acompanhar a sucessiva

descrição de modelos.

ZNF

Na Figura 4 os elementos apresentados não se encontram normalizados, o que

corresponde à Forma Normal Zero, ou ZNF (Speelpenning, Daux & Gallus, 2001),

representando uma de infinitas possibilidades de os dados serem obtidos na fonte.

Neste caso, simulamos uma realidade típica em que a tabela

AlinhamentoEstrutura foi obtida em ferramenta de apresentações PowerPoint a partir

da área comercial da companhia, representando o alinhamento estratégico dos DIM

em relação à geografia e ao portfolio de produtos, e a tabela Factos é um output de

um software de CRM que integra a informação de Vendas com a de Visitas.

Page 36: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

Figura 4. ZNF.

A tabela AlinhamentoEstrutura não se encontra normalizada pois, por exemplo,

o DIM 044 apresenta uma repetição de zonas no campo Zona. O mesmo tipo de

irregularidade também é visível na tabela Factos.

Figura 5. 1NF.

AlinhamentoEstrutura Factos

DIM Zona Supervisor Linha Empresa Produto Produto Zona Vendas DIM Visitas

DIM 040 Zona410 CR 007 Linha 2 NossaEmpresa1 Produto 2337 Produto 2337 Zona400 500 DIM 038 17

DIM 038 Zona400 CR 005 Linha 2 NossaEmpresa1 Produto 2337 DIM 044 8

DIM 117 Zona410 CR 029 Linha 10 NossaEmpresa1 Produto 2337 DIM 116 21

DIM 116 Zona400 CR 027 Linha 10 NossaEmpresa1 Produto 2337 Zona410 2000 DIM 040 13

DIM 044 Zona400 CR 008 Linha 3 NossaEmpresa1 Produto 2337 DIM 044 14

Zona410 DIM 117 26

DIM 009 Zona400 CR 004 Linha 1 NossaEmpresa2 Produto 2535 Produto 2535 Zona400 3300 DIM 009 18

Produto 2542 DIM 084 21

DIM 010 Zona410 CR 004 Linha 1 NossaEmpresa2 Produto 2535 DIM 106 15

Produto 2542 Zona410 7000 DIM 010 9

DIM 084 Zona400 CR 019 Linha 7 NossaEmpresa2 Produto 2535 DIM 084 18

Zona410 Produto 2542 DIM 105 28

DIM 106 Zona400 CR 023 Linha 8 NossaEmpresa2 Produto 2535 Produto 2542 Zona400 670 DIM 009 12

Produto 2542 DIM 084 9

DIM 105 Zona410 CR 023 Linha 8 NossaEmpresa2 Produto 2535 DIM 106 13

Produto 2542 Zona410 1600 DIM 010 28

DIM 084 14

DIM 105 18

TudoNumaTabela

Produto Zona DIM Supervisor Linha Empresa Vendas Visitas

Produto 2337 Zona400 DIM 038 CR 005 Linha 2 NossaEmpresa1 500 17

Produto 2337 Zona400 DIM 044 CR 008 Linha 3 NossaEmpresa1 500 8

Produto 2337 Zona400 DIM 116 CR 027 Linha 10 NossaEmpresa1 500 21

Produto 2337 Zona410 DIM 040 CR 007 Linha 2 NossaEmpresa1 2000 13

Produto 2337 Zona410 DIM 044 CR 008 Linha 3 NossaEmpresa1 2000 14

Produto 2337 Zona410 DIM 117 CR 029 Linha 10 NossaEmpresa1 2000 26

Produto 2535 Zona400 DIM 009 CR 004 Linha 1 NossaEmpresa2 3300 18

Produto 2535 Zona400 DIM 084 CR 019 Linha 7 NossaEmpresa2 3300 21

Produto 2535 Zona400 DIM 106 CR 023 Linha 8 NossaEmpresa2 3300 15

Produto 2535 Zona410 DIM 010 CR 004 Linha 1 NossaEmpresa2 7000 9

Produto 2535 Zona410 DIM 084 CR 019 Linha 7 NossaEmpresa2 7000 18

Produto 2535 Zona410 DIM 105 CR 023 Linha 8 NossaEmpresa2 7000 28

Produto 2542 Zona400 DIM 009 CR 004 Linha 1 NossaEmpresa2 670 12

Produto 2542 Zona400 DIM 084 CR 019 Linha 7 NossaEmpresa2 670 9

Produto 2542 Zona400 DIM 106 CR 023 Linha 8 NossaEmpresa2 670 13

Produto 2542 Zona410 DIM 010 CR 004 Linha 1 NossaEmpresa2 1600 28

Produto 2542 Zona410 DIM 084 CR 019 Linha 7 NossaEmpresa2 1600 14

Produto 2542 Zona410 DIM 105 CR 023 Linha 8 NossaEmpresa2 1600 18

Page 37: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

1NF

Para satisfazer a primeira forma normal (1NF) basta que os dados estejam

dispostos em tabelas, conjuntos de registos com mesmo número de campos, nos quais

não podem existir elementos repetidos (Kent, 1983).

Uma das soluções possíveis para obter normalização 1NF foi obter uma tabela

única com registos regulares (Figura 5).

2NF

No entanto, as dependências de Supervisor, Linha e Empresa relativamente a

DIM (que é parte da chave Produto-Zona-DIM) podem gerar inconsistência. Por

exemplo, se o DIM 084 passar a reportar a outro supervisor, a alteração necessária,

que apenas deveria ser efectuada num único lugar, tem aqui de ser efectuada em dois

registos, implicando risco de inconsistência. É pois necessário normalizar mais.

A segunda forma normal (2NF) consiste em obter tabelas em que qualquer

atributo não-chave depende de toda a chave, e não apenas de parte (Ponniah, 2007).

Assim obtém-se a Figura 6 por decomposição da tabela única2. Agora a anomalia

referida já está corrigida: apenas existe um sítio onde alterar o supervisor na tabela

dos DIM, porque agora o DIM é chave (os elementos já não se repetem).

2 Passamos a incluir na parte inferior das figuras exemplificativas, a partir da 2NF, também um

esquema Entidade-Associação (ER) simplificado que representa as associações entre tabelas.

Page 38: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

Figura 6. 2NF.

3NF

Não obstante, continua a existir uma situação irregular pois há relações

transitivas entre atributos não pertencentes à chave (Supervisor, Linha, Empresa).

Temos por exemplo a seguinte anomalia (que embora sendo deste novo tipo é

parecida com a anterior): para alterar a Linha a que pertence o supervisor CR 023, há

que corrigir simultaneamente mais que um registo.

EstruturaOrganizacional Alinhamento

DIM Supervisor Linha Empresa DIM Zona Produto

DIM 040 CR 007 Linha 2 NossaEmpresa1 DIM 009 Zona400 Produto 2535

DIM 038 CR 005 Linha 2 NossaEmpresa1 DIM 009 Zona400 Produto 2542

DIM 117 CR 029 Linha 10 NossaEmpresa1 DIM 010 Zona410 Produto 2535

DIM 116 CR 027 Linha 10 NossaEmpresa1 DIM 010 Zona410 Produto 2542

DIM 044 CR 008 Linha 3 NossaEmpresa1 DIM 038 Zona400 Produto 2337

DIM 009 CR 004 Linha 1 NossaEmpresa2 DIM 040 Zona410 Produto 2337

DIM 010 CR 004 Linha 1 NossaEmpresa2 DIM 044 Zona400 Produto 2337

DIM 084 CR 019 Linha 7 NossaEmpresa2 DIM 044 Zona410 Produto 2337

DIM 106 CR 023 Linha 8 NossaEmpresa2 DIM 084 Zona400 Produto 2535

DIM 105 CR 023 Linha 8 NossaEmpresa2 DIM 084 Zona400 Produto 2542

DIM 084 Zona410 Produto 2535

DIM 084 Zona410 Produto 2542

DIM 105 Zona410 Produto 2535

Visitas DIM 105 Zona410 Produto 2542

Produto Zona DIM Visitas DIM 106 Zona400 Produto 2535

Produto 2337 Zona400 DIM 038 17 DIM 106 Zona400 Produto 2542

Produto 2337 Zona400 DIM 044 8 DIM 116 Zona400 Produto 2337

Produto 2337 Zona400 DIM 116 21 DIM 117 Zona410 Produto 2337

Produto 2337 Zona410 DIM 040 13

Produto 2337 Zona410 DIM 044 14 Produto Zona

Produto 2337 Zona410 DIM 117 26 Produto Zona

Produto 2535 Zona400 DIM 009 18 Produto 2337 Zona400

Produto 2535 Zona400 DIM 084 21 Produto 2535 Zona410

Produto 2535 Zona400 DIM 106 15 Produto 2542

Produto 2535 Zona410 DIM 010 9

Produto 2535 Zona410 DIM 084 18 Vendas

Produto 2535 Zona410 DIM 105 28 Produto Zona Vendas

Produto 2542 Zona400 DIM 009 12 Produto 2337 Zona400 500

Produto 2542 Zona400 DIM 084 9 Produto 2337 Zona410 2000

Produto 2542 Zona400 DIM 106 13 Produto 2535 Zona400 3300

Produto 2542 Zona410 DIM 010 28 Produto 2535 Zona410 7000

Produto 2542 Zona410 DIM 084 14 Produto 2542 Zona400 670

Produto 2542 Zona410 DIM 105 18 Produto 2542 Zona410 1600

Alinhamento

Produto Zona EstruturaOrg

Vendas

Visitas

Page 39: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

Com novo esforço de normalização, obtém-se então na Figura 7 a 3ª Forma

Normal (3NF), que é a 2NF sem ocorrência de dependências transitivas (Ben-Gan,

2012).

Figura 7. 3NF / BCNF.

DIM Supervisor Alinhamento

DIM Supervisor Supervisor Linha DIM Zona Produto

DIM 040 CR 007 CR 007 Linha 2 DIM 009 Zona400 Produto 2535

DIM 038 CR 005 CR 005 Linha 2 DIM 009 Zona400 Produto 2542

DIM 117 CR 029 CR 029 Linha 10 DIM 010 Zona410 Produto 2535

DIM 116 CR 027 CR 027 Linha 10 DIM 010 Zona410 Produto 2542

DIM 044 CR 008 CR 008 Linha 3 DIM 038 Zona400 Produto 2337

DIM 009 CR 004 CR 004 Linha 1 DIM 040 Zona410 Produto 2337

DIM 010 CR 004 CR 019 Linha 7 DIM 044 Zona400 Produto 2337

DIM 084 CR 019 CR 023 Linha 8 DIM 044 Zona410 Produto 2337

DIM 106 CR 023 DIM 084 Zona400 Produto 2535

DIM 105 CR 023 Linha DIM 084 Zona400 Produto 2542

Linha Empresa DIM 084 Zona410 Produto 2535

Linha 2 NossaEmpresa1 DIM 084 Zona410 Produto 2542

Linha 10 NossaEmpresa1 DIM 105 Zona410 Produto 2535

Visitas Linha 3 NossaEmpresa1 DIM 105 Zona410 Produto 2542

Produto Zona DIM Visitas Linha 1 NossaEmpresa2 DIM 106 Zona400 Produto 2535

Produto 2337 Zona400 DIM 038 17 Linha 7 NossaEmpresa2 DIM 106 Zona400 Produto 2542

Produto 2337 Zona400 DIM 044 8 Linha 8 NossaEmpresa2 DIM 116 Zona400 Produto 2337

Produto 2337 Zona400 DIM 116 21 DIM 117 Zona410 Produto 2337

Produto 2337 Zona410 DIM 040 13

Produto 2337 Zona410 DIM 044 14 Produto Zona

Produto 2337 Zona410 DIM 117 26 Produto Zona

Produto 2535 Zona400 DIM 009 18 Produto 2337 Zona400

Produto 2535 Zona400 DIM 084 21 Produto 2535 Zona410

Produto 2535 Zona400 DIM 106 15 Produto 2542

Produto 2535 Zona410 DIM 010 9

Produto 2535 Zona410 DIM 084 18 Vendas

Produto 2535 Zona410 DIM 105 28 Produto Zona Vendas

Produto 2542 Zona400 DIM 009 12 Produto 2337 Zona400 500

Produto 2542 Zona400 DIM 084 9 Produto 2337 Zona410 2000

Produto 2542 Zona400 DIM 106 13 Produto 2535 Zona400 3300

Produto 2542 Zona410 DIM 010 28 Produto 2535 Zona410 7000

Produto 2542 Zona410 DIM 084 14 Produto 2542 Zona400 670

Produto 2542 Zona410 DIM 105 18 Produto 2542 Zona410 1600

Alinhamento

2NF Produto Zona EstruturaOrg

Vendas

Visitas

Linha

Alinhamento Supervisor

3NF / BCNF Produto Zona DIM

Vendas

Visitas

Empresa

Linha

4NF / 5NF / DKNF / 6NF AlinhGeo Supervisor

Produto Zona DIM

Vendas

Visitas

Page 40: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

BCNF

A Boyce-Codd Normal Form (BCNF) está acima da 3NF pois nela não existem

dependências em relação a combinações de parte da chave com atributos, apenas

existindo dependências de atributos não-chave em relação a toda a chave (Davidson &

Moss, 2012). No caso da Figura 7, em que existe no máximo um atributo não-chave,

também a BCNF está já satisfeita.

4NF

No entanto, na tabela Alinhamento ainda existe uma situação de potencial

inconsistência, pois verifica-se uma dependência multi-valor (MVD) entre os três

elementos da chave.

Esta situação irregular ocorre quando pelo menos dois dos três elementos são

independentes entre si, pois cada inserção de novo valor num dos dois atributos

implica ter de acrescentar todos os valores possíveis do outro para assegurar todas as

combinações possíveis entre eles. A 4ª Forma Normal (4NF), representada na Figura

8, é a BCNF em que não ocorre nenhuma situação irregular de dependência multi-valor

(Fagin, 1977) .

5NF

Se a 4NF estiver satisfeita, mas existir uma relação indirecta (através de outra

tabela) entre dois dos três elementos da chave, também existe possibilidade de

inconsistência, pois uma actualização indiscriminada num dos elementos pode violar a

relação indirecta existente. A 5ª Forma Normal (5NF) é a 4NF em que não ocorre esta

irregularidade (Date & Fagin, 1992; Stephens, 2009).

Ao retirar Produto da tabela Alinhamento, transformando-a em AlinhGeo, e ao

associar Produto a Empresa, como consta da definição inicial do negócio, garante-se a

passagem simultânea a 4NF e 5NF com o modelo retratado na Figura 8.

Page 41: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

DKNF

Uma outra forma normal reconhecida é a Domain-Key Normal Form (DKNF) que,

partindo da 5NF, se caracteriza adicionalmente pela ausência de qualquer

dependência de valores de domínio, ou seja de valores possíveis para um atributo em

relação a outros atributos (Halpin & Morgan, 2008). Como neste caso não está prevista

nenhuma dependência desse tipo, o modelo também já se encontra em DKNF.

6NF

Encontrando-se uma tabela em DKNF e não existindo dimensão temporal,

também se encontra automaticamente por definição na 6ª Forma Normal 6NF

(Knowles, 2012).

Esta forma, a mais avançada, é mais controversa, não goza de total aceitação, e é

muito raramente utilizada (Rainardi, 2008), a não ser no contexto de conceitos como

Data Warehousing 2.0 (DW 2.0), Anchor Modeling e outros de nova geração que

preconizam DW extremamente fragmentadas e totalmente temporalizadas (Knowles,

2012).

Note-se que, habitualmente no contexto empresarial, considera-se uma base de

dados normalizada desde que respeite a 3NF (Connolly & Begg, 2005), sendo as formas

mais sofisticadas pouco conhecidas ou entendidas, e raramente utilizadas.

Page 42: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

Figura 8. 4NF / 5NF / DKNF / 6NF.

DIM Supervisor AlinhGeo

DIM Supervisor Supervisor Linha DIM Zona

DIM 040 CR 007 CR 007 Linha 2 DIM 009 Zona400

DIM 038 CR 005 CR 005 Linha 2 DIM 010 Zona410

DIM 117 CR 029 CR 029 Linha 10 DIM 038 Zona400

DIM 116 CR 027 CR 027 Linha 10 DIM 040 Zona410

DIM 044 CR 008 CR 008 Linha 3 DIM 044 Zona400

DIM 009 CR 004 CR 004 Linha 1 DIM 044 Zona410

DIM 010 CR 004 CR 019 Linha 7 DIM 084 Zona400

DIM 084 CR 019 CR 023 Linha 8 DIM 084 Zona410

DIM 106 CR 023 DIM 105 Zona410

DIM 105 CR 023 Linha DIM 106 Zona400

Linha Empresa DIM 116 Zona400

Linha 2 NossaEmpresa1 DIM 117 Zona410

Linha 10 NossaEmpresa1

Visitas Linha 3 NossaEmpresa1

Produto Zona DIM Visitas Linha 1 NossaEmpresa2

Produto 2337 Zona400 DIM 038 17 Linha 7 NossaEmpresa2

Produto 2337 Zona400 DIM 044 8 Linha 8 NossaEmpresa2

Produto 2337 Zona400 DIM 116 21

Produto 2337 Zona410 DIM 040 13

Produto 2337 Zona410 DIM 044 14 Produto Zona

Produto 2337 Zona410 DIM 117 26 Produto Empresa Zona

Produto 2535 Zona400 DIM 009 18 Produto 2337 NossaEmpresa1 Zona400

Produto 2535 Zona400 DIM 084 21 Produto 2535 NossaEmpresa2 Zona410

Produto 2535 Zona400 DIM 106 15 Produto 2542 NossaEmpresa2

Produto 2535 Zona410 DIM 010 9

Produto 2535 Zona410 DIM 084 18 Empresa Vendas

Produto 2535 Zona410 DIM 105 28 Empresa Produto Zona Vendas

Produto 2542 Zona400 DIM 009 12 NossaEmpresa1 Produto 2337 Zona400 500

Produto 2542 Zona400 DIM 084 9 NossaEmpresa2 Produto 2337 Zona410 2000

Produto 2542 Zona400 DIM 106 13 Produto 2535 Zona400 3300

Produto 2542 Zona410 DIM 010 28 Produto 2535 Zona410 7000

Produto 2542 Zona410 DIM 084 14 Produto 2542 Zona400 670

Produto 2542 Zona410 DIM 105 18 Produto 2542 Zona410 1600

Empresa

Linha

AlinhGeo Supervisor

Produto Zona DIM

Vendas

Visitas

Page 43: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

2.3.4.4. Temporalidade

Para além de apenas armazenar informação relativa a um único instante, um

DW, deverá, por definição, constituir um repositório de dados históricos, com

identificação do respectivo período de validade, respondendo a uma necessidade de

análise de negócio cada vez maior (Inmon, 2005; Johnston & Weis, 2010).

Trata-se da questão da temporalidade em bases de dados que representa um

desafio passível de ser resolvido de diversas maneiras (Johnston & Weis, 2010;

Silberschatz et al., 2011), usando intervalos de períodos ou períodos isolados, e

podendo-se temporalizar parte ou toda a base de dados (Date, Darwen, & Lorentzos,

2003).

Vamos escolher uma abordagem simples e simultaneamente abrangente para

temporalizar a forma mais normalizada, da Figura 8, acrescentando um atributo

temporal representando o mês de igual modo em todas as tabelas, obtendo a Figura 9.

Desta forma salvaguardamos o histórico de negócio tanto de entidades como de

associações, conseguindo um modelo monotemporal (Johnston & Weis, 2010).

Ao ter acrescentado o mês à chave existente em todas as tabelas, as associações

entre estas continuam a fazer-se do mesmo modo por conexão de chaves, apenas

evoluindo o esquema ER da Figura 8 pela inclusão da tabela temporal.

2.3.4.5. Modelo dimensional

Até agora, pudemos observar a variedade de formas com que se podem

organizar os dados representativos de uma mesma realidade, mesmo num caso

simples como o do exemplo utilizado. Tal possibilidade, verificada dentro dum único

modelo – o relacional - potencia o risco e a dificuldade de consenso na tomada de

decisões de arquitectura, e é um obstáculo à compatibilidade entre sistemas,

afastando-nos do ideal da investigação.

Page 44: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

Figura 9. Modelo relacional monotemporal.

DIM Supervisor AlinhamentoGeo

Tempo DIM CR Tempo Supervisor Linha Tempo DIM Zona

Mar-12 DIM 040 CR 007 Mar-12 CR 007 Linha 2 Mar-12 DIM 009 Zona400

Mar-12 DIM 038 CR 005 Mar-12 CR 005 Linha 2 Mar-12 DIM 010 Zona410

Mar-12 DIM 117 CR 029 Mar-12 CR 029 Linha 10 Mar-12 DIM 038 Zona400

Mar-12 DIM 116 CR 027 Mar-12 CR 027 Linha 10 Mar-12 DIM 040 Zona410

Mar-12 DIM 044 CR 008 Mar-12 CR 008 Linha 3 Mar-12 DIM 044 Zona400

Mar-12 DIM 009 CR 004 Mar-12 CR 004 Linha 1 Mar-12 DIM 044 Zona410

Mar-12 DIM 010 CR 004 Mar-12 CR 019 Linha 7 Mar-12 DIM 084 Zona400

Mar-12 DIM 084 CR 019 Mar-12 CR 023 Linha 8 Mar-12 DIM 084 Zona410

Mar-12 DIM 106 CR 023 Abr-12 CR 007 Linha 1 Mar-12 DIM 105 Zona410

Mar-12 DIM 105 CR 023 Abr-12 CR 005 Linha 1 Mar-12 DIM 106 Zona400

Abr-12 DIM 040 CR 007 Abr-12 CR 029 Linha 10 Mar-12 DIM 116 Zona400

Abr-12 DIM 038 CR 005 Abr-12 CR 027 Linha 10 Mar-12 DIM 117 Zona410

Abr-12 DIM 117 CR 029 Abr-12 CR 004 Linha 1 Abr-12 DIM 009 Zona400

Abr-12 DIM 116 CR 027 Abr-12 CR 019 Linha 7 Abr-12 DIM 010 Zona410

Abr-12 DIM 044 CR 004 Abr-12 CR 023 Linha 8 Abr-12 DIM 038 Zona400

Abr-12 DIM 009 CR 004 Abr-12 DIM 040 Zona410

Abr-12 DIM 010 CR 004 Linha Abr-12 DIM 044 Zona400

Abr-12 DIM 084 CR 019 Tempo Linha Empresa Abr-12 DIM 084 Zona400

Abr-12 DIM 106 CR 023 Mar-12 Linha 2 NossaEmpresa1 Abr-12 DIM 084 Zona410

Abr-12 DIM 105 CR 023 Mar-12 Linha 10 NossaEmpresa1 Abr-12 DIM 105 Zona410

Mar-12 Linha 3 NossaEmpresa1 Abr-12 DIM 106 Zona400

Mar-12 Linha 1 NossaEmpresa2 Abr-12 DIM 116 Zona400

Mar-12 Linha 7 NossaEmpresa2 Abr-12 DIM 117 Zona410

Visitas Mar-12 Linha 8 NossaEmpresa2

Tempo Produto Zona DIM Visitas Abr-12 Linha 10 NossaEmpresa1 Zona

Mar-12 Produto 2337 Zona400 DIM 038 17 Abr-12 Linha 1 NossaEmpresa2 Tempo Zona Tempo

Mar-12 Produto 2337 Zona400 DIM 044 8 Abr-12 Linha 7 NossaEmpresa2 Mar-12 Zona400 Tempo

Mar-12 Produto 2337 Zona400 DIM 116 21 Abr-12 Linha 8 NossaEmpresa2 Mar-12 Zona410 Mar-12

Mar-12 Produto 2337 Zona410 DIM 040 13 Abr-12 Zona400 Abr-12

Mar-12 Produto 2337 Zona410 DIM 044 14 Produto Abr-12 Zona410

Mar-12 Produto 2337 Zona410 DIM 117 26 Tempo Produto Empresa

Mar-12 Produto 2535 Zona400 DIM 009 18 Mar-12 Produto 2337 NossaEmpresa1 Vendas

Mar-12 Produto 2535 Zona400 DIM 084 21 Mar-12 Produto 2535 NossaEmpresa2 Tempo Produto Zona Vendas

Mar-12 Produto 2535 Zona400 DIM 106 15 Mar-12 Produto 2542 NossaEmpresa2 Mar-12 Produto 2337 Zona400 500

Mar-12 Produto 2535 Zona410 DIM 010 9 Abr-12 Produto 2337 NossaEmpresa1 Mar-12 Produto 2337 Zona410 2000

Mar-12 Produto 2535 Zona410 DIM 084 18 Abr-12 Produto 2535 NossaEmpresa2 Mar-12 Produto 2535 Zona400 3300

Mar-12 Produto 2535 Zona410 DIM 105 28 Mar-12 Produto 2535 Zona410 7000

Mar-12 Produto 2542 Zona400 DIM 009 12 Empresa Mar-12 Produto 2542 Zona400 670

Mar-12 Produto 2542 Zona400 DIM 084 9 Tempo Empresa Mar-12 Produto 2542 Zona410 1600

Mar-12 Produto 2542 Zona400 DIM 106 13 Mar-12 NossaEmpresa1 Abr-12 Produto 2337 Zona400 500

Mar-12 Produto 2542 Zona410 DIM 010 28 Mar-12 NossaEmpresa2 Abr-12 Produto 2337 Zona410 2000

Mar-12 Produto 2542 Zona410 DIM 084 14 Abr-12 NossaEmpresa1 Abr-12 Produto 2535 Zona400 3300

Mar-12 Produto 2542 Zona410 DIM 105 18 Abr-12 NossaEmpresa2 Abr-12 Produto 2535 Zona410 7000

Abr-12 Produto 2337 Zona400 DIM 038 17

Abr-12 Produto 2337 Zona400 DIM 044 8

Abr-12 Produto 2337 Zona400 DIM 116 21

Abr-12 Produto 2337 Zona410 DIM 040 13

Abr-12 Produto 2337 Zona410 DIM 117 26

Abr-12 Produto 2535 Zona400 DIM 009 18

Abr-12 Produto 2535 Zona400 DIM 084 21

Abr-12 Produto 2535 Zona400 DIM 106 15

Abr-12 Produto 2535 Zona410 DIM 010 9

Abr-12 Produto 2535 Zona410 DIM 084 18

Abr-12 Produto 2535 Zona410 DIM 105 28

Tempo

Empresa Linha

AlinhGeo Supervisor

Produto Zona DIM

Vendas

Visitas

Page 45: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

No entanto, a normalização oferece uma orientação e uma forma determinística

de chegar a um modelo relacional óptimo, como demonstrou Bernstein (1976)

desenvolvendo um algoritmo de determinação das tabelas em número mínimo que

satisfazem a 3NF, dado um conjunto de dependências funcionais. Logo, o modelo

relacional é uma plataforma capaz de gerar consenso nas suas implementações desde

que estas obedeçam a regras formais estritas.

Não obstante, Kimball (1997) em “A Dimensional Modeling Manifesto” prefere

enfatizar a variabilidade intrínseca ao modelo relacional para o contrapor ao modelo

que defende para análise a dados, o modelo dimensional. Embora referindo-se

marginalmente a tecnologia proprietária, propõe uma definição do modelo

dimensional baseada inteiramente em tabelas do modelo relacional, ou seja,

fundamentalmente prescreve um standard de regras de implementação do modelo

relacional: uma tabela de factos, com chaves a apontarem para tabelas de dimensões

desnormalizadas, ou seja o esquema em estrela ou Star Schema (Figura 10) (Golfarelli,

2008).

Evitando repetir as tabelas de dimensões comuns aos dois tipos de factos

(“conformed dimensions”), e ligando os factos entre si, obtém-se a evolução

Constellation (Figura 11) do modelo Star. Outra variante é a Star Cluster, onde se

define uma tabela adicional relativa a uma subdimensão partilhada (Figura 12) no

âmbito de um mesmo Facto. Ambos os conceitos estão representados na Figura 13.

Kimball (1997) consegue afortunadamente justificar o modelo Star com base em

fundamentos conceptuais e físicos ao mesmo tempo, raramente alinhados mas neste

caso coincidentes:

o modelo, por estar simplificado, é mais perceptível aos utilizadores, e

simultaneamente o modelo permite optimizar as consultas por não

necessitar de ligações (joins) encadeadas entre tabelas.

Considerando o segundo argumento como consensual na literatura e

comprovado na prática, já o primeiro nos parece em grande parte suportado pela

forma como o autor apresenta o modelo relacional como sendo o de toda a empresa,

contrapondo-o à simplicidade de modelos Star organizados cada um em torno de uma

tabela de factos (“Data Marts”).

Page 46: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

Figura 10. Modelo dimensional Star.

Figura 11. Modelo dimensional Constellation.

DIM Tempo

DIM Supervisor Linha Empresa Tempo

DIM 040 CR 007 Linha 2 NossaEmpresa1 Mar-12

DIM 038 CR 005 Linha 2 NossaEmpresa1 Abr-12

DIM 117 CR 029 Linha 10 NossaEmpresa1

DIM 116 CR 027 Linha 10 NossaEmpresa1

DIM 044 CR 008 Linha 3 NossaEmpresa1

DIM 009 CR 004 Linha 1 NossaEmpresa2

DIM 010 CR 004 Linha 1 NossaEmpresa2

DIM 084 CR 019 Linha 7 NossaEmpresa2

DIM 106 CR 023 Linha 8 NossaEmpresa2

DIM 105 CR 023 Linha 8 NossaEmpresa2

Visitas

Tempo Produto Zona DIM Visitas

Mar-12 Produto 2337 Zona400 DIM 038 17

Mar-12 Produto 2337 Zona400 DIM 044 8

Mar-12 Produto 2337 Zona400 DIM 116 21

Mar-12 Produto 2337 Zona410 DIM 040 13

Mar-12 Produto 2337 Zona410 DIM 044 14

Mar-12 Produto 2337 Zona410 DIM 117 26

Mar-12 Produto 2535 Zona400 DIM 009 18

Mar-12 Produto 2535 Zona400 DIM 084 21 Produto Zona

Mar-12 Produto 2535 Zona400 DIM 106 15 Produto Empresa Zona

Mar-12 Produto 2535 Zona410 DIM 010 9 Produto 2337 NossaEmpresa1 Zona400

Mar-12 Produto 2535 Zona410 DIM 084 18 Produto 2535 NossaEmpresa2 Zona410

Mar-12 Produto 2535 Zona410 DIM 105 28 Produto 2542 NossaEmpresa2

Mar-12 Produto 2542 Zona400 DIM 009 12

Mar-12 Produto 2542 Zona400 DIM 084 9

Mar-12 Produto 2542 Zona400 DIM 106 13

Mar-12 Produto 2542 Zona410 DIM 010 28

Mar-12 Produto 2542 Zona410 DIM 084 14

Mar-12 Produto 2542 Zona410 DIM 105 18 Vendas

Abr-12 Produto 2337 Zona400 DIM 038 17 Tempo Produto Zona Vendas

Abr-12 Produto 2337 Zona400 DIM 044 8 Mar-12 Produto 2337 Zona400 500

Abr-12 Produto 2337 Zona400 DIM 116 21 Mar-12 Produto 2337 Zona410 2000

Abr-12 Produto 2337 Zona410 DIM 040 13 Mar-12 Produto 2535 Zona400 3300

Abr-12 Produto 2337 Zona410 DIM 117 26 Mar-12 Produto 2535 Zona410 7000

Abr-12 Produto 2535 Zona400 DIM 009 18 Mar-12 Produto 2542 Zona400 670

Abr-12 Produto 2535 Zona400 DIM 084 21 Mar-12 Produto 2542 Zona410 1600

Abr-12 Produto 2535 Zona400 DIM 106 15 Abr-12 Produto 2337 Zona400 500

Abr-12 Produto 2535 Zona410 DIM 010 9 Abr-12 Produto 2337 Zona410 2000

Abr-12 Produto 2535 Zona410 DIM 084 18 Abr-12 Produto 2535 Zona400 3300

Abr-12 Produto 2535 Zona410 DIM 105 28 Abr-12 Produto 2535 Zona410 7000

Zona Zona

Produto Produto

Tempo Tempo

Visitas Vendas

DIM

Zona

Produto

DIM

Tempo

Vendas

Visitas

Page 47: Modelo Tese MGI / MEGI - run.unl.pt · do sistema, redesenho e reimplementação do data warehouse, adaptação dos processos de carregamento e da lógica de acesso à informação,

Figura 12. Modelo dimensional Star Cluster.

Figura 13. Modelo dimensional Constellation Cluster.

DIM Tempo

DIM Supervisor Linha Empresa Tempo

DIM 040 CR 007 Linha 2 NossaEmpresa1 Mar-12

DIM 038 CR 005 Linha 2 NossaEmpresa1 Abr-12

DIM 117 CR 029 Linha 10 NossaEmpresa1

DIM 116 CR 027 Linha 10 NossaEmpresa1

DIM 044 CR 008 Linha 3 NossaEmpresa1

DIM 009 CR 004 Linha 1 NossaEmpresa2

DIM 010 CR 004 Linha 1 NossaEmpresa2

DIM 084 CR 019 Linha 7 NossaEmpresa2

DIM 106 CR 023 Linha 8 NossaEmpresa2

DIM 105 CR 023 Linha 8 NossaEmpresa2

Visitas

Tempo Produto Zona DIM Visitas Empresa

Mar-12 Produto 2337 Zona400 DIM 038 17 Empresa

Mar-12 Produto 2337 Zona400 DIM 044 8 NossaEmpresa1

Mar-12 Produto 2337 Zona400 DIM 116 21 NossaEmpresa2