aabp

download aabp

of 57

Transcript of aabp

  • 7/21/2019 aabp

    1/57

    ANLISE COMPARATIVA DE ARQUITETURASDE DISTRIBUIO DE DATA WAREHOUSE

    TRABALHO DE GRADUAO

    Universidade Federal de Pernambuco

    Graduao em Cincia da ComputaoCentro de Informtica

    Aluno: lvaro Alencar Barbosa Palitot ([email protected])Orientador:Fernando da Fonseca de Souza ([email protected])

    Recife, 04 de Abril de 2007

  • 7/21/2019 aabp

    2/57

  • 7/21/2019 aabp

    3/57

    2

    Universidade Federal de PernambucoGraduao em Cincia da Computao

    Centro de Informtica

    2006.2

    lvaro Alencar Barbosa Palitot

    ANLISE COMPARATIVA DE ARQUITETURAS DEDISTRIBUIO DE DATA WAREHOUSE

    ESTE TRABALHO FOI APRESENTADO GRADUAO EMCINCIA DA COMPUTAO DO CENTRO DE INFORMTICA DAUNIVERSIDADE FEDERAL DE PERNAMBUCO COMO REQUISITOPARCIAL PARA OBTENO DO GRAU DE BACHAREL EMCINCIA DA COMPUTAO.

    ORIENTADOR: PROF. DR. FERNADO DA FONSECA DE SOUZA

    Recife, 04 de Abril de 2007

  • 7/21/2019 aabp

    4/57

    3

    Dedico,

    Aos meus pais

    Ademar e Socorro

    Aos meus avs paternosAdauto e Francisca

    Aos meus avs maternos

    Geraldo e Zuleica

  • 7/21/2019 aabp

    5/57

    4

    Agradecimentos

    Primeiramente, agradeo a Deus por ter me dado o dom da vida.

    Aos meus pais, Ademar e Socorro, pelo constante incentivo, carinho, compreenso,dedicao, amor e esforo para que eu pudesse chegar at aqui.

    Aos meus avs paternos, Adauto e Francisca, e os meus avs maternos, Geraldo e Zuleica,pela fora que sempre me deram durante toda a minha vida. Em especial, para o meu avAdauto, que sempre acreditou no meu potencial, e apesar de no estar presente fisicamentehoje, me ilumina todos os dias.

    Aos meus irmos, Andr e Daniela, pela amizade e compreenso.

    A minha namorada, Luciana, pelo trmino do trabalho, em detrimento de v-la.

    Ao meu orientador, Fernando da Fonseca de Souza, pela amizade, incentivo, confiana edisponibilidade na elaborao do trabalho.

    E, finalmente, a todos aqueles que contriburam direta ou indiretamente para a realizaodeste trabalho.

  • 7/21/2019 aabp

    6/57

    5

    Resumo

    Um data warehouse consiste em uma coleo de dados orientada por assuntos,integrada, variante no tempo e no voltil que d suporte tomada de deciso pela altagerncia da empresa.

    Em geral, o data warehouse representa uma nica base de dados centralizada.Entretanto, dados extremamente centralizados podem resultar em perda de disponibilidadee queda de desempenho das consultas. Da surge a necessidade de um ambiente dedistribuio de data warehouse, tendo como vantagens sobre os ambientes centralizados: oaumento da disponibilidade dos dados, o aumento da disponibilidade de acesso aos dados eo aumento de desempenho no processamento de consultas OLAP.

    Este trabalho analisa propostas de arquiteturas destes ambientes de datawarehousing distribudo, em relao a um conjunto de critrios. Outra contribuio aapresentao de recomendaes para a construo de arquiteturas de data warehousingdistribudo.

    Palavras-chave:

    Data Warehouse, Data Warehousing, Sistemas de Suporte Deciso, Data WarehouseDistribudo.

  • 7/21/2019 aabp

    7/57

    6

    Abstract

    A data warehouse consists of an integrated, variant in time, non-volatile andsubject-oriented data collection that supports senior management decision-making. In general, the data warehouse represents a unique centered database. However,

    extremely centered data might result in availability loss and decrease of queriesperformance. Therefore, it is needed a data warehouse distribution environment. Itsadvantages over centered environments are: increase of data availability and data accessavailability; and increase of OLAP queries processing performance.

    This work analyses distributed data warehousearchitecture proposals according tosome criteria. Another contribution is the presentation of recommendations for constructingdistributed data warehousearchitectures based on the analysis carried out in this work .

    Keywords:

    Data Warehouse, Data Warehousing, Decision Support System, Distributed DataWarehouse.

  • 7/21/2019 aabp

    8/57

    7

    Sumrio

    1. Introduo ................................................................................................................... 111.1 Motivao ................................................................................................................... 111.2 Objetivo ...................................................................................................................... 121.3 Estrutura do Trabalho.................................................................................................12

    2. Data Warehousing .......................................................................................................... 132.1 Data Warehouse..........................................................................................................132.2 Banco de Dados Convencional x Data Warehouse .................................................... 142.3 Principais Caractersticas do Data Warehouse ........................................................... 142.4 Data Mart....................................................................................................................152.5 OLAP..........................................................................................................................16

    2.5.1 Servidor ............................................................................................................... 162.5.2 Tipos de Sistemas OLAP.....................................................................................17

    2.6 Arquitetura de Data Warehousing .............................................................................. 192.6.1 Componente de Integrao e Manuteno...........................................................202.6.2 Componente de Anlise e Consulta.....................................................................21

    2.7 Abordagens para desenvolvimento do Data Warehousing.........................................212.7.1 Abordagem Top-Down ........................................................................................222.7.2 AbordagemBottom-Up........................................................................................222.7.3 Abordagem Intermediria ou Corrente................................................................23

    3. Distribuio de Data Warehouse................................................................................... 243.1 Banco de Dados Distribudos ..................................................................................... 243.2 Banco de Dados Distribudo x Data Warehouse Distribudo.....................................253.3 Arquitetura de Data Warehouse Distribudo de Inmon..............................................253.4 Arquitetura de Data Warehousing Distribudo de Moeller ........................................ 27

    3.4.1 Arquitetura de Data Warehousing Distribudo Homogneo ............................... 273.4.2 Arquitetura de Data Warehousing Distribudo Heterogneo .............................. 283.4.3 Arquitetura de Data Warehousing Distribudo com SGBD Distribudo nico ..293.4.4 Abordagem para o Problema de Localizao dos Dados .................................... 30

    3.5 Arquitetura de Data Warehouse Distribudo Hierrquico de Zhou et al. ................... 323.5.1 HDDW orientado a consultas OLAP...................................................................34

    3.6 Arquitetura de Data Warehouse Distribudo de Ciferri (O Sistema WebDW)......... 353.6.1 Arquitetura...........................................................................................................363.6.2 A importncia do Data Warehouse Global..........................................................383.6.3 Componente de Integrao e Manuteno...........................................................383.6.4 Componente de Manuteno do ambiente distribudo ........................................ 383.6.5 Componente de Distribuio ............................................................................... 39

    3.6.5.1 Mdulo Requisitos........................................................................................393.6.5.2 Mdulo Fragmentao..................................................................................393.6.5.3 Mdulo Alocao ......................................................................................... 403.6.5.4 Mdulo Carga...............................................................................................40

    3.6.6 Componente de Consulta do Ambiente Distribudo............................................403.6.7 Arquitetura do Sistema WebDW na Web .......................................................... 41

  • 7/21/2019 aabp

    9/57

    8

    4. Anlise Comparativa de Arquiteturas de Distribuio de Data Warehouse ............ 424.1 Anlise da Arquitetura de Data Warehouse Distribudo de Inmon ............................ 434.2 Anlise das Arquiteturas de Data Warehousing Distribudo de Moeller ................... 444.3 Anlise da Arquitetura de Data Warehouse Distribudo Hierrquico de Zhou et al. . 464.4 Anlise do Sistema WebDW de Ciferri .................................................................... 48

    4.5 Benefcios e Desvantagens das arquiteturas abordadas..............................................494.6 Recomendaes para a construo de arquiteturas de data warehousing distribudo 515. Concluses e Trabalhos Futuros ................................................................................... 53

    5.1 Trabalhos Futuros.......................................................................................................53Referncias Bibliogrficas: ................................................................................................ 55

  • 7/21/2019 aabp

    10/57

    9

    Lista de Figuras

    Figura 2.1 Data Marts com dados referentes a um determinado assunto [DAL99] .......... 15Figura 2.2 Arquitetura ROLAP [TVFR07] ....................................................................... 17Figura 2.3 Arquitetura MOLAP [TVFR07] ...................................................................... 18

    Figura 2.4 Arquitetura HOLAP [TVFR07] ....................................................................... 18Figura 2.5 Resumo das caractersticas dos tipos de OLAP mais usados [TVFR07].........19Figura 2.6 Arquitetura Tpica de um ambiente de Data Warehousing [CIFE02]..............19Figura 2.7 Abordagem Top-Down da arquitetura de Data Warehousing [TVFR07]........22Figura 2.8 Abordagem Bottom-Up da arquitetura de Data Warehousing [TVFR07].......22Figura 2.9 Abordagem Corrente da arquitetura de Data Warehousing [TVFR07] ........... 23Figura 3.1 Arquitetura bsica de data warehouse distribudo de Inmon [CIFE02]...........25Figura 3.2 Variao da arquitetura bsica de data warehouse distribudo de Inmon[CIFE02]...............................................................................................................................26Figura 3.3 Arquitetura de Data Warehousing Distribudo Homogneo de Moeller[CIFE02]...............................................................................................................................28

    Figura 3.4 Arquitetura de Data Warehousing Distribudo Heterogneo de Moeller[CIFE02]...............................................................................................................................29Figura 3.5 Arquitetura de Data Warehousing Distribudo com SGBD distribudo nico deMoeller [CIFE02] ................................................................................................................. 30Figura 3.6 Esquema estrela da informao econmica do Data Warehouse.....................32Figura 3.7 DW Centralizado (Baseado em [AJLW98]) .................................................... 32Figura 3.8 DW Distribudo ou Federado (Baseado em [AJLW98])..................................32Figura 3.9 Data Warehouse Distribudo Hierrquico (Baseado em [ZZTH00])...............33Figura 3.10 - HDDW orientado a consultas OLAP (Baseado em [ZZTH00]).....................34Figura 3.11 Mecanismo OLAP do sistema HDDW (Baseado em [ZZTH00]) ................. 35Figura 3.12 Arquitetura bsica do sistema WebDW [CIFE02]........................................37

  • 7/21/2019 aabp

    11/57

    10

    Lista de Quadros

    Quadro 2.1 Comparaes entre o Banco de Dados Convencional e o Data Warehouse[INM96; BAR96; KIM96; ONE97] ....................................................................................14Quadro 2.2 Diferenas entre DW e DM [NASC05]..........................................................16

    Quadro 3.1 Comparaes entre DW Centralizado, DW Distribudo de Wells et al. eHDDW (Baseado em [ZZTH00]).........................................................................................33Quadro 4.1 Funcionalidades oferecidas pela arquitetura de data warehouse distribudo deInmon [INM02; CIFE02]......................................................................................................43Quadro 4.2 Funcionalidades oferecidas pelas arquiteturas de data warehousing distribudode Moeller [MOE01; CIFE02] ............................................................................................. 45Quadro 4.3 Funcionalidades oferecidas pela arquitetura de data warehouse distribudoHierrquico de Zhou et al [ZZTH00] ................................................................................... 47Quadro 4.4 Funcionalidades oferecidas pelo Sistema WebDW [CIFE02] ...................... 48

  • 7/21/2019 aabp

    12/57

    11

    1. Introduo

    A quantidade de informaes e dados nas empresas tem crescido, criando umaenorme dificuldade para que os profissionais consigam tratar todo esse contedodisponvel. H, com isso, a necessidade de se filtrar informaes de forma adequada,

    utilizando-se somente aquelas realmente relevantes ao modelo de negcio das empresas. Omodelo que tenta simplificar os dados disponveis e direcion-los para os gestores estvinculado a uma tecnologia denominada de data warehousing[TERRA07].

    Um ambiente de data warehousing transforma dados operacionais em informaovoltada tomada de deciso estratgica. Para tanto, oferece um conjunto de funcionalidadesque possibilita, por um lado, a extrao, traduo, filtragem, integrao e armazenamentono Data Warehouse (DW) dos dados oriundos de provedores de informao autnomos,distribudos e heterogneos. Por outro lado, este conjunto de funcionalidades tambmpermite que usurios tpicos de Sistemas de Suporte Deciso (SSD), por exemplo,analistas, executivos, gerentes e administradores, manipulem com flexibilidade e eficinciaos dados pr-armazenados no data warehouse, atravs de vises multidimensionais destes

    dados [CHAU97].O DW, principal componente do ambiente de data warehousing, consiste em um

    banco de dados especial, organizado para armazenar uma coleo de dados integrados,orientados por assunto, variveis com o tempo e no volteis, usados para dar suporte aoprocesso gerencial de tomada de deciso [INM02].

    Normalmente, o data warehouse representa uma nica base de dados centralizada.Distribuir os dados armazenados nessa base de dados levando-se em considerao ascaractersticas particulares de aplicaes de data warehousing e as necessidades dosusurios tpicos de SSD representa, portanto, uma rea de pesquisa muito importante a serexplorada [CIFE02].

    Isto motivou pesquisadores ao desenvolvimento de propostas de arquitetura de data

    warehousing distribudo que solucionem os desafios introduzidos por esta distribuio,gerenciando os diversos data warehouses acoplados aos diferentes computadores ligadosentre si por redes de comunicao e permitido que as informaes dessas bases de dadossejam armazenadas e recuperadas rapidamente.

    1.1 Motivao

    Atualmente, a descentralizao das funes de negcios e a distribuio dascorporaes em regies geogrficas distintas motivam a construo de arquiteturas de datawarehousingdistribudo.

    As vantagens proporcionadas pela distribuio de data warehouses, como aslistadas abaixo, so algumas das motivaes para o desenvolvimento desse trabalho:

    Melhoria da confiabilidade e disponibilidade dos dados, devido aos dados poderemser acessados em diferentes sites, aumentando o processamento distribudo;

    Suporte a um maior nmero de usurios; Melhoria no desempenho das consultas OLAP, devido ao processamento distribudo

    das consultas; Expanso e manuteno mais fceis, devido ao fraco acoplamento entre os sites; e

  • 7/21/2019 aabp

    13/57

    12

    Transparncia de fragmentao, alocao e replicao, proporcionando uma visopara o usurio como se fosse um sistema centralizado, mas com as vantagens dadistribuio.

    1.2 Objetivo

    em razo de todas estas motivaes, que este trabalho tem como principaisobjetivos: analisar solues para ambientes de data warehouse distribudo, fazer um estudocomparativo entre as mesmas, indicando vantagens e desvantagens destas arquiteturas eelaborar recomendaes para a construo de arquiteturas de data warehousedistribudo.

    1.3 Estrutura do Trabalho

    Alm deste captulo introdutrio, o trabalho composto por mais cinco captulos. Ocaptulo 2 tem por objetivo uma introduo a data warehousing, discutindo os principaisconceitos, componentes e funcionalidades desses ambientes. O captulo 3 faz uma brevecomparao entre banco de dados distribudos e data warehouse distribudos, alm deabordar as quatro arquiteturas existentes atualmente de data warehousing distribudo,propostas respectivamente feitas por Imon [INM02], Moeller [MOE01], Zhou et al.[ZZTH00] e Ciferri [CIFE02]. O captulo 4 faz uma anlise comparativa em relao aalguns critrios pr-estabelecidos no prprio captulo entre as arquiteturas de datawarehousingdistribudo, alm de especificar vantagens e desvantagens de cada uma destasarquiteturas e elaborar recomendaes para a construo de arquiteturas voltadas para adistribuio de data warehouse. O captulo 5 apresenta a concluso e propostas para

    trabalhos futuros.

  • 7/21/2019 aabp

    14/57

    13

    2. Data Warehousing

    Atualmente, h uma grande quantidade de dados nas empresas, porm faltaminformaes significativas. Isto ocorre devido extensa utilizao de sistemas deinformao especficos, contribuindo para a pouca integrao dos dados e a existncia deambientes no muito adequados para o tratamento analtico dos dados.

    O ambiente de data warehousing atende a esta necessidade, promovendo aintegrao dos dados dos sistemas de informao espalhados pela organizao e gerandoum ambiente de consultas com informaes significativas, que permitem alta gerncia,anlises que ajudam no processo de tomada de deciso da empresa [FFRC07].

    Antes de definir o termo data warehouse, preciso fazer uma distino entre datawarehouse e data warehousing, embora a maior parte da literatura trate os dois termos demaneira idntica. Sempre que ocorrerem referncias ao termo data warehouse neste trabalho,trata-se de um banco de dados especial que oferece o suporte aos usurios no processo detomada de deciso. J as referncias a data warehousing devem ser tratadas como todo oambiente de data warehouse, que engloba o prprio data warehouse, suas arquiteturas,

    algoritmos e ferramentas, usurios, componentes para realizao de consulta, entre outros[CIFE02].

    Atravs da arquitetura de um ambiente de data warehousing possvel identificar oscomponentes que participam no ambiente, o relacionamento que existe entre estes componentese as funcionalidades de cada um. Separar estes dois conceitos essenciais importante, a fimde evitar problemas relacionados ao uso destes termos.

    2.1 Data Warehouse

    Inicialmente, sero analisadas algumas definies para data warehouse elaboradas

    por autores da rea.Segundo Inmon [INM96], o idealizador do conceito, Data Warehouse uma

    coleo de dados integrados, orientados por assunto, variveis com o tempo e no volteis,usados para dar suporte ao processo gerencial de tomada de deciso.

    Para Barquini [BAR96],Data Warehouse uma coleo de tcnicas e tecnologiasque juntas disponibilizam um enfoque pragmtico e sistemtico para tratar com o problemado usurio final que precisa acessar informaes que esto distribudas em vrios sistemasda organizao.

    Kimball [KIM96] define que um conjunto de ferramentas e tcnicas de projeto,que quando aplicadas s necessidades especficas dos usurios e aos bancos de dadosespecficos permitir que planejem e construam um data warehouse.

    Com base nestas definies, pode-se dizer, de forma resumida, que o datawarehouse um banco de dados especial integrado, que serve para dar suporte s altasgerncias das empresas para anlise de tendncias histricas dos seus produtos,funcionrios e clientes, aumentando, com isso, a competitividade da mesma.

    No DW os dados so extrados de mltiplas fontes de dados internas ou externas empresa e depois so integrados. Os data warehousesso construdos para que tais dadospossam ser armazenados e acessados de forma que no sejam limitados por tabelas e linhasestritamente relacionais.

  • 7/21/2019 aabp

    15/57

    14

    2.2 Banco de Dados Convencional x Data Warehouse

    de fundamental importncia para este trabalho explicitar as diferenas existentesentre essas duas metodologias de armazenamento de dados, para permitir melhorcompreenso de seus objetivos. A principal diferena se caracteriza pelo data warehouse

    ser um ambiente informacional, enquanto que os bancos de dados convencionais dasorganizaes, como os localizados em suas filiais, serem ambientes operacionais.De acordo com Inmon [INM96], em um ambiente operacional, manipula-se um

    volume grande de transaes que geralmente so simples, pequenas e acessam poucosregistros por vez. J no ambiente informacional, manipula-se um baixo volume detransaes que so longas, complexas e acessam muitos registros, necessitando muitasvezes realizar funes de juno e agregao.

    A partir destas informaes e de outras [INM96; BAR96; KIM96; ONE97],algumas diferenas existentes entre o banco de dados convencional e o data warehousejpodem ser verificadas. O Quadro 2.1 destaca estas diferenas:

    QUADRO 2.1COMPARAES ENTRE O BANCO DE DADOS CONVENCIONAL E O DATAWAREHOUSE [INM96; BAR96; KIM96; ONE97]

    Caractersticas Banco de Dados Convencional Data WarehouseObjetivo Operaes dirias do negcio Analisar o negcioUsurios Funcionrios Alta Administrao

    Tipo de Processamento OLTP OLAPUnidade de Trabalho Incluso, alterao, excluso e

    consulta

    Carga e Consulta

    Organizao dos dados Orientado a Aplicaes Orientado a AssuntoCondies dos Dados Dados Operacionais Dados Analticos

    Interao do Usurio Somente pr-definida Pr-definida e ad-hocVolume Megabytes Gibabytes Gigabytes TerabytesHistrico 60 a 90 dias 5 a 10 anos

    Granularidade Detalhados Detalhados e resumidosRedundncia No ocorre Ocorre

    Acesso a registros Dezenas MilharesAtualizao Contnua (tempo real) Peridica (em batch)

    Nmero de ndices Poucos/ Simples Muitos/ComplexosInteno de ndices Localizar um registro Aperfeioar consultas

    Manuteno desejada Mnima Constante

    2.3 Principais Caractersticas do Data Warehouse

    A partir da definio de DW feita por Inmon [INM96], vista anteriormente, possvel encontrar as principais caractersticas de data warehouse, que so:

    Integrado - A integrao dos dados ocorre quando os dados so passados doambiente operacional, atravs de diversas fontes de dados, para o ambiente de DW.Todo dado trazido dos sistemas operacionais para o ambiente de DW ,

  • 7/21/2019 aabp

    16/57

    15

    anteriormente, consolidado, de forma que passe a ter um nico significado. durante a integrao, que os dados so convertidos para um estado uniforme;

    Orientado por assuntos - Os dados em um data warehouseso organizados de modoa facilitar a anlise dos dados, para isso o DW contm informaes orientada aassuntos importantes para o negcio da empresa e no por aplicao, como em

    bancos de dados operacionais; Variante no Tempo - Os dados no so atualizveis, ou seja, so relativos a umdeterminado instante de tempo, o que proporciona o armazenamento do histricodos dados; e

    No voltil Significa dizer que o data warehousepermite apenas a carga inicialdos dados e consultas a estes dados. Ou seja, aps serem integrados, transformadose includos, os dados no podem ser alterados.

    2.4 Data Mart

    Data Mart (DM) corresponde a um subconjunto lgico do data warehouse,geralmente visto como um data warehousesetorial ou departamental. Entretanto, os dadosarmazenados nos data marts tm as mesmas caractersticas que os dados do DW, vistasanteriormente. A Figura 2.1 mostra trs DM, cada um referente a um determinado assunto(Vendas, Compras e Estoque) [DAL99].

    FIGURA 2.1DATA MARTS COM DADOS REFERENTES A UM DETERMINADO ASSUNTO [DAL99]

    Segundo Inmon [INM96], os DM apresentam as seguintes caractersticas: So especificados para atender a uma rea ou conjunto de reas de interesse;

    Empregam normalmente um esquema estrela no projeto de banco de dados. Estamodelagem elaborada com base nas exigncias dos usurios finais; Contm uma quantidade razovel de informaes histricas, normalmente,

    menor que o volume histrico do DW; Apresentam uma granularidade, normalmente, maior que a do DW. Esta

    granularidade tem o propsito de atender s necessidades do usurio final; e Apresentam um armazenamento dos dados altamente indexado

  • 7/21/2019 aabp

    17/57

    16

    Numa viso comparativa do data warehouse com o data mart, considerando oscritrios: escopo, integrao, tempo, agregao, anlise e dados volteis, percebe-se que adiferena est no escopo, pois enquanto o DW feito para atender uma empresa como umtodo, o DM criado para atender um subconjunto da empresa. Deve-se observar queatender a um subconjunto da empresa pode significar reunir dados de outros setores, j que,

    na prtica, raramente, um nico setor possui ou gera toda informao que precisa.O Quadro 2.2 apresenta mais diferenas entre o DW e o DM.

    QUADRO 2.2DIFERENAS ENTRE DWE DM [NASC05]Data Warehouse Data Mart

    Corporativo DepartamentalGranularidade em baixo nvel. Dados bemdetalhados

    Granularidade em alto nvel

    Estrutura normalizada (com tratamento) Emprega o esquema estrela como estruturade dados

    Grande volume de histrico de dados No armazena grande volume de dados

    histricosEmprega tecnologia orientada aoarmazenamento de grandes volumes dedados

    Emprega tecnologia multidimensional

    excelente para acesso e anlise

    Modelagem de dados com o propsito deatender corporao

    Modelagem de dados com o objetivo de

    atender a um usurio final

    Levemente indexado Altamente indexado

    2.5 OLAP

    A origem do nome OLAP baseia-se no acrnimo para Online Analytical Processing,o qual significa em portugus: Processamento Analtico em Tempo Real. O termo Onlinesignifica que as operaes da ferramenta deveriam ter uma resposta imediata, ou seja, emtempo real. J a palavra Analytical demonstra o uso de teorias analticas para tornar asbuscas possveis. O vocbulo Processing refora a caracterstica de intenso processamentoquando as consultas em uma grande quantidade de dados so realizadas [CHAU97].

    O processamento analtico em tempo real a tecnologia de software front-endquecapacita os analistas, gerentes e executivos a obter discernimento nos dados atravs de umacesso rpido, consistente e interativo. Esse discernimento pode ser realizado para umalarga variedade de possibilidades de vises da informao que vm a ser transformadas apartir de simples dados para refletir o real dimensionamento da corporao como entendidopelo usurio.

    2.5.1 Servidor

    O servidor OLAP o principal componente fsico da arquitetura OLAP. Ele oresponsvel por receber as requisies de consultas, processar esses pedidos e retornar orelatrio. Para realizar essas tarefas, ele necessita de alta capacidade de processamento esuporte a multiusurio. O servidor OLAP se localiza entre o cliente e o SGBD [CHAU97].

    Devido ao pr-processamento dos dados da base OLAP, o servidor opera em

  • 7/21/2019 aabp

    18/57

    17

    estruturas multidimensionais e acessa os dados por interseces entre as dimenses.Dada a importncia das ferramentas OLAP, os principais sistemas de gerenciamento

    de bancos de dados possuem um servidor OLAP. Estes so otimizados para a recuperaorpida de dados.

    2.5.2 Tipos de Sistemas OLAPCom a demanda da recuperao rpida de dados em diferentes ambientes, os

    sistemas OLAP se especializaram. Os principais tipos de sistemas OLAP estoclassificados a seguir:

    ROLAP (OLAP Relacional) considerado o mais escalvel. Utiliza banco dedados relacionais para anlise dos fatos, mas manipulando os dados de formamultidimensional via SQL. Lida com fatos atmicos e sumarizados e permite ouso de vrias dimenses. Entretanto, difcil implementar eficientemente umpr-processamento para grandes volumes, e por isto, frequentemente deixado

    de lado. A Figura 2.2 ilustra a arquitetura ROLAP;

    FIGURA 2.2ARQUITETURA ROLAP [TVFR07]

    MOLAP (OLAP Multidimensional) o sistema que opera melhor com pequenasbases de dados. Utiliza banco de dados multidimensionais proprietrios(MDDB) para manipular fatos agregados. Armazena de forma multidimensionalpara poder visualizar tambm de forma multidimensional. Devido ao tamanhodas bases de dados, ele calcula rapidamente as agregaes e repostas. Algumasdesvantagens desse tipo de arquitetura OLAP so: o espao para o seuarmazenamento limitado, no manipula fatos atmicos, no trabalha com

  • 7/21/2019 aabp

    19/57

    18

    muitas dimenses e no gerencia um grande volume de fatos. A Figura 2.3ilustra a arquitetura MOLAP;

    FIGURA 2.3ARQUITETURA MOLAP [TVFR07]

    HOLAP (OLAP Hbrido) a soluo intermediria entre o MOLAP e oROLAP. Suporta manipulao de fatos atmicos e agregados, utilizando bancode dados multidimensionais para analisar fatos agregados. Utiliza SQL paramanipular fatos atmicos. o mais complexo para administrar e implementar. AFigura 2.4 ilustra a arquitetura HOLAP;

    FIGURA 2.4ARQUITETURA HOLAP [TVFR07]

    WOLAP (Web OLAP) o tipo para ser utilizado em sistemas web; DOLAP (Desktop OLAP) uma especializao da ferramenta OLAP para ser

    usada no desktop; e RTOLAP (Real Time OLAP) o sistema OLAP desenvolvido para ambientes

    em tempo real.

  • 7/21/2019 aabp

    20/57

    19

    De todos estes tipos de OLAP, os mais usados atualmente so o ROLAP, MOLAP eo HOLAP. A Figura 2.5 mostra as principais caractersticas de cada uma destasarquiteturas.

    FIGURA 2.5RESUMO DAS CARACTERSTICAS DOS TIPOS DE OLAPMAIS USADOS [TVFR07]

    2.6 Arquitetura de Data Warehousing

    O objetivo de um ambiente de data warehousing transformar o dado emconhecimento. A definio de uma arquitetura bsica fornece a possibilidade de um melhorentendimento de todo o processo e das tecnologias que podero ser utilizadas para otimiz-lo. Em razo disto, tem-se na Figura 2.6, uma imagem de uma arquitetura bsica de umambiente de data warehousingproposta por Ciferri [CIFE02].

    FIGURA 2.6ARQUITETURA TPICA DE UM AMBIENTE DE DATA WAREHOUSING [CIFE02]

  • 7/21/2019 aabp

    21/57

    20

    Um estudo detalhado de cada componente da arquitetura da Figura 2.6, permitecompreender como o ambiente de data warehousing faz para armazenar, integrar,comunicar, processar e apresentar os dados que os usurios utilizaro em suas decises.

    Os provedores de informao so compostos por dados operacionais, que podemestar presentes em vrias formas de armazenamento de dados, como por exemplo: banco de

    dados operacionais, sistemas de arquivos e fontes externas.Um ambiente de data warehousing pode utilizar tanto o data warehouseprincipal,quanto pores de dados do mesmo, ou seja, um conjunto de data marts que representam osfragmentos ou rplicas do data warehouse principal para o armazenamento dos dados. atravs do componente de anlise e consulta que as consultas dos usurios de SSD sosubmetidas e redirecionadas ao data warehouseprincipal ou aos data marts [NASC05].

    O repositrio de metadados armazena as informaes estruturais e semnticas dosprovedores de informao e do data warehouse, alm de quaisquer outros dadosimportantes para o ambiente, enquanto que o mdulo de gerenciamento de metadadosmanipula essas informaes.

    A arquitetura contm ferramentas para o gerenciamento e administrao doambiente, que so responsveis pelo monitoramento do sistema, realizando importantestarefas, tais como: o gerenciamento de segurana, testes de qualidade dos dados, backupdos dados e o gerenciamento e a atualizao dos metadados, alm de auditoria e relato dautilizao do data warehouse[CIFE02].

    Nos subtpicos a seguir, sero descritos detalhes das funcionalidades doscomponentes de integrao e manuteno e anlise e consulta.

    2.6.1 Componente de Integrao e Manuteno

    O componente de integrao responsvel por proporcionar uma viso integrada de

    alta qualidade dos dados no data warehouse, sem duplicatas ou inconsistncias. Ocomponente de integrao e manuteno oferece as funcionalidades de carregamento dosdados dos provedores de informao no data warehouse, atualizao peridica desta basede dados e expirao de seus dados.

    O carregamento dos dados dos provedores de informao consiste em operaes deextrao, traduo, limpeza, integrao e carga dos dados. As ferramentas que auxiliam esteprocesso so chamadas de ferramentas ETL, abordadas anteriormente neste trabalho.

    A operao de extrao responsvel por acessar as diversas fontes e extrair osdados que sejam teis para o sistema de suporte deciso. Depois de escolher os dadosrelevantes, os mesmos possuem muita inconsistncia, e para isso precisam sertransformados. A operao de transformao engloba os processos de traduo, limpeza eintegrao de dados. O processo de traduo consiste na converso dos dados das fontespara um formato padro adotado pelo ambiente de data warehousing. O processo delimpeza transforma dados sujos em dados com qualidade, atravs de regras de negcio aeles associadas.

    Segundo Ciferri [CIFE02], o processo de integrao depende da identificao desimilaridades e de diferenas existentes entre os dados das fontes que foram previamentetraduzidos, alm da identificao de conjuntos destes dados que, apesar de serem distintosentre si, so relacionados por alguma propriedade semntica. Estas similaridades ediferenas devem ser detectadas tanto em nvel de esquema quanto em nvel de instncia.

  • 7/21/2019 aabp

    22/57

    21

    A operao de carga consiste no processo de armazenamento dos dados integradosno data warehouse, aps os processos descritos acima serem realizados. Alm disto,durante esta operao so realizados processamentos adicionais, tais como: verificao deintegridade, a ordenao dos dados, a gerao de agregaes, a construo de ndices e acondensao dos dados, buscando diminuir o volume dos dados armazenados.

    O processo de atualizao dos dados serve para manter os dados integradosconsistentes no data warehouse, em relao s fontes de dados. A periodicidade damanuteno do data warehousedepende da necessidade da alta gerncia da empresa em teros dados consistentes no data warehouseem relao s fontes de dados. Caso as consultasOLAP requeiram dados correntes, necessrio que toda alterao feita nos provedores deinformao, sejam atualizadas imediatamente para o data warehouse.

    O administrador do ambiente de data warehousing quem estabelece a freqnciacom que estas alteraes devem se propagar, podendo cada provedor de informao terfreqncias diferentes. Geralmente, a freqncia de manuteno diria e ocorre noperodo em que a empresa efetua poucas ou nenhumas transaes operacionais.

    Recomputao e atualizao so duas tcnicas utilizadas para atualizar o datawarehouse.Na recomputao, os dados no data warehouse so descartados e novamentecarregados a partir dos provedores de informao operacionais. J na atualizaoincremental, apenas as alteraes feitas dos provedores de informao operacionais, desde altima atualizao, so propagadas no data warehouse [CIFE02].

    O processo de expirao dos dados serve para diminuir o volume de dadosarmazenados no data warehouse, que chega a ter terabytes de tamanho, dificultando emrazo disso, a rapidez no processamento de consultas. Para que o volume diminua precisoque o processo de expirao remova os dados do data warehouse que estejam velhos(atinjam certo limite de tempo), quando no so mais relevantes, ou quando o espao dearmazenamento insuficiente para armazenar novos dados advindos das fontes.

    2.6.2 Componente de Anlise e Consul ta

    O componente de anlise e consulta serve para garantir o acesso s informaesarmazenadas no data warehouse aos usurios de SSD e aos softwares que participam doambiente de data warehousing. Oferece, com isso, funcionalidades relacionadas consultae anlise dos dados armazenados, incluindo a habilidade de se determinar a origem dosdados que esto sendo examinados [CIFE02].

    Esta fase realizada atravs de aplicativos que oferecem acesso aos dados dasfontes, atravs de interfaces amigveis. Estas consultas solicitadas pelos usurios sofremum processo de otimizao, para que sejam executadas de forma a obter uma melhor

    performance [COST05].

    2.7 Abordagens para desenvolvimento do Data Warehousing

    No desenvolvimento de ambientes de data warehousing podem ser utilizadas asabordagens top-down, bottom-upe intermediria. A escolha da abordagem fator essencialna seleo da tecnologia apropriada para o desenvolvimento e implantao deste ambiente.

  • 7/21/2019 aabp

    23/57

    22

    2.7.1 Abordagem Top-Down

    Nesta abordagem o desenvolvimento feito de cima para baixo, ou seja, primeirodeve-se construir o data warehousecorporativo, para depois carregar os dados nos diversosdata marts existentes. A Figura 2.7 apresenta a abordagem top-down da arquitetura do

    ambiente de data warehousing.

    FIGURA 2.7ABORDAGEM TOP-DOWN DA ARQUITETURA DE DATA WAREHOUSING [TVFR07]

    Esta abordagem possibilita vrias vantagens para ambientes de data warehousing,como as listadas abaixo:

    Facilidade de manuteno devido a todos os data marts serem originados a partir deum mesmo data warehouse; e

    Necessidade de apenas um nico conjunto de aplicaes para extrao, limpeza eintegrao dos dados.

    Porm, esta abordagem apresenta algumas desvantagens: Implementao mais demorada; e Alto Risco.

    2.7.2 Abordagem Bottom-Up

    O propsito desta abordagem a construo de um data warehouseincremental, apartir do desenvolvimento de Data Marts independentes. A Figura 2.8 apresenta aabordagem bottom-upda arquitetura de data warehousing.

    FIGURA 2.8ABORDAGEM BOTTOM-UP DA ARQUITETURA DE DATA WAREHOUSING [TVFR07]

  • 7/21/2019 aabp

    24/57

    23

    A abordagem bottom-upapresenta algumas vantagens, so elas: Apresentao de resultados em pouco tempo; Rpido desenvolvimento; e Permite os principais assuntos da empresa sejam desenvolvidos inicialmente.

    Pode-se destacar como desvantagens: Necessidade de um maior controle do negcio da empresa, a fim de evitar ilhas de

    dados que dificultam futuras integraes; e Utilizao de esforos e recursos de vrias equipes, devido a, normalmente, o

    desenvolvimento ser feito em paralelo.

    2.7.3 Abordagem Intermediria ou Corrente

    Esta arquitetura tem o propsito de integrar a abordagem top-downcom a bottom-up, com o planejamento sendo feito top-down e a implementao bottom-up. SegundoSoares [SOAR98], nesta abordagem efetua-se a modelagem dos dados do DW, sendo o

    passo seguinte a implementao dos Data Marts escolhidos por rea de interesse. CadaData Martgerado a partir do modelo de dados do data warehouse integrado no modelofsico. A principal vantagem desta abordagem a garantia da consistncia dos dados e adiminuio ou eliminao das ilhas de dados. Esta garantia obtida em virtude domodelo de dados para osData Marts serem nicos, possibilitando realizar o mapeamento eo controle dos dados. A Figura 2.9 apresenta a abordagem intermediriaou correntedaarquitetura de data warehousing.

    FIGURA 2.9ABORDAGEM CORRENTE DA ARQUITETURA DE DATA WAREHOUSING [TVFR07]

  • 7/21/2019 aabp

    25/57

    24

    3. Distribuio de Data Warehouse

    A maioria das organizaes constri e mantm um nico data warehousecentralizado, isto feito por vrias razes [INM02]:

    Os dados em um data warehouse integrado pela organizao, e uma viso

    integrada dos dados usada somente na sede da organizao; A organizao opera em um modelo centralizado de negcio; O volume dos dados em um data warehouse tal que um nico repositrio

    de dados centralizado faz sentido; Complexidade de desenvolvimento de um ambiente distribudo; Maior Segurana; e Fcil Gerenciamento.

    Em resumo, a poltica, a economia e a tecnologia favorecem muito o uso de umnico data warehousecentralizado.

    Entretanto, dados extremamente centralizados podem resultar em perda de

    disponibilidade e queda de desempenho das consultas. Da surge a necessidade de umambiente de distribuio de data warehouse, tendo como vantagens sobre os ambientescentralizados: o aumento da disponibilidade dos dados, o aumento da disponibilidade deacesso aos dados e o aumento de desempenho no processamento de consultas OLAP[NOA00].

    3.1 Banco de Dados Distr ibudos

    Os banco de dados distribudos trazem vantagens da computao distribuda para odomnio do gerenciamento de banco de dados. Um sistema de computao distribuda

    consiste em vrios elementos de processamento, no necessariamente homogneos, que sointerconectados por uma rede de computadores e cooperam na execuo de certas tarefas[ERNS04].

    Os banco de dados distribudos podem ser definidos como uma coleo de mltiplosbancos de dados logicamente inter-relacionados, distribudos por uma rede decomputadores. Abaixo so destacadas algumas vantagens na utilizao de banco de dadosdistribudos:

    Transparncia de fragmentao, replicao e alocao; Melhoria na confiabilidade e disponibilidade; Melhoria de desempenho; e Expanso mais fcil;

    De acordo com Elmasri e Navathe [ERNS04], a distribuio leva a uma maiorcomplexidade no projeto e na implementao do sistema. Para obter as vantagenspotenciais listadas anteriormente, o ambiente de banco de dados distribudos deve ser capazde prover algumas funes, alm daquelas j presentes em ambientes centralizados, comopor exemplo:

    Rastreamento dos dados; Processamento de consultas distribudas;

  • 7/21/2019 aabp

    26/57

    25

    Gerenciamento de transaes distribudas; Gerenciamento de dados replicados; Recuperao de banco de dados distribudo; Segurana; e Gerenciamento do diretrio (catlogo) distribudo.

    3.2 Banco de Dados Distribudo x Data Warehouse Distribudo

    O data warehouse nada mais do que um banco de dados especial integrado,orientado por assunto, varivel com o tempo e no voltil, usado para dar suporte aoprocesso gerencial de tomada de deciso. Por isso, as contribuies obtidas pelos trabalhosde pesquisa em sistemas de banco de dados distribudos podem ser utilizadas como basepara o desenvolvimento de ambientes de data warehousingdistribudos.

    Porm, esses trabalhos devem ser estendidos de forma a enfocar aspectosimportantes dos ambientes de data warehousing distribudo, tais como a

    multidimensionalidade dos dados do data warehouse, a organizao dos dados dessa basede dados em diferentes nveis de agregao e as caractersticas das consultas OLAPcomumente realizadas pelos usurios de sistemas de suporte deciso [CIFE02].

    Nas prximas sees deste captulo, so mostradas as propostas existentesatualmente de ambientes de data warehousedistribudo.

    3.3 Arquitetura de Data Warehouse Distr ibudo de Inmon

    A arquitetura de data warehousedistribudo definida por Inmon [INM02] baseadanos conceitos de data warehouselocal e de data warehouseglobal. A Figura 3.1 ilustra esta

    arquitetura, onde o data warehouse global situa-se localizado no site correspondente aoescritrio central ou sede da empresa, enquanto os data warehouseslocais esto localizadosem regies geogrficas diferentes ou comunidades tcnicas distintas.

    FIGURA 3.1ARQUITETURA BSICA DE DATA WAREHOUSE DISTRIBUDO DE INMON [CIFE02]

  • 7/21/2019 aabp

    27/57

    26

    Os dados armazenados no data warehouse local so de interesse somente para onvel local, ou seja, cada data warehouse local tem como escopo dos seus dados os dadosdetalhados que refletem a integrao das informaes provenientes dos sistemasoperacionais do sitelocal ao qual ele serve. Apesar de ser inteiramente possvel a existnciade algum grau de compartilhamento entre os sistemas do ambiente operacional encontrados

    em cada um dos sites, qualquer interseo ou compartilhamento dos dados de um datawarehouselocal para outro apenas uma coincidncia [INM02].Os dados armazenados no data warehouseglobal so de interesse para a empresa

    como um todo. Estes dados so integrados a partir das intersees naturais dos dadosexistentes nos sites que compem o ambiente distribudo.

    O relacionamento entre o data warehouseglobal e os data warehouseslocais podeser observado da seguinte forma. Os dados levemente agregados residem no nvel global,enquanto que os dados detalhados residem nos nveis locais.

    Como pode ser observado, os dados localizados no data warehouse global e nosdata warehouses locais so mutuamente exclusivos: qualquer dado no data warehouseglobal no encontrado nos data warehouses locais, e vice-versa. Em contrapartida, oprojeto estrutural dos dados corporativos armazenados no data warehouse global podesobrepor pores dos modelos de dados dos data warehouseslocais.

    Inmon [INM02] prope uma variao desta arquitetura, onde consiste no pr-armazenamento dos dados a serem enviados ao data warehouse global por cada um dossites locais. Assim, cada site que participa do ambiente armazena os dados globaiscorrespondentes s informaes locais em uma base de dados especial, chamada de rea dearmazenamento do data warehouse global, antes de envi-los ao data warehouse globalpropriamente dito. Neste caso, a restrio de exclusividade mtua dos dados observadatanto entre os dados localizados nos data warehouseslocais e nas reas de armazenamentodo data warehouseglobal quanto entre os dados localizados nos data warehouseslocais eno data warehouse global. Contudo, pode haver alguma redundncia entre os dadosarmazenados no data warehouseglobal e nas reas de armazenamento do data warehouseglobal em cada um dos sites, caso a poltica adotada pela empresa seja a no remoo dosdados destas reas aps o envio destes ao data warehouseglobal. A Figura 3.2 representaas reas de armazenamento do data warehouseglobal em cada um dos sites.

    FIGURA 3.2VARIAO DA ARQUITETURA BSICA DE DATA WAREHOUSE DISTRIBUDO DE INMON

    [CIFE02]

  • 7/21/2019 aabp

    28/57

    27

    Inmon [INM02] sugere que o desenvolvimento desta arquitetura deve ser feitoprimeiramente criando os data warehouses locais para cada entidade geogrfica, para quedepois, o data warehouseglobal seja criado, refletindo a integrao dos negcios atravsdas diferentes localizaes.

    3.4 Arquitetura de Data Warehousing Distribudo de Moeller

    As arquiteturas de data warehousing distribudo definidas por Moeller [MOE01]so baseadas na juno de dois conceitos: integrao atravs do elemento banco de dados edistribuio atravs do elemento rede. Assim, um data warehousedistribudo definido porMoeller como uma coleo de dados compartilhados logicamente integrada, a qual fisicamente distribuda atravs dos ns de uma rede de computadores.

    Uma vez que o data warehousedistribudo consiste na integrao lgica de diversosbancos de dados locais, ele no existe fisicamente nas arquiteturas de Moeller. Maisespecificamente, o data warehousedistribudo apenas um conceito virtual. Em particular,

    os termos local e global so utilizados para realizar a distino, respectivamente, entre osaspectos relacionados a um nico site e os aspectos relacionados ao ambiente de datawarehousingcomo um todo. Por exemplo, um data warehouselocal refere-se a um bancode dados pr-existente que reside em um site especfico da rede, ou seja, refere-se a umdata mart.

    H trs diferentes tipos de arquitetura de data warehousingdistribudo apresentadaspor Moeller [MOE01]: arquitetura de data warehousing distribudo homogneo,heterogneo e com um SGBD distribudo nico. Esses tipos sero abordados nas prximassubsees.

    importante salientar que Moeller associa os seus trs tipos de arquitetura de datawarehousing distribudo abordagem de desenvolvimento, na qual uma corporao j

    gerencia vrios data marts independentes e deseja possibilitar, como uma atividadesubseqente, o acesso global dos usurios de SSD a estes data marts atravs de um datawarehouseglobal virtual. Ou seja, os dados so mantidos nas fontes de dados e as consultasso decompostas em tempo real e submetidas s diversas fontes, onde o resultado integrado e mostrado para o usurio que efetuou a consulta. Isto obtido atravs dodesenvolvimento de um esquema global da empresa como um todo, que representa aintegrao dos esquemas locais dos data marts existentes, alm da interconexo destes datamarts atravs da rede.

    3.4.1 Arquitetura de Data Warehousing Distribudo Homogneo

    A Figura 3.3 mostra a arquitetura de data warehousing distribudo homogneoproposta por Moeller [MOE01], com os seus dois principais componentes: o datawarehousedistribudo e a ferramenta de banco de dados distribudos.

  • 7/21/2019 aabp

    29/57

    28

    FIGURA 3.3ARQUITETURA DE DATA WAREHOUSING DISTRIBUDO HOMOGNEO DE MOELLER

    [CIFE02]

    Como visto anteriormente, cada sitenesta arquitetura possui o seu prprio banco dedados autnomo e pode representar um data martindependente. A arquitetura homognea caracterizada por apresentar em todos os sites o mesmo SGBD. So nestes SGBD que searmazenam os data marts a serem distribudos.

    A ferramenta de gerenciamento do banco de dados distribudo, por sua vez, responsvel por integrar os diversos bancos de dados locais, oferecendo uma viso lgicado data warehouse corporativo, alm de gerenciar as consultas dos usurios de SSD aosbancos de dados fora de suas redes locais. Essa ferramenta baseada em dois elementoscentrais relacionados manipulao dos dados distribudos: esquema de fragmentao eesquema de alocao. O esquema de fragmentao descreve como os relacionamentosglobais so divididos entre os bancos de dados locais. J o esquema de alocao especifica

    a localizao de cada um dos fragmentos, possibilitando a execuo de consultas atravsdos diversos bancos de dados locais. Este ltimo esquema tambm d suporte possibilidade de replicao dos dados na arquitetura.

    3.4.2 Arquitetura de Data Warehousing Distribudo Heterogneo

    A arquitetura de data warehousing distribudo heterogneo proposta por Moeller[MOE01] baseada nos mesmos componentes principais que a arquitetura de datawarehousing distribudo homogneo: o data warehouse distribudo e uma ferramenta de

    gerenciamento do banco de dados distribudo. No entanto, na arquitetura de datawarehousing distribudo heterogneo, estes componentes possuem caractersticas efuncionalidades particulares relacionadas heterogeneidade dos dados, aumentando, comisso, a complexidade destes componentes. A Figura 3.4 ilustra esta arquitetura.

  • 7/21/2019 aabp

    30/57

    29

    FIGURA 3.4ARQUITETURA DE DATA WAREHOUSING DISTRIBUDO HETEROGNEO DE MOELLER

    [CIFE02]

    Cadasite

    nesta arquitetura possui o seu prprio banco de dados autnomo e poderepresentar um data mart independente. A arquitetura heterognea possibilita quediferentes SGBD sejam utilizados nos sites da arquitetura, para armazenar os bancos dedados a serem distribudos. de responsabilidade da ferramenta de gerenciamento dobanco de dados distribudo tratar e oferecer os servios adicionais voltados ao tratamentoda heterogeneidade.

    Alm desses servios adicionais, as demais funcionalidades da ferramenta degerenciamento do banco de dados distribudo na arquitetura de data warehousingdistribudo heterogneo so as mesmas funcionalidades oferecidas por essa ferramenta naarquitetura homognea:

    Conectar os diversos bancos de dados independentes atravs de uma rede decomputadores, oferecendo uma viso lgica integrada dos dados corporativos;

    Atender s consultas dos usurios de SSD que requisitam dados atravs dos sites daarquitetura; e

    Proporcionar os esquemas de fragmentao e de alocao.

    essencial a presena de um modelo de dados global integrado para o bomfuncionamento da ferramenta de gerenciamento do banco de dados distribudo.

    3.4.3 Arquitetura de Data Warehousing Distribudo com SGBDDistribudo nico

    A Figura 3.5 mostra a arquitetura de data warehousing distribudo proposta porMoeller [MOE01]. Diferentemente do que foi visto nas arquiteturas de data warehousingdistribudo homogneo e heterogneo, na arquitetura com SGBD distribudo nico noexistem banco de dados locais autnomos, ou seja, esta arquitetura no oferece suporte adata marts independentes.

  • 7/21/2019 aabp

    31/57

    30

    FIGURA 3.5ARQUITETURA DE DATA WAREHOUSING DISTRIBUDO COM SGBDDISTRIBUDO

    NICO DE MOELLER [CIFE02]

    Nesta arquitetura, os dados do data warehouse corporativo podem estar

    armazenados em diferentes sites, podendo ser distribudos (fragmentados e/ou replicados)nestes sites medida que o volume do data warehouseaumenta ou medida que o nmerode usurios cresce. O acesso a estes dados feito atravs do SGBD distribudo, quedesempenha papel similar ao exercido pela ferramenta de gerenciamento do banco de dadosdistribudo nas arquiteturas de data warehousing distribudo homogneo e heterogneo,fazendo-se desnecessria a presena desta ferramenta nesta arquitetura.

    Enquanto nas arquiteturas homognea e heterognea cada banco de dados localpossui o seu prprio modelo de dados individual, na arquitetura com SGBD distribudonico no existem modelos de dados locais. Tal restrio est relacionada ao fato de que aspores do data warehouse corporativo armazenadas nos diversos sites dessa ltimaarquitetura no podem ser consideradas bancos de dados locais autnomos. Apesar disto,

    indispensvel a definio de um modelo de dados corporativo na arquitetura com SGBDdistribudo nico [MOE01].

    3.4.4 Abordagem para o Problema de Localizao dos Dados

    Desde que diversos data marts pr-existentes sejam integrados logicamente entre siatravs de uma rede a fim de criar um data warehouse corporativo, Moeller [MOE01]afirma que pode ser interessante realizar uma redistribuio posterior dos dados destes datamarts, considerando-se requisitos globais de fragmentao, de replicao e de alocao,visando-se um aumento de desempenho do sistema como um todo.

    Moeller apresenta uma abordagem prtica para o problema de localizao dosdados, que dividida em duas partes. A primeira parte desta abordagem discute aspectosrelacionados localizao dos dados de forma a maximizar o desempenho do sistema noatendimento s consultas dos usurios de SSD. A segunda parte da abordagem propostaidentifica tcnicas que visam minimizar o tempo gasto no carregamento dos dados.

    Segundo Ciferri [CIFE02], os doze passos seqenciais da primeira parte daabordagem proposta por Moeller so:

  • 7/21/2019 aabp

    32/57

    31

    Passo 1 - definir os objetivos particulares e as caractersticas fsicas do datawarehousedistribudo;

    Passo 2 - identificar as caractersticas dos SGBD utilizados para implementar osbancos de dados locais de forma que estas caractersticas tambm sejam seguidas noprojeto do data warehousedistribudo. Este passo aplica-se somente s arquiteturas

    de data warehousingdistribudo homogneo e heterogneo; Passo 3 - ajustar (maximizar) o desempenho individual dos bancos de dados locais.A importncia desta tarefa est relacionada ao fato de que, segundo Moeller, amaioria das consultas dos usurios de SSD processada por data marts particularesem um data warehousedistribudo;

    Passo 4 - realizar a manuteno peridica dos bancos de dados locais; Passo 5 - otimizar o cdigo gerado por consultas que acessam dados localizados em

    diferentes sites da arquitetura de data warehousingdistribudo; Passo 6 - aplicar tcnicas de otimizao padro para aumentar o desempenho no

    processamento de consultas complexas. Por exemplo, pode-se optar pelaincorporao de um ndice ou pelo particionamento de uma tabela grande;

    Passo 7 - identificar o relacionamento existente entre os dados, de forma que osdados fortemente vinculados (ou seja, os dados freqentemente requisitadosconjuntamente) sejam armazenados em um mesmo site;

    Passo 8 - identificar os dados predominantemente estticos, ou seja, os dados no-volteis ou os dados que so alterados esporadicamente. Esses dados devem serlocalizados no siteno qual so mais requisitados. Em especial, dados estticos sopassveis de replicao;

    Passo 9 - efetuar o particionamento vertical dos dados do data warehousedistribudo. Isto pode ser realizado atravs da fragmentao vertical de uma tabelaexistente em duas ou mais tabelas, e da posterior alocao dessas novas tabelas aosdata marts adequados. Isto tambm pode ser realizado atravs da unificao dediferentes tabelas que compartilham chaves primrias, e da posterior alocao databela resultante a um site especfico. Nesse caso, os dados duplicados soremovidos;

    Passo 10 - efetuar o particionamento horizontal dos dados do data warehousedistribudo. Isto pode ser realizado atravs da fragmentao horizontal de umatabela grande em duas ou mais tabelas, e da posterior alocao dessas tabelas aosdata marts adequados;

    Passo 11 - replicar tabelas ou fragmentos de tabelas, de forma a minimizar o trfegode dados pela rede no suporte a consultas OLAP. Isto deve ser realizado de forma abalancear o ganho de desempenho no processamento de consultas OLAP com oaumento dos custos de manuteno; e

    Passo 12 - redistribuir os dados do data warehousedistribudo, os processos e atmesmo os usurios de determinados data marts, visando reduzir gargalos existentes.

    A segunda parte da abordagem para o problema de localizao dos dados propostapor Moeller visa otimizar o tempo de carregamento dos dados. Nela, discutem-se osaspectos prticos relacionados: s ferramentas e/ou aos algoritmos empregados nocarregamento dos dados, ao pr-processamento dos dados, possibilidade de carregamentodos dados em paralelo e ao balanceamento de processamento na fase de carregamento dosdados entre os data marts da arquitetura de data warehousingdistribudo, dentre outros.

  • 7/21/2019 aabp

    33/57

    32

    3.5 Arquitetura de Data Warehouse Distribudo Hierrquico deZhou et al.

    Zhou et al. [ZZTH00] antes de descreverem sua arquitetura de data warehousedistribudo hierrquico, primeiramente descrevem um estudo de caso bem simples de data

    warehousemodelado com o esquema estrela, ilustrado na Figura 3.6, contendo trs tabelasde dimenses (rea, Tempo e Indstria) e uma tabela de fatos, apresentando uma medidarepresentada pelo atributo GNP, que mede a performance da economia.

    FIGURA 3.6ESQUEMA ESTRELA DA INFORMAO ECONMICA DO DATA WAREHOUSE

    Zhou et al. [ZZTH00] destacam as desvantagens de se utilizar tanto o datawarehouse centralizado (Figura 3.7), quanto o data warehouse distribudo ou federadoproposto por Wells et al. [WDCP96] (Figura 3.8). As desvantagens encontradas naconstruo deste enorme data warehouseem um ambiente centralizado so: a dificuldadede carga e manuteno desta enorme quantidade de dados e a grande quantidade deusurios que faro consultas aos servidores OLAP.

    FIGURA 3.7DWCENTRALIZADO (BASEADO EM [AJLW98])

    FIGURA 3.8DWDISTRIBUDO OU FEDERADO (BASEADO EM [AJLW98])

  • 7/21/2019 aabp

    34/57

    33

    J o ambiente distribudo de Wells et. al [WDCP96] oferece uma oportunidade deconstruo de um largo data warehouse corporativo integrado, utilizando-se de ummiddleware OLAP distribudo para realizar as consultas OLAP e integr-las para seremretornadas ao usurio. O esquema global utilizado nesta arquitetura serve para ter umaviso integrada dos esquemas dos data marts existentes.

    A desvantagem desta arquitetura, segundo Zhou et al, que os data marts esto emum nico nvel, impossibilitando dar ateno a nveis de usurios de alto e baixo nvel aomesmo tempo. O Quadro 3.1 compara os trs tipos de arquiteturas de data warehouse.

    QUADRO 3.1COMPARAES ENTRE DW CENTRALIZADO, D W DISTRIBUDO DE WELLS ET AL.E

    HDDW (BASEADO EM [ZZTH00])Caractersticas DW Centralizado DW Distribudo HDDWDistribuio dos Dados Baixo Moderado AltoExecuo da Consulta Fcil Complexo ModeradoCusto de Comunicao Baixo Alto ModeradoManuteno Difcil Moderado Fcil

    E com isso eles propem como uma melhor alternativa para este estudo de caso, asua arquitetura de data warehousedistribudo hierrquico (HDDW). Esta arquitetura temduas caractersticas especiais, so elas [ZZTH00]:

    1. Cada departamento em todos os nveis deve ter o seu prprio data warehouse oudata mart; e

    2. Cada departamento cuida principalmente do dado econmico da rea em que selocaliza, isto , a tomada de deciso do departamento com nvel estado se preocupabasicamente com o dado econmico agregado do estado e os dados detalhados dascidades dos municpios que fazem parte deste estado. E assim por diante com osoutros nveis da arquitetura.

    A construo da arquitetura HDDW feita gradualmente, onde se utiliza aabordagem bottom-upde desenvolvimento do data warehouse, construindo data marts nonvel mais baixo da arquitetura e subindo gradativamente o nvel de desenvolvimento. AFigura 3.9 ilustra esta arquitetura dividida em nveis de hierarquias de relacionamento entreos atributos da dimenso rea (Figura 3.6), onde o desenvolvimento comea no nvel debairro e sobe at o nvel nao que corresponde integrao dos data marts existentes nonvel de estado.

    FIGURA 3.9DATA WAREHOUSE DISTRIBUDO HIERRQUICO (BASEADO EM [ZZTH00])

  • 7/21/2019 aabp

    35/57

    34

    Como visto anteriormente, o desenvolvimento dos data marts na arquiteturaHDDW construda nvel por nvel. Com isso, a implementao e a manuteno ficarealmente fcil, devido aos data marts serem praticamente independentes entre si, portanto,a manuteno no Quadro 3.1 pode ser considerada fcil nesta arquitetura. A manuteno

    acontece quando um dado alterado em um nvel e esta alterao se reflete a todos os datamarts que contenham referncia para este dado de nveis acima at chegar ao topo[ZZTH00].

    O estudo de caso mostra que se pode distribuir os dados de acordo com nveis dehierarquias de relacionamento entre os atributos de uma dimenso. Como exemplo, nesteestudo de caso podia-se distribuir os dados usando os atributos da dimenso Tempo: ano,estao e ms para formar uma hierarquia de dados.

    3.5.1 HDDW orientado a consultas OLAP

    A Figura 3.10 ilustra a arquitetura do HDDW orientada a consultas OLAP. Pode-se

    observar nesta figura que os usurios finais utilizam uma ferramenta OLAP comum e umservidor OLAP especializado, que ser mostrada na Figura 3.11. Todos estes servidoresOLAP conectam-se entre si atravs da rede e operam colaborativamente para responder asconsultas dos usurios do SSD [ZZTH00].

    FIGURA 3.10 - HDDWORIENTADO A CONSULTAS OLAP (BASEADO EM [ZZTH00])

    A Figura 3.11 mostra o mecanismo de processamento das consultas OLAP naarquitetura HDDW. Este mecanismo composto por trs camadas: cliente, servidor OLAP

    local (middleware) e servidor de banco de dados. A camada cliente oferece para o usuriofinal ferramentas com facilidades para gerar relatrios. A camada do middleware a parteprincipal da arquitetura, que esconde os detalhes da distribuio dos dados e tem comoprincipal objetivo a gerao otimizada da consulta distribuda para responder comtransparncia a consulta feita pelo usurio. A camada do servidor de banco de dados quem possibilita o acesso aos dados existentes nos data marts.

    O cliente acessa o sistema por meio do servidor OLAP. A ferramenta usada pelousurio prov interatividade com o ambiente do servidor OLAP local. As consultas

  • 7/21/2019 aabp

    36/57

    35

    requisitadas pelo usurio so transferidas para o servidor local OLAP em uma linguagemSQL formal.

    Quando uma consulta recebida pelo servidor OLAP local, ela analisadasintaticamente e depois verificado no esquema global quais data marts devem serconsultados para responder a consulta, com isso a consulta decomposta em sub-consultas

    remotas e local. Finalmente, os resultados das sub-consultas so integrados e submetidos aousurio. A mquina de agregao responsvel pelo clculo agregado e o gerenciamento,que um fator chave para o desempenho em servidores OLAP [ZZTH00].

    FIGURA 3.11 MECANISMO OLAPDO SISTEMA HDDW (BASEADO EM [ZZTH00])

    O gerenciamento dos usurios do sistema feito atravs do agrupamento dosusurios em determinados nveis de hierarquia. Caso o nvel do usurio seja o mais alto dahierarquia, ele ter acesso a todos os dados do sistema; j, se for o mais baixo, s teracesso aos dados daquele nvel.

    3.6 Arquitetura de Data Warehouse Distribudo de Ciferri (OSistema WebDW)

    O sistema WebDW (Web Distributed Data Warehousing) consiste em um ambientede data warehousingdistribudo cliente-servidor que visa no somente distribuio dos

    dados do data warehouse, mas tambm ao acesso distribudo a esses dados usando atecnologia Web como infra-estrutura [CCSF02].

    Este sistema utiliza-se da distribuio dos dados do data warehouse, visandoalcanar diversas vantagens sobre a arquitetura de um data warehouse centralizado, taiscomo: aumento da disponibilidade dos dados, melhoria na confiabilidade, suporte a umgrande nmero de usurios, melhoria no desempenho das consultas OLAP e uma expansomais fcil das unidades de distribuio. Alm destas vantagens, o sistema garante ainda: a

  • 7/21/2019 aabp

    37/57

    36

    transparncia de fragmentao, de replicao e de localizao na manipulao dos dados,tornando as consultas OLAP transparentes para os usurios dos SSD.

    3.6.1 Arqui tetura

    A arquitetura de um ambiente de data warehousing centralizado, mostrada naFigura 2.6 deste trabalho, estendida para a arquitetura do sistema WebDW, porm, aincluso dos componentes de distribuio, o componente de consulta do ambientedistribudo e o componente de manuteno do ambiente distribudo fazem com que osoutros componentes do sistema apresentem alteraes em suas estruturas internas,aumentando a complexidade no desenvolvimento dos mesmos.

    A arquitetura do sistema WebDW mostrada na Figura 3.12, onde soidentificados todos os componentes, os inter-relacionamentos entre eles e as classes deusurios existentes no sistema. As funcionalidades existentes em cada componente e asresponsabilidades de cada classe de usurio sero descritas nas prximas sees esubsees desse captulo.

    As informaes estruturais e semnticas das fontes de dados e outras informaesque possam ser importantes para o ambiente de data warehousing so armazenadas norepositrio de metadados, sendo manipuladas pelo gerenciador de metadados [CIFE02].

    O componente de gerenciamento e administrao do ambiente tem funcionalidadesvoltadas para o monitoramento do ambiente de data warehousing distribudo. Tanto oadministrador do data warehouse distribudo quanto o administrador do data warehouseglobal interagem com este componente.

    A abordagem utilizada para o desenvolvimento do sistema WebDW foi a top-down, onde o data warehouseglobal foi construdo primeiro, para que, posteriormente, asunidades de distribuio fossem geradas. Estas unidades de distribuio podem ser vistascomo data warehouses ou data marts, dependendo dos critrios utilizados para a

    distribuio dos dados.

  • 7/21/2019 aabp

    38/57

    37

    FIGURA 3.12 ARQUITETURA BSICA DO SISTEMA WEBDW [CIFE02]

  • 7/21/2019 aabp

    39/57

    38

    3.6.2 A importncia do Data Warehouse Global

    O sistema WebDW define o data warehouseglobal como sendo o data warehouseque contm todos os dados que sero distribudos para os diversos sites. Os dados sero

    extrados dos provedores de informao (banco de dados operacionais, sistemas de arquivose fontes externas) e depois traduzidos, limpados e integrados pelo componente deintegrao e manuteno, para que se possam carregar os dados no data warehouseglobal.

    A importncia do data warehouse global observada pelo fato de que, como elecontm todos e os mais atualizados dados do sistema a partir dele que so geradosfragmentos que sero alocados nas vrias unidades de distribuio do sistema, evitando anecessidade da comunicao direta entre unidades de distribuio e provedores deinformao. O oposto resultaria em um custo adicional elevado ao sistema, devido fase decarregamento dos dados ser um processo de atividades extremamente complexas e lentas[NASC05]. Alm disso, as consultas OLAP poderiam ocasionar um grande volume dedados trafegando pela rede, sobrecarregando-a e, possivelmente, piorando a performance

    destas consultas.Nas prximas subsees, so descritos brevemente os cinco componentes presentesna arquitetura do sistema WebDW, que so: componente de integrao e manuteno,componente de distribuio, componente de anlise e consulta, componente de consulta doambiente distribudo e o componente de manuteno do ambiente distribudo.

    3.6.3 Componente de Integrao e Manuteno

    responsvel pela integrao dos dados existentes nas fontes de dados, aps aextrao traduo, limpeza, filtragem e integrao dos dados, alm de atualizao peridicae expirao dos dados.

    Como pode ser observado, este componente desempenha as mesmas funes doscomponentes vistos na seo 2.6.1. Porm, no sistema WebDW, o componente deintegrao e manuteno estendido de forma a possibilitar a propagao das alteraes aserem realizadas nos dados do data warehouse global ao componente de manuteno doambiente distribudo.

    3.6.4 Componente de Manuteno do ambiente distribudo

    responsvel por manter a consistncia dos dados no data warehouseglobal e nasunidades de distribuio. Segundo Ciferri [CIFE02], este componente pode desempenharduas funcionalidades diretamente relacionadas:

    A manuteno da consistncia intra-site A consistncia intra-site resulta dahabilidade de se manter os dados detalhados e agregados armazenados em um siteparticular consistentes entre si; e

    A manuteno da consistncia entresites - A consistncia entresites resulta dahabilidade de se manter os dados fragmentados e/ou replicados atravs dos diversossites do ambiente de data warehousingconsistentes entre si.

  • 7/21/2019 aabp

    40/57

    39

    3.6.5 Componente de Distr ibuio

    Tem como principal objetivo aumentar a disponibilidade dos dados do datawarehouse global, alocando os dados replicados e/ou fragmentados atravs dos diversosdata warehouses distribudos no sistema. Este componente tambm responsvel pelo

    aumento da confiabilidade e o do suporte a um maior nmero de usurios no sistema. Ocomponente de distribuio composto por quatro mdulos: requisitos, fragmentao,alocao e carga que sero descritos nos subtpicos abaixo.

    3.6.5.1 Mdulo Requisitos

    Tem como responsabilidade determinar um conjunto de critrios que deve serutilizado como base pelo projetista do data warehousedistribudo para definir limitaes aserem aplicadas aos processos de fragmentao, replicao e alocao dos dados do datawarehouseglobal. So considerados requisitos para o processo de fragmentao e alocaoa obteno de informaes a respeito dos sistemas computacionais, da rede de

    comunicao, da carga de trabalho e do banco de dados.As informaes dos sistemas computacionais requerem um conhecimento dos sitesque sero utilizados pelo ambiente distribudo para alocao das unidades de distribuio:caractersticas como nvel de segurana oferecido, capacidade de processamento dehardware e armazenamento de dados, software utilizado, entre outros.

    Devem ser obtidas tambm informaes da rede de comunicao, como largura debanda da rede, para melhor alocar os dados mais acessados em sites com grande largura debanda e segurana da rede. J as informaes a respeito da carga de trabalho consistem emsaber qual poro de dados acessada mais freqentemente para que uma anlise sobre elesseja traada e possa resultar em uma fragmentao e alocao adequadas, e que realmenteaumente a disponibilidade dos dados consideravelmente. E por fim, informaes relativas

    ao banco de dados, como suas estruturas e caractersticas, de maneira geral [COSTA05].

    3.6.5.2 Mdulo Fragmentao

    Este mdulo tem como objetivo o particionamento dos dados do data warehouseglobal em diversos fragmentos, para que, posteriormente, estes dados sejam alocados nasdiversas unidades de distribuio existentes. O particionamento dos dados pode ser feito detrs diferentes tipos de fragmentao: a horizontal, a vertical e a mista.

    A fragmentao horizontal divide cada fragmento em um subconjunto das tuplas darelao completa, onde cada tupla de uma relao precisa ser armazenada em pelo menosuma unidade de distribuio. Na fragmentao vertical, as relaes so decompostas em

    relao aos atributos, onde cada fragmento uma projeo da relao completa e cadafragmento tem, necessariamente, como atributo, a chave primria ou algum atributo queseja chave candidata da relao completa. A fragmentao mista a combinao dafragmentao horizontal e vertical, mas sempre uma por vez, ou seja, ou se fragmentaverticalmente para depois fragmentar horizontalmente, ou o contrrio.

    Este mdulo faz uso tanto do algoritmo de fragmentao horizontal proposto porCiferri [CIFE02], quanto pelos algoritmos de fragmentao vertical propostos por

  • 7/21/2019 aabp

    41/57

    40

    Nascimento [NASC05] e Costa [COSTA05], que gerar entradas para o mdulo dealocao.

    Segundo Ciferri [CIFE02], sendo considerada uma implementao relacional dasvises materializadas no data warehouse atravs do esquema estrela, pode-se afirmar queas tcnicas de fragmentao horizontal, vertical e mista devem enfocar principalmente a

    fragmentao da tabela de fatos, sendo que a fragmentao das tabelas de dimenso inerente fragmentao da tabela de fatos.

    3.6.5.3 Mdulo Alocao

    O mdulo alocao tem como objetivo alocar os fragmentos resultantes do mdulofragmentao nas unidades de distribuio. Tambm responsabilidade deste mduloescolher quais destes fragmentos devem ser replicados e em qual sites estas rplicas seroalocadas, aumentando, com isso, a disponibilidade e eficincia das consultas OLAP dosusurios de SSD. Porm, a replicao pode reduzir a velocidade das operaes deatualizao, uma vez que, uma atualizao deve ser executada em todas as cpias do bancode dados, mantendo a consistncia dos seus dados.

    Em adio aos custos de manuteno, o problema de alocao tambm deveconsiderar os custos de armazenamento dos fragmentos nos sites, os custos associados aoprocessamento das consultas e os custos de transmisso. importante destacar que oproblema de alocao consiste em um problema de otimizao muito complexo [ERNS04].

    3.6.5.4 Mdulo Carga

    O mdulo carga tem como principal objetivo o carregamento inicial dos dados nosdiversos sites, utilizando-se do esquema de fragmentao gerado pelo mdulofragmentao e do esquema de alocao gerado pelo mdulo alocao para este propsito.A transferncia dos dados do data warehouseglobal para as unidades de distribuio podeser realizada atravs da Web ou de forma indireta, quando o volume de dados inviabiliza ouso da rede [CIFE02].

    O mdulo carga desempenha tambm outras funcionalidades complementares aocarregamento inicial dos dados, so elas: Armazenamento do projeto do ambiente distribudo no repositrio de metadados; Criao e carga do repositrio de metadados nos sites das unidades de distribuio; e Responsvel por inicializar os demais componentes do sistema

    Este mdulo pode ser ativado tanto pelo carregamento inicial dos dados nos sitesquanto pela criao de novos sites no sistema WebDW. Neste ltimo caso, as informaesrelativas aos esquemas destas novas unidades devem ser replicadas em todos os repositrios

    de metadados presentes.3.6.6 Componente de Consulta do Ambiente Distribudo

    O componente de consulta do ambiente distribudo tem como principal objetivo oaumento da disponibilidade do acesso aos dados relativos consulta. Este componentepode ser representado de acordo com duas perspectivas:

  • 7/21/2019 aabp

    42/57

    41

    Funcionalidade de Acesso Local Explora a proximidade do dado buscado naconsulta em relao localidade do usurio, otimizando, com isso, a consulta. Nestafuncionalidade s so consideradas s consultas submetidas ao sistema WebDWvia Intranet, ou seja, o usurio de SSD que fez a consulta tem que estar em um dossites das unidades de distribuio ou no siteque contm o data warehouseglobal; e

    Funcionalidade de Acesso Global Explora tambm a proximidade do dadobuscado na consulta em relao localidade do usurio, porm, nestafuncionalidade s so consideradas as consultas submetidas ao sistema WebDWoriundas da Internet. Nesse ltimo caso, o usurio de SSD encontra-se localizadoem um siteque no armazena dados do data warehousedistribudo.

    Atravs da replicao e distribuio destas funcionalidades nos diversos sites doambiente distribudo possvel realizar acessos paralelos ao sistema WebDW, alm de seeliminar gargalos que porventura poderiam existir, caso essas funcionalidades fossemcentralizadas em apenas um site.

    Alm disso, o acesso a esses dados deve ser de forma transparente, ou seja, o

    sistema deve garantir a transparncia de fragmentao, replicao e alocao. Os usuriosexecutam consultas ao sistema como se esse ambiente tivesse apenas um data warehousecentralizado [NASC05].

    Por fim, este componente responsvel por redirecionar a consulta ao site maisapropriado em respond-la, ou simplesmente gerenciar o processamento distribudo damesma.

    3.6.7 Arquitetura do Sistema WebDW na Web

    A arquitetura proposta pelo Sistema WebDW consiste em uma arquitetura degenrica trs camadas, a qual representa a soluo adotada para o acesso aos dados do data

    warehousedistribudo no sistema.A arquitetura de trs camadas composta por camada de apresentao, camadalgica e camada de gerenciamento de dados. Cada uma destas camadas detalhada abaixo.

    A camada de apresentao responsvel pela definio da lgica da interfacegrfica, onde se determina quais dados e de que forma estes dados sero visualizados. Almdisto, os valores digitados pelo usurio na interface grfica devem ser validados everificados. A camada lgica onde se implementa a lgica do negcio, com isso possvel, atravs desta camada, acessar diferentes SGBD. A camada de gerenciamento dedados onde residem os SGBD, que responsvel pelo armazenamento, gerenciamento erecuperao dos dados da aplicao.

  • 7/21/2019 aabp

    43/57

    42

    4. Anlise Comparativa de Arquiteturas de Distribuio deData Warehouse

    Neste captulo apresentada uma anlise comparativa entre as arquiteturas dedistribuio de data warehouse, descritas no captulo 3, destacando-se vantagens edesvantagens de cada uma destas arquiteturas. Em seguida, baseando-se no resultado daanlise so sugeridas algumas boas prticas para o desenvolvimento dessas arquiteturas.

    Nesta anlise comparativa tm-se como base uma extenso dos critrios definidospor Ciferri [CIFE02]:

    Aspectos para fragmentao - Se a arquitetura identifica ou discute questesimportantes que poderiam ser utilizadas como base para a fragmentao dos dados;

    Aspectos para alocao e/ou replicao - Se a arquitetura identifica ou discutequestes importantes que poderiam ser utilizadas como base para alocao e/oureplicao dos dados;

    Metodologia e/ou algoritmos para fragmentao - Se a arquitetura apresentametodologias e/ou algoritmos para fragmentao dos dados;

    Metodologia e/ou algoritmos para alocao e/ou replicao - Se a arquiteturaapresenta metodologias e/ou algoritmos para alocao e/ou replicao dos dados;

    Redirecionamento de consultas processadas de forma centralizada - Se a arquiteturaapresenta o redirecionamento de consultas ao sitemais apropriado em respond-lade forma centralizada;

    Gerenciamento de consultas processadas de forma distribuda - Se a arquiteturaapresenta o gerenciamento de consultas decompostas em diversas subconsultas, deforma que cada uma dessas subconsultas acesse diferentes partes do data warehousedistribudo;

    Controle local aos sites - Se a arquitetura proporciona controle de acesso local acada siteque participa do ambiente distribudo;

    Controle global aos sites - Se a arquitetura proporciona controle de acesso global aoambiente distribudo como um todo;

    Manuteno da consistncia - Se a arquitetura apresenta metodologias e/oualgoritmos para a manuteno da consistncia dos dados distribudos;

    Forma de acesso aos dados - Se a arquitetura apresenta alguma forma particular deacesso aos dados; e

    Segurana - Se a arquitetura apresenta metodologias para a segurana dos dados,promovendo o controle do acesso ao data warehouse e aos provedores deinformao, dos usurios de SSD e das transferncias dos dados.

    Nos prximas sees deste captulo, para cada arquitetura vista anteriormente, ser

    apresentado um quadro contendo a lista das principais caractersticas do referido trabalhocom relao aos critrios acima especificados. As informaes contidas nestes quadrossero preenchidas de acordo com a seguinte terminologia apresentada por Ciferri [CIFE02]:

    Descrio da Funcionalidade - Caso a arquitetura j oferea alguma funcionalidadecom relao ao critrio analisado, ser apresentada uma breve descrio destafuncionalidade;

  • 7/21/2019 aabp

    44/57

    43

    No Apresenta - Caso o objetivo da arquitetura esteja diretamente relacionada como critrio analisado, mas nenhuma metodologia e/ou algoritmo sejam especificadosou nenhuma discusso sobre o assunto realizada;

    Apenas indica necessidade - Caso a arquitetura cite a funcionalidade referente aocritrio que est sendo analisado, mas no apresenta soluo; e

    No especificado - Caso a arquitetura no considere questes relacionadas aocritrio analisado.

    4.1 Anlise da Arquitetura de Data Warehouse Distribudo deInmon

    O Quadro 4.1 identifica as funcionalidades oferecidas pela arquitetura de datawarehousedistribudo de Inmon [INM02], em relao aos critrios abordados no incio docaptulo.

    QUADRO 4.1FUNCIONALIDADES OFERECIDAS PELA ARQUITETURA DE DATA WAREHOUSE

    DISTRIBUDO DE INMON [INM02; CIFE02]Critrio Arquitetura de Inmon [INM02]

    Aspectos para fragmentao Fragmentao por regies geogrficasdiferentes ou comunidades tcnicas distintas

    Aspectos para alocao e/ou replicao Arquitetura bsica: no existe replicao

    Variao da arquitetura: replicao dos

    dados locais a serem transferidos para odata warehouse global

    Metodologia e/ou algoritmos parafragmentao No apresenta

    Metodologia e/ou algoritmos para alocaoe/ou replicao

    No apresenta

    Redirecionamento de consultas processadasde forma centralizada

    Apenas indica a necessidade

    Gerenciamento de consultas processadas deforma distribuda

    Apenas indica necessidade

    Controle local aos sites Apenas indica a necessidadeControle global aos sites Apenas indica a necessidade

    Manuteno da consistncia No especificado

    Forma de acesso aos dados No especificadoSegurana No especificado

    Na arquitetura de Inmon [INM02] a regio geogrfica e a comunidade tcnica sofatores que podem servir de base para a fragmentao, porm nenhuma metodologia e/oualgoritmo so apresentados para a fragmentao. Na arquitetura bsica de Inmon no existereplicao, j na variao desta arquitetura pode haver replicao dos dados armazenadosnas reas de armazenamento do data warehouse global, caso a poltica adotada pela

  • 7/21/2019 aabp

    45/57

    44

    empresa seja a no remoo destes dados aps o envio ao data warehouseglobal. Porm,nenhuma metodologia e/ou algoritmos so apresentados para a alocao e/ou replicao.

    Inmon, em sua arquitetura de data warehouse distribudo, apenas indica anecessidade de se ter: um redirecionamento das requisies dos usurios de SSD, umgerenciamento destas requisies de forma a melhorar a performance das mesmas, um

    controle local e global, para que, em princpio, os dados locais sejam acessados somentelocalmente e os dados globais sejam acessados somente globalmente.Apesar de poder existir replicao dos dados, como pde ser visto anteriormente,

    Inmon no se preocupa com a manuteno da consistncia dos dados devido a talreplicao. Os critrios forma de acesso aos dados e segurana no so abordados notrabalho de Inmon.

    4.2 Anlise das Arquiteturas de Data Warehousing Distribudo deMoeller

    O Quadro 4.2 identifica as funcionalidades oferecidas pelas arquiteturas de datawarehousingdistribudo homogneo, heterogneo e com SGBD distribudo nico propostaspor Moeller [MOE01], de acordo com os critrios listados no incio deste captulo.

  • 7/21/2019 aabp

    46/57

    45

    QUADRO 4.2FUNCIONALIDADES OFERECIDAS PELAS ARQUITETURAS DE DATA WAREHOUSING

    DISTRIBUDO DE MOELLER [MOE01; CIFE02]Critrio Arquitetura de Moeller [MOE01]

    Aspectos para fragmentao Passos 7, 9, 10 e 12 (primeira parte daabordagem para o problema da localizao

    dos dados)Aspectos para alocao e/ou replicao Passos 7, 8, 9, 10, 11 e 12 (primeira parte

    da abordagem para o problema da

    localizao dos dados)

    Metodologia e/ou algoritmos parafragmentao

    No apresenta

    Metodologia e/ou algoritmos para alocaoe/ou replicao

    No apresenta

    Redirecionamento de consultas processadasde forma centralizada

    Gerenciamento de consultas processadas deforma distribuda

    Funcionalidades oferecidas pela ferramenta

    de gerenciamento do banco de dados

    distribudo ou pelo SGBD distribudo

    Controle local aos sites Usurios de SSD podem submeter consultasdiretamente aos data marts individuais nas

    arquiteturas de data warehousing

    distribudo homogneo e heterogneo

    Controle global aos sites Funcionalidades oferecidas pela ferramentade gerenciamento do banco de dadosdistribudo ou pelo SGBD distribudo

    Manuteno da consistncia Discusso de mecanismos tradicionais decontrole de concorrncia

    Forma de acesso aos dados No especificadoSegurana Sugere o uso de ferramentas que melhor se

    adeqem necessidade da empresa

    Moeller [MOE01] apenas discute alguns direcionamentos que podem ser utilizadoscomo base em questes relacionadas fragmentao, replicao e alocao dos dados,como pode ser visto na seo 3.4.4 deste trabalho. Tais direcionamentos no enfocamcaractersticas intrnsecas de ambientes de data warehousing, como exemplo a organizaodos dados em diferentes nveis de agregao. Alm disto, nenhuma metodologia e/oualgoritmos de fragmentao, alocao e replicao so apresentados no trabalho deMoeller.

    As funcionalidades de redirecionamento de consultas processadas de formacentralizada e o gerenciamento de consultas processadas de forma distribuda sooferecidos pela ferramenta de gerenciamento do banco de dados distribudo ou pelo SBGDdistribudo, respectivamente nas arquiteturas homognea ou heterognea, ou na com SGBDdistribudo nico.

    Os usurios de SSD podem submeter consultas diretamente aos data martsindividuais nas arquiteturas de data warehousingdistribudo homogneo e heterogneo deMoeller [MOE01], j que os data marts locais so autnomos: possuem sua prpria

  • 7/21/2019 aabp

    47/57

    46

    estrutura e contedo dos dados, so alimentados por sistemas particulares e no existecoordenao entre os dados ou de processamento entre os sites. J o controle global aossites feito atravs da ferramenta de gerenciamento do banco de dados distribudo ou peloSGBD distribudo.

    Em seu livro, Moeller [MOE01] discute a funcionalidade de manuteno da

    consistncia dos dados, exemplificando vantagens e desvantagens de mecanismos decontrole de concorrncia. Tal discusso engloba mecanismos tradicionais comumenteconhecidos, tais como: mtodos baseados em bloqueio, mtodos baseados em marcadoresde tempo (timestamping) e mtodos otimistas.

    O critrio forma de acesso aos dados no especificado na arquitetura de Moeller,enquanto que o critrio segurana tratado de forma detalhada, onde o autor sugere autilizao de firewalls, autenticao dos usurios, criptografia e medidas de seguranautilizadas nos SGBD.

    4.3 Anlise da Arquitetura de Data Warehouse Distribudo

    Hierrquico de Zhou et al.

    O Quadro 4.3 identifica as funcionalidades oferecidas pela arquitetura de datawarehouse distribudo hierrquico de Zhou et al. [ZZTH00], em relao aos critriosabordados no incio do captulo.

  • 7/21/2019 aabp

    48/57

    47

    QUADRO 4.3FUNCIONALIDADES OFERECIDAS PELA ARQUITETURA DE DATA WAREHOUSE

    DISTRIBUDO HIERRQUICO DE