Data Webhouse - kessia.blogs.unipar.brkessia.blogs.unipar.br/files/2008/07/semin_webhouse.pdf ·...
Transcript of Data Webhouse - kessia.blogs.unipar.brkessia.blogs.unipar.br/files/2008/07/semin_webhouse.pdf ·...
Data Webhouse“Precisamos ter em mente que a Web é maior e mais importante que o Data Warehouse. A web está alterando nossos valores culturais básicos, e o warehouse precisa apressar-se para ficar alinhado com esses novos valores”.
[Kimbal, pag.192]
Mestrado em Ciências da Computação - UEMTópicos Avançados em Sistemas de Informação IOrientação Prof. Dra. Maria Madalena Dias
[Kimbal, pag.192]
Alunos:Aleksandro Montanha [email protected]é Luiz de Souza Gomes [email protected]éssia Rita da Costa Marchi [email protected]
WEBHOUSE OU WEBSERVER
• Um Webhouse, tem a função de armazenar as informações provenientes da web, “sequência de clicks”, por este motivo deve possuir grande capacidade de armazenamento.
• Um servidor Web, deve ser capaz de dar resposta imediata a várias solicitações de usuários da internet. Este tipo de servidor é projetado para dar vazão à informação instantaneamente.
Interação Cliente/Servidor Web
Clique no link
Perfil deusuário
Páginas HTML1
Imagens
Sua-pagina.html
Imagem
2
3 Banner-ad.com
Ler os cookies
AnúnciosAnúncio de Banner
....cookies
AnúnciosAnúncio de Banner 4
Arquivos de cookie
Seu-site.comBanner-ad.com
Profiler.com
....
....
....
Profiler.com
Link oculto
5
Ler os cookies
.... Detalhe demográfico
Fonte: KIMBALL. Data Webhouse: construindo o Data Warehouse para a Web. p.85.
Arquitetura WebhouseVisitante com
navegador ISP do visitante A WEB
Servidor daWeb público
Servidor de diretório Firewall privado
Logs de seqüência de cliques
seguro
Servidor de transaçõesComerciais e
Aplicativos Públicos
Respostas docomputador
(Extrai, Transforma, Carrega)
Mecanismos relacionaisDe DBMS e OLAP
Documento,Imagem,Servidor deMídia
Servidor de Aplicativos deDataWebhouse
Cache de respostaautomática
Upload e download de respostas automáticas
Conjunto de Servidores de Data Webhouse(distribuídos e duplicados)
Fonte: KIMBALL. Data Webhouse: construindo o Data Warehouse para a Web. p.30.
Data Webhouse
• Evolução da Web possibilitou:• Fornecimento de informações, produtos e serviços;• Canal de desenvolvimento de relacionamento
pessoal;
• Warehouse e a Internet• Warehouse e a Internet• Trazer a Web para o Warehouse• Levar o Warehouse para a Web
Web para o Data warehouse
• Trazer comportamentos para o Warehouse;• Interação de usuários com a Web – seqüência de
cliques.• Mesmo em estado bruto, a seqüência de cliques
tem potencial de fornecer dados inusitados, tem potencial de fornecer dados inusitados, entretanto é importante prepará-los para atingir o objetivo.
• O Data Warehouse é um ambiente ideal para armazenar.
Seqüência de Cliques
• Série cronológica das ações executadas pelo internauta.
• Pode originar-se de um ou vários servidores web.
• Ações podem ser agrupadas.• Ações podem ser agrupadas.• Resulta em uma fonte de dados que pode ser
armazenada em diversos tipos de arquivos de log.
Seqüência de Cliques
• Avaliações a serem feitas• Sincronização de dados.• Anonimato da sessão.• Identidade falsa.• Identificação do usuário.
• Diversas máquinas (usuário itinerante)• Compartilhar máquinas (família / trabalho)
Análise Comportamental
• Ponto de entrada.• Informações importante para o marketing e projeto.• Um link de entrada produz um log denominado
referrer.
• Permanência• Tempo real em que o usuário permanece na página
• Consultas• Conhecer os argumentos de pesquisas que o
usuário digita em um formulário Web.
Análise Comportamental
• Navegação intra-site• Maneira como o usuário navega pode fornecer
padrões de medida.
• Ponto de Saída• Identificar quando o usuário saiu do site.
Requisitos de personalização
• Customização• O visitante configura suas preferências de
visualização.
• Personalização• Fornecer conteúdo sob medida para um visitante
resultantes das técnicas de monitoramento resultantes das técnicas de monitoramento disponíveis.
• Reconhecimento de re-visitas• Filtragem colaborativa ativa• Eventos de calendário e de estilo de vida• Localização demográfica
Projetando o data webhouse
• A questão da análise é imprescindível para o sucesso do projeto de webhouse.
• Antes de iniciar o trabalho de busca de informações provenientes de seqüência dos cliques de clientes no ambiente web, faz-se necessária a entrevista com executivos e ou necessária a entrevista com executivos e ou pessoas responsáveis por departamentos, para estabelecer os critérios que irão guiar qualquer tipo de mineração bem como a forma que será obtido o conhecimento sobre assuntos de interesse da empresa.
Projetando o data webhouse
• Podemos ter conteúdos distribuídos em vários Data Mart e em vários servidores.
• Garantir a sincronização em centésimo de milésimo de segundos para obter o resultado adequado.
• Utilizar ferramentas técnicas para a sincronização de tempo.
Projetando o data webhouse
• Etapas para alcançar a sincronização• Reduzir a flutuação de cada relógio individual em
relação ao tempo padrão.• Sincronizar todos os relógios em um único sistema
mestre.• Sincronizar todos os sistemas a este sistema • Sincronizar todos os sistemas a este sistema
mestre.
Projetando o data webhouse
• Ferramentas Técnicas para sincronização de tempo• Software comerciais ou shareware.
• Fonte de informações de sincronização de software • Internet Network Time Protocol (NTP) • Dependem de receptores • Dependem de receptores • http://www.eecis.udel.edu/~mills/ntp/html/index.html
• Obter pela própria internet• Não é recomendado devido ao tempo de LAG.
• GPS – Global Positioning System• Capacidade de sincronizar em até um microssegundo
Projetando o data webhouse
• Diferenças de fuso horário e horário de verão• Estabelecer um nível corporativo para o tempo de
relógio• UTC – Universal Time Coordinated (GMT –
Greenwich Mean Time)
Projetando o data webhouse
• Criar rotulação que permitam que os eventos das páginas sejam classificados e codificados.
• Os índices de conteúdo para HTML estático deve ser mantido em tabela separada fazendo referencia cruzada em URLs específicos.
• Para HTML dinâmico, os índices de conteúdo de página devem derivar diretamente do aplicativo fornecedor de conteúdo.
• Criar índices de conteúdo através de uma tabela de código.
Projetando o data webhouse
• Utilizar servidores de cookies.• Criar um repositório de dados pessoais.
Projetando o data webhouse
Fonte: KIMBALL. Data Webhouse: construindo o Data Warehouse para a Web. p.176.
Por que trazer DW para Web?
• O DW contém os ativos de dados da empresa que precisam ser publicados em formato reconhecível comum;
• Todos os clientes, parceiros de negócio e funcionários já estão na Web;
• A web é um ótimo lugar para encontrar • A web é um ótimo lugar para encontrar informações.
• A web possui conteúdo interessante.• É necessário apenas o Browser.• É de fácil utilização.• A Web é personalização em massa.
Projetando a interface do Webhouse
• Como os usuários já estão acostumados com a Web, eles criaram algumas expectativas:• Que haja disponibilidade 24 x 7.• Que seja um portal de informações corporativas.• Que haja possibilidade de comunicar-se com
alguém da empresa;alguém da empresa;• Que a informação seja dinâmica e atualizada até o
último minuto;• Que seja possível a personalização da página,
como se estivesse dialogando com o site.
Projetando a interface do Webhouse
• 1.ª Revolução em projetos de interface - Anos 70: • a interface gráfica: janelas, mouse e ícones.• Objetivo: tornar o computador útil• Conceito WYSIWIG• Baseada na utilização da tela para o reconhecimento de
comandos ao invés de lembrá-los, e apontar em vez de digitar.
• 2.ª Revolução - Final da década de 90: • 2.ª Revolução - Final da década de 90: • acesso à www, onde o hipertexto possibilitou uma vasta
interconexão das informações de texto, imagens gráficas e outras mídias
• Objetivo: fazer com que a web seja útil.• Conceito: IWIN (I want it now – quero isso agora)• Baseada na coleta de informações, no reconhecimento de
escolhas esperadas por alguém e na obtenção dos resultados instantaneamente
Projetando a interface do Webhouse
• O feedback da interface com o usuário da web é pessoal e imediato;
• A utilização do Webhouse por funcionários, parceiros de negócio e clientes não é nada mais do que outro processo que deve atender às necessidades dos usuários do site da Web.às necessidades dos usuários do site da Web.
• Num Data Webhouse, precisamos analisar a seqüência de cliques, tentar decidir o que os clientes estão fazendo e se conseguiram o que queriam, se deu certo ou não. Isto apontará para algum aspecto da interface.
Projetando a interface do Webhouse
• Algumas diretrizes que ajudarão a tornar a experiência do usuário com a interface do Webhouse mais agradável.• Fazer as páginas HTML serem desenhadas rapidamente, pré-
declarando os tamanhos das imagens nas tags apropriadas;• Armazenar os dados em cache;• Aumentar a largura de banda do servidor da Web;• Utilizar SGBD apropriado;• Explorar o processamento paralelo;• A navegação do site deve seguir convenções da web;• A navegação do site deve seguir convenções da web;• Utilizar uma pesquisa de cliente para saber o que os usuários estão
esperando;• Evitar conteúdo que exija uma configuração sofisticada do navegador;• Simplificar a interface de relatórios;• Fornecer status da geração de relatórios;• Fornecer suporte adequado;• Remover gracejos gráficos, imagens ou textos que piscam, todo texto
em negrito e o uso de pontos de exclamação;
Explorando os dados a partir do Webhouse
• A exploração de dados é um conjunto de técnicas de análise poderosas para dar sentido a conjuntos de dados muito grandes.
• Não existe abordagem completa, o que existe é uma combinação de técnicas;
• Cada ferramenta pode ser visualizada como um cliente do Data Warehouse.
• O Webhouse é que fornece esse conjunto de dados para exploração.
Raízes da exploração de dados
• Década de 60:• Análise estatística
• Final da década de 80:• Lógica Fuzzy;• Pensamento heurístico; Auge da AI• Redes neurais
• Final da década de 90:• Tomamos o melhor de cada técnica
Atividades da exploração de dados
• Agrupamento. • Ex.: selecionar um grande número de clientes não
diferenciados e ver se formam grupos naturais;
• Classificação. • Ex.: examinar um cliente candidato e atribuí-lo a um grupo.
Envolve uma decisão;
• Estimativa e previsão. • Estimativa e previsão. • Ex.: Resultam em medida numérica. Estimativa procura
descobrir dados baseados em um perfil de grupo. Previsão procura determinar um resultado que ocorrerá no futuro.
• Agrupamento por afinidade: Tipo especial de agrupamento que identifica eventos ou transações que ocorrem simultaneamente. • Ex.: análise da cesta de compra.
Preparação dos dados para exploração
Pode envolver, entre outras tarefas:• Transformação de dados de legado. Por exemplo,
de EBCDIC para ASCII ou Unicode;• Exclusão de campos indesejáveis;• Códigos de interpretação em textos;• Combinação de dados de múltiplas fontes;• Combinação de dados de múltiplas fontes;• Interpretação dos valores dos dados de legado
Resultados da exploração de dados
Em muitos casos, a exploração de dados produz resultados interessantes, que por si só, são bancos de dados.
Neste caso, o Webhouse se torna um bom lugar para armazenar e disponibilizar esses resultados.
Ferramenta para publicar o DW na Web
• Microsoft Commerce Server 2002• Permite a publicação do DW na WEB• Permite a obtenção de dados da WEB, através da
seqüência de cliques, para o DW
Fonte: Modelagem de um Data Webhouse voltado a Produção e Comercialização
• Webhouse
Motivação para os negócios via Web.
Envolvimento da Gerência.
ANÁLISE
Envolvimento da Gerência.
Cultura Analítica de Suporte onde exista tradição e m trabalhar com análise de informações para tomada de decisões
Existência de dados reais para servir como base em um data webhouse
• Webhouse
IMPLAN TAÇÃO
AUDITORIA
Auditoria de consistência de dados Entrevistas finais
• Webhouse
IMPLEMENTAÇÃO
Lidar com o inesperado
IMPLANTAÇÃO
Novas solicitações de usuários podem surgir durante o processo de implementação
Estabelecer lista de espera para possíveis mudanças de estratégias ou formas de extração de Informações solicitadas por usuários fi nais, em etapas consideradas criticas.
• Webhouse
IMPLAN TAÇÃO
CUIDADOS TÉCNICOS
Cuidados com o lançamento do Sistema
Configurações completas de hardware e softwareConectividade do Banco de Dados e da RedeDefinição de papéis de segurança para todos os usuá rios finais Teste e ensaio de procedimentosTreinamento
• Webhouse
Dinamismo Processo contínuo AutenticaçãoConexão Segura
SEGURANÇA
Conexão SeguraDefinição de Papéis de Usuários Acesso Permissivo através de Papéis! à Prateleira .
Um dos maiores problemas encontrados com a utilização de DW para web é a internacionalização, mesmo sendo formas diferentes de expressar a mesma coisa, a questão geográfica e cultural tornam necessário a adoção de muitas alternativas para interpretar uma Informação.
• Alfabetos estrangeiros• Nomes
A INTERNACIONALIZAÇÃO•Webhouse
• Nomes• Endereços• Números• Números de Telefone• Moedas• Hora do dia• Calendários• Tratamento de Caracteres não suportados
Alfabeto Arménio Escrita Chinesa
A INTERNACIONALIZAÇÃO•Webhouse
•DIFERENTES TIPOS DE ALFABETOS E ESCRITAS
Alfabeto Tibetano
Escrita Chinesa
Escrita Árabe
* http://www.imultimedia.pt/museuvirtpress/port/alfa.html
• UNICODEVários problemas internacionais referentes a exibição e impressão na web, estão associadas a representação de
caracteres no formato ASCII (American Standart Code of Information) . Esta representação é uma codificação de 8 bits que possui no máximo 255 caracteres, somente 100 destes, possuem interpretação padrão, o que é suficiente para a lingua inglesa, mas não dão suporte para milhares de caracteres de escrita diferentes do Inglês.
A INTERNACIONALIZAÇÃO•Webhouse
Unicode consortium, um organismo internacional de arquitetos de sistema definiu um padrão para representar caracteres e alfabetos em quase todas as linguas e culturas mundiais. Este padrao possui codificação de 16 bits, de no máximo 65.535 caracteres e estabelece uma solução de escrita mundial.
* http://www.unicode.org
• Pesquisa de Feriados
CADA PAÍS TEM UMA LISTA EXCLUSIVA DE FERIADOS, QUE PODEM NÃO OCORRER NO MESMO DIA EM ANOS SUCESSIVOS
• Sincronização de vários fusos horários e formatos de tempo
A questão do tempo é fator importantíssimo para tra nsações comerciais e podem ser obtidas de forma absoluta ou relativas a 00:00 hrs de cada fus o horário.
A INTERNACIONALIZAÇÃO•Webhouse
forma absoluta ou relativas a 00:00 hrs de cada fus o horário.
* http://www.holidayfestival.com
Date_key (FK)GMT_Date_Key(Fk)Product_key(FK)Customer_Key(FK)Call_center(FK)Promotion_Key(FK)Time_of_dayGMT_Time_of_dayDolar_sold.....
Comparação de televendas através de vários horários exige duas dimensões de data e dois horários de fatos do dia
• Suporte para diversos calendários e formato de data s internacionais
Existe uma grande dificuldade em monitorar feriados e estações indefinidas em países diferentes, quando se trata de transações multidime nsionais envolvendo vários países.Por este motivo um modelo recomendado para calendár ios contém entradas genéricas independente de um país em particular.
A INTERNACIONALIZAÇÃO•Webhouse
Data_key(PK)País(PK)FeriadoFeriado_religiosoFeriado_civil....
Data_key(PK)Data_extensodia_da_semanaNum_dia_mesNum_dia_semanaNum_semanaMesNum_Mes....
Qualquer tabelaDe fatos contendoData_key como Uma chave estran-geira....
Tabela de FatosDimensão do tempoSubdimensão dedetalhe do calendárionacional
• Coletar Receita em várias Moedas
Negócios Multinacionais frequentemente efetuam tran sações e constantemente podem ser representadas em várias moedas, para isto faz-se ne cessário estabelecer métodos de conversão.
A INTERNACIONALIZAÇÃO•Webhouse
Date_key(FK)Product_key(FK)Store_key(FK)Reporting_country_key(FK)Customer_Key(FK)Promotion_key(FK)Quantitiy_soldLocal_currency_tenderedUS_dolar_equivalent_tendered
Tabela de Fatos de Vendas Multinacionais
Date_key(FK)Buyng_country_key(FK)Selling_country_key(FK)Conversion_rate
Tabela de fatos de conversão de moedas diária
Nomes e Endereços
Certamente um dos maiores problemas para o DW para Webhouse internacional, são as diferentes formas nas quais se apresentam os nomes e os endereços.
A INTERNACIONALIZAÇÃO•Webhouse
Sádor CsillaNemzetkozi Kiadó KftRákóczi, u. 7372626 PÉCS
• Webhouse
PROFISSIONAIS DE WEBHOUSE
Em qualquer projeto, existe a necessidade de delegar funções e atribuições a indivíduos que compõem a equipe de estudo, implantação e manutenção.Em um projeto Webhouse, surgem novos nomes, que estabelecem um novo
PROFISSIONAIS
Em um projeto Webhouse, surgem novos nomes, que estabelecem um novo nicho de trabalho onde se locam diversas habilidades destinadas a desempenhar tarefas especificas de um modelo webhouse.
PROFISSIONAIS DE WEBHOUSE
FRENTE
Patrocinador do negócio
PROFISSIONAIS
• Webhouse
Patrocinador do negócio Patrocinador de ITCondutor do negócio
• Webhouse
PROFISSIONAIS DE WEBHOUSE
TREINAMENTO
Gerente Geral de Projeto
PROFISSIONAIS
Gerente Geral de ProjetoLíder de Projeto do Negócio
• Webhouse
PROFISSIONAIS
PROFISSIONAIS DE WEBHOUSE
BASE
Analista do NegócioModelador de DadosModelador de DadosAdministrador de Banco de Dados Administrador de Sistemas do Site da WebProjetista de Sistemas de Pré-consolidação de DadosDesenvolvedor de Aplicativos de Usuário Final Desenvolvedor de CRM
• Webhouse
PROFISSIONAIS
PROFISSIONAIS DE WEBHOUSE
BASE
Analista de Comportamento do ClienteProfessor de WebHouseProfessor de WebHouseWebmasterGerente de ConteúdoGerente de Segurança do WebhouseEspecialista em Descrição de Página de Site da WebArquiteto de Rede e Segurança
• Webhouse
PROFISSIONAIS
PROFISSIONAIS DE WEBHOUSE
BASE
Especialista de Suporte TécnicoEspecialista de Suporte TécnicoProgramador da Pré-consolidação de Dados (data staging)Especialista em extração de logs da WebAdministrador de Dados Especialista de Suporte do Sistema de ProduçãoGerente de Garantia de Qualidade Coordenador (gatekeeper) de garantia de qualidade
Modelo
• Sistema resultante de “seqüência de cliques”.
www.marchi.com.br/cpanel
Bibliografia
• KIMBALL, Ralph, MERZ, Richard, Data Webhouse: construindo o Data Warehouse para a Web . Rio de Janeiro: Editora Campus, 2000.
• PERNAS, Ana M R. “Modelagem de um Data Webhouse voltado a Produção e Comercialização Webhouse voltado a Produção e Comercialização de sementes ”, 2003. Monografia (Curso de Ciência da Computação) – UNIVERSIDADE FEDERAL DE PELOTAS. Disponível por WWW em http://www.ufpel.edu.br/prg/sisbi/bibct/acervo/info/2003/mono_ana_pernas.pdf/. (acesso em 08/11/2005).