Business Intelligence e Análise de Dados...Business Intelligence e Análise de Dados Business...

12
Trabalho de Conclusão de Curso de Sistema de Informação - Gama, DF- 1º semestre de 2019 1 Business Intelligence e Análise de Dados Business Intelligence and Data Analysis Kildary de Castro Furtado e Ararigleno Almeida Fernandes Centro Universitário do Planalto Central – Professor Apparecido dos Santos Gama – DF – Brasil Sistema de informação [email protected], [email protected] Resumo. Este artigo tem o proposito de abordar com ferramentas e técnicas de Inteligência de Negócios para demonstração de Dados Abertos. Business Intelligence (BI). E visualiza dados abstraídos de forma especifica nos sites abertos, com mais rapidez, simplicidade, eficiência e acessibilidade navegando nos meios digitais, através da construção de uma completa plataforma para analise destes dados com o intuito de mensurar para fins estatístico e estratégicos; utilizamos toda a base atual de Acidentes de Transito da Policia Rodoviária Federal, disponíveis no próprio portal de dados da PRF, onde poder ser feito o download de arquivos com extensão(CSV), sendo assim usado para alimentar este projeto tomando com inicio dos dados de primeiro de janeiro de 2017 até dezembro de 2018. Palavras-chave: Dados Abertos. Business. Intelligence. Data Warehousing Abstract. This article is intended to address with Business Intelligence tools and techniques for Open Data demonstration. Business Intelligence (BI). And it visualizes abstracted data of specific form in the opened sites, with more speed, simplicity, efficiency and accessibility navigating in the digital means, through the construction of a complete platform for analyzing of this data with the intention to measure for statistical and strategic ends; we use the entire current Federal Highway Police Accident Database, available in the PRF data portal itself, where you can download files with extension (CSV), and is used to feed this project by starting with data from January 2017 through December 2018. Keywords: Techniques. Intelligence. Data. Open. Business. Intelligence.

Transcript of Business Intelligence e Análise de Dados...Business Intelligence e Análise de Dados Business...

Page 1: Business Intelligence e Análise de Dados...Business Intelligence e Análise de Dados Business Intelligence and Data Analysis Kildary de Castro Furtado e Ararigleno Almeida Fernandes

Trabalho de Conclusão de Curso de Sistema de Informação - Gama, DF- 1º semestre de 2019 1

Business Intelligence e Análise de Dados Business Intelligence and Data Analysis

Kildary de Castro Furtado e Ararigleno Almeida Fernandes

Centro Universitário do Planalto Central – Professor Apparecido dos Santos

Gama – DF – Brasil

Sistema de informação

[email protected], [email protected]

Resumo. Este artigo tem o proposito de abordar com ferramentas e técnicas de Inteligência de Negócios para demonstração de Dados Abertos. Business Intelligence (BI). E visualiza dados abstraídos de forma especifica nos sites abertos, com mais rapidez, simplicidade, eficiência e acessibilidade navegando nos meios digitais, através da construção de uma completa plataforma para analise destes dados com o intuito de mensurar para fins estatístico e estratégicos; utilizamos toda a base atual de Acidentes de Transito da Policia Rodoviária Federal, disponíveis no próprio portal de dados da PRF, onde poder ser feito o download de arquivos com extensão(CSV), sendo assim usado para alimentar este projeto tomando com inicio dos dados de primeiro de janeiro de 2017 até dezembro de 2018.

Palavras-chave: Dados Abertos. Business. Intelligence. Data Warehousing

Abstract. This article is intended to address with Business Intelligence tools and techniques for Open Data demonstration. Business Intelligence (BI). And it visualizes abstracted data of specific form in the opened sites, with more speed, simplicity, efficiency and accessibility navigating in the digital means, through the construction of a complete platform for analyzing of this data with the intention to measure for statistical and strategic ends; we use the entire current Federal Highway Police Accident Database, available in the PRF data portal itself, where you can download files with extension (CSV), and is used to feed this project by starting with data from January 2017 through December 2018.

Keywords: Techniques. Intelligence. Data. Open. Business. Intelligence.

Page 2: Business Intelligence e Análise de Dados...Business Intelligence e Análise de Dados Business Intelligence and Data Analysis Kildary de Castro Furtado e Ararigleno Almeida Fernandes

Trabalho de Conclusão de Curso de Sistema de Informação - Gama, DF- 1º semestre de 2019 2

1.0 Introdução

Em 18 de novembro de 2011 foi sancionada a Lei de Acesso a Informação Pública (Lei 12.527/2011) que regula o acesso a dados e informações detidas pelo governo. Essa lei constitui um marco para a democratização da informação pública, e preconiza, dentre outros requisitos técnicos, que a informação solicitada pelo cidadão deve seguir critérios tecnológicos alinhados com as 3 leis de dados abertos. Dentro desse contexto o Portal Brasileiro de Dados Abertos é a ferramenta construída pelo governo para centralizar a busca e o acesso dos dados e informações públicas.

O Brasil foi membro cofundador da Parceria para Governo Aberto, ou Open Government Partnership (OGP), tem este Portal como um de seus compromissos que foram formalizados no primeiro Plano de ação de governo aberto, lançado na OGP e referenciado pelo Decreto sem número de 15 de setembro de 2011. A Política de Dados Abertos foi consolidada pelo Decreto n.º 8.777, de 2016. O Portal Brasileiro de Dados Abertos é a ferramenta disponibilizada pelo governo para que todos possam encontrar e utilizar os dados e as informações públicas. O portal preza pela simplicidade e organização para que você possa encontrar facilmente os dados e informações que precisa. O portal também tem o objetivo de promover a interlocução entre atores da sociedade e com o governo para pensar a melhor utilização dos dados, promovendo impactos positivos sob os pontos de vista social e econômico. O portal disponibiliza dados relativos às mais variadas temáticas da administração pública. Por exemplo, dados da saúde suplementar, do sistema de transporte, de segurança pública, indicadores de educação, gastos governamentais, processo eleitoral, etc. Dados Abertos são dados publicados em um formato legível por máquina e sem restrição de licenças, patentes ou mecanismos de controle, de modo a estarem livremente disponíveis para serem utilizados e redistribuídos à vontade. A política de Dados Abertos governamental, pauta que vem ganhando cada vez mais atenção no âmbito do Poder Público, trata da disseminação de informações públicas na Internet, a fim de que possam ser utilizadas pela a sociedade. Vários órgãos já possuem a cultura de divulgação de dados e a tendência é que haja cada vez mais interesse e envolvimento das entidades nesse processo. Os arquivos disponibilizados na área dos dados abertos estão compactados (zipados) para diminuição do tamanho real e também no formato Comma-Separated Values (CSV).

A PRF fornece dados de acidentes de transito completos anuais a partir do ano de 2007 agrupados por ocorrências e pessoas, casos ocorridos em todo território nacional. Permitindo aos usuários que transitam pelos mais de 70 mil quilômetros de rodovias federais sob a responsabilidade da PRF, registrarem a ocorrência de acidentes sem vítimas diretamente pela internet. A ferramenta pode ser utilizada em casos de acidentes sem nenhuma pessoa ferida ou morta, com até cinco veículos envolvidos e que não tenham provocado danos ao meio ambiente ou ao patrimônio público. O portal de dados abertos funciona como um catálogo federado que facilita a busca e uso de dados publicados pelos órgãos do governo. Dadas as limitações de recursos, os diversos órgãos e entidades da administração pública disponibilizam os dados conforme os cronogramas estabelecidos em seus Planos de Dados Abertos – PDA. É possível obter dados que não estão

Page 3: Business Intelligence e Análise de Dados...Business Intelligence e Análise de Dados Business Intelligence and Data Analysis Kildary de Castro Furtado e Ararigleno Almeida Fernandes

Trabalho de Conclusão de Curso de Sistema de Informação - Gama, DF- 1º semestre de 2019 3

no portal, verificando se o PDA do órgão responsável tem esses dados em seu cronograma de disponibilização futura. Caso não esteja previsto no cronograma, ainda é possível abrir uma solicitação de acesso à informação, com base no Capítulo IV do Decreto 8.777/2016.

Na forma técnica o proposito do projeto é tornar estes dados mais usual, através da utilização de ferramentas e recursos implementados em BI, realizando a mineração dos dados brutos disponíveis em extensão .CSV da Portal da PRF, assim podendo se conectar a vários tipos diferentes de fontes de dados e formatar esses dados para atender às suas necessidades, possibilitando criação de relatórios visuais para compartilhar com outras pessoas. Formatar dados significa transformá-los – como renomear colunas ou tabelas, converter o texto em números, remover linhas, definir a primeira linha como títulos e assim por diante. Combinar dados significa conectar-se a duas ou mais fontes de dados, formatá-las conforme o necessário e consolidá-las em uma consulta útil. Com acesso ao link https://www.prf.gov.br/portal/dados-abertos/acidentes/acidentes é possível baixar os arquivos como os dados brutos desde do ano de 2007 período em que a PRF começou a contabilizar as informações, figura 1 mostra o processo para Download de arquivos .CSV direto do portal da PRF.

Figura 1 – Tela de Download do Arquivo .CSV Zip

2.0 Metodologia

Após realizado a baixa dos arquivos em meu notebook pessoal, foi criado um banco com o nome de TCC no Postgres com as mesmas formatações do arquivo .CSV, em sequencia através da suíte Pentaho Data Integration foi feita a conexão com o banco e criada a tabela de Dimensão e Fato com as opções: Tablet Input, Add Sequence, Select Values e Table Output definindo-se assim o Datawarehouse, conforme demostrado figuras 2.

Page 4: Business Intelligence e Análise de Dados...Business Intelligence e Análise de Dados Business Intelligence and Data Analysis Kildary de Castro Furtado e Ararigleno Almeida Fernandes

Trabalho de Conclusão de Curso de Sistema de Informação - Gama, DF- 1º semestre de 2019 4

Figura 2 - Arquivo bruto de .CSV

Com a modelagem dimensional ou multidimensional é possível observar o banco de dados de vários ângulos, usando a abordagem no formato de um cubo, que pode conter duas, três ou quantas dimensões for possível. Nos ambientes operacionais construídos atualmente, a técnica de modelagem Entidade Relacionamento (ER) tem sido a mais utilizada nos desenvolvimentos dos projetos. Com o surgimento dos sistemas e processos de DW necessitou-se de uma nova técnica de modelagem que se adequasse melhor à forma de implementação o do novo ambiente.

Page 5: Business Intelligence e Análise de Dados...Business Intelligence e Análise de Dados Business Intelligence and Data Analysis Kildary de Castro Furtado e Ararigleno Almeida Fernandes

Trabalho de Conclusão de Curso de Sistema de Informação - Gama, DF- 1º semestre de 2019 5

3.0 Tabela Fato

A tabela de fato, representam as informações que serão analisadas, sendo formada normalmente por valores numéricos que representam dados de medidas. Mas nem sempre essas tabelas possuem totais ou valores numéricos, passando a ser considerada uma tabela que fará o mapeamento dos eventos ocorridos. A tabela de fato geralmente possui uma grande quantidade de um evento do negócio. Esses dados mostram os acontecimentos diários de uma empresa, o que auxiliar no processo de análise da empresa. A tabela de fato é formada normalmente por uma chave primária composta pelas chaves primárias das tabelas dimensões. 3.1 Tabela De Dimensão

As tabelas de dimensões são os elementos que fazem parte da tabela de fato. Essas tabelas armazenam os dados das dimensões da empresa e normalmente são menores do que a tabela de fato e não possuem atributos numéricos de somatórios. As tabelas de dimensões podem ser utilizadas por mais de uma tabela de fato, pois descrevem e classificam seus elementos, podendo estar inseridas em mais de um assunto no DW e uma das principais funções da criação de uma tabela de dimensão é de servir como fonte de informações para uma consulta efetuada no DW ou como cabeçalho de linha nas respostas oferecidas aos usuários finais.

3.2 ETL/ PDI 6/ ODS E DV O Pentaho Data Integration (ETL) é um software livre formado por um conjunto de softwares voltados para construção de soluções de BI de ponta-a-ponta, que inclui programas para extrair os dados de sistemas de origem em uma empresa, gravá-los em um data warehouse (ou base de dados), limpá-los, prepará-los e entregá-los a outros sistemas de destino ou mesmo a outros componentes da suíte para estudar ou dar acesso aos dados ao usuário final. Neste trabalho usaremos a ETL Pentaho porque é possível fazer inúmeras operações de integração e migração de dados, além do que estamos usando uma grande base de dados e a plataforma oferece recurso com movimentação de grandes volumes, transformação e limpeza de dados.

3.3 PostgreSql Como ferramenta de DATA WAREHOUSING usaremos o PostgreSQL sistema gerenciador de banco de dados objeto relacional (SGBD) por ser uma solução simples e eficiente, atende as expectativas, pois sua principal função é armazenar dados de forma segura, apoiando as melhores práticas, permitindo a recuperação dos dados a pedido de outras aplicações de software. Ele pode lidar com cargas de trabalho que vão desde pequenas aplicações single-machine a aplicações de grande porte voltadas para a Internet, onde será utilizada de forma simultânea por vários usuários. O PostgreSQL é flexível, confiável e de alto desempenho, muitas ferramentas estão disponíveis para consultar ou gerenciar um banco de dados do PostgreSQL, e sua implementação do SQL oferece poderosos recursos de consulta.

Page 6: Business Intelligence e Análise de Dados...Business Intelligence e Análise de Dados Business Intelligence and Data Analysis Kildary de Castro Furtado e Ararigleno Almeida Fernandes

Trabalho de Conclusão de Curso de Sistema de Informação - Gama, DF- 1º semestre de 2019 6

3.4 Visualização - PBS – PBA AmCharts Uma biblioteca para visualização de dados. Soluções de visualização de dados simples, porém poderosa e flexível inclui gráficos e mapas geográficos. 3.5 Mondrian

É um servidor OLAP feito em Java. Único mecanismo OLAP em software livre do mundo.Está embutido na solução de BI da Pentaho.

3.6 Pentaho Schema Workbench

Cria os cubos no formato XML que serão processados pelo Mondrian. Ele tem uma interface visual para navegar entre as definições do cubo, permitindo criar, além de métricas, dimensões e hierarquias.

3.7 Saiku Analytics Plugin

O Saiku Analitycs é um cliente web disponível como plug-in para o Pentaho BI Server. Usa o Pentaho Analisys (Mondrian) para proporcionar uma forma fácil de usar o recurso de Cubos OLAP com uma experiência simples para usuário final.

4.0 Resultado

O Modelo Entidade Relacionamento (MER), como o nome sugere, é um modelo conceitual utilizado na Engenharia de Software para descrever os objetos (entidades) envolvidos em um domínio de negócio, com suas características (atributos) e como elas se relacionam entre si (relacionamentos).

Em geral, este modelo representa de forma abstrata a estrutura que possuirá o banco de dados da aplicação. Obviamente, o banco de dados poderá conter várias outras entidades, tais como chaves e tabelas intermediárias, que podem só fazer sentido no contexto de bases de dados relacionais.

Page 7: Business Intelligence e Análise de Dados...Business Intelligence e Análise de Dados Business Intelligence and Data Analysis Kildary de Castro Furtado e Ararigleno Almeida Fernandes

Trabalho de Conclusão de Curso de Sistema de Informação - Gama, DF- 1º semestre de 2019 7

Figura 3 – MER

A estrutura dimensional normalmente é desenhada no formado do esquema estrela (star schema). Nesse modelo, as tabelas de Dimensões são ligadas diretamente a tabela Fato.

Figura 4 – Tabela Fato

Na figura é mostrado um exemplo de tabela Fato onde possui uma chave primaria e duas métricas sendo quantidade e valor, as demais colunas sendo chaves estrangeiras que vem das tabelas Dimensionais.

Page 8: Business Intelligence e Análise de Dados...Business Intelligence e Análise de Dados Business Intelligence and Data Analysis Kildary de Castro Furtado e Ararigleno Almeida Fernandes

Trabalho de Conclusão de Curso de Sistema de Informação - Gama, DF- 1º semestre de 2019 8

A principal tabela do Data Warehouse, ela vai conectar nas dimensões. Nessa tabela são armazenadas duas coisas: as métricas, que são os fatos propriamente ditos, e as foreign keys, chaves que servem para ligar os dados das dimensões com a fato. Ou seja, a tabela fato é composta pelas métricas, que são tudo aquilo que a empresa quer medir, junto com as foreign keys, chaves que ligam às dimensões que descrevem essas métricas.

4.1 DataWarehouse Criando as dimensões para composição do DataWarehouse na suíte Pentaho Data Integration usando os arquivos salvos extensão.CSV em conexão com o banco criado no PostgreSQL.

Figura 5 - Criação das Dimensões

Feito todos os processos de construção do projeto, criei uma pasta com nome de “ Pentaho ” na raiz do computador onde foi extraído o Pentaho-serve-ce. Executado o start no terminal onde será feita a conexão via Localhost em um navegador endereço: http://localhost:8080/pentaho, acesso padrão usuário: Admin senha: password.

Page 9: Business Intelligence e Análise de Dados...Business Intelligence e Análise de Dados Business Intelligence and Data Analysis Kildary de Castro Furtado e Ararigleno Almeida Fernandes

Trabalho de Conclusão de Curso de Sistema de Informação - Gama, DF- 1º semestre de 2019 9

4.2 Análise interativa, relatórios e painéis

Online Analytical Processing (OLAP) é um servidor que nos permite manipular e analisar um grande volume de dados sob múltiplas perspectivas. Executa consultas feitas com a linguagem MDX e a transforma em linguagem SQL. MDX é uma linguagem de consulta para servidores OLAP criada pela Microsoft em 1997. A palavra Multidimensional Expressions (MDX)

Figura 6 - Cubo OLAP

Cubo OLAP contendo as métricas e dimensões do projeto extraído do portal transformando os dados em informações gerenciais, permitindo realizar varias visualizações em forma de tabela ou gráfica.

Figura 7 - Dashboard – Acidentes nas Rodovias Federais

O dashboard estratégico, como próprio nome diz, deve trazer informações mais estratégicas. Indicadores de performance e informações comparativas com períodos anteriores são acompanhados para entender como estão os resultados atuais com os passados.

Page 10: Business Intelligence e Análise de Dados...Business Intelligence e Análise de Dados Business Intelligence and Data Analysis Kildary de Castro Furtado e Ararigleno Almeida Fernandes

Trabalho de Conclusão de Curso de Sistema de Informação - Gama, DF- 1º semestre de 2019 10

Figura 8 - Dashboard – Tipos de Acidentes

Normalmente os estratégicos geram informações macro que podem ser acompanhados e/ou monitorados por todos da empresa. Neste exemplo representa tipos de acidentes com os respectivos números e o desempenho geral em relação à perspectiva que podem ser acrescentados em dashboards estratégico.

5.0 Considerações finais O projeto se define, por buscar, de uma forma inteligente modos de difundir dados brutos com um padrão de procedimento aplicado em tecnologia atuais, onde se permite mesclar e mensurar informações. Com a quantidade de dados reunidos de forma concentrada e muito rica, porém inviáveis, às vezes, por não atender as demandas especificas possíveis de trabalhar, e obter referencias para tomada de decisões mais assertivas e com mais qualidade. Refere-se ao processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. Decisões de estratégia de negócio, abrangem prioridades, objetivos e direções do mais amplo nível. Com a internet sendo uma fonte inesgotável de dados, entretanto para serem aproveitados precisam ser tratados com especificidade para garantir o objetivo de seu uso. Através da tecnologia de BI aplicada neste trabalho, o intuito é de permitir e garantir que os dados sejam ordenados de forma mais eficiente e eficaz, para que possa ser utilizada em fins de estudo estatísticos nas prevenções de acidentes.

O objetivo deste projeto, retratado no artigo realizado com base nos dados do Portal da PRF, foi de transformar os dados em informações que busca contribuir para uso em fins contábeis e estatístico, apurando os danos causados no transito em todo o território brasileiro, abrangendo região cujo os recursos de informações sejam limitados.

Minha maior dificuldade de concluir o projeto, foi a parte da implementação da aplicação no Pentaho Server, que apesar das facilidades que a ferramenta oferece, existe uma grande

Page 11: Business Intelligence e Análise de Dados...Business Intelligence e Análise de Dados Business Intelligence and Data Analysis Kildary de Castro Furtado e Ararigleno Almeida Fernandes

Trabalho de Conclusão de Curso de Sistema de Informação - Gama, DF- 1º semestre de 2019 11

complexidade para compreensão e uso da mesma. A construção dos Cubos e Dashboards, com o uso dos plug-ins exigiu uma vasta pesquisa e exaustivas visualizações de conteúdos e vídeos aulas disponíveis na internet, que também foram de grande contribuição para meu aprendizado. Consegui absorver bastante informação e entender melhor a importância e o potencial do BI. O trabalho foi bastante desafiador e me trouxe um grande interesse para a área, tenho um conceito formado de BI que não se resume em uma ferramenta ou abrir uma ferramenta de visualização ou integração, não se resume ao uso de softwares como Tableau, Pentaho, QlikView, Power BI ou qualquer outro que estiver na moda. Vai muito além disso, essas ferramentas foram construídas com base nos conceitos e técnicas de BI, mas para conseguir tirar proveito de tudo que elas oferecem, é necessário entender que conceito é esse. Basicamente, eu precisei começar do início e entender o que é Business Intelligence, para que serve e como é utilizado. BI nada mais é que um processo, um conjunto de técnicas e conceitos. Trata de entregar a informação certa para a pessoa certa no tempo certo. Esse processo passa por coleta, organização e análise dos dados, elaboração de relatórios ou dashboards e todo o acompanhamento e atualização. Esses são os fundamentos, a base para entender como tudo funciona. Entendendo o conceito, consegui obter mindset de tomada de decisão orientada a dados e evidências. BI dá suporte à tomada de decisão, permite olhar uma tela com um dashboard e em 5 segundos ter a visão completa da empresa, tendo a capacidade de tomar uma decisão de negócio inteligente, com base em fatos. É importante entender que ninguém mais toma decisões com base em achismos (ou que pelo menos não deveria).

O BI mede o desempenho passado para prever o futuro. Pensa assim: você não faz cirurgia de coração com um médico sem ter evidências de que ele é um bom profissional, ou sem alguns dados como sua formação e o sucesso de suas cirurgias passadas. Para produzir um BI consistente o primeiro passo é a coleta e organização dos dados. Pegar eles do lugar onde estão e organizar de forma que façam sentido juntos.

Depois vem a fase de análise e visualização. Apresento os dados de uma forma visual que permita o seu entendimento. Essas análises são compartilhadas com quem precisa delas, que então parte para a análise. E para finalizar, o monitoramento. Essa é a parte onde você acompanha a evolução de tudo que está acontecendo baseado naquela análise ou coleta inicial. O monitoramento serve para dar suporte à tomada de decisões, que é o core do BI. Foi isso que me seduziu para o tema, e busquei um assunto atual que estar presente no cotidiano da sociedade. Desenvolver uma aplicação a qual será possível entender e poder consultar os dados do portal da PRF em uma plataforma de BI, foi engrandecedor e gratificante. Tenho a convicção que o trabalho foi atual e abordou um dos grandes problemas mundiais que são os acidentes de transito.

Page 12: Business Intelligence e Análise de Dados...Business Intelligence e Análise de Dados Business Intelligence and Data Analysis Kildary de Castro Furtado e Ararigleno Almeida Fernandes

Trabalho de Conclusão de Curso de Sistema de Informação - Gama, DF- 1º semestre de 2019 12

Referências PRF/MINISTERIO DA JUSTICA E SEGURANCA PUBLICA. Disponível em: https://www.prf.gov.br/portal/noticias/nacionais/prf-disponibiliza-servico-via-internet-para-registro-de-acidentes-sem-vitimas - acesso em 31 março de 2019. Portal de Dados Abertos da Policia Rodoviária Federal/pagina inicial dados abertos. Disponível em: https://www.prf.gov.br/portal/dados-abertos/acidentes/acidentes.

KIMBALL, Ralph; ROSS, Margy. The Data Warehouse Tollkit. Tradução da 2a edição original. Rio de Janeiro: Campus, 2002.

MACHADO, Felipe Nery Rodrigues. Tecnologia e projeto de Data Warehouse. São Paulo: Editora Érica, 2004