UNIFACS UNIVERSIDADE SALVADOR MESTRADO … · e por abrir caminhos que permitiram a realização de...

UNIFACS UNIVERSIDADE SALVADOR

MESTRADO ACADÊMICO EM SISTEMAS E COMPUTAÇÃO

MARCIO ALEXANDRE PEREIRA DA SILVA

PROCESSAMENTO ANALITÍCO SOBRE DOCUMENTOS XBRL PARA A

CONTABILIDADE FORENSE

Salvador 2014




Dissertação apresentada ao Curso de Mestrado em Sistemas e Computação, UNIFACS Universidade Salvador, Universidade Salvador – Laureate International Universities como requisito parcial para obtenção do grau de Mestre.

Orientador: Prof. Dr. Paulo Caetano.

Salvador 2014

FICHA CATALOGRÁFICA Elaborada pelo Sistema de Bibliotecas da UNIFACS Universidade Salvador, Laureate

Internacional Universities

Silva, Marcio Alexandre Pereira da

Processamento analitíco sobre documentos XBRL para a Contabilidade Forense. / Marcio Alexandre Pereira da Silva. Salvador, 2014.

102 f. : il. Dissertação apresentada ao Curso de Mestrado em Sistemas e

Computação, UNIFACS Universidade Salvador, Laureate International Universities, como requisito parcial para obtenção do grau de Mestre.

Orientador Prof. Dr. Paulo Caetano. 1. Linguagem de programação. 2. Bancos de dados. I.

Caetano, Paulo, orient. II. Universidade Salvador – UNIFACS. III. Título.

CDD: 005




Dissertação aprovada como requisito final para obtenção do grau de Mestre em Sistemas e Computação, UNIFACS Universidade Salvador, Laureate International Universities pela seguinte banca examinadora:

Paulo Caetano da Silva – Orientador - ___________________________________________________ Doutor pela Universidade Federal de Pernambuco - UFPE UNIFACS Universidade Salvador, Laureate International Universities Valéria Cesário Times - ______________________________________________________________ Doutora pela University of Leeds Doutor pela Universidade Federal de Pernambuco – UFPE Sérgio Martins Fernandes - ____________________________________________________________ Doutor pela Universidade de São Paulo - USP UNIFACS Universidade Salvador, Laureate International Universities

Salvador, setembro de 2014

"Porque dele e por ele, e para ele, são todas as coisas; glória, pois, a ele eternamente." (Romanos 11:36).

AGRADECIMENTOS

Primeiramente ao Filho de Deus, Jesus Cristo, por ser a coluna de sustentação em minha vida, e por abrir caminhos que permitiram a realização de mais um sonho;

Aos meus pais, Jasiel e Lucenilda, pelo amor, carinho, respeito e suporte incondicional em minha vida;

Ao meu orientador, professor Paulo Caetano, pelos ensinamentos, paciência, comprometimento sério e disponibilidade constante, fundamentais para a elaboração dos artigos aceitos e a concretização desta dissertação. Espero contar com sua orientação e parceria em projetos futuros;

À minha querida Amanda Eliúde, pelas orações, pelo amor, pela compreensão e paciência em minhas ausências para conclusão de mais essa etapa em minha vida;

À minha família, meus irmãos (Clara e Binho) que apesar da ausência física, cada encontro é a certeza de momentos alegres, aliviando as tensões decorrentes dos prazos a cumprir; minha sobrinha Márcia Regina, com sua perene energia, exalando alegria em nosso dia-a-dia;

Aos amigos, Irlan, Lau, Priscilinha, Denysson e Lenierrison, todos em outras fronteiras, cujas saudosas recordações estiveram presentes nos inúmeros momentos de reclusão, para realização deste trabalho;

E por fim, à CAPES/PROSUP, pela bolsa de mestrado a mim confiada, vinculada ao programa de Pós Graduação em Sistemas e Computação da Universidade Salvador.

RESUMO

O atual estágio da Tecnologia da Informação impulsionou diversos países a adotarem tecnologias baseadas em padrões internacionais para divulgação de seus demonstrativos contábeis. Com o objetivo de facilitar o intercâmbio de dados e aumentar a transparência das informações financeiras disponibilizadas na Internet, linguagens derivadas da XML (e.g. XBRL) foram adotadas como padrão tecnológico por diversas empresas. Todavia, a ocorrência de ilícitos contábeis em grandes corporações e transações eletrônicas fraudulentas, têm gerado prejuízos em bilhões de dólares anualmente e despertado a atenção de governos e órgãos reguladores, fomentando pesquisas para detecção de fraudes através de recursos computacionais aplicáveis em relatórios financeiros digitais. Com esse objetivo, o presente trabalho propõe uma ferramenta de apoio aos analistas financeiros forenses (i.e. contabilistas ou auditores fiscais forenses) baseada em linguagens de consultas OLAP. Esta linguagem auxilia a detecção de fraudes em relatórios financeiros XML ou linguagens derivadas, i.e. XBRL, a qual é mantida por um consórcio internacional composto por mais de 650 organizações e adotada por diversos governos. Propõe-se uma extensão da linguagem LMDQL, a qual executa consultas tanto em documentos XML interligados por XLink e XML Schema (característica intrínseca da XBRL), como em dados relacionais. Para isso são apresentados operadores OLAP, baseado em modelos probabilísticos, que estendem aqueles definidos na LMDQL e seu uso é demonstrado em um banco de dados relacional, assim como em um banco de dados XML nativo. O modelo de dados relacional utilizado nesta dissertação é baseado na especificação XBRL 2.1, o que o torna independente do modelo de negócios da organização que o usa, facilitando sua aplicação em contextos diferentes. Para avaliação dos operadores forenses, foi realizado um exemplo de aplicação a partir de documentos XBRL disponibilizados pela United States Securities and Exchange Commission (U.S. SEC). Para carga desses documentos no banco de dados relacional é apresentado um processamento ETL (Extract, Transform, Load) sobre os relatórios financeiros, enquanto que no banco de dados XML nativo houve a preservação do formato original dos documentos XBRL. Desta forma, foi possível avaliar a eficiência da proposta apresentada, na qual foram aplicados, em um servidor OLAP, cálculos probabilísticos utilizados na contabilidade forense. Uma avaliação do tempo de execução foi efetuada sobre as consultas em ambos modelos de dados, i.e. relacional e XML, na qual se verificou o processamento mais rápido das consultas sobre o banco de dados relacional. Palavras-chave: LMDQL. OLAP XML. OLAP XBRL. Auditoria Financeira Forense. Contabilidade Forense. Análise Financeira Forense.

ABSTRACT

The current stage of Information Technology led many countries to adopt technologies based on international standards for the disclosure of their financial statements. Aiming to facilitate the exchange of data and increase the transparency of financial information available on the internet, languages derived from XML (e.g. XBRL) have been adopted as the standard technology for several companies. However, the occurrences of financial crime in large corporations - and also fraudulent electronic transactions - have generated losses of billions of dollars annually and have also attracted the attention of governments and regulatory agencies, fostering research for fraud detection using computational resources applicable to digital financial reports. With such goal, this dissertation proposes a tool for forensic financial analysts (i.e. forensic accountants or forensic inspectors) based on OLAP query languages, for the detection of fraud in financial reports represented in an the derivative of XML, i.e. XBRL, which is maintained by an international consortium composed of more than 600 companies and adopted by several governments. An extension of LMDQL language is proposed, which supports both queries on XML documents connected by XLink and XML Schema (intrinsic characteristic of XBRL), and on relational data. Thus, forensic operators which extend those defined in LMDQL are presented, and their use is demonstrated in a relational database, as well as in a native XML database. The relational data model chosen in this dissertation is based on XBRL 2.1 specification, which makes it independent of the business model of the organization that uses it, facilitating its application in different contexts. To evaluate the forensic operators, a application example was conducted from XBRL documents made available by the United States Securities and Exchange Commission (U.S. SEC). To load the relational repository an ETL processing is presented (Extract, Transform, Load) on financial reports, while in the native XML database the original format of XBRL documents was kept. Thus, it was possible to evaluate the efficiency of the proposal presented, in which probabilistic calculations used in forensic accounting were applied, on an OLAP server. An evaluation of the runtime was performed on the queries in relational and XML databases and it was verified that the processing of queries on the relational repository was faster. Keywords: LMDQL. XML OLAP. XBRL OLAP. Forensic Financial Audit. Forensic Accounting. Forensic Financial Analysis.

LISTAS DE FIGURAS

Figura 1 - Registro de prejuízo financeiro nos EUA em cinco anos, através de fraudes por meio do uso de cartões de crédito................................................................................... 17

Figura 2 - Organização da Dissertação.......................................................................... 22

Figura 3 - Distribuição Normal ...................................................................................... 26

Figura 4 - Fórmula do Z-Teste ....................................................................................... 28

Figura 5 - Fórmula do χ2-Teste....................................................................................... 29

Figura 6 - Taxonomia XBRL.......................................................................................... 31

Figura 7 - Arquitetura do Processador da Linguagem LMDQL .................................... 32

Figura 8 - Metodologias de investigação para detectar evidências de fraudes financeiras40

Figura 9. Módulos da Financial Data Extract & Analyzer ............................................. 41

Figura 10 - Modelo proposto para combate a lavagem de dinheiro ............................... 43

Figura 11 - Aplicação dos modelos para análise forense financeira .............................. 44

Figura 12 - Modelo do Framework KDIFD ................................................................... 46

Figura 13 - Consulta com o operador EmpiricalRule.....................................................55

Figura 14 - Consulta com o operador FirstDigit com a instrução null ........................... 56

Figura 15 - Consulta com o operador ZTest em conjunto com FirstDigit ..................... 57

Figura 16 - Consulta com o operador ChiSquaredTest em conjunto com FirstDigit ..... 58

Figura 17 - Processo de execução da consulta LMDQL Forense................................... 59

Figura 18 - Processo para Extensão do sistema LMDQL Forense................................. 60

Figura 19 - Consulta forense FirstDigit, instrução serialized.........................................64

Figura 20 - Consulta forense FirstDigit, instrução null .................................................. 64

Figura 21 - Aplicação dos operadores ZTest e FirstDigit em conjunto ......................... 66

Figura 22 - Aplicação dos operadores ChiSquaredTest e FirstDigit em conjunto ......... 67

Figura 23 - Aplicação do operador EmpiricalRule à todos os elementos do documento XBRL 68

Figura 24 - Consulta forense pelo elemento "us-gaap:AccountsPayableCurrent" ......... 69

Figura 25 - Consulta forense pelo linkbase label "Accounts Payable, Current". ........... 69

Figura 26 - Processamento ETL utilizado neste trabalho............................................... 70

Figura 27 - Uso do operador FirstDigit, com a instrução serialized, na base relacional 70

Figura 28 - Uso do operador FirstDigit, com a instrução null, na base relacional ......... 70

Figura 29 - Aplicação do ZTest em conjunto com o FirstDigit ..................................... 71

Figura 30 - Aplicação do ChiSquaredTest em conjunto com o FirstDigit ..................... 71

Figura 31 - Aplicação do operador forense EmpiricalRule especificando todos os elementos 72

Figura 32 - Operador EmpiricalRule sobre o elemento "us-gaap:AccountsPayableCurrent" 72

Figura 33 - Consulta forense pelo linkbase label "Accounts Payable, Current" ............ 73

Figura 34 - Tempo de desempenho dos operadores forenses (em milissegundos) ........ 75

LISTAS DE QUADROS

Quadro 1 - Estrutura de uma consulta LMDQL............................................................. 33

Quadro 2 - Exemplo de strings de buscas, no idioma português.................................... 37

Quadro 3 - Exemplos de strings de buscas, no idioma inglês ........................................ 38

LISTAS DE TABELAS

Tabela 1 - Probabilidade de ocorrência dos primeiros dígitos ....................................... 27

Tabela 2 - Quantidade de trabalhos retornados das buscas nas fontes de pesquisas...... 38

Tabela 3 - Comparativo entre os Sistemas de Análise Forense investigados................. 50

Tabela 4- Comparativo entre os bancos de dados XBRL investigados.......................... 52

Tabela 5 - Definições usadas para especificar a sintaxe LMDQL ................................. 54

Tabela 6 - Tempo de execução da LMDQL Forense nas bases relacional e XML e Diferença Percentual dos resultados................................................................................................ 74

Tabela 7 - Comparativo entre os Sistemas de Análise Forense investigados e o sistema LMDQL Forense ............................................................................................................ 80

LISTA DE ABREVIATURAS E SIGLAS

DTS Discoverable Taxonomy Set DW Data Warehouse EBNF Extended Backus–Naur Form ETL Extract, Transform, Load EUA Estados Unidos da América H0 Hipótese Nula H1 Hipótese Não Nula iXBRL Inline Extensible Business Reporting Language LMDQL Link Based Multidimensional Query Language MDX Multidimensional Expressions OLAP On-line Analytical Processing Pe Probabilidade Esperada Po Probabilidade Observada SGBD Sistema Gerenciador de Banco de Dados SQL Structered Query Language W3C World Wide Web Consortium U.S. SEC United States Securities and Exchange

Commission χ

2 Qui-Quadrado XBRL Extensible Business Reporting Language XBRL GIS

XBRL Geographic Information System

XLink XML Linkink Language XLPath XML Linking Path Language XML Extensible Markup Language XQuery XML Query Language

SUMÁRIO

1 INTRODUÇÃO ......................................................................................................... 16

1.1 CONTEXTUALIZAÇÃO ........................................................................................ 16

1.2 MOTIVAÇÃO.......................................................................................................... 18

1.3 OBJETIVO............................................................................................................... 20

1.4 ORGANIZAÇÃO DA DISSERTAÇÃO ................................................................. 21

2 FUNDAMENTAÇÃO TEÓRICA............................................................................ 24

2. 1 COMPUTAÇÃO FORENSE .................................................................................. 24

2.2 CONTABILIDADE FORENSE OU AUDITORIA CONTÁBIL ........................... 25

2.2.1 Regra Empírica.................................................................................................... 25

2.2.2 Lei dos Primeiros Dígitos ou Lei de Benford .................................................... 26

2.2.3 Teste Z .................................................................................................................. 27

2.2.4 Teste χ2.................................................................................................................. 28

2.3 XBRL ....................................................................................................................... 29

2.4 LMDQL: LINK MULTIDIMENSIONAL QUERY LANGUAGE......................... 31

2.4.1 Arquitetura LMDQL .......................................................................................... 31

2.4.2 Consulta LMDQL................................................................................................ 32

2.5 MODELOS DE DADOS XBRL.............................................................................. 33

2.5.1 DPM: Data Point Model......................................................................................33

2.5.2 XBRL Abstract Model ........................................................................................ 34

2.5.3 XBRL Infoset ............................................................................................ 35

2.6. CONSIDERAÇÕES FINAIS .................................................................................. 35

3 TRABALHOS CORRELATOS............................................................................... 37

3.1 METODOLOGIA UTILIZADA PARA A REVISÃO DA LITERATURA ........... 37

3.2 SISTEMAS DE ANÁLISES FORENSE FINANCEIRAS...................................... 39

3.3 BANCOS DE DADOS XBRL ................................................................................. 47

3.4 CONSIDERAÇÕES FINAIS ................................................................................... 49

4 LMDQL FORENSE: LINGUAGEM E SISTEMA............... ................................. 53

4.1 REQUISITOS DA LINGUAGEM LMDQL FORENSE......................................... 53

4.2 A LINGUAGEM LMDQL FORENSE .................................................................... 54

4.3 O SISTEMA LMDQL FORENSE ...........................................................................58

4.4 EXTENSÃO DO SISTEMA LMDQL FORENSE .................................................. 60


5 EXEMPLO DE APLICAÇÃO DA LMDQL FORENSE EM RELATÓRI OS FINANCEIROS DA U.S. SEC .................................................................................... 63

5.1 BANCO DE DADOS XML ..................................................................................... 63

5.2 BANCO DE DADOS RELACIONAL..................................................................... 69

5.3 AVALIAÇÃO DE DESEMPENHO DO TEMPO DE EXECUÇÃO DAS CONSULTAS 73


6 CONCLUSÃO............................................................................................................ 77

6.1 TRABALHOS COMPLETOS PUBLICADOS EM ANAIS DE CONGRESSOS.. 82

6.2 TRABALHOS FUTUROS....................................................................................... 82

REFERÊNCIAS ........................................................................................................... 84

ANEXO A – LMDQL Forense EBNF......................................................................... 96

ANEXO B - Modelo de Dados do XBRL Abstract Model Database ....................... 102

16

1 INTRODUÇÃO

Este capítulo tem como propósito contextualizar os problemas referentes ao combate à

fraude financeira, expondo os motivos e objetivos que levaram à realização deste trabalho. Na

Seção 1.1, é contextualizada a ocorrência de fraudes financeiras em nível mundial, a adoção

de linguagens de marcação para padronização dos demonstrativos financeiros e, por fim, a

necessidade da utilização da tecnologia da informação para conter a ocorrência de fraudes em

documentos contábeis digitais. Na Seção 1.2, são descritas as motivações que nortearam a

necessidade de resolução dos problemas encontrados, seguindo-se de duas seções nas quais

são descritos os objetivos e a estrutura desta dissertação, respectivamente.

1.1 CONTEXTUALIZAÇÃO

Diversos escândalos financeiros promoveram a perda de confiança nas práticas

contábeis em nível mundial (SANTOS; GRATERON, 2003), como as ocorrências de fraudes

contábeis em grandes empresas norte-americanas (e.g. Enron, Tyco, WorldCom e Adelphia),

as quais estão associadas aos maiores escândalos financeiros desde a Grande Depressão de

1929. Evidências semelhantes ocorrem no Brasil, as quais geraram a publicação de 9446

matérias relacionadas à fraudes financeiras ou contábeis os no jornal "O Globo" (CARDOSO;

SILVA, 2008).

Inúmeras fraudes identificadas em grandes corporações impulsionaram o

desenvolvimento de padrões internacionais para os relatórios financeiros, e a sua adoção nas

corporações contribuiu para combater a perda de credibilidade nas práticas contábeis

(Gerônimo et al., 2009). Nesse contexto foi desenvolvida a linguagem de marcação XBRL

(eXtensible Business Reporting Language) (XBRL International Consortium, 2008), derivada

da XML é uma linguagem para intercâmbio de informações financeiras na Internet (SILVA;

TEIXEIRA, 2002; SILVA; TEIXEIRA, 2003; SILVA; SULAIMAN, 2003; SILVA, 2003;

WU; VASARHELYI, 2004; RICCIO et. al, 2005; SILVA et. al., 2006).

No intuito de aumentar a transparência do mercado financeiro, alguns governos (e.g.

Japão, China, Estados Unidos, Reino Unido, Espanha) padronizaram os demonstrativos

contábeis que trafegam entre o mercado e governo, adotando a XBRL como linguagem

padrão para a representação e o intercambio de seus relatórios financeiros (PENG et al., 2011;

FELDEN, 2011; BAI et al., 2012; STEENKAMP; NEL, 2013; LI et al., 2013).

17

A utilização da Tecnologia de Informação na contabilidade tem importância vital para

a sobrevivência das organizações, pois sem computadores, redes, banco de dados e um

sistema de informação seguro, a prestação de serviços torna-se inviável (MATTES; PETRI,

2013). Uma pesquisa divulgada em 2011 pela American Bankers Association revelou que a

maioria (57%) dos americanos com idade igual ou superior a 55 anos preferem fazer suas

operações bancárias pela Internet em vez de filiais ou caixas automáticos. Em 2010 esse

percentual era de 20%. (KIM et al., 2013). Essa pesquisa indica a adesão contínua da

população às transações financeiras online.

A necessidade da utilização de recursos computacionais para reprimir os avanços de

fraudes financeiras, é ascendente (HOGAN et al, 2008). A incidência de fraudes financeiras é

preocupante, tendo em vista que o prejuízo advindo dessa prática criminosa é estimado em

bilhões de dólares, anualmente. Conforme ilustrado na Figura 1, somente nos Estados Unidos

da América (EUA) em 2006 verificou-se uma perda de 1.991.960.000 de dólares, com fraudes

em pagamentos com cartões de créditos (atividade financeira efetuada com uso de sistemas

computacionais), cujo problema não apenas continuou, mas aumentou nos anos seguintes,

chegando em 2010 ao montante de 2.845.300.000 dólares (KHAN et al., 2012), um aumento

de 42,84% em quatro anos.

Figura 1 - Registro de prejuízo financeiro nos EUA em cinco anos, através de fraudes por meio do uso de cartões de crédito

Fonte: Khan et al. (2012).

O combate às fraudes, e sua deteção em documentos financeiros, tem recebido atenção

pelos órgãos reguladores do mercado financeiro a exemplo da United States Securities and

Exchange Commission (U.S. SEC, 2014) - agência federal americana que detém a

18

responsabilidade primária pela regulação do setor de valores mobiliários nos EUA, i.e. ações,

opções de câmbio e outros mercados eletrônicos de valores - cuja preocupação é ratificada

com os formulários online (http://www.sec.gov/complaint/select.shtml) nos quais é possível

reportar queixas sobre suspeitas de fraudes financeiras. Além dessa iniciativa de comunicação

online, observa-se o incentivo (por parte da U.S. SEC) para combater as fraudes contábeis

com uso de Sistemas de Informação (SI), para checagem de documentos financeiros

reportados à comissão, os quais possuem formato digital (i.e. XBRL), e das transações

efetuadas por meios eletrônicos (COHN, 2013).

O governo federal dos EUA também tem concentrado esforços na deteção de crimes

financeiros. A Financial Fraud Enforcement Task Force (U.S. Department of Justice, 2009)

foi criada pelo presidente americano Barack Obama em 2009, com o intuito de centralizar os

esforços do governo juntamente com os parceiros locais e estaduais para investigar e

processar crimes financeiros significativos, assegurar a punição justa e eficaz para aqueles que

cometem crimes financeiros, recuperar recursos para as vítimas e enfrentar a discriminação

financeira nos mercados de crédito e financeiras. Com mais de 20 agências federais, 94

escritórios de advocacia dos EUA e parceiros estaduais e locais, é a coalizão mais ampla da

aplicação da lei, de investigação e agências reguladoras já montada para combater a fraude

financeira (STOPFRAUD.GOV, 2014).

Desta forma, soluções automatizadas para a detecção de fraude financeira em meios

eletrônicos, é um importante componente para diminuir a ocorrência de transações financeiras

ilícitas, as quais geram prejuízos em bilhões de dólares aos governos e instituições privadas.

1.2 MOTIVAÇÃO

A motivação deste trabalho baseia-se em vários aspectos observados no domínio

financeiro sobre ocorrência de fraudes, tais como: (i) pesquisas recentes (KHAN et al., 2012)

comprovam a urgência de novas soluções para combate e deteção de fraudes em documentos

financeiros, as quais já contabilizam prejuízo em bilhões de dólares aos governos e

instituições financeiras; (ii) órgãos reguladores do mercado financeiro e governos têm

incentivado a utilização da Tecnologia da Informação para a análise dos documentos digitais

financeiros, conforme apresentado na contextualização (Seção 1.1); (iii) concomitantemente,

é ascendente o uso da Internet para transações financeiras, implicando na necessidade de

soluções para proteger as empresas e seus usuários, de fraudes digitais (SHERLY;

NEDUNCHEZHIAN, 2010). Desta forma, é necessária uma ferramenta baseada em recursos

19

computacionais que auxilie a aplicação da contabilidade forense, analisando os dados

contidos em arquivos digitais (i.e. documentos financeiros), auxiliando a detecção de fraudes

em relatórios financeiros.

A seguir são descritas as vertentes tecnológicas adotadas para a solução proposta dos

problemas relacionados à análise forense, contudo, elas são explanadas com mais ênfase na

fundamentação teórica (Capítulo 2): (i) processamento analítico (OLAP), uma das técnicas

computacionais mais populares disponível aos auditores, a qual analisa dados, oferecendo

subsídios para tomadas de decisão (PANIGRAHI, 2011); (ii) solução em tempo real (Online),

a dinamicidade inerente ao domínio financeiro e a quantidade de dados trafegados

diariamente entre os sistemas, na Internet, exige a concepção de soluções que executem

análises rapidamente, auxiliando a tomada de decisão em tempo cada vez menor; (iii)

LMDQL, linguagem de consulta OLAP sobre repositórios relacionais e documentos XML

interligados por XLink, tecnologias comumente utilizadas para representar relatórios

financeiros digitais (e.g. documentos XBRL); (iv) XBRL, uma linguagem derivada da XML e

baseada em padrões internacionais, para representação de relatórios financeiros.

A partir da análise dos trabalhos correlatos descritos no Capítulo 3, não se verifica a

existência de uma ferramenta com a qual se aplique uma linguagem para análise forense, com

base em consultas analíticas em tempo real, cujo processamento seja baseado em técnicas

utilizadas na contabilidade forense convencional; tampouco enseje a sua aplicação sobre um

repositório multidimensional baseado em tecnologia reconhecida internacionalmente no

domínio financeiro, e.g. especificação XBRL 2.1 (XBRL INTERNATIONAL CONSORTIUM,

2008). Sobre os repositórios relacionais investigados, para suporte ao processamento analítico

forense sobre dados relacionais, buscou-se um modelo que adapte qualquer taxonomia XBRL,

sem adesão a qualquer modelo de negócio específico, e que não haja necessidade de alterar a

estrutura de tabelas em caso de armazenamentos de diferentes relatórios financeiros.

Em vista disso, a principal motivação para realização deste trabalho é o

desenvolvimento de uma ferramenta de apoio aos analistas da área financeira (ou órgãos

reguladores), na qual se aplica uma linguagem para análise forense de dados financeiros,

apoiando a tomada de decisões baseadas na detecção de fraudes, sobre repositórios que

contemplam dois paradigmas, i.e. XML (mantendo formato nativo dos relatórios financeiros

digitais baseados em XBRL) e relacional.

20

1.3 OBJETIVO

Este trabalho tem como objetivo implementar uma solução para detecção de fraudes

baseada em processamento analítico online (OLAP), disponibilizando ao analista forense uma

linguagem de consulta para execução da análise sobre documentos XML (interligados ou não

por XLink) e dados relacionais. Em suma, a solução proposta deve necessariamente: (a)

possuir uma linguagem que permita a realização de consultas para análise forense; (b) analisar

dados com a finalidade de detecção fraudes em documentos XML e dados relacionais; (c)

aplicar cálculos probabilísticos, comumente utilizados na contabilidade forense; (d) permitir a

aplicação conjunta de mais de um cálculo probabilístico; (e) ser uma solução open source que

possibilite sua extensão às novas técnicas de detecção de fraudes, permitindo a evolução da

solução proposta conjuntamente com o estado da arte da contabilidade forense e auditoria

financeira. Para que esse objetivo seja alcançado, alguns objetivos específicos são almejados:

• Adoção das licenças compatíveis com a versão 1.9 (ou superior) da Open Source

Definition (OPEN SOURCE INITIATIVE, 2014), cujos softwares que as adotam são

conhecidos como open source ou código aberto, e das licenças recomendadas pela

Fundação de Software Livre (FREE SOFTWARE FOUNDATION, 2014), com as quais os

softwares são conhecidos como software livre ou free software. A adoção destas licenças

torna o uso da solução irrestrito e ilimitado, por qualquer instituição ou governo;

• Especificação e implementação de uma linguagem de consulta de processamento

analítico, estendida da LMDQL (a qual faz consultas em bases XML e relacionais), de

código aberto e gratuito, a qual executa análises dos dados financeiros em tempo real com

a finalidade de averiguação de fraudes. Os requisitos e a implementação dessa linguagem,

são descritas nas Seções 5.1 e 5.2, respectivamente, no Capítulo 5;

• Definição de uma modelagem de dados relacional que possua as seguintes propriedades:

(a) ser baseada na semântica e sintaxe da especificação XBRL 2.1, com a finalidade de

contemplar a taxonomia de qualquer documento XBRL, sem a necessidade de alterar a

estrutura de tabelas em caso de novas taxonomias XBRL, conforme descrito na motivação

(Seção 1.2 deste capítulo); (b) conter tabelas dimensionais que seja extensível às novas

dimensões, sem que haja a necessidade de alterar as tabelas do banco de dados, e tabelas

relacionais que armazenem os relacionamentos entre os elementos (i.e. semântica) do

esquema XBRL, definidos em documentos de linkbase XBRL. Algumas modelagens são

discutidas na Seção 2.5 do Capítulo 2;

21

• Projeto e implementação de um sistema OLAP, com código disponível e gratuito, para

aplicação de modelos estatístico-probabilísticos sobre dados, nos paradigmas XML e

relacional, considerando no processamento analítico a semântica dos conceitos definidos

no esquema XBRL. Essa implementação é descrita nas Seções 4.3 e 4.4 do Capítulo 4;

• Realização de estudos de casos, para demonstrar a expressividade dos operadores da

linguagem proposta e a realização de consultas OLAP em demonstrativos contábeis

XBRL, em uso no mundo real (e.g. os relatórios trafegados no mercado financeiros norte

americano e regulados pela U.S. SEC). Um estudo de caso foi conduzido no Capítulo 6,

utilizando como base tanto documentos XBRL nativos (Seção 5.1), como dados contidos

em um banco de dados relacional (Seção 5.2).

• Realização de testes preliminares de avaliação de desempenho do processamento do

sistema proposto, no que se refere ao tempo de execução de consultas nas bases de dados

relacionais e XML. A avaliação preliminar de desempenho será apresentada na Seção 5.3

desta dissertação.

1.4 ORGANIZAÇÃO DA DISSERTAÇÃO

Além deste capítulo introdutório, no qual foram apresentadas a contextualização, as

motivações e os objetivos, esta dissertação está organizada em mais cinco capítulos, os quais

são mostrados na Figura 2.

22

Figura 2 - Organização da Dissertação

• No segundo capítulo são discutidos alguns conceitos básicos relacionados ao

desenvolvimento desta dissertação. Os principais conceitos abordados são a computação

forense (Seção 2.1), a contabilidade forense ou auditoria contábil, e a aplicação de técnicas

estatístico-probabilísticas Regra Empírica, Lei dos Primeiros Dígitos ou Lei de Benford, Teste

Z e Teste Qui-Quadrado, para detecção de fraudes (Seção 2.2), a linguagem XBRL (Seção

2.3), a linguagem de consulta multidimensional baseada em dados XML interligados

23

(LMDQL) (Seção 2.4), e alguns modelos de dados XBRL, que servem como diretrizes para

construção de repositórios XBRL (Seção 2.5).

• No capítulo três, uma revisão da literatura é mostrada, buscando trabalhos correlatos

ao proposto nesta dissertação. Os trabalhos encontrados são apresentados em duas seções,

uma para os trabalhos que abordam detecção de fraudes financeiras com utilização de

recursos computacionais e a outra discute bancos de dados baseados na tecnologia XBRL.

Este capítulo é encerrado com considerações finais avaliando vantagens, desvantagens e

lacunas dos trabalhos, as quais serviram de base para os requisitos discutidos nos objetivos

desta dissertação (Seção 1.4 do Capítulo 1);

• O capítulo quatro apresenta os (i) requisitos para a linguagem de consulta LMDQL

para detecção de fraudes financeira (a qual foi denominada Linguagem LMDQL Forense), (ii)

a sintaxe da LMDQL forense, que propõe o uso de operadores OLAP baseados em técnicas

probabilísticas (denominados Operadores Forense), estendo àqueles presentes na LMDQL;

(iii) o sistema LMDQL Forense, e (iv) um modelo para extensão do sistema LMDQL Forense

a outras técnicas de detecção de fraudes financeiras;

• O quinto capítulo mostra o Estudo de Caso, no qual é detalhado o processo de ETL

(Extract, Transform, Load) aplicado neste trabalho, com o qual se efetuou o carregamento de

dados dos documentos (instâncias, schemas e linkbases) XBRL para o XBRL Abstract Model

Database. Resultados das consultas analíticas são apresentados, os quais advêm tanto de

repositório relacional quanto XML. Além disso, um estudo de desempenho é apresentado,

avaliando o tempo de execução das consultas em ambas as bases de dados;

• No capítulo seis, as considerações finais sobre o trabalho realizado para o

desenvolvimento desta dissertação são apresentadas, os artigos completos publicados em

congressos científicos, além de indicações para trabalhos futuros;

• Por fim, o Anexo A e B os quais mostram, respectivamente, a gramática estendida da

LMDQL para LMDQL Forense, e a modelagem do XBRL Abstract Model Database.

A seguir é apresentado o capítulo referente à fundamentação teórica, na qual são

discutidos os conceitos e tecnologias que serviram de base para a solução proposta nesta

dissertação.

24

2 FUNDAMENTAÇÃO TEÓRICA

São realizadas neste capítulo discussões acerca da fundamentação teórica,

apresentando conceitos e tecnologias referentes ao desenvolvido do trabalho descrito nesta

dissertação. Dentre os principais tópicos abordados estão a computação forense, contabilidade

forense, as tecnologias XBRL e LMDQL, seguindo-se de algumas modelagens para

representação de dados financeiros (i.e. Data Point Model (MORILLA, 2014), o XBRL

Abstract Model (XBRL INTERNATIONAL INC., 2012) e o XBRL Infoset (XBRL

INTERNATIONAL INC., 2009a)).

2. 1 COMPUTAÇÃO FORENSE

A computação forense analisa artefatos digitais e faz a checagem e validação de seus

dados. A análise forense por meio de recursos computacionais é uma exigência atual, em

razão da transferência para o ambiente virtual (e.g. digital) da maioria das relações da

sociedade (e.g. transações financeiras). Assim, problemas sociais do cotidiano rompem as

fronteiras do mundo físico e adentram ao mundo digital, surgindo diversos e novos problemas

técnicos e jurídicos. Para exemplificar alguns problemas, pode-se listar: invasão de

privacidade, descumprimentos de contratos celebrados por meio da Internet, disseminação de

e-mails caluniosos ou difamatórios, compartilhamento ilícito de softwares, músicas e filmes,

entre outros problemas que passaram a fazer parte da realidade vivida pela sociedade atual

(FREITAS; ROCHA, 2012). A aplicação de tecnologias da informação para investigar crimes

digitais cresceu no final do século passado e fez surgir a computação forense, a qual é o

processo de identificar, preservar, analisar e apresentar evidências digitais amparadas pela lei

(MCKEMMISH, 1999).

Com a crescente utilização da Internet para transações financeiras, a computação

também vem sendo utilizada no combate ao CyberCrime (i.e. crimes cibernéticos, praticados

através da Internet) (COLLI, 2010). Esta modalidade criminal vem atingindo toda a sociedade

que muitas vezes não tem consciência dos riscos das tecnologias utilizadas diariamente.

Furtos em operações bancárias na web, fraudes em documentos, espionagem, são cada vez

mais associados a recursos computadorizados (VOLONINO et al., 2006; COSTA, 2011).

Devido ao crescente uso dos computadores e à popularização dos dispositivos

computacionais portáteis, são esperados que novos tipos de análises forenses baseadas em

computadores sejam criados. Da mesma forma, estima-se o aumento da demanda de soluções

25

forenses computacionais nos próximos anos, pois os computadores tornaram-se uma

ferramenta imprescindível nesse processo (ELEUTÉRIO; MACHADO, 2011).

2.2 CONTABILIDADE FORENSE OU AUDITORIA CONTÁBIL

A contabilidade forense (ou auditoria contábil) apresenta-se como uma evolução do

processo de controle patrimonial que é realizado com o intuito de descobrir fraudes,

desfalques, entre outros danos ao patrimônio das organizações e de seus cotistas ou acionistas.

Constituindo-se a ciência responsável pelo combate à fraude patrimonial, qualifica-se como

uma estrutura capaz de produzir provas hábeis e admissíveis em juízo, cujos profissionais

precisam ter pleno domínio da ciência contábil, especialmente no que se refere à auditoria e à

perícia (PARADA, 2013).

Aplicada por um auditor contábil ou contabilista forense - cuja atuação, na visão dos

usuários externos da informação contábil, é sinônimo de confiança e credibilidade (SANTOS;

GRATERON, 2003), a auditoria contábil tem importância na prevenção e combates aos erros

e às fraudes na organização. Trata-se de um instrumento indispensável na verificação de

fraudes e erros contábeis, pois realiza procedimentos importantes, como: exame, vistoria,

indagação, investigação, arbitramento, avaliação e certificação, a fim de esclarecer

determinados fatos. Portanto, é fundamental que as irregularidades sejam combatidas, pois,

caso contrário, as empresas poderão ter problemas, como algumas que chegaram à falência

(MENEGUSSI; IANESKO, 2008).

A contabilidade forense tem a finalidade de obtenção de evidências e provas de

documentos fraudulentos. Para apuração dos dados contidos em relatórios financeiros, são

aplicados diversos métodos estatístico-probabilísticos para comprovação da veracidade dos

documentos que a compõe. Diversos trabalhos são encontrados na literatura que abordam a

detecção de fraudes, nos quais são encontrados estudos de técnicas probabilísticas em uso

pela contabilidade forense não computadorizada para análise dos dados (HILL, 1998;

FRANCISCHETTI, 2007; LAGIOIA et al.,2011; SILVA JR, 2013; COSTA et al, 2013).

Alguns desses cálculos probabilísticos utilizados nesses trabalhos (i.e. Regra Empírica, Lei

dos Primeiros Dígitos, Teste Z e Teste χ2), tiveram sua aplicação comprovada na área

financeira (por meio de recursos não computacionais), cujas teorias são discutidas a seguir.

2.2.1 Regra Empírica

Na literatura são encontrados vários estudos e aplicações da Regra Empírica, cuja

26

proposta tem como base a Distribuição Normal sobre um conjunto de dados (THE OXFORD

MATH CENTER, 2013; BLANCO ; GINOVART, 2010; INSTITUTO GAUSS DE

MATEMÁTICA, 2010; THE BOOK OF THREES, 2013). No domínio contábil, após a coleta

de dados de relatórios financeiros, define-se a sua Distribuição Normal, a qual se trata da

medição da variabilidade dos valores, baseado na soma e subtração (em até 3 vezes) do desvio

padrão (σ) em relação à média padrão (µ), calculados a partir de um conjunto de dados.

Segundo esta regra, conforme ilustração da Figura 3, há 68,26% de probabilidade de que

todos os valores válidos possíveis encontrem-se a uma distância da média padrão de 1 sigma

(σ), aqui considera-se a soma e subtração de um desvio padrão (i.e. µ-1σ e µ+1σ), tendo como

base a média padrão. Quando os valores encontram-se a uma distância de 2 sigmas (i.e. µ-2σ

e µ+2σ) , há probabilidade de ocorrência dos dados é de 95,44%, e a uma distância de 3

sigmas (i.e. µ-3σ e µ+3σ), o percentual é de 99,74%. O que passar da distância de 3 sigmas,

negativamente ou positivamente, pode ser considerado um dado anômalo, i.e. não é

correspondente com seu histórico de dados, está fora da Distribuição Normal, podendo

caracterizar uma fraude.

Figura 3 - Distribuição Normal

2.2.2 Lei dos Primeiros Dígitos ou Lei de Benford

A Lei dos Primeiros Dígitos, também conhecida como Lei de Newcomb-Benford ou

Lei de Benford, foi originalmente descoberta em 1881, quando o astrônomo americano Simon

Newcomb observou que as primeiras páginas dos livros logarítmicos encontravam-se mais

gastas que as demais. No mesmo ano, Newcomb afirmou que a ocorrência de dígitos em um

universo de dados numéricos segue uma distribuição particular da probabilidade

(HILL,1998). O mais completo trabalho empírico relacionado a esta lei até a década de 1990

27

foi o de Benford (1938), o qual contém a maior tabela de frequência de dígitos. O período de

maior publicação científica abordando o uso da Lei de Newcomb-Benford foi entre os anos de

2002 e 2006, ficando o Brasil em segundo lugar com 10 publicações, abaixo apenas dos

Estados Unidos que lidera com 22 publicações. Conclui-se que esta análise evolutiva das

publicações delineia a Lei dos Primeiros Dígitos como um instrumento aplicável e eficaz na

detecção de desvios significativos relacionados à ocorrência de fraudes (COSTA et al., 2013).

Outras obras que abordam a aplicação dessa lei na auditoria e contabilidade forense ratificam

a importante desta lei no domínio financerio (DURTSCHI et al., 2004; FRANCISCHETTI,

2007; NIGRINI ; WELLS, 2012;).

Esta lei é uma anomalia da probabilidade que demonstra a ocorrência irregular dos

dígitos de 1 a 9, i.e. não obedece a probabilidade comum de ocorrência dos dígitos, que seria

de 1/9. Esta particular anomalia sugere que a ocorrência dos dígitos 1, 2 e 3 ocorrem com mais

frequência, sendo estes dígitos mais comuns que os demais (HILL, 1998). Tendo em vista

uma séria aleatória de números, verifica-se que se os números investigados não estiverem

relacionados a algum evento social ou natural, a distribuição do primeiro dígito não é

uniforme. Esta anomalia proposta por Newcomb prenuncia que o primeiro dígito (um)

aparece em aproximadamente 30,1% dos casos de um conjunto de dados numéricos, já o

número 2 ocorre em aproximadamente 17,6%, diminuindo a ocorrência sucessivamente até o

digito nove, conforme se verifica na Tabela 1.

Tabela 1 - Probabilidade de ocorrência dos primeiros dígitos Dígito Probabilidade

1 30,10%

2 17,61%

3 12,49%

4 9,69%

5 7,92%

6 6,69%

7 5,80%

8 5,11%

9 4,58%

Fonte: Hill (1998).

2.2.3 Teste Z

O cálculo probabilístico Teste Z é utilizado para medir a correlação entre um conjunto

de dados que representa a probabilidade observada (Po) e outro conjunto de dados referentes à

probabilidade esperada (Pe) (Oxford Reference, 2014; Lenarcic & Stanley, 2008; Charles

28

Sturt University, 2010). No domínio financeiro, o teste Z pode ser aplicado considerando a

Lei de Benford como a Pe, i.e. a probabilidade esperada para cada dígito segue as definições

da Lei dos Primeiros Dígitos (Tabela 1), e a Po é extraída dos relatórios financeiros

analisados. O Teste Z tem a finalidade de definir o grau de significância entre as diferenças

das duas probabilidades (Pe e Po), comprovando suas correlações. O sistema de hipóteses

adotados no domínio estatístico, denota-se a partir de uma simbologia usual, tais quais: (i)

Hipótese nula (H0), na qual não existe diferença estatisticamente significativa entre as duas

probabilidades, i.e. Po é correlata a Pe, ou seja, não há indicação de ocorrência de fraudes

entre os valores analisados; e (ii) Hipótese não nula (H1) na qual existe diferença

estatisticamente significativa entre distribuições de Po e Pe, traduzindo-se que Po não é

correlato a Pe, podendo ser um indício de ocorrência de fraude.

O Teste Z trata-se de um teste probabilístico paramétrico, ou seja, necessita de

parâmetros relacionados aos dados analisados, como média e variância, e por isso requer a

quantidade numérica (n) da amostra de dados analisada (GATEN, 2000; ORLOFF, 2013).

Assim sendo, a fórmula do Z-Teste é o módulo da diferença entre Po e Pe decrescido pela

razão inversa de duas vezes o número de elementos contidos na amostra a ser analisada (2n),

dividido pela raiz da divisão entre a multiplicação de Pe com o número 1 decrescido pela Pe, e

o número de elementos (n), conforme ilustrado na Figura 4. Importante ressaltar que a razão 1/2n contida no numerador da fórmula, é o termo de correção de continuidade - o qual é

utilizado para melhorar a aproximação de uma variável pela distribuição normal que é

contínua, este termo é usado quando ele é menor que o módulo de Po decrescida de Pe (i.e. |Po

− Pe|).

Figura 4 - Fórmula do Z-Teste

2.2.4 Teste χ2

O Teste Qui-Quadrado (χ2), semelhantemente ao Teste Z, é utilizado para medir o grau

de conformidade da distribuição de Po com a Pe, mas se trata de um modelo não paramétrico,

29

i.e. não é preciso informar a quantidade de dados analisados, diferenciando-se do Teste Z

nesse aspecto (ROSENHOLTZ, 2004; THE JOHNS HOPKINS UNIVERSITY ; DIENER-

WEST, 2008; ECK ; RYAN, 2012). O sistema de hipóteses deste teste denota-se de forma

semelhante ao descrito no Teste Z, ou seja, a ocorrência de H0 indica a ausência de fraude,

havendo conformidade da distribuição de Po com Pe, e a ocorrência de H1 indica a não

conformidade entre essas duas distribuições. Por se tratar de um teste probabilístico não

paramétrico, o Teste χ2 não necessita da média ou variância das amostras de dados analisados,

e por isso não requer a quantidade numérica das amostras de dados. Assim sendo, a fórmula

do Teste χ2 é o quadrado da diferença entre Po e Pe, a qual é divida pelo valor da Pe, conforme

ilustrado na Figura 5. Quando Po é muito próximo a Pe, o valor de χ2 é pequeno, mas quando

as divergências são grandes, χ2 assume valores maiores, caracterizando-se um quadro de

verificação de fraude ou erros nos valores informados (CONTI, 2009).

Figura 5 - Fórmula do χ2-Teste

2.3 XBRL

Derivada da linguagem XML (eXtensible Markup Language), a XBRL é um padrão

aberto e gratuito, cuja concepção tem como base a criação, o intercâmbio e a análise de

relatórios de informações financeiras. Como tal, permite que investidores, pesquisadores e

analistas do mercado financeiro analisem e extraiam informações por meio de suas aplicações,

simplificando uma das fases principais da análise financeira: a obtenção e conversão de

formatos de dados (SILVA ; TEIXEIRA, 2002; SILVA ; TEIXEIRA, 2003; SILVA ;

SULAIMAN, 2003; SILVA, 2003; WU ; VASARHELYI, 2004; RICCIO et. al, 2005; SILVA

et. al., 2006).

A estrutura e semântica dos elementos XBRL são definidas em uma taxonomia, a qual

é composta por um conjunto de documentos XBRL interligados. A associação entre

elementos XBRL e documentos XBRL ocorre por meio de links. Um link é um mecanismo

utilizado para associar dois ou mais recursos. Os links usados em XBRL podem estar contidos

no próprio documento XBRL, no qual estão os recursos ou em outro documento XBRL,

denominado linkbase, que contém uma coleção de links. Os links associam recursos locais e

30

remotos. Um recurso local é um elemento XBRL que participa de uma ligação em virtude

dele, ou do elemento que o contém (elemento pai), ser um elemento de ligação. Já um recurso

remoto participa de uma ligação em razão de ser endereçado por uma URI (Universal

Resource Identifier). Um recurso local é especificado "por valor" e um recurso remoto "por

referência" (W3C, 2001). Uma tecnologia usada para estabelecer links entre dados

representados em XML é XLink (XML Linkink Language) (W3C, 2001), que define dois

tipos principais de links: os simples e os estendidos (SILVA, 2010).

Um link simples associa exatamente dois recursos, um local e um remoto. Essa

associação cria um arco de ligação entre eles, cuja origem é o recurso local e o destino, o

remoto. Os arcos são representados por elementos que indicam os recursos participantes da

ligação. Por outro lado, os links estendidos permitem associar um número arbitrário de

recursos participantes na ligação. Um link estendido consiste basicamente de um elemento

XBRL que contém outros elementos, nos quais atributos especificados por XLink são

declarados, conferindo a estes sub-elementos determinadas funcionalidades. XLink provê

quatro tipos de sub-elementos: (i) locator, usado para referenciar recursos remotos por meio

de uma URI; (ii) resource, usado para encapsular informações no elemento de link estendido;

(iii) arc, usado para estabelecer relações direcionais entre pares de elementos locators e/ou

resources; e (iv) title, que provê informações descritivas a respeito do link, que devem ser

entendidas por pessoas (SILVA, 2010).

A utilização em conjunto de tecnologias para definir a estrutura e relacionamentos

entre instâncias XBRL forma uma rede de documentos XBRL. A Figura 6 ilustra como pode

ocorrer uma rede de documentos XBRL usando as tecnologias XML Schema e XLink. Uma

instância pode apontar para um esquema (XML Schema) (SPERBERG-MCQUEEN ;

THOMPSON, 2000), que por sua vez pode apontar para outro(s) esquema(s). Esses conjuntos

de esquemas podem referenciar linkbases. Além disso, linkbases podem referenciar outros

linkbases, enquanto que a instância, os esquemas e linkbases podem possuir links internos.

Assim, um encadeamento de documentos é formado, sendo necessária a navegação por eles

para se encontrar informação adicional. Portanto, percebe-se que é possível navegar de uma

instância XBRL para esquemas ou para linkbases, ou entre esquemas, ou entre linkbases

XBRL. Deste modo, links internos e externos aos documentos XBRL podem ser criados. Essa

estrutura permite a definição de relacionamentos entre os elementos XBRL, servindo de

informação complementar àquelas presentes nas instâncias XBRL (SILVA ; TEIXEIRA,

2002; SILVA ; TEIXEIRA, 2003; SILVA ; SULAIMAN, 2003; SILVA, 2003).

31

Figura 6 - Taxonomia XBRL

Fonte: Silva (2010).

2.4 LMDQL: LINK MULTIDIMENSIONAL QUERY LANGUAGE

A LMDQL (SILVA; TIMES, 2009; SILVA, 2010; SILVA et al., 2012) é uma

linguagem derivada da MDX (Multidimension Expression) (SPOFFORD, 2001;

MICROSOFT, 2008), de padrão aberto e gratuito, que executa consultas OLAP sobre

documentos XML interligados por links. A LMDQL possui operadores para o domínio

financeiro (i.e. HAnalysis, VAnalysis, Cross, NNearestValues, NNearestValuesPercentual),

os quais permitem (a) a aquisição de informação em linkbases, característica das taxonomias

XBRL, a partir de integração da XLPath (SILVA; TIMES, 2009; SILVA et al., 2010) com

LMDQL; (b) a realização de consultas analíticas em um conjunto de documentos XML; (c) a

realização de consultas com base no valor ou na estrutura do documento XML; (d) a criação

de operadores com base em outros operadores criados em tempo de execução; e (e) a

realização de análises horizontal, vertical, de separatrizes e com base na proximidade dos

valores dos dados (SILVA, 2010). Por estender a MDX fica implícito que a extensão de

operadores é nativa. A seguir serão apresentadas duas subseções descrevendo a arquitetura e a

sintaxe de consulta da LMDQL, as quais foram extraídas de Silva (2010) para melhor

contextualizar a extensão da LMDQL na proposta desta dissertação.

2.4.1 Arquitetura LMDQL

Conforme ilustrado na Figura 7, a arquitetura LMDQL está dividida em três camadas

que desempenham as seguintes funções: interface com o usuário, processamento das consultas

32

LMDQL e aquisição de dados. A camada Interface transfere a requisição de consulta do

usuário para a camada intermediária (Processor). Esta camada é responsável pelo

processamento da consulta, comunicando-se com a camada inferior (Data), a qual fornece os

dados requisitados. A primeira camada da arquitetura, Interface, contempla a interface gráfica

com o usuário. Na segunda camada, encontra-se o mecanismo de processamento analítico-

multidimensional. A terceira camada refere-se ao armazenamento dos dados, o qual é

composto pelo (a) banco de dados de documentos de instância XBRL, Data Cube; (b) o

repositório de metadados, i.e. Metadata Repository, no qual estão os schemas e os linkbases;

(c) e o componente Operators Library, onde são armazenados os operadores criados pelo

usuário. O Data Cube, o Metadata Repository e o Operators Library podem estar

armazenados em um mesmo sistema gerenciador de banco de dados (SGBD).

Figura 7 - Arquitetura do Processador da Linguagem LMDQL


2.4.2 Consulta LMDQL

Conforme descrito em Silva e Times (2009), Silva (2010) e Silva et al. (2012), a

sintaxe da LMDQL fornece um conjunto de recursos que possibilita ao usuário, realizar

consultas sobre dados multidimensionais no contexto de documentos XML. As consultas

LMDQL são representadas pelo conjunto de elementos ilustrados no Quadro 1. Uma consulta

LMDQL retorna um subconjunto de dados do cubo sobre o qual a consulta é aplicada,

33

denominado cubo de resultado. Para especificação de uma consulta, são necessárias as

seguintes informações: número de eixos ou conjuntos de hierarquias, os membros de cada

dimensão que serão incluídos em cada eixo da consulta, o nome do cubo que define o

contexto da consulta, os membros de um eixo sobre o qual os dados são extraídos. Para a

realização de consultas em documentos com estruturas diferentes, a LMDQL especifica a

cláusula opcional $VARIABLE. A declaração variable_specification define os possíveis

caminhos que serão utilizados para recuperação dos membros na estrutura hierárquica dos

documentos XML. A cláusula SELECT define um cubo de resultado que conterá os dados

multidimensionais obtidos na consulta. Por possuir uma sintaxe semelhante à de MDX, as

demais cláusulas da expressão da consulta permanecem inalteradas. A definição de

expressões LMDQL, possibilita consultas a dados multidimensionais, permitindo a coleta de

informações sobre repositório multidimensional (SILVA, 2010; SILVA et al., 2012).

Quadro 1 - Estrutura de uma consulta LMDQL

2.5 MODELOS DE DADOS XBRL

Alguns modelos de dados para XBRL foram investigados na literatura, os quais são

diretrizes para a construção de um repositório de dados financeiros, baseados na tecnologia

XBRL. A seguir, serão discutidos o DPM, o XBRL Abstract Model e o XBRL Infoset, os

quais são modelos de dados em uso no mercado e na academia para representação de

relatórios financeiros XBRL.

2.5.1 DPM: Data Point Model

O Data Point Model (DPM) é um modelo para representação de dados financeiros,

baseado na tecnologia XBRL, focada no mercado financeiro europeu (IFRS, 2012). São

diretrizes - publicadas na Internet (MORILLA, 2014) - para representação estruturada dos

dados financeiros, identificando os conceitos de negócio e suas relações, bem como as regras

de validação. Este modelo contém todas as especificações técnicas necessárias para o

desenvolvimento de uma solução de relatórios de TI. O DPM é destinado principalmente para

34

uso na transmissão de dados entre as autoridades competentes e à European Banking

Authority (EBA) (EUROPEAN BANKING AUTHORITY, 2014).

Um ponto de dados do DPM é identificado por cinco elementos: Primary item,

especifica o tipo de dados a ser relatado, i.e. um número, uma data, um texto, um valor

monetário. Dimension, trata-se de uma característica ou atributos que identificam as

informações financeiras descritas em um ponto de dados, e.g. categoria principal, a moeda dos

instrumentos, o setor da contraparte, residência da contraparte, a localização da atividade.

Member, cada dimension deve ter dois ou mais members, os quais são um dos valores que as

dimensions são atribuídas, e.g. dinheiro, empréstimos e ações são membros da dimensão

"categoria principal" - cada membro deve ter uma definição exata, então dois conceitos que

compartilham algumas características, mas não são exatamente os mesmos, deve ser

identificado por dois membros diferentes (e.g. carteira de negociação contabilidade e carteira

de negociação prudencial). Domain, especificado para evitar redundâncias quando um

membro é utilizado por mais de uma dimensão, e.g. o domain "área geográfica" é utilizado

para incluir todos os membros de acordo com os países e regiões, independentemente se esses

membros estão alocados em outras dimensões, as quais podem ser: localização da atividade,

residência do emitente, residência da contraparte. Hierarchies, as quais fornecem informações

adicionais sobre a relação entre os membros incluídos em um domínio, indicando a relação

entre eles (MORILLA, 2014).

2.5.2 XBRL Abstract Model

É um modelo que define a representação semântica da especificação XBRL 2.1.

Divulgado na Internet, esse modelo é mantido pelo consórcio internacional XBRL

(XBRL INTERNATIONAL INC, 2012) - o qual propõe diretrizes para representação, em

bancos de dados (relacional ou não), da semântica e das taxonomias XBRL.

O XBRL Abstract Model é apresentado através de data points, i.e. um fato financeiro

é representada por um conjunto de informações semânticas de negócio, característica

intrínseca da especificação Table Linkbases 1.0 (XBRL INTERNATIONAL INC, 2011a), a

qual fornece mecanismos para a representação de relacionamentos mais complexos entre os

conceitos contábeis baseada na especificação XBRL Formula e XBRL Dimension. Um

exemplo da vantagem do Table Linkbase sobre os linkbases padrões da especificação XBRL

2.1 (i.e. presentation, calculation, definition, label e reference) é a representação de

35

hierarquias entre os conceitos do esquema XBRL, no linkbase presentation é previsto apenas

um simples arranjo de fatos, com a Table Linkbase pode-se definir a apresentação de dados

multidimensionais contidos em um conjunto de taxonomias interligadas.

O modelo XBRL Abstract é baseado na especificação XBRL 2.1, comportando oito

módulos XBRL: (i) Módulo de Instâncias XBRL, refere-se ao armazenamento de elementos

da sintaxe XBRL que representa os itens dos relatórios financeiros; (ii) Módulo Inline XBRL

(iXBRL) (XBRL INTERNATIONAL INC, 2011d), representa os elementos que definem a

renderização HMTL dos relatórios financeiros; (ii) Módulo Discoverable Taxonomy

Set (DTS) XBRL (ARDENNE, 2006), refere-se ao conjunto de dados referente às taxonomias

interligadas que um relatório XBRL pertence; (iv)

Módulo Dimensions (XBRL INTERNATIONAL INC., 2006), representa as informações

dimensionais de uma instância XBRL; (v) Módulo Table Linkbases, refere-se aos dados que

representam a semântica do conceito financeiro; (vi) Módulo de Tipos XBRL/XML, faz

referência aos tipos de dados possíveis em XML, assim como os definidos na especificação

XBRL 2.1, para definir os valores e outras características dos dados; (vii)

Módulo Formula XBRL (INTERNATIONAL INC, 2011b), que armazena os dados que

expressam fórmulas XBRL (i.e. conjuntos de declaração, conjuntos de variáveis, e filtros); e

(viii) Módulo Versioning (XBRL INTERNATIONAL INC, 2011c), refere-se à sintaxe e

semântica dos controles de versão dos relatórios e taxonomias.

2.5.3 XBRL Infoset

O XBRL Infoset é uma descrição formal, não normativa, do conteúdo de um conjunto

de taxonomias interligadas que um relatório XBRL pertence, i.e. Discoverable Taxonomy Set

(DTS) (ARDENNE, 2006). Não se tratando de uma especificação XBRL, o XBRL Infoset

não faz qualquer referência à sintaxe utilizada para a representação dos DTS, e não há

qualquer definição de como representar regras de validação ou relacionamentos (XBRL

INTERNATIONAL INC., 2009a).

2.6. CONSIDERAÇÕES FINAIS

As tecnologias, as diretrizes e os conceitos descritos neste capítulo são base para a

construção da solução proposta nesta dissertação, a qual promove a investigação de dados

36

financeiros por meio de recursos computacionais, constituindo-se um intermédio entre a

contabilidade forense não computadorizada e os relatórios financeiros digitais, os quais são

representados por linguagens de marcação (e.g. XBRL), ou em bases de dados relacionais.

O conjunto de tecnologias descrito neste capítulo viabiliza o projeto e a

implementação da solução proposta nesta dissertação: a XBRL representa os documentos

financeiros digitais, a LMDQL executa consultas de processamento analítico em documentos

XBRL nativos ou em dados relacionais e em linkbases XML; os operadores que permitem

cálculos probabilísticos possibilita a análise forense em dados digitais, os quais neste trabalho

chamou-se de Operadores Forenses, e os modelos de dados XBRL são diretrizes para a

escolha de um banco de dados relacional apropriado para o armazenamentos de dados XBRL.

A seguir são discutidos a metodologia apresentada para busca de trabalhos correlatos,

alguns trabalhos identificados sobre sistemas para detecção de fraudes financeiras e, por fim,

bancos de dados relacionais baseados na tecnologias XBRL.

37

3 TRABALHOS CORRELATOS

Neste capítulo se discute a metodologia utilizada para uma revisão da literatura, com a

finalidade de encontrar trabalhos que tenham abordagens correlatas à proposta desta

dissertação. Em seguida, uma investigação é feita sobre os trabalhos encontrados, os quais

foram divididos em duas seções: uma para a discussão dos sistemas de análises forense

financeiras, e outra para os trabalhos que abordam bancos dados baseados na tecnologia

XBRL. Conclui-se o capítulo com considerações finais que apontam as vantagens e lacunas

dos trabalhos encontrados, no que se referem aos objetivos deste trabalho, descritos na Seção

1.4.

3.1 METODOLOGIA UTILIZADA PARA A REVISÃO DA LITERATURA

Uma revisão da literatura foi conduzida no intuito de encontrar e analisar trabalhos

relevantes e correlatos a esta dissertação. A metodologia aplicada como estratégia de busca

por esses trabalhos iniciou-se a partir da formação de termos (strings) para submetê-los à

execução em motores de busca na web. As fontes de pesquisa utilizadas foram as seguintes:

(a) Google (GOOGLE INC., 2014), (b) Google Scholar (SCHOLAR GOOGLE, 2011), (c)

IEEE (IEEE XPLORE® DIGITAL LIBRARY, 2014), (d) Duckduckgo (DUCKDUCKGO,

2014), (e) ACM Digital Library (ACM INC., 2014), (f) Springer (SPRINGER, 2014), (g)

Science Direct (ELSEVIER, 2014) e (h) IADIS (IADIS DIGITAL LIBRARY, 2014). As

strings de busca foram elaboradas nos idiomas português e inglês e são ilustradas nos

Quadros 2 e 3, respectivamente.

Quadro 2 - Exemplo de strings de buscas, no idioma português ("Sistema" ou "Software") e ("Detecção de Fraude" ou "Contabilidade Forense" ou

"Auditoria Contábil") e ("XBRL" ou "relatórios financeiros" ou "dados financeiros digitais"

ou "financeiro") e ("OLAP" ou "Processamento analítico" ou "Processamento online")

("banco de dados" ou "repositório" ou "SGBD") e ("XBRL" ou "contábil" ou

"financeiro") e ("relacional")

38

Quadro 3 - Exemplos de strings de buscas, no idioma inglês ("detection fraud" or "forensic accounting" or "accounting audit") and ("System" or

"Software") and ("XBRL" or "financial report" or "Business report" or "digital financial

data" or "financial") and ("OLAP" or "Analytical Processing" or "Online Processing")

("XBRL" or "Extensible Business Reporting Language" or "accounting" or

"financial") and ("relational") and ("database" or "repository" or "DBMS")

A quantidade dos resultados retornados a partir dessas strings de buscas nas fontes de

pesquisas são apresentados na Tabela 2. Os motores de busca convencionais, i.e. não focados

em trabalhos científicos, tal qual Google e Duckduckgo, trouxeram um total de 2942

resultados, dos quais a maioria não foi compatível com o almejado, i.e. trabalhos acadêmicos

e do mercado relacionado com o objetivo desta dissertação, i.e. foram encontrados trabalhos,

os quais não foram avaliados, do tipo: ementas de cursos de graduação e pós-graduação (nas

áreas de contabilidade, administração, direito), divulgação de palestras e consultorias,

ferramentas proprietárias para manipulação XBRL, sites e blogs não oficiais abordando a

XBRL, contabilidade forense, auditoria contábil, ou detecção de fraudes. As fontes de

pesquisas especializadas em buscas por trabalhos científicos, i.e. Google Scholar, ACM

Digital Library, IEEEXplore Digital Library, Springer, Science Direct e IADIS, trouxeram

respectivamente (somando-se a quantidade de resultados nos dois idiomas) um total de 26, 8,

36, 14, 28, 3 trabalhos.

Tabela 2 - Quantidade de trabalhos retornados das buscas nas fontes de pesquisas

Google Google

Scholar

DuckDuckG

o

ACM Digital

Library

IEEEXplore

Digital

Library

Springer Science

Direct

IADIS Digital

Library

Strings

(Português) 260 18 21 0 0 0 0 0

Strings

(inglês) 2551 8 20 8 36 14 28 3

Os critérios de inclusão dos trabalhos que abordam a detecção de fraudes basearam-se

em: (a) tipo de trabalho (i.e. científico), (b) tipo de aplicação proposta para detecção de fraude

(i.e. com uso de recursos computacionais), (c) sua aplicação ao domínio financeiro; (d)

39

relevância do local de publicação do trabalho. A partir disso, quinze trabalhos foram

selecionados para investigação de suas técnicas, os quais serão discutidos a seguir.

3.2 SISTEMAS DE ANÁLISES FORENSE FINANCEIRAS

Durtschi et al. (2004) discute a identificação de fraudes em dados contábeis por meio

da Lei de Benford. Nesse trabalho é feita uma revisão bibliográfica da utilização dessa lei no

domínio financeiro, desde os anos 70. No estudo de caso, é apresentada uma análise forense

sobre dados contábeis, de um centro médico, por meio do software proprietário DATAS

(Digital Analysis Tests and Statistics) (NIGRINI, 2009). Nessa ferramenta os dados

financeiros são inseridos pelo usuário numa planílha eletrônica do Excel, os quais são

computados por meio de macros Excel (MICROSOFT, 2014).

Em Durtschi et al. (2001), assim como em Kovach (2011) e Nigrini (2014), os quais

propõem a detecção de fraude baseada, respectivamente, na teoria matemática de evidências

de Dempster-Shafer (SHAFER, 2002) e na Lei dos Primeiros Dígitos - são implementados em

macros da ferramenta Microsoft Excel. Desta forma, ocorre a obrigatoriedade de um processo

de ETL dos dados financeiros para as tabelas da planilha, ou a inserção manual dos dados,

não contemplando os formatos nativos adotados por organizações reguladores e governos para

representação de relatórios financeiros (conforme discutido na Seção 1.2). Outras duas

desvantagens investigadas no uso de macros da planilha eletrônica Excel, foram: (i)

McCullough & Wilsonb (2005) e Goldwater (2007) discutem a existência de limitações na

execução de análises estatísticas mais complexas, gerando resultados errados, principalmente

nos modelos estatísticos que fazem uso de regressão e análise de variância; e (ii) o código

fonte é fechado e com licença paga.

Kirkosa et al. (2007) discutem algumas técnicas de mineração de dados (Data Mining)

para detecção de fraudes em relatórios financeiros. Data Mining é um processo analítico

projetado para explorar grandes quantidades de dados (comumente relacionados a negócios,

mercado ou pesquisas científicas) com a finalidade de descobrir fatos ocultos, tendências ou

padrões, para posterior criação de subconjuntos de dados baseados nesses padrões descobertos

(KIRKOSA ET al., 2007). Três técnicas foram escolhidas para detecção de fraudes

financeiras: (i) Decision Tree, baseado na estrutura de dados em árvore, na qual cada nó

representa um teste com relação a um atributo e cada ramo representa um resultado do teste

(Rudin, 2012), (ii) Neural Networks, algoritmo com dezenas de unidades de processamento

interligados, as quais simulam comportamento típico de neurônios (SEUNG, 2005) e (iii)

40

Bayesian Belief Networks, algoritmo baseado na teorema estatístico de Bayes (PEARL, 2011).

Para aplicação dos métodos, três softwares foram utilizados: Sipina Research

(RAKOTOMALALA, 2014), para aplicação da Decision Tree; BN Power Predictor

(CHENG, 2001), para aplicação do Bayesian Networks; e Nuclass 7 (IPNN LAB, 2009), para

aplicação da Neural Networks. Com relação aos requisitos discutidos no objetivo (Seção 1.3

do Capítulo 1), a desvantagem averiguada foi o uso de vários softwares que, apesar de ser

livre de licenças pagas, possuem código fechado.

Choi et al. (2009) propõem uma sistematização nos processo de detecção fraudes para

o Serviço Supervisor Financeiro da Coréia. Conforme ilustrada na Figura 8, uma metodologia

de investigação forense financeira computadorizada é proposta, na qual deve haver: (i)

detecção de recursos vulneráveis no que tange a aquisição dos dados a serem analisados (i.e.

Informações de conexão do banco de dados e Redes), (ii) extração de dados de negócios e

financeiros, com uso de ERP (Enterprise Resource Planning) ou AMS (Accounting

Management Software), tendo como prioridade a segurança de acesso a rede e aos dados, (iii)

apreensão de documentos fraudulentos e (iv) detecção da fraude financeira. Nessa modelagem

é sugerido o uso de qualquer ferramenta computacional que proponha uma análise no registro

de todas as transações financeiras de uma companhia, devido a quantidade de dados

manipulados e a necessidade de maior eficiência.

Figura 8 - Metodologias de investigação para detectar evidências de fraudes financeiras

Fonte: Adaptado de Choi et al. (2009).

O sistema proposto nesta dissertação contempla as fases da metodologia proposta por

Choi et al. (2009), i.e. ocorre a conexão com a base de dados via sistema, é executada a

41

extração dos dados financeiros e de negócios (em documentos XBRL ou dados relacionais), a

identificação dos relatórios que apresentam suspeitas de fraudes, e sua exibição (em tela) para

investigação, por parte de um analista financeiro.

Seo et al. (2009) discutiram sobre a importância de uma ferramenta para extrair e

analisar dados contábeis com a finalidade de detectar fraude financeira. São apresentados

alguns sistemas, os quais são utilizados para perícia contábil em nível mundial, assim como as

desvantagens encontradas para fazer auditoria na Coréia do Sul. Uma ferramenta - chamada

Financial Data Extract & Analyzer - composta por quatro módulos (entrada, extração, análise

e resultado) é proposta, a qual foi projetada para se adequar ao ambiente de investigação

forense financeira do governo da Coréia do Sul. Conforme ilustrado na Figura 9, o Módulo de

Entrada (input) tem a função de selecionar um alvo para extrair informação, o Módulo de

Extração captura dados dos repositórios contidos nas ERP ou AMS (Accounting Management

Software), o Módulo de Análise tem como função básica a triagem, adição, agrupamento e

pesquisa, sobre os dados das transações financeiras ou relatórios, além de funções específicas

para análise vertical, análise horizontal e análise de correlação. Por fim, o Módulo de Saída

pode apresentar resultado extraído ou resultado analisado em uma tela, ou pode exportar para

planilha (CSV) ou formato de texto (TXT). Não há nesse trabalho qualquer detalhe de

implementação (arquitetura, linguagem de implementação ou banco de dados). A ferramenta

Financial Data Extract & Analyzer eliminou a dependência de outras soluções, tal como a

ACL (Audit Command Language) (ACL SERVICE LTD, 2014) e IDEA (Interactive Data

Extraction and Analysis) (CASEWARE ANALYTICS, 2014), ambos com código fechado e

licença paga.

Figura 9 - Módulos da Financial Data Extract & Analyzer

Fonte: Adaptado de Seo et al. (2009).

42

Algumas desvantagens foram observadas, o módulo de extração ocorre por meio de

dados contidos em repositórios de ERP ou AMS, i.e. não há um repositório baseado em

especificações com padrões financeiros internacionais (e.g. XBRL 2.1), tampouco

desenvolvido em dois paradigmas (i.e. relacionais e XML). No módulo de análise ocorre a

aplicação de Data Mining, e nas funções específicas não é citada a implementação de cálculos

probabilísticos, os quais são comumente utilizados na contabilidade forense e, portanto,

relevantes nesse contexto de análises de fraudes financeiras, assim como não é citada a

possibilidade de extensão da ferramenta à outros modelos de detecção de fraude. A solução

proposta nesta dissertação é baseada em uma solução open source que contempla os módulos

propostos na FEA, i.e. possui um módulo de entrada, na qual o analista financeiro insere uma

consulta OLAP (estendida da LMDQL); o módulo de extração, pelo qual o sistema extrai

dados financeiros de documentos XBRL nativo ou dados relacionais; o módulo de análise,

através do processamento analítico em tempo real; e o módulo de resultados, no qual se

apresenta os resultados do processamento analítico ao analista financeiro.

Flores et al. (2012) discutem um modelo de combate à lavagem de dinheiro através da

combinação de práticas forenses digitais, juntamente com ferramentas de banco de dados e

metodologias de análise de dados, com a finalidade de alinhá-los com as políticas de Know-

Your-Costumer (KYC) (PWC, 2013). Um modelo é proposto, considerando os estágios

definidos por Grobler et al. (2010) para a elaboração de um sistema de combate a fraudes

financeiras, i.e. antes, durante e depois do incidente. Conforme ilustrado na Figura 10, três

etapas são apresentadas no modelo de Flores et al. (2013): (i) para compreensão do caso,

observa-se transações anteriores do cliente e as políticas KYC; (ii) para análise e avaliação,

ocorre a aquisição dos dados extraídos das transações dos clientes (utiliza-se nesse processo

Stored Procedures e Triggers), e através de processo de ETL (Extract, Transform e Load) os

dados são armazenados em uma tabela desnormalizada, a qual registra os logs com

informações das transações, e para examinação das evidências de fraudes, são aplicadas as

boas práticas de manipulação de provas propostas pela ACPO (ASSOCIATION OF CHIEF

POLICE OFFICERS, 2011); e (iii) para notificação do caso de fraude, informa-se um alerta

por meio da tela de interação com o usuário.

43

Figura 10 - Modelo proposto para combate a lavagem de dinheiro

Fonte: Adaptado de Flores et al. (2012).

Para a etapa de execução da análise dos dados e de notificação do caso, foram

utilizados os softwares proprietários FTK (ACCESSDATA GROUP INC, 2014) e SAP Crystal

Dashboard Designer (SAP, 2014), respectivamente, o que não corrobora com um dos

objetivos desta dissertação que é a utilização de uma solução open source e gratuita. Ainda, os

dados financeiros analisados são obrigatoriamente relacionais, devido a utilização de Stored

Procedures e Triggers de um SGBD relacional, não permitindo a análise de dados financeiros

em outros formatos (e.g. XBRL), sem a intervenção de um processo de ETL.

Winter et al. (2012) discutem o modelo Digit Distribution ou Digital Distribution,

uma análise forense financeira baseada nos seguintes modelos de análise dos dados: Lei de

Benford, Distribuição Log-Uniform (USPENSKY, 1937), Distribuição Log-Normal

(KALECKI, 1945) e Distribuição Log-Pearson Type IV (HEINRICH, 2004). Nesses modelos,

o valor do desvio médio padrão é calculado baseado nas distribuições da ocorrência dos

dígitos (de 1 a 9), o qual fornece uma margem de tolerância à distribuição proposta pela Lei

de Benford. Conforme ilustrado na Figura 11, os modelos são aplicados, obtendo-se

distribuições distintas na análise de ocorrência dos dígitos. O modelo Digital Distribution

propõe o cálculo médio entre as distribuições, e a aplicação do desvio médio no modelo da

Lei de Benford. O modelo Digital Distribution reduziu a taxa de alarme falso sobre os dados

do censo dos EUA e permitiu identificar irregularidades específicas em dados fiscais

noruegueses. Esses resultados não poderiam ser obtidos por meio da aplicação única do

modelo da Lei de Benford.

44

Figura 11 - Aplicação dos modelos para análise forense financeira

Os cálculos probabilísticos Teste Z e Qui-Quadrado, discutidos nas seções 2.2.3 e

2.2.4, respectivamente, também fornecem uma margem de tolerância à distribuição proposta

pela Lei de Benford, tendo aplicação semelhante aos modelos Distribuição Log-Uniform,

Log-Normal e Log-Pearson Type IV. Nesse trabalho, Winter et al. (2012) discutiram uma

abordagem teórica, sem apresentação de qualquer implementação de um sistema

computacional ou de linguagens de consultas, tampouco foi considerando qualquer formato

de dados financeiros na análise dos dados.

Khan et al (2012) propõem um modelo para detecção de fraude em transações de

cartões de créditos baseadas no modelo estatístico Hidden Markov Model (HMM), além de

sugerir o uso de técnicas de Data Mining para o agrupamentos dos dados. Esse modelo é

baseado no histórico de transações do cliente, no qual se compara os valores de uma nova

transação com o valor do desvio padrão de transações anteriores, os quais não devem ser

valores muito distantes, e caso haja a um valor muito acima do desvio padrão, deve-se alertar

a transação como suspeita. Não foram encontrados no trabalho detalhes de implementação do

sistema proposto (arquitetura, linguagem de programação ou banco de dados). Os dados no

experimento foram manipulados manualmente, segundo informa o autor. Não ocorre relato da

extensibilidade do modelo a outros modelos probabilísticos. Não é informado o tipo de dados

financeiros utilizado na análise. Também não é visto no trabalho uma linguagem para

consultas de relatórios financeiros específicos, ou qualquer interação com o usuário.

Chai et al. (2006) discutem que a detecção automática de anomalias financeiras (i.e.

dados fraudulentos) pode ser realizada considerando o comportamento fraudulento de outras

45

empresas. Nesse trabalho é abordado um sistema baseado no algoritmo Fuzzy, o qual analisa

previamente as transações fraudulentas de várias empresas, estabelecendo um padrão, com o

qual as novas transações em execução são comparadas, e caso haja semelhança gera-se o

alerta de fraude. Nesse trabalho, não foi identificado a existência de uma linguagem de

consulta para processamento analítico, não foi proposta uma ferramenta que seja extensível a

outros cálculos probabilísticos ou modelos de detecção de fraudes.

Sherly & Nedunchezhian (2010) propõem um modelo e um sistema de detecção de

fraudes financeiras baseados em duas técnicas de Data Mining: Algoritmo K-means (DING;

HE, 2004; TAN et al., 2006), para agrupamento de dados financeiros, e algoritmo BOAT

(GEHRKE et al., 1999) um algoritmo de classificação de dados baseado em árvore de

decisão. O modelo proposto considera a análise de uma amostra de transações e as agrupam

em transações genuínas ou falsas. O cálculo baseado no algoritmo BOAT é efetuado para

determinar um score da nova transação, o qual se for maior que o limite definido pelo score

do histórico de transações daquele cliente, classifica-se como uma transação genuína, caso

contrário é declarada a suspeita de fraude, um alerta é enviado ao analista e os dados dessa

transação serão agrupados no grupo de transações falsas. Nesse trabalho não há uma

linguagem de consulta com a qual o analista forense possa fazer análises em relatórios

financeiros específicos. O formato dos dados financeiro não é especificado, e não há

evidências de que seja um sistema extensível a novos modelos de detecção de fraude.

Zhang et al. (2009) discutem um método de detecção de fraudes financeiras baseado

em redes neurais, i.e. Iteration Learning Self-Generating Neural Network (ISGNN) (LI et al.,

2005), para detecção de fraude em declaração de impostos. O processo desse algoritmo inclui

duas fases: (i) a geração da SGNT (Self-Generating Neural Tree), uma árvore neural de auto

aprendizado (WEN et al., 1992), e (ii) sua otimização. O ISGNN sugere um auto aprendizado

de um sistema de informação, por meio da interação com alguma amostra de dados

financeiros colhidos previamente. Empregado como um algoritmo classificador, rotula os

dados analisados em genuínos ou fraudulentos. Nesse trabalho não foi detectado uma

linguagem de consulta, com a qual o analista possa especificar qual dado ou relatório

financeiro almeja analisar. O formato dos dados também não é especificado. Também não foi

evidenciada uma possibilidade de extensão para outros modelos forenses.

Panigrahi (2011) discute a detecção de fraude financeira baseada em um

processamento computadorizado. Um framework, denominado Knowledge-driven Internal

Fraud Detection (KDIFD), aborda a junção do conhecimento tácito, experiência,

pressentimento e intuição de auditores forenses, com técnicas de Data Mining e análises de

46

dados. Como ilustrado na Figura 12, a proposta inicia-se com a (i) etapa Estabelecendo o

Contexto, a qual consiste na compreensão e análise dos analistas financeiros para

determinação dos riscos existentes; (ii) a etapa Fornecimento de Arquivos e Bancos de Dados

é responsável pela busca de arquivos que possam auxiliar na detecção de fraudes, assim como

bancos de dados com dados do cliente e das transações financeiras efetuadas, dados não

eletrônicos também devem ser considerados nessa etapa, contudo devem ser transferidos para

formatos digitais; (iii) na etapa Preparação dos Dados, os dados devem ser preparados para

análise e processamento, baseado nas conformidades legais, privacidade e questões de

segurança; (iv) na etapa Transformação e Limpeza dos Dados, os dados de qualquer formato

devem ser limpos antes de qualquer transformação para o posterior processamento; (v) na

Seleção de Técnicas, avalia-se as técnicas de detecção de fraudes mais adequadas (e.g. Lei de

Benford); (vi) Mineração e Análise de Dados Forenses é uma etapa complementar ao

repositório baseado nas experiências de análise de investigação, é importante considerar que

uma gama de técnicas analíticas tem evoluído na área de análise de dados e mineração; (vii)

em Confirmação baseada em experiência, os auditores devem conhecer a aplicabilidade das

análises e interpretabilidade dos resultados obtidos, para confirmar as suspeitas descobertas.

Figura 12 - Modelo do Framework KDIFD

Fonte: Adaptado de Panigrahi (2011).

Esse framework provê um processo sistemático para os analistas financeiros no

descobrimento de fraudes financeiras. Há evidência de extensibilidade para diversos cálculos

probabilísticos ou modelos de detecção de fraudes (através da etapa Seleção de Técnicas).

Não há evidências de uma linguagem de consulta OLAP, com a qual o analista possa

47

especificar o relatório ou a transação financeira a ser analisada, nem de uma base de dados

relacional baseada em padrões financeiros internacionais.

3.3 BANCOS DE DADOS XBRL

Uma pesquisa na literatura acadêmica e no mercado foi conduzida, com a finalidade

de averiguar propostas de bancos de dados relacionais baseados na especificação XBRL 2.1.

A seguir, serão discutidos os trabalhos encontrados.

O IPHIX LLC (2014) propõe um banco de dados relacional baseado na taxonomia

XBRL GL (Global Ledger), a qual permite a representação dos dados representados em um

plano de contas, lançamentos contábeis ou transações históricas, financeiras e não financeiras

de uma empresa (XBRL INTERNATIONAL INC., 2007). Esse banco de dados é proprietário,

sob a licença da IPHIX LLC, seu modelo de dados não está disponível no site da empresa,

nem tampouco o seu script, não se adequando aos requisitos open source e free software,

especificados no objetivo desta dissertação.

A Reporting Standard (2014) propõe um esquema de dados relacional para armazenar

informações XBRL contidos em relatórios e taxonomias XBRL. Duas etapas são propostas

nesse esquema: (i) uma cópia exata dos arquivos transmitidos (i.e. documento XBRL nativo)

é armazenada em uma tabela relacional com o tipo de dados XML, permitindo que

ferramentas possam acessar os arquivos como se fossem armazenados em um sistema de

arquivos de um disco rígido, ou em um SGBD nativo XML, e (ii) o conteúdo de cada arquivo

é armazenado em tabelas do modelo de banco de dados relacional. É possível utilizar a

linguagem SQL para acesso ao documento de instância e informações de sua(s) taxonomia(s).

Esse esquema é baseado na descrição XBRL Infoset (descrito na Seção 2.5.3), o qual permite

o acesso a qualquer informação da semântica fornecida em XBRL. É possível armazenar

informações de múltiplas taxonomias ou várias versões de uma mesma taxonomia, ao mesmo

tempo, juntamente com seus relatórios. Esse banco de dados é proprietário, sob a licença da

Reporting Standard, seu modelo de dados não é disponível gratuitamente, nem tampouco o

seu script. Também não foi encontrado evidências de tabelas multidimensionais, característica

importante para processamento analítico forense, o qual se trata do uso de linguagens OLAP

para detecçao de fraude em dados digitais.

O XBRL-US Public database (ARELLE, 2014b) é um banco de dados relacional

especificado sobre as definições dos demonstrativos contábeis da U.S SEC, e foi

desenvolvido para contemplar o aspecto sintático XBRL (i.e. os elementos XML contido na

48

especificação XBRL 2.1). Este banco de dados é baseado na taxonomia XBRL da U.S-SEC,

utilizada no mercado financeiro norte americano, os linkbases representados nesse banco de

dados são os padrões da especificação XBRL 2.1: presentation, calculation, definition, label e

reference. Possui tabelas normalizadas, o que facilita a recuperação de dados e reconstrução

de relatórios financeiros no formato XBRL nativo. Esse banco possui código disponível e está

sob a licença da Arelle. Tabelas dimensionais e de fato não são contemplados nesse projeto,

características importantes para compor o sistema OLAP proposto nesta dissertação.

DPM Database (ARELLE, 2014c), é um banco de dados, open source e está sob a

licença da Arelle, baseado na semântica XBRL e no Data Point Model (descrito na Seção

2.5.1). Sua arquitetura é baseada na Table Linkbase XBRL 1.0 (especificação descrita na

Seção 2.5.2). O DPM database evoluiu a partir de projetos do EBA (European Banking

Authority), órgão regulamentador e supervisor do setor bancário da Europa (EBA, 2014), e

planejado para um conjunto de ferramentas da EIOPA (European Insurance and

Occupational Pensions Authority), órgão supervisor que faz parte do Sistema Europeu de

Supervisão Financeira (EIOPA, 2014). Possui atributos que não são contemplados pelos

relatórios financeiros atuais da U.S. SEC. Assim sendo, implica em um banco de dados

adequado aos relatórios XBRL trafegados no sistema financeiro europeu (ARELLE, 2014b).

Este banco de dados não contempla a análise forense em documentos XBRL baseado em

qualquer taxonomia ou DTS.

Jones (2004) apresenta um data warehouse contábil baseado no framework XBRL GL

(Global Ledger), o qual permite a representação dos dados de um plano de contas,

lançamentos contábeis ou transações financeiras. Três tipos de data marts compõe o data

warehouse proposto: Balance Sheet Data Mart, Profit and Loss Data Mart e Item Data Mart.

Os dois primeiros permitem análises relacionadas aos planos de contas, armazenando dados

de lançamento contábil diário no demonstrativo financeiro, Balanço Patrimonial e em contas

de receitas e despesas. O terceiro data mart refere-se aos detalhes das transações comerciais

formatadas com base na taxonomia XBRL GL. É verificado que esse data warehouse é

baseado nas regras de negócio de uma empresa específica, o que o torna inapropriado para a

solução proposta nesta dissertação, pois seria necessário uma modelagem de tabelas e

atributos para as regra de negócio de cada empresa.

Fischer (2013) propõe um banco de dados baseado no XBRL Abstract Model (descrito

na Seção 2.5.2). Um database baseado em um modelo de dados mantido pelo consórcio

internacional XBRL, com código fonte (i.e. script do banco de dados relacional) disponível e

gratuito, sob a licença da Arelle (ARELLE, 2014a), a qual é baseada na licença da Apache

49

2.0, exigindo a inclusão do aviso da autoria do produto e termos de responsabilidade (THE

APACHE SOFTWARE FOUNDATION, 2014). Trata-se de um repositório que comporta oito

módulos, dos quais o módulo Table Linkbase registra os relacionamentos (i.e. a semântica)

entre os elementos (FISCHER, 2013), comumente expressos nos linkbases XBRL.

3.4 CONSIDERAÇÕES FINAIS

Em nenhum dos trabalhos investigados sobre sistemas de análise forense financeira,

descritos na Seção 3.2, foi verificada a análise forense sobre os dados dos relacionamentos

existentes entre os conceitos contábeis, característica comum na representação de relatórios

financeiros. Nos relatórios XBRL, esses relacionamentos são representados nos linkbases

XBRL, e a solução proposta nesta dissertação considera a análise de dados dos linkbases na

análise forense. Na Tabela 3 é apresentada uma comparação entre os trabalhos analisados na

Seção 3.2 deste capítulo, i.e. Sistemas de Análises Forenses Financeiras, no que se refere a

alguns dos requisitos descritos no objetivo desta dissertação (Seção 1.2), i.e. se é uma solução

open source e/ou livre de licença paga, se a ferramenta promove análise de documentos

financeiros para detecção de fraude, se analisa dados XBRL, se possui linguagem para o

analista financeiro fazer a análise forense, se executa a análise forense considerando a

semântica dos dados financeiras (e.g. Linkbase), se foi implementado um sistema

computacional, se é possível a análise com aplicação de cálculos probabilísticos, assim como

a possibilidade de aplicação conjunta de cálculos probabilísticos, e se a ferramenta é

extensível à novos modelos de detecção de fraudes. É importante ressaltar que os trabalhos

Choi et al. (2009), Winter et al. (2012), Khan et al. (2012), Chai et al. (2006), Zhang et al.

(2009) e Panigrahi (2011) propuseram um modelo para detecção de fraude sugerindo o uso de

recursos computacionais, contudo não implementaram um sistema computacional, nesses

casos o quesito "open source e livre de licença paga" não se aplica (como informado na

Tabela 3).

50

Tabela 3 - Comparativo entre os Sistemas de Análise Forense investigados

Durtschi et al.

(2004)

Nigrini

(2014)

Kovach

(2011)

Kirkosa et

al. (2007)

Choi et al.

(2009)

Seo et al.

(2009)

Flores et al.

(2012)

Winter et

al. (2012)

Khan et

al.

(2012)

Chai et

al.

(2006)

Sherly &

Nedun-

chezhian

(2010)

Zhang

et al.

(2009)

Panigrahi

(2011)

Open Source e livre de

licença paga Não Não Não Não

Não se

aplica Não Não

Não se

aplica

Não se

aplica

Não se

aplica

Não

Informa

Não se

aplica

Não se

aplica

Detecção de fraude Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim

Dados XBRL Não Não Não Não Não Não Não Não Não Não Não Não Não

Linguagem de Consulta Não Não Não Não Não Não Não Não Não Não Não Não Não

Semântica dos dados

(Linkbase) Não Não Não Não Não Não Não Não Não Não Não Não Não

Implementa um Sistema

computacional

Parcial-

mente

(macros)

Parcial-

mente

(macros)

Parcial-

mente

(macros)

Sim Não Sim Sim Não Não Não Sim Não Não

Cálculos probabilísticos Sim Sim Sim Não Não Não Não Sim Não Não Não Não Sim

Aplicação conjunta de

cálculos probabilísticos Não Não Sim Não Não Não Não Sim Não Não Não Não Sim

51

Durtschi et al.

(2004)

Nigrini

(2014)

Kovach

(2011)

Kirkosa et

al. (2007)

Choi et al.

(2009)

Seo et al.

(2009)

Flores et al.

(2012)

Winter et

al. (2012)

Khan et

al.

(2012)

Chai et

al.

(2006)

Sherly &

Nedun-

chezhian

(2010)

Zhang

et al.

(2009)

Panigrahi

(2011)

Extensível à novos

modelos Sim Sim Sim Não Não Sim Não Sim Não Não Não Não Sim

Tempo Real Não Não Sim Não Não Não Não Não Não Não Não Não Não

Quanto aos repositórios XBRL investigados, observou-se que há poucos disponíveis no mercado e na academia. A maioria não se

adequou aos objetivos especificados nesta dissertação, devido as seguintes lacunas: código não disponível e proprietário, modelagens baseadas

em modelos e diretrizes que se aplicam em um mercado financeiro específico e implementações baseadas na semântica de taxonomias XBRL

específicas.

A Tabela 4 exibe uma comparação entre os trabalhos analisados na Seção 3.3 deste capítulo, i.e. Bancos de Dados XBRL, no que se

refere a alguns requisitos relativos ao sistema OLAP proposto, i.e. se é um repositório open source, livre de licença paga, relacional,

multidimensional e baseado na semântica e sintaxe da especificação XBRL 2.1. Definiu-se o XBRL Abstract Model Database (FISCHER, 2013)

(Anexo A) como um banco de dados adequado à solução proposta, considerando ser um repositório relacional e multidimensional, open source e

software livre, baseado na especificação XBRL 2.1, seguindo um modelo de dados mantido pelo XBRL Internacional Consortium (2014), i.e.

XBRL Abstract Model (descrito na Seção 2.5.2).

52

Tabela 4 - Comparativo entre os bancos de dados XBRL investigados

IPHIX (2014) Reporting Standard (2014) Arelle (2014b) Arelle (2014c) Jones (2004) Fischer (2013)

Open Source Não Não Sim Sim Sim Sim

Software Livre Não Não Sim Sim Sim Sim

Relacional Sim Sim Sim Sim Sim Sim

Multidimensional Sim Sim Não Sim Sim Sim

Adequada a qualquer taxonomia XML Sim Sim Não Não Não Sim

Baseado na Especificação XBRL 2.1 Sim Sim Sim Sim Sim Sim

No capítulo seguinte serão apresentados os requisitos, a linguagem e o sistema LMDQL Forense, além de um modelo de processo para

extensão dessa solução para novos modelos de detecção de fraudes.

53

4 LMDQL FORENSE: LINGUAGEM E SISTEMA

Para criação de um ambiente computacional para a realização da contabilidade forense

sobre documentos financeiros XML, baseada nos modelos probabilísticos da Lei dos

Primeiros Dígitos, Teste Z, Teste χ2 e Regra Empírica (descritas na Seção 2.2), novos

operadores foram incorporados à LMDQL (i.e. FirstDigit, ZTest, ChiSquaredTest e

EmpiricalRule), os quais são chamados de Operadores Forenses. A extensão proposta para os

operadores da linguagem LMDQL, preserva suas características originais, i.e. consultas

baseadas em links além da possibilidade de utilização de bancos de dados relacionais ou

baseados em arquivos XML nativos, conforme propõe a arquitetura do processador LMDQL

(discutida na Seção 2.4).

4.1 REQUISITOS DA LINGUAGEM LMDQL FORENSE

A especificação da linguagem LMDQL Forense atendeu a um objetivo geral: uma

linguagem para detecção de fraudes financeiras, baseado em métodos tradicionais na

contabilidade forense. Para que esse escopo seja alcançado, alguns objetivos específicos são

almejados:

• Deixar a critério do analista forense a definição do documento financeiro (ou conjunto

de documentos), dos elementos, da empresa e do período de tempo, que se almeja na

consulta analítica;

• Análise forense considerando a semântica dos elementos definidos nos esquemas

XBRL, expressos em documentos de linkbases, os quais armazenam dados que

representam um relacionamento, e.g. a definição labels (como "Accounts Payable,

Current" e "Contas Atuais a Pagar") para representar o elemento "us-

gaap:AccountsPayableCurrent";

• Aplicação de cálculos estatístico-probabilísticos para detecção de fraudes: Lei de

Benford, Regra Empírica, Teste Z e Teste Qui-Quadrado, sobre os dados financeiros;

• Ser possível, na consulta, a escolha de uma técnica de detecção de fraudes financeira,

dentro do conjunto de técnicas;

• Ser possível a escolha de mais de uma técnica, para a aplicação conjunta em uma

consulta ao conjunto de dados;

• Ter característica extensível para implementação e incorporação de outras técnicas

estatístico-probabilísticas usadas na contabilidade forense;

54

4.2 A LINGUAGEM LMDQL FORENSE

A gramática dos operadores da LMDQL Forense (descritas no Anexo A) é

representada na linguagem EBNF (WIRTH, 1996), a qual é uma notação usada para expressar

gramáticas livres de contexto, i.e. uma expressão formal para descrever linguagens de

programação e outras linguagens formais. Essa gramática é uma extensão da gramática da

LMDQL, a qual estende a MDX, incorporando as definições dos novos operadores.

Antes de listar os operadores forenses, é importante destacar algumas definições que

são utilizadas nas especificações dos parâmetros dos operadores da linguagem LMDQL

(Tabela 5). Considera-se como (a) <Member> um elemento contido na especificação XBRL

2.1, o qual pode ser a representação de um conceito contábil, um rótulo (label), um

documento financeiro, uma empresa, uma data específica; as demais definições, i.e.

<MemberSet>, <DimensionName>, <LevelName>, <MemberName>, <NumericExpression>,

<IntegerExpression> e <NumericSet> encontram-se explicadas na Tabela 5.

Tabela 5 - Definições usadas para especificar a sintaxe LMDQL <Member> Um membro de um cubo <MemberSet> Conjunto de membros de um cubo <DimensionName> Nome de uma dimensão (e.g. [Localizacao]). <LevelName> Nome de um nível (e.g. [Localizacao].[Estado]). <MemberName> Nome de um membro (e.g. [Localizacao].[Estado].[Bahia]). <NumericExpression> Um valor numérico qualquer. <IntegerExpression> Um valor inteiro qualquer.

<NumericSet> Um conjunto de valores numéricos quaisquer. Pode ser, por exemplo, um conjunto de índices de rentabilidade do patrimônio liquido.


A seguir são discutidos detalhes do processamento de cada operador forense e

apresentada a sintaxe proposta para efetuar consultas, as quais são baseadas na sintaxe

LMDQL (descrita na seção 2.4.5):

1) Sintaxe: EmpiricalRule(Member, MemberSet, MemberSet, MemberSet). O

operador forense EmpiricalRule aplica o cálculo probabilístico baseado na Regra Empírica

(discutido na Seção 2.2.1). Para execução dessa consulta são fornecidos quatro parâmetros

(conforme apresentado na Figura 13): (i) um membro referente à entidade emissora do

relatório financeiro que será avaliado (e.g. [Entity].[Microsoft]); podendo-se utilizar a

palavra-chave "all", a qual faz referência a todas as entidades armazenadas no repositório de

dados (e.g. [Entity].all); (ii) um membro referente ao período de tempo desejado na consulta,

55

obedecendo à sequência de ano, mês e dia (e.g. [Time].[2013].[12].[31]), podendo-se variar o

tempo da análise utilizando a palavra chave "children", em qualquer nível, i.e.

[Time].[2013].[10].children, para consultas em todos os dias do mês 10 do ano de 2013;

[Time].[2013].children, para consultas em todos os dias, de todos os meses, do ano de 2013; e

[Time].children, para consulta em todos os dias, de todos os meses, de todos os anos contidos

no repositório; (iii) um membro referente ao documento que será avaliado (e.g.

[Document].[10-Q]) ou a palavra chave “children” (i.e. [Document].children), que determina

a avaliação de todos os documentos do membro de referência; (iv) um membro referente ao

elemento que será avaliado (e.g. [Element].[msft:GainLossOnInvestments]) ou a palavra

chave “children” (i.e. [Element].children), que considera todos os elementos do membro de

referência na análise do operador.

Figura 13 - Consulta com o operador EmpiricalRule

O resultado do operador EmpiricalRule é a classificação da posição sigma (σ) para

cada elemento, ou label, cuja classificação é baseada no cálculo da Distribuição Normal

(descrito na seção 2.2.1). A Distribuição Normal é calculada baseada no valor monetário

daquele elemento, ou label, em outros relatórios na base de dados. Desta forma, o resultado

deste operador apresenta cada elemento como: -out (o valor do elemento analisado está fora

da Distribuição Normal, negativamente), -3rd sigma (o valor do elemento está a uma distância

de até 3 sigmas, negativamente, a partir da média padrão), -2nd sigma (menos 2 sigmas), -1st

sigma (menos 1 sigma), +1st sigma (o valor do elemento analisado está a uma distância de

mais 1 sigma, a partir da média padrão), +2nd sigma (mais dois sigmas), +3rd sigma (mais

três sigmas) ou +out (o valor do elemento analisado está fora da Distribuição Normal,

positivamente). As posições sigmas são ilustradas na Figura 3. Caso não haja dados

armazenados suficientes para a execução da Regra Empírica para um determinado elemento

(i.e. não há registro de um elemento ou label em mais de um relatório financeiro na base de

56

dados), o operador retorna uma mensagem informando "There are not enough stored data".

Ilustrações de resultados de consultas com esse operador, e com os demais operadores

forenses descritos a seguir, são encontradas no Capítulo 5, no qual é discutido um Estudo de

Caso.

2) Sintaxe: FirstDigit (Member, MemberSet, MemberSet, String). Este operador

aplica o cálculo probabilístico baseado na Lei dos Primeiros Dígitos (discutida na Seção

2.2.2). Conforme a consulta ilustrada na Figura 14, neste operador faz-se necessário o envio

de quatro parâmetros: o primeiro, segundo e terceiro parâmetros seguem a semântica definida

para o operador EmpiricalRule; o quarto parâmetro permite a especificação do tipo de retorno

da consulta, podendo ser (i) null, retornando a informação de conformidade (ou não

conformidade) do relatório sob análise com a Lei dos Primeiros Dígitos, a porcentagem

esperada para cada dígito, e a porcentagem encontrada nos registros financeiros, a quantidade

de dígitos analisados e o tempo de execução da consulta; e (ii) serialized, retorna as

porcentagens encontradas para cada dígito, em sequencia, separada por ponto-e-vírgula, no

qual o primeiro dado refere-se ao dígito 1 (um), o segundo ao dígito 2 (dois) e assim

sucessivamente até o dígito 9 (nove). Este último tipo de retorno é útil para a interação com

outros operadores forenses, conforme será discutido na apresentação dos operadores ZTest e

ChiSquaredTest.

Figura 14 - Consulta com o operador FirstDigit com a instrução null

3) Sintaxe: ZTest (NumericSet, NumericSet, IntegerExpression,

NumericExpression). Este operador realiza o cálculo probabilístico Teste Z, para medir o grau

de significância entre dois conjuntos de dados, i.e. as probabilidades esperada (Pe) e a

observada (Po) (conforme descrito na Seção 2.2.3). Para realização de uma consulta com este

operador, faz-se necessário o envio de quatro parâmetros: (i) conjunto de números referente à

Pe para aquele conjunto de dados em análise, (ii) o conjunto de Po referente aos dados dos

relatórios analisados, (iii) quantidade de dados da amostra analisada, a qual é considerada no

cálculo probabilístico Teste Z (i.e. é um cálculo estatístico paramétrico), e (iv) o z-crítico

aceito no cálculo, o qual vai determinar a tolerância na análise efetuada. A Figura 15 ilustra

57

uma consulta na qual no primeiro parâmetro a Pe informada são as probabilidades aceitas para

cada um dos nove dígitos, em sequência (baseada na Lei dos Primeiros Dígitos). No segundo

parâmetro é informada a Po, no exemplo apresentado é obtida através do uso do operador

FirstDigit. Desta forma, é possível realizar uma consulta do operador ZTest em conjunto com

o operador FirstDigit. No terceiro parâmetro informa-se a quantidade de dígitos analisados

(i.e. 1708), que pode ser obtido com o uso do operador FirstDigit instrução null. No quarto

parâmetro a tolerância aceita no cálculo (z-crítico), que é igual a 2.57. O resultado deste

operador informa o z-crítico calculado para cada dado pertencente ao conjunto da Po, e

também uma mensagem informando a correlação, ou não, entre os dados da Pe e Po.

Figura 15 - Consulta com o operador ZTest em conjunto com FirstDigit

4) Sintaxe: ChiSquaredTest (NumericSet, NumericSet, NumericExpression). Este

operador é baseado no cálculo probabilístico Teste χ2 (discutido na Seção 2.2.4). O

processamento analítico dos dados, com este operador, é feito com a especificação de três

parâmetros: o primeiro e segundo seguem a semântica definida para o operador ZTest, o

terceiro representa o χ2-crítico aceito no cálculo. Para a obtenção dos dados referentes à Po (no

segundo parâmetro), também é possível a utilização conjunta dos operadores ChiSquaredTest

e FirstDigit. Um exemplo dessa consulta pode ser vista na Figura 16, a qual informa um χ2-

crítico igual a 15.507 (o qual é definido pelo usuário). O resultado deste operador informa o

χ2-crítico calculado para cada dado pertencente ao conjunto da Po, e também uma mensagem

informando a correlação, ou não, entre os conjuntos analisados (i.e. Pe e Po).

58

Figura 16 - Consulta com o operador ChiSquaredTest em conjunto com FirstDigit

4.3 O SISTEMA LMDQL FORENSE

A utilização de funções externas é possível na MDX (SPOFFORD, 2001, p. 163).

Neste trabalho, considerando que a LMDQL estende a MDX, o uso de funções externas

permitiu a incorporação dos quatro operadores Forenses (i.e. FirstDigit, EmpiricalRule,

ZTest, ChiSquaredTest) na biblioteca de operadores LMDQL. Assim como na LMDQL, os

operadores forenses foram implementados no servidor OLAP mondrian (SILVA, 2010). Com

isso, além dos operadores OLAP tradicionais especificados no mondrian por meio da MDX,

os operadores LMDQL Forense foram incorporados com sintaxe semelhante.

A execução da consulta LMDQL Forense no servidor mondrian segue um processo,

ilustrado na Figura 17, que é iniciado por meio da tela de interação com o usuário, na qual

tanto a consulta como o tipo de banco de dados almejado (Relacional ou XML) são definidos

pelo usuário. Em seguida, é executado um processo de validação (parser LMDQL) que é

composto por duas etapas: (i) verificação da existência do operador especificado na consulta,

na biblioteca de operadores da LMDQL e (ii) análise da sintaxe da consulta LMDQL Forense,

observando-se a ocorrência de erros sintáticos, e.g. erros relacionados ao nome do operador

escolhido e tipo de dados enviados em seus parâmetros (i.e. Member, MemberSet,

DimensionName, LevelName, MemberName, NumericExpression, IntegerExpression ou

NumericSet), e em caso de erro em qualquer uma dessas duas etapas, uma mensagem de erro

é apresentada ao usuário, e o processamento é interrompido. Caso não ocorra erro na sintaxe,

ocorre a seleção dos operadores na biblioteca LMDQL. Em seguida é feita a aquisição dos

dados, caso o usuário tenha escolhido um banco de dados XML, é feita uma conversão das

consultas SQL (geradas pelo servidor OLAP relacional) para expressões XQuery, i.e. um

conversor de expressões SQL para XQuery foi especificado e implementado na arquitetura

LMDQL (SILVA ; TIMES, 2009; SILVA, 2010; SILVA et al., 2012). Em seguida os dados

59

são processados e submetidos ao cálculo probabilístico definido na consulta. Por fim, o

resultado dessa análise é apresentado ao usuário, por meio de um dashboard ou painel de

apresentação.

Figura 17 - Processo de execução da consulta LMDQL Forense

Funções externas, especificadas na MDX, podem ser codificadas em qualquer

linguagem de programação (SPOFFORD, 2001). Em virtude da implementação da LMDQL

ter sido feita no servidor mondrian, e deste ser codificado na linguagem de programação Java,

optou-se pela implementação dos operadores forenses nessa linguagem. Entretanto, este é um

critério flexível, podendo ser implementado com outras linguagens de programação.

60

4.4 EXTENSÃO DO SISTEMA LMDQL FORENSE

Como diretriz de extensão do sistema LMDQL Forense a outros modelos de detecção

de fraude, são sugeridas nove etapas para a sua extensão é apresentadas na Figura 18, a qual

foi utilizada para implementação dos operadores EmpiricalRule(), ZTest() e

ChiSquaredTest(). Essas etapas são discutidas a seguir.

Figura 18 - Processo para Extensão do sistema LMDQL Forense

Algumas destas etapas (i.e. de 1 a 3) se referem a estudos, pesquisas e especificações.

Etapa 1: é necessário uma pesquisa na literatura, das técnicas de detecção de fraude

aplicadas na contabilidade forense ou auditoria contábil;

Etapa 2: define-se o nome do novo operador LMDQL e os parâmetros necessários

para processamento dos dados. Nesta etapa, deve-se observar as definições usadas para

especificar a sintaxe LMDQL, as quais são ilustradas na Tabela 5;

Etapa 3: são especificadas as dimensões que serão representadas nos parâmetros do

operador forense (e.g. documento, elemento, entidade, período), para obtenção dos dados nas

tabelas dimensionais, que são usadas para executar as consultas OLAP;

Dando continuidade ao processo, as próximas etapas lidam com a implementação do

sistema LMDQL Forense.

Etapa 4: implementa-se o novo operador através das funcionalidades disponíveis no

servidor OLAP utilizado, como o sistema LMDQL Forense (nesta dissertação) foi

implementado sobre o servidor mondrian (seguindo a proposta da LMDQL). Assim sendo,

61

nesta etapa utilizou-se as funções definidas pelo usuário (UDF- uma interface nativa do

mondrian para criação de funções externas);

Etapa 5: ocorre a aquisição dos relatórios financeiros, no sistema LMDQL Forense.

Nesta dissertação foram considerados documentos XBRL, por se tratar de um padrão

internacional com adoção em diversos países (conforme descrito na Seção 1.1 do Capítulo 1),

entretanto a solução apresentada pode ser adaptada para outros modelos de dados financeiros

representados em um ambiente baseado em documentos XML ou dados relacionais;

Etapa 6: é realizado o carregamento dos dados financeiros nos SGBD relacional e

XML, pois a LMDQL possibilita consultas OLAP sobre ambos os formatos, portanto, fica a

critério do usuário escolher sobre qual tipo de banco de dados o processamento analítico será

executado;

Etapa 7: deve-se modelar e implementar uma base de dados financeira que represente

os fatos e a semântica dos conceitos financeiros; contudo é uma etapa optativa para dados

representados em XBRL, considerando o uso do XBRL Abstract Model Database (descrito na

Seção 3.3), um banco de dados open source e sem licença paga, podendo-se utilizá-lo sem

restrições;

Etapa 8: implementação de um processo de ETL para o SGBD relacional. Os dados

contidos nos documentos são extraídos, transformados e carregados em um repositório

relacional financeiro;

Etapa 9: implementa-se uma tela de interação com o usuário, para inserção da consulta

LMDQL Forense (input), obtenção do resultado e sua exibição no painel de apresentação

(output). Neste trabalho, o JPivot (TONBELLER AG.,2003), incorporado ao servidor

mondrian, foi utilizado como tela de interação com o usuário.


A especificação dos requisitos da linguagem LMDQL Forense preenche três lacunas

encontradas nos trabalhos correlatos: (i) a inexistência de uma linguagem de consulta; (ii) o

usuário não define o paradigma do modelo de dados (Relacional ou XML) na consulta; e (iii)

a análise forense não considera a semântica dos dados financeiros (descritos nas taxonomias

XBRL em linkbases).

Com a linguagem LMDQL Forense é possível a análise forense de dados financeiros

em níveis de detalhes especificados pelo usuário, i.e. na consulta, especifica-se o documento

que se almeja analisar, seus elementos, a data ou período e o modelo de análise forense a ser

62

aplicado (i.e. Lei de Benford, Regra Empírica, Teste Z ou Teste Qui-Quadrado), assim como

o tipo de banco de dados que almeja na consulta.

O sistema LMDQL Forense, open source e livre de licença paga (XBRL

FRAMEWORK, 2014), automatiza o processo de análise forense em documentos financeiros

que trafegam pela Internet, através da aplicação dos operadores contidos na biblioteca

LMDQL, a qual é extensível a novos modelos de detecção de fraude financeira, conforme

descrito na seção 4.4. As contribuições do sistema LMDQL Forense sobre a arquitetura

LMDQL estão localizadas na camada Data (conforme descrito na Seção 2.4.1), na qual se

observa (i) uma nova biblioteca de operadores OLAP baseada em quatro técnicas estatístico-

probabilísticas (i.e. Lei de Benford, Regra Empírica, Teste Z e Teste Qui-Quadrado) para

análise forense em dados XML e relacional, somando-se aos operadores pré-existentes da

LMDQL (i.e. HAnalysis, VAnalysis, Cross, NNearestValues, NNearestValuesPercentual); e

(ii) a adoção do XBRL Abstract Model Database para representar os documentos financeiros

XBRL.

O sistema LMDQL Forense propõe uma análise baseada no processamento analítico

on-line (OLAP), i.e. soma-se aos demais trabalhos correlatos (Seção 3.2 do Capítulo 3), pois

não foi encontrado trabalho com essa abordagem para a análise forense (conforme

apresentado na Tabela 3).

A extensão proposta do sistema LMDQL Forense, descrito na Figura 18, serve como

base para elaboração de sistemas OLAP para análise forense financeira (baseado em

ambientes de dados relacional e XML), assim como para a extensão do sistema LMDQL

Forense à novos modelos de detecção de fraudes (não necessariamente baseada em técnicas

estatístico-probabilísticas).

Quanto ao repositório utilizado no sistema LMDQL Forense, i.e. O XBRL Abstract

Model Database (Descrito na etapa 7 da Seção 4.4), não é de uso obrigatório. A utilização de

qualquer outro repositório é possível, cujos dados estejam representados em XML ou pelo

modelo de dados relacional; desta forma, é possível também a extensão do sistema proposto à

outros ambientes (não financeiros) cujos modelos probabilísticos, especificados e

incorporados à LMDQL, possam ser aplicados.

No próximo capítulo é apresentado um estudo de caso, no qual ocorre a aplicação do

sistema LMDQL Forense sobre documentos XML nativos e dados relacionais.

63

5 EXEMPLO DE APLICAÇÃO DA LMDQL FORENSE EM RELATÓRI OS FINANCEIROS DA U.S. SEC

Com o objetivo de validar a LMDQL Forense no domínio de detecção de fraudes em

relatórios financeiros, consultas LMDQL Forenses foram feitas sobre documentos XBRL

divulgados no site da U.S. SEC. Neste capítulo serão demonstrados os uso das consultas

OLAP baseadas nos operadores FirstDigit(), EmpiricalRule(), ZTest() e ChiSquaredTest(), e

seus respectivos resultados, sobre documentos financeiros XBRL trafegados pela internet.

Neste exemplo de aplicação, as consultas LMDQL Forense foram feitas em dois

formatos de dados, isto permitiu identificar a expressividade da linguagem e a possibilidade

de sua utilização em contextos distintos. Esses formatos são: (a) XML, o qual mantém a

estrutura sintática e semântica nativa dos documentos XBRL, e (b) relacional, a partir de

documentos XBRL nativos os dados são manipulados por meio de um processo de ETL que

os insere em um banco de dados relacional. Neste exemplo de aplicação é também realizada

uma avaliação preliminar de desempenho do processamento das consultas LMDQL Forense

nessas duas bases de dados, para dar subsídios aos analistas de sistemas financeiros a respeito

do desempenho do sistema LMDQL Forense.

Para realização do exemplo de aplicação do sistema LMDQL Forense, foram

carregados em ambas as bases de dados, relatórios financeiros emitidos pelo Bobs, Microsoft

e Facebook dos anos de 2011, 2012 e 2013 à U.S SEC.

5.1 BANCO DE DADOS XML

Para efetuar a análise forense nos documentos XBRL mantendo sua estrutura sintática,

os arquivos XBRL (instâncias e taxonomias) foram carregados em um SGBD XML nativo.

Para tal, o SGBD escolhido foi o Exist (EXIST SOLUTIONS, 2014), o qual é open source e

livre de licença paga.

As Figuras 19 e 20 apresentam, respectivamente, os resultados da execução do

operador forense FirstDigit utilizando os valores serialized e null no quarto parâmetro, o qual

foi aplicado sobre o relatório financeiro 10-Q, no mês de dezembro do ano de 2013, da

empresa Facebook. Os resultados dessas consultas não apresentaram conformidade com a Lei

dos Primeiros Dígitos, conforme pode ser visto com o uso do parâmetro null (Figura 20), que

informa as porcentagens esperadas e as encontradas para cada dígito. O tempo utilizado nesta

consulta foi de 11,3 segundos e foram considerados 853 dígitos na análise.

64

Figura 19 - Consulta forense FirstDigit, instrução serialized

Figura 20 - Consulta forense FirstDigit, instrução null

Este resultado obtido pelo operador FirstDigit não expressa uma forte evidência de

fraude do relatório. Conforme aplicado na contabilometria de alguns trabalhos sobre

contabilidade forense (DURTSCHI et al., 2004; FRANCISCHETTI, 2007; LAGIOIA et al.,

2011; COSTA et al., 2013; WINTER et al., 2012), a Lei dos Primeiros Dígitos requer a

aplicação conjunta com outro cálculo probabilístico, com a finalidade de obter uma margem

de tolerância para os valores percentuais encontrados nos demonstrativos contábeis

analisados.

Essa proposta de aplicação conjunta de mais de um cálculo probabilístico, em um

mesmo conjunto de dados financeiros, é permitida pela LMDQL Forense. Conforme ilustrado

na Figura 21, apresenta-se o uso em conjunto dos operadores ZTest e FirstDigit com instrução

65

serialized. Esta consulta assegura a conformidade dos relatórios sob análise com a Lei dos

Primeiros Dígitos, nos quais se aplicou uma margem de tolerância às porcentagens

encontradas.

Mesmo o relatório apresentando não conformidade com a Lei dos Primeiros Dígitos,

de acordo com o resultado da consulta realizada apenas com o operador FirstDigit, após a

aplicação conjunta de dois operadores forense, como é proposto pela contabilometria, a

conformidade foi evidenciada.

Nas consultas com uso do ZTest(), verificam-se (i) no primeiro parâmetro, a

probabilidade esperada - neste exemplo são os percentuais definidos pela Lei dos Primeiros

Dígitos para os dígitos de 1 a 9 (em sequência) (descritos na Tabela 1); (ii) no segundo

parâmetro, os valores do percentual observado para cada dígito, calculado sob o relatório

financeiro em análise, seguindo a mesma sequência do primeiro parâmetro - neste exemplo, é

fornecido o resultado serializado do operador FirstDigit (conforme ilustrado na Figura 19);

(iii) no terceiro parâmetro, é informada a quantidade total de dígitos que foram analisados no

relatório em análise (i.e. 853) - esse dado deve ser informado pelo usuário e pode ser

encontrado no retorno null do operador FirstDigit (ilustração da Figura 20); (iv) no último

parâmetro, o analista deve informar a margem de tolerância aos percentuais observados -

neste exemplo, foi informado o valor crítico (i.e. z-crítico) igual a 2.57, o qual representa uma

margem de 1% dos valores apresentarem fraudes (CHARLES STURT UNIVERSITY, 2010),

i.e. com esse z-crítico há a probabilidade de aceitação de 99% dos dados financeiros

analisados. Essa margem de tolerância é equivalente à margem do terceiro sigma (i.e. 99,7)

definido pela Regra Empírica (ilustrada na Figura 3). O valor de z-crítico não pode ser

excedido, positivamente ou negativamente, i.e. os valores devem ficar no intervalo de -2.57 e

+ 2.57, classificando-se como hipótese nula (H0), i.e. válida ou livre de fraudes. O resultado

dessa consulta identificou que a análise da H0 é válida e os valores avaliados têm

conformidade com os valores esperados, havendo parecer favorável à veracidade dos dados.

O tempo de execução utilizado por este operador forense, nessa consulta, foi 12,9 segundos.

66

Figura 21 - Aplicação dos operadores ZTest e FirstDigit em conjunto

Ainda em concordância com a contabilometria, a qual define a aplicação conjunta de

cálculos probabilísticos, na ilustração da Figura 22 é apresentado o uso em conjunto dos

operadores ChiSquaredTest e FirstDigit. Nessa consulta os dois primeiros parâmetros seguem

a mesma especificação do operador ZTest. No último parâmetro, é dado o χ2-crítico igual a

15.507, o que determina uma tolerância de 5% de possibilidade de ocorrência de fraude aos

percentuais encontrados (DURTSCHI et al., 2004; FRANCISCHETTI, 2007; CHARLES

STURT UNIVERSITY, 2010; LAGIOIA et al., 2011; COSTA et al., 2013). Essa margem é

equivalente à margem do segundo sigma (i.e. 95,4), definido na Regra Empírica (ilustrada na

Figura 3). O resultado da consulta informa um novo parecer favorável ao relatório em análise,

uma vez que nenhum dígito ultrapassou o valor crítico fornecido 15.507. O tempo na

execução dessa consulta foi 7,9 segundos.

67

Figura 22 - Aplicação dos operadores ChiSquaredTest e FirstDigit em conjunto

A aplicação do operador EmpiricalRule sobre o demonstrativo financeiro do Facebook

é ilustrada na Figura 23, na qual é possível verificar oito elementos da taxonomia XBRL do

Facebook, com seus respectivos valores monetários, dos quais o primeiro não tem históricos

de dados armazenados suficientes para execução desta análise (i.e. o Sigma position é igual a

"There are not enough stored data"), e os demais apresentam suas classificações da posição

sigma (i.e. +2nd sigma, -1st sigma, +3rd sigma, -1st sigma, -1st sigma, -1st sigma, +1st

sigma, respectivamente). Nessa consulta optou-se pela análise de todos os elementos (i.e.

[Element].children),de todos os dias do mês de dezembro, do ano 2013. O documento

solicitado na busca foi o 10-Q. Somente é possível a visualização de parte do resultado na

Figura 23, pois corresponde a 145 elementos analisados. O tempo de execução desta consulta

foi 4 minutos 24 segundos.

68

Figura 23 - Aplicação do operador EmpiricalRule à todos os elementos do documento XBRL

No intuito de validar a análise forense através de dados que representam a semântica

(contidos nos linkbases XBRL) dos elementos definidos no esquema XBRL, apresenta-se

uma consulta considerando o label - um nome legível que corresponde ao nome de um

elemento, único em toda a taxonomia (U.S. SECURITIES AND EXCHANGE

COMMISSION, 2010) - para representar o elemento us-gaap:AccountsPayableCurrent. As

Figuras 24 e 25 ilustram a mesma consulta de duas formas distintas. A primeira, define o

elemento us-gaap:AccountsPayableCurrent contido no XBRL Schema (documento XML que

especifica todos os elementos de uma taxonomia XBRL, conforme discutido na Seção 2.3) e a

segunda por meio de um label (i.e. Accounts Payable, Current) contido no linkbase label.

69

Figura 24 - Consulta forense pelo elemento "us-gaap:AccountsPayableCurrent"

Figura 25 - Consulta forense pelo linkbase label "Accounts Payable, Current"

5.2 BANCO DE DADOS RELACIONAL

Para realizar a carga no XBRL Abstract Model Database (Anexo B) foi feito um

processo de extração dos dados nos documentos XBRL, ilustrado na Figura 26. Os

documentos XBRL foram carregados no Arelle (ARELLE, 2014a), uma ferramenta para

manipulação de documentos XBRL e cuja plataforma é de código aberto e gratuito. Os dados

de interesse (i.e. elementos, período, descrição do documento e valores) foram exportados

para uma planilha Excel e extraídos para o banco de dados por meio de um código java. Ao

final desse processamento, foram armazenados 5664 registros financeiros no repositório

relacional, sendo 2320 registros pertencentes ao Facebook. O XBRL Abstract Model

70

Database foi construído no SGDB MySql (Oracle Corporation, 2014), cujo critério de escolha

baseou-se na sua licença gratuita e código aberto.

Figura 26 - Processamento ETL utilizado neste trabalho

As Figuras 27 e 28 apresentam, respectivamente, os resultados obtidos com as

utilização do XBRL Abstract Model Database, para ambas as instruções do operador

FirstDigit: serialized e null. A diferença entre esta consulta em banco de dados XML e

relacional é com relação ao tempo de execução da consulta que foi de 828 milésimos de

segundo, com os mesmos 853 dígitos na análise.

Figura 27 - Uso do operador FirstDigit, com a instrução serialized, na base relacional

Figura 28 - Uso do operador FirstDigit, com a instrução null, na base relacional

71

Seguindo o mesmo princípio da contabilometria que sugere o uso de um conjunto de

modelos probabilísticos (conforme descrito na Seção 5.1 deste capítulo), nas Figuras 29 e 30 é

apresentado, respectivamente, o uso do operador ZTest com FirstDigit, e ChiSquaredTest com

FirstDigit. O tempo de execução observado na primeira consulta é de 842 milésimos e na

segunda, 776 milésimos.

Figura 29 - Aplicação do ZTest em conjunto com o FirstDigit

Figura 30 - Aplicação do ChiSquaredTest em conjunto com o FirstDigit

Como o objetivo de avaliar o tempo de execução na base de dados relacional, aplicou-

se o operador EmpiricalRule sobre os dados relacionais manteve a mesma análise observada

sobre a base XML, entretanto o tempo de execução foi 2,4 segundos. A Figura 31 ilustra parte

do resultado obtido.

72

Figura 31 - Aplicação do operador forense EmpiricalRule especificando todos os elementos

Avaliando as consultas por um elemento específico (us-

gaap:AccountsPayableCurrent) e por seu label, i.e. "Accounts Payable, Current", observou-se o

mesmo resultado com menor tempo de execução, ilustrados nas Figuras 32 e 33.

Figura 32 - Operador EmpiricalRule sobre o elemento "us-gaap:AccountsPayableCurrent"

73

Figura 33 - Consulta forense pelo linkbase label "Accounts Payable, Current"

5.3 AVALIAÇÃO DE DESEMPENHO DO TEMPO DE EXECUÇÃO DAS CONSULTAS

Uma análise do desempenho da LMDQL Forense também foi investigada, para

verificar sobre qual banco de dados as consultas tem melhor atuação. O desempenho é um

atributo importante quando se trata de sistemas OLAP. O computador utilizado para os testes

apresentados a seguir, possui processador Intel(R) Core (TM) i5-3317U CPU @ 1.70GHz

com memória RAM de 8Gb, e o sistema operacional utilizado é de 64bits. Os tempos de

execução (em milissegundos) das consultas forenses são apresentados na Tabela 6, assim

como a diferença percentual dos resultados obtidos. Uma consulta LMDQL Forense com o

operador EmpiricalRule considerando todos os elementos do documento financeiro, em uma

base relacional foi executada em 2.499 milissegundo, e na base XML (documento XBRL

nativo) foi em 4 minutos 24 segundos (ou 236.999 milésimos de segundo), apresentando uma

diferença percentual de 9.383% no tempo de execução. Ao especificar um elemento, em uma

consulta com o operador EmpiricalRule, o tempo para sua execução foi 48 milésimos de

segundo, na base relacional, e 499 milésimos de segundo, na base XML, apresentando uma

diferença percentual de 936,6%. Comportamento semelhante ocorreu quando se utiliza este

mesmo operador (EmpiricalRule) e especifica-se na consulta um dado contido nos linkbases

(i.e. um label), desta forma, sua execução foi de 75 milissegundos, na base relacional, e 1.051

milésimos de segundo, na base XML. Com relação às consultas com o operador FirstDigit, o

tempo de execução para seu processamento foi 828 milissegundos (base relacional), enquanto

na base XML foi de 11.369, tendo uma diferença percentual de 1273,1%. O operador ZTest

teve sua execução em 824 e 12.980 milissegundos, nas base relacional e XML

74

respectivamente, com uma diferença percentual de 1.475,2%. Por fim, o operador

ChiSquaredTest executou a consulta em 776 e 7.942 milésimos de segundo, nas bases

relacional e XML respectivamente, apresentando uma diferença percentual de 923,5%.

Tabela 6 - Tempo de execução da LMDQL Forense nas bases relacional e XML e Diferença Percentual dos resultados

Operadores Forenses BD

Relacional*

BD

XML*

Diferença

Percentual

EmpiricalRule (todos os elementos) 2.499 236.999 9383,8%

EmpiricalRule (Um elemento específico do esquema

XBRL) 48 499 939,6%

EmpiricalRule (um label) 75 1.051 1301,3%

FirstDigit 828 11.369 1273,1%

ZTest 824 12.980 1475,2%

ChiSquaredTest 776 7.942 923,5%

* Milésimos de segundos

A seguir é apresentado um gráfico (Figura 34), baseados nos dados da Tabela 6,

comparando o desempenho (em milissegundos) de cada operador forense nos repositórios

relacional e XML. O eixo do tempo, no gráfico, está em escala logarítmica de base 10, para

melhor representação dos resultados.

75

Figura 34 - Tempo de desempenho dos operadores forenses (em

milissegundos)

76


Nos trabalhos cuja detecção de fraudes não é computadorizada, verifica-se a utilização

conjunta de mais de um cálculo probabilístico, e.g. Lei dos Primeiros Dígitos com Teste Z ou

Teste χ2. Esse comportamento foi contemplado nas consultas realizadas pelos operadores da

LMDQL Forense, um dos requisitos para a definição da linguagem.

Uma característica comum em taxonomias XBRL é a utilização de linkbases para

descrever a semântica dos conceitos financeiros. Nos exemplos apresentados nas Figuras 25 e

33, verifica-se a possibilidade de executar consultas por meio dos labels (rótulos) dos

elementos definido no documento XBRL Schema, considerando a semântica do dado XBRL

na consulta forense. A linguagem LMDQL Forense torna transparente (ao usuário ou analista

forense) tanto o processo de manipulação de componentes necessários para troca do tipo de

banco de dados, quanto a busca pelos dados nos linkbases XBRL, características herdadas da

LMDQL.

O desempenho das consultas forenses sobre o banco de dados relacional obtiveram

melhores resultados, como era de se esperar, já que é de conhecimento na comunidade

acadêmica e no mercado que os SGBD relacionais possuem desempenho superior ao XML

nativo (SILVA, 2010). A diferença percentual entre as consultas LMDQL Forense

apresentados no Exemplo de Aplicação oscilou entre 923,5% e 9383,8%. Esta última

porcentagem caracterizou a diferença percentual entre as consultas efetuadas com o operador

forense EmpiricalRule sobre todos os elementos (Figura 23 e 31), comprovando que a

diferença entre os tempos de execução de uma consulta em ambas as bases, aumenta quando

demanda maiores quantidades de documentos XML. Neste caso, a consulta contabilizou todos

os valores de todos os elementos de todos os relatórios 10-Q, contidos no repositório, para

fazer o cálculo da Regra Empírica (discutida na Seção 2.2.1).

No capítulo seguinte serão abordadas as conclusões finais desta dissertação e

oportunidades de trabalhos futuros.

77

6 CONCLUSÃO

No domínio financeiro, a incidência de fraudes tem aumentado nos últimos anos,

assim como também tem sido crescente a adoção da linguagem XBRL pelo mercado

financeiro, em nível mundial. Esse cenário comprova que trabalhos que promovem a

preservação, coleta, validação, identificação, análise dos dados em documentos formatados

pela tecnologia XBRL, são oportunos. A LMDQL Forense é um meio para aplicação da

contabilidade forense em relatórios financeiros digitais baseados na tecnologia XML (da qual

a XBRL é derivada), estabelecendo uma nova abordagem à auditoria contábil e contabilidade

forense, a qual trata da utilização de recursos computacionais baseadas em consultas OLAP,

para a detecção de fraudes em documentos digitais, por meio da aplicação de cálculos

probabilísticos em uso na contabilidade forense não computadorizada.

Sendo um banco de dados baseado na especificação XBRL 2.1, o XBRL Abstract

Model Database permite a extensão desse repositório a qualquer sistema financeiro baseado

na tecnologia XBRL. Desta forma, trata-se de um repositório que abrange tanto os fatos

financeiros, reportados nas instâncias XBRL, como os relacionamentos padrões (i.e. definidos

nos linkbases presentation, calculation, definition, label e reference) entre os conceitos

especificados no XBRL Schema. Logo, a semântica dos dados financeiros também pode fazer

parte das visões da consulta LMDQL Forense (e.g. o uso de labels, "[element].[Accounts

Payable, Current]", ilustrado na Figura 25 e 33). Outra característica relevante é que a adição,

exclusão ou alteração de um relacionamento estabelecido entre dois ou mais conceitos XBRL,

não implica na modificação da estrutura de tabelas do repositório, limitando-se à manipulação

de alguns registros no SGBD. Isto preserva a sincronização entre o modelo relacional e a

taxonomia XBRL. Também baseado na especificação XBRL Dimension, este repositório

possui características apropriadas para suportar os processamentos analíticos do sistema

LMDQL Forense, o qual também faz uso de tabelas multidimensionais.

A linguagem LMDQL Forense representa uma perspectiva de análise aos contadores

forenses ou auditores contábeis sobre dados XBRL. Mediadora entre a contabilidade forense

não computadorizada e os relatórios financeiros digitais, a LMDQL Forense constitui-se um

facilitador nas análises forenses de documentos XBRL, cujo processamento ocorre em

desempenhos superiores às análises manuais, ou parcialmente computadorizadas. Destacam-

se dois benefícios dessa linguagem de consulta forense: (i) agilidade na detecção de fraude em

grandes quantidades de dados financeiros, o que a depender da quantidade de relatórios

financeiros seria impraticável ou poderia demorar dias, de forma manual, e (ii) aplicação da

78

contabilidade forense por meio de técnicas de detecção de fraude em uso na academia e no

mercado, sendo possível a aplicação simultânea dessas técnicas em um mesmo conjunto de

dados pelos analistas financeiros.

Os Operadores Forenses, que compõem a linguagem LMDQL Forense, são baseados

em quatro cálculos probabilísticos (i.e. Lei de Benford, Regra Empírica, Teste Z e Teste Qui-

Quadrado). Eles apresentam-se adequados à proposta de detecção de fraudes financeiras, pois

segue padrões já estabelecidos na contabilidade forense não computadorizada (HILL, 1998;

FRANCISCHETTI, 2007; LAGIOIA et al.,2011; SILVA JR, 2013; COSTA et al, 2013,

WINTER et al, 2013). Também se mostram adequados à proposta do sistema LMDQL

Forense, que viabiliza a aplicação desses cálculos probabilísticos no contexto

computadorizado através de um sistema OLAP.

É importante destacar a possibilidade da aplicação dos Operadores Forenses de forma

unitária ou conjunta. Por possuir código disponível e livre de licença paga (característica da

LMDQL), é possível a inserção de novos operadores forenses aos já existentes na biblioteca

de operadores LMDQL, e a manipulação dos quatro operadores forenses (i.e. FirstDigit,

ZTest, ChiSquaredTest, EmpiricalRule) para adequação à novos contextos, e.g. a adequação

dos resultados dos operadores forenses à outros dashboard (ou painéis de apresentação de

resultados), comumente utilizado em sistemas de Business Inteligence.

O sistema LMDQL Forense teve seu desenvolvimento baseado em componentes

disponíveis (padrões abertos e gratuitos) à comunidade, i.e. XBRL, MySQL, LMDQL,

mondrian e Arelle. Ele possui características de extensibilidade e personalização em todos os

seus componentes, sendo possível sua manipulação, para atender evoluções tecnológicas ou

algum contexto específico, no repositório relacional, no processo de ETL, nos operadores

forenses, assim como na linguagem LMDQL Forense (desde que obedecendo a especificação

LMDQL). Um processo foi apresentado para guiar a construção do sistema LMDQL Forense,

assim como também poder guiar a extensão dessa ferramenta, por meio de novos operadores

forenses baseados em outras modalidades de análises forenses, tornando a LMDQL Forense

um arcabouço tecnológico para detecção de fraudes financeiras baseado em técnicas

estatístico-probabilísticos, sobre dados XML (e linguagens derivadas, e.g. XBRL) e

relacional.

A LMDQL Forense é acessível a qualquer entidade privada ou governamental, não

havendo problemas de licenças, na sua utilização (XBRL FRAMEWORK, 2014). Ressalta-se a

extensão da LMDQL Forense em outros domínios (i.e. não financeiros), cujos dados estejam

formatados em documentos XML ou em tabelas relacionais, os quais sejam passíveis de

79

análises baseadas em técnicas estatístico-probabilísticas, e.g. bioestatística (AYRES et al.,

2007), geografia e dados sociais (IBGE, 2014), química analítica (UNICAMP, 2006),

psicologia (PASQUALI, 2008), dentre outros.

Com relação ao formato dos dados (i.e. relacional e nativo XBRL), a análise forense

sobre uma base de dados XML permite a preservação da estrutura sintática e semântica dos

documentos XBRL analisados (i.e. instâncias, linkbases e schema), sem a necessidade de

modificá-los para outros formatos de dados (e.g. relacional). No que se refere ao desempenho,

constata-se que os repositórios relacionais são mais eficientes, requisito não funcional (i.e.

desempenho) relevante quando se trata de sistemas OLAP. Contudo, a utilização de uma base

de dados relacional, exige um processo adicional (i.e. ETL), devido à mudança de formato de

XML para relacional, na implementação do sistema.

A Tabela 7 ilustra as contribuições deste trabalho com relação aos trabalhos correlatos

(Seção 3.2), no que se refere a alguns requisitos descritos no objetivo desta dissertação (Seção

1.3 do Capítulo 1). O desenvolvimento do sistema LMDQL Forense possibilitou que fossem

alcançados os objetivos desta dissertação, pois se trata de um sistema computacional open

source e livre de licença paga (XBRL FRAMEWORK, 2014), permite a análise de dados

financeiros para detecção de fraude, realiza consulta sobre dados XBRL, possui uma

linguagem de consulta para análise forense de dados financeiros, faz análise forense

considerando a semântica dos dados financeiros (i.e. linkbase), faz análise forense com

aplicação de cálculos probabilísticos, possibilita a aplicação conjunta de cálculos

probabilísticos, é uma ferramenta extensível a novos modelos de detecção de fraudes e faz

aplicação de análises em tempo real.

80

Tabela 7 - Comparativo entre os Sistemas de Análise Forense investigados e o sistema LMDQL Forense

Durtschi

et al.

(2004)

Nigrini

(2014)

Fin

Dynamics

(2014)

Kovach

(2011)

Kirkosa

et al.

(2007)

Choi et

al.

(2009)

Seo et

al.

(2009)

Flores

et al.

(2012)

Winter

et al.

(2012)

Khan

et al.

(2012)

Chai et

al.

(2006)

Sherly &

Nedun-

chezhian

(2010)

Zhang

et al.

(2009)

Panigrahi

(2011)

LMDQL

Forense

Open Source e livre

de licença paga Não Não Não Não Não

Não se

aplica Não Não

Não se

aplica

Não se

aplica

Não se

aplica

Não

Informa

Não se

aplica

Não se

aplica Sim

Detecção de fraude Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim Sim

Dados XBRL Não Não Não Não Não Não Não Não Não Não Não Não Não Não Sim

Linguagem de

Consulta Não Não Não Não Não Não Não Não Não Não Não Não Não Não Sim

Semântica dos

dados (Linkbase) Não Não Não Não Não Não Não Não Não Não Não Não Não Não Sim

Implementa um

Sistema

computacional

Parcial-

mente

(macro)

Parcial-

mente

(macros)

Parcial-

mente

(macros)

Parcial-

mente

(macros)

Sim Não Sim Sim Não Não Não Sim Não Não Sim

Cálculos

probabilísticos Sim Sim Não Sim Não Não Não Não Sim Não Não Não Não Sim Sim

81

Durtschi

et al.

(2004)

Nigrini

(2014)

Fin

Dynamics

(2014)

Kovach

(2011)

Kirkosa

et al.

(2007)

Choi et

al.

(2009)

Seo et

al.

(2009)

Flores

et al.

(2012)

Winter

et al.

(2012)

Khan

et al.

(2012)

Chai et

al.

(2006)

Sherly &

Nedun-

chezhian

(2010)

Zhang

et al.

(2009)

Panigrahi

(2011)

LMDQL

Forense

Aplicação conjunta

de cálculos

probabilísticos

Não Não Não Sim Não Não Não Não Sim Não Não Não Não Sim Sim

Extensível à novos

modelos forenses Sim Sim Sim Sim Não Não Sim Não Sim Não Não Não Não Sim Sim

Tempo Real Não Não Não Sim Sim Não Não Não Não Não Não Não Não Não Sim

82

Em seguida, finalizando a conclusão, são apresentados os trabalhos publicados

em conferências científicas e as oportunidades de trabalhos futuros.

6.1 TRABALHOS COMPLETOS PUBLICADOS EM ANAIS DE CONGRESSOS

Durante o desenvolvimento deste trabalho, artigos científicos foram elaborados e

submetidos em conferências científicas, com o objetivo de validar na comunidade

acadêmica as contribuições. Desta forma, as ideias propostas puderam ser avaliadas pela

comunidade científica, contribuindo de maneira importante para o desenvolvimento

desta dissertação. A aceitação ocorreu no congresso CONTECSI, na Universidade de

São Paulo em São Paulo, no eDOC, na University of Ulm na Alemanha, e na ICWI

(www/Internet), na cidade de Porto em Portugal. As referências aos artigos são

apresentadas a seguir:

• SILVA, M.A.; SILVA, P.C. ; CAMPOS, J.A. XBRL GIS - Integrating

Geographic Information in XBRL Documents. In: INTERNATIONAL

CONFERENCE ON INFORMATION SYSTEMS AND TECHNOLOGY

MANAGEMENT – CONTECSI, 10., 2013, São Paulo University, Brazil.

Proceedings… 2013.

• SILVA, M.A.; SILVA, P.C. Analytical Processing for Forensic Analysis. In:

INTERNATIONAL WORKSHOP ON COMPLIANCE, EVOLUTION AND

SECURITY IN CROSS-ORGANIZATIONAL PROCESSES (CESCOP 2014),

1., IEEE INTERNATIONAL EDOC CONFERENCE 2014, Workshops

(EDOCW'14). 18., 2014, Ulm, Germany. Proceedings… 2014.

• SILVA, M.A.; SILVA, P.C. Financial Forensic Analysis.13th IADIS

International Conference WWW/INTERNET (ICWI), 13., 2014, Porto,

Portugal. Proceedings… 2014.

6.2 TRABALHOS FUTUROS

No decorrer das investigações dos trabalhos correlatos outros cálculos

probabilísticos foram encontrados, e.g. P-Rule (ABBOTT, 2011), Belief Function

(DENCEUX, 2011), T Test (HARVARD UNIVERSITY, 2014), a teoria matemática

Dempster-Shafer, Distribuição Log-Uniform e Log-Pearson Type IV (descritos na Seção

83

3.2), os quais são aplicados para detecção de dados anômalos (i.e. dados com suspeitas

de fraude) na investigação forense. A incorporação desses cálculos probabilísticos à

LMDQL Forense fomenta novas investigações.

Os variados modelos para detecção de fraude, investigados nos trabalhos

correlatos (Seção 3.2 no Capítulo 3), e.g. árvores de decisão ISGNT e SGNT,

algoritmos de pontuação difusa (fuzzy), redes neurais, redes bayesianas, algoritmo

HMM , reconhecimento de padrões K-means, também foram identificadas como

oportunidades para investigações futuras. Muito embora esses modelos não entrem no

escopo desta dissertação, por ser baseado em lógicas utilizadas na computação e não em

cálculos probabilísticos, podem contribuir com a ampliação da LMDQL Forense,

incorporando novas modalidades de análises forenses baseados em algoritmos

computacionais capazes de detectar anomalias em dados financeiros, promovendo novas

perspectivas de análises aos auditores financeiros e contabilistas forenses.

Outra oportunidade de trabalho futuro é a integração dos operadores forenses

LMDQL com Geographic Information Systems (GIS), verificando a possibilidade de

análises forenses financeiras baseados em informações geográficas contidos nos

documentos XBRL. Em Silva et al. (2013) é proposto a integração da XBRL com a

Geography Markup Language (GML). Esta abordagem transforma a LMDQL em uma

ferramenta de processamento analítico online espacial (SOLAP).

84

REFERÊNCIAS

ABBOTT, M. G. The P-value decision rule for hypothesis tests. 2011. Disponível em: <http://qed.econ.queensu.ca/walras/custom/300/351A/addnot08.pdf>. Acesso em: 1 set. 2014.

ACCESSDATA GROUP INC. Forensic Toolkit® 5.4 Download. 2014. Disponível em: <http://www.accessdata.com/support/ftk-download-page>. Acesso em: 17 ago. 2014.

ACL SERVICES LTD. [Portal]. 2014. Disponível em: <http://www.acl.com/>. Acesso em: 29 jul. 2014.

ACM, Inc. 2014. [Portal]. Disponível em: <http://dl.acm.org/>. Acesso em: 2 dez. 2013.

ARDENNE, R. Interface Discoverable Taxonomy Set. Disponível em: <http://www.batavia-xbrl.com/javadoc/bxjl.1/com/batavia/xbrl/taxonomy/ DiscoverableTaxonomySet.html>. Acesso em: 28 ago. 2014.

ARELLE. Arelle Open Source XBRL Plataform. 2014a Disponível em: <http://arelle.org/>. Acesso em: 12 jan. 2014.

ARELLE. The XBRL Database. 2014b. Disponível em: <http://arelle.org/documentation/xbrl-database/#XBRLUSPublicDatabase>. Acesso em: 12 ago. 2014.

ARELLE . The XBRL Database. 2014c. Disponível em: <http://arelle.org/documentation/xbrl-database/#DPMDatabase>. Acesso em: 12 ago. 2014.

ASSOCIATION OF CHIEF POLICE OFFICERS. Good Practice Guide for Computer-Based Electronic Evidence. 2011. Disponível em: <http://www.7safe.com/electronic_evidence/ ACPO_guidelines_computer_evidence.pdf>. Acesso em: 30 jul. 2014.

AYRES, M. et al. BioEstat: aplicações estatísticas nas áreas das ciências bio-médicas. 2007. Disponível em: <http://dv.fosjc.unesp.br/ivan/downloads/Bioestat_5*Manual-BioEstat_5.pdf>. Acesso em: 8 set. 2014.

BAI, Z. ; SAKAUE, M. ; TAKEDA, F. The Impact of XBRL Adoption on the Information Environment in Japan . Tokyo : University of Tokyo, 2012. Disponível em: <http://ipr-ctr.t.u-tokyo.ac.jp/jp/libraries/dp/DP5.pdf>.Acesso em: 31 out. 2013.

BLANCO, M. ; GINOVART, M. How to Introduce Historically the Normal Distribution in Engineering Education: a Classroom Experiment. International Journal of Mathematical Education in Science and Technology, v. 41, is. 1, p. 19-30, 2010.

BRANCO JR, T. Um modelo de processo para estruturação do anteprojeto de sistemas de informação. Uma aplicação na Prefeitura Municipal de Salvador. 2013. Dissertação. (Mestrado em Sistemas e Computação)- UNFACS Universidade Salvador, Salvador, 2013.

85

CASEWARE ANALYTICS. IDEA Data Analysis. 2014. Disponível em: <http://www.casewareanalytics.com/products/idea-data-analysis/>. Acesso em: 4 set. 2013.

CHAI, W. ; HOOGS, B.K. ; VERSCHUEREN, B.T. Fuzzy Ranking of Financial Statements for Fraud Detection. Fuzzy Systems. In: IEEE INTERNATIONAL CONFERENCE, 2006. Proceedings… 2006. Doi: 10.1109/FUZZY.2006.1681708. Disponível em: <http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=1681708&isnumber=35437>. Acesso em: 2 mar. 2014.

CHARLES STURT UNIVERSITY.Critical scores - What does zα, zα/2, tα and tα/2 mean? 2010. Disponível em: <http://www.csu.edu.au/division/studserv/my-studies/maths/docs/6-z-and-t-scores.pdf>. Acesso em: 2 jun. 2014.

CHAUDHURI, S. ; DAYAY, U. Data warehouse and OLAP for decision support. In: INTERNATIONAL CONFERENCE ON VERY LARGE DATA BASE, 22., Proceedings… Bombay,1996, p. 295-30.

CHENG, P. ; QIULI, T. Design and Realization of College Finance OLAP Analyzer Based on MDX. In: INTERNATIONAL CONGRESS ON COMPUTER APPLICATIONS AND COMPUTATIONAL SCIENCE ADVANCES IN INTELLIGENT AND SOFT COMPUTING, 2., 2012. Proceedings… 2012. Disponível em: <http://link.springer.com/chapter/10.1007%2F978-3-642-28314-7_11#page-1>. Acesso em: 24 jul. 2014.

CHENG, J. Cheng's Bayesian Belief Network Software. 2001.Disponível em: <http://webdocs.cs.ualberta.ca/~jcheng/bnsoft.htm>. Acesso em: 28 jul. 2014.

CHOI, J. ; CHOI, K. ; LEE, S. Evidence Investigation Methodologies for Detecting Financial Fraud Based on Forensic Accounting. Computer Science and its Applications, 2009. CSA '09. In: INTERNATIONAL CONFERENCE, 2., 2009. Proceedings… 2009. Doi: 10.1109/CSA.2009.5404202. Disponível em: <http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5404202&isnumber=5404169>. Acesso em: 8 jan. 2014.

COLLI, M. Cibercrimes: limites e perspectivas à investigação policial de crimes cibernéticos. São Paulo: Juruá, 2010.

COHN, M. SEC Refocuses on Accounting Fraud. 2013.Disponível em: <http://www.accountingtoday.com/news/SEC-Refocuses-Accounting-Fraud-66893-1.html>. Acesso em: 2 jun. 2013.

CONTI, F. Biometria Qui Quadrado. [S.l.]: Laboratório de Informática - ICB – UFPA, 2009. Disponível em: <http://www.ufpa.br/dicas/biome/biopdf/bioqui.pdf>. Acesso em: 26 jan. 2014.

COSTA, M. Computação forense: a análise forense no contexto da resposta a acidentes computacionais.3ed. [S.l.]: Millenium, 2011.

COSTA, J.; TRAVASSOS, S. ; SANTOS, J. Application of newcomb-benford law in accounting audit: a bibliometric analysis in the period from 1988 to 2011. In: CONTECSI– FEA, 10., 2011, São Paulo. Anais… São Paulo: USP, 2011.

86

DASGUPTA, D. An Overview of Artificial Immune Systems and Their Applications. In: DASGUPTA, D. (Ed.). Artificial immune systems and their applications. Berlin: Springer-Verlag, 1998. p.3-21.

DENCEUX, T. Introduction to belief functions. Université de Technologie de Compiègne. 2011. Disponível em: <http://www.gipsa-lab.grenoble-inp.fr/summerschool/bfta/includes/Denoeux_introduction_belief_functions.pdf>. Acesso em: 1 set. 2014.

DING, C. ; HE, X. K-means Clustering via Principal Component Analysis. In: INT'L CONF. MACHINE LEARNING (ICML 2004), 2004. Proceedings… 2004. Disponível em: < http://ranger.uta.edu/~chqding/papers/KmeansPCA1.pdf>. Acesso em: 4 set. 2014.

DUCKDUCKGO. [Portal]. 2014. Disponível em: <https://duckduckgo.com>. Acesso em: 2 mar. 2014.

DURTSCHI, C. ; HILLISON,W. ; PACINI, C. The Effective Use of Benford's Law to Assist In Detecting Fraud in Accounting Data. Journal of Forensic Accounting, p. 17-34, 2004. Disponível em: <http://faculty.usfsp.edu/gkearns/Articles_Fraud/Benford AnalysisArticle.pdf>. Acesso em: 16 jan. 2014.

ECK, D. ; RYAN, J. Mathbeans Project - The Chi Square Statistic. Department of Mathematics and Computer Science, Hobart and William Smith Colleges. 2012. Disponível em: <http://math.hws.edu/javamath/ryan/ChiSquare.html>. Acesso em: 19 jan. 2014.

EDDY, S. R. What is a hidden Markov model? Nature Biotechnology, 2004. Doi: 10.1038/ nbt 1004-1315. Disponível em: <http://www.nature.com/nbt/journal/v22/n10/full/nbt1004-1315.html>. Acesso em: 6 mar. 2014.

EIOPA. [Portal]. 2014. Disponível em: <https://eiopa.europa.eu>. Acesso em: 4 ago. 2014.

ELEUTÉRIO, P. M. ; MACHADO, M. P. Desvendando a computação forense. [S.l.]: Nova Tec. Elsevier, 2011. ISBN: 8575222600, 9788575222607. Disponível em: <http://www.novateceditora.com.br/livros/computacaoforense/capitulo9788575222607.pdf>. Acesso em: 30 maio 2013.

EUROPEAN BANKING AUTHORITY (EBA). Data Point Model and Taxonomies for Implementing Technical Standard (ITS) on Supervisory Reporting. 2014. Disponível em: <http://www.eba.europa.eu/regulation-and-policy/supervisory-reporting/implementing-technical-standard-on-supervisory-reporting-data-point-model-/-/regulatory-activity/consultation-paper>. Acesso em: 16 ago. 2014.

EXIST SOLUTIONS. [Portal]. 2014. Disponível em: <http://www.exist-db.org/>. Acesso em: 8 jun. 2014.

FELDEN, C. Characteristics of XBRL adoption in Germany. Journal of Management Control, v.22, n. 2, p. 161-186, Springer, 2011.. Disponível em: <http://link.springer.com/article/10.1007%2Fs00187-011-0134-7>. Acesso em: 31 maio 2013.

87

FLORES, D. ; ANGELOPOULOU, O. ; SELF, R. Combining Digital Forensic Practices and Database Analysis as an Anti-Money Laundering Strategy for Financial Institutions. In: EMERGING INTELLIGENT DATA AND WEB TECHNOLOGIES (EIDWT), 2012 INTERNATIONAL CONFERENCE, 3., 2012. Proceedings… 2012. Doi: 10.1109/EIDWT.2012.22. Disponível em: <http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6354745&isnumber=6354713>. Acesso: 8 jan. 2014.

FISCHER. Evolution and Future Trends for XBRL Development. 2013. Disponível em: <http://arelle.org/wordpress/wp-content/uploads/downloads/2013/04/KU% 202013%20Evolution%20and%20Future.pdf>. Acesso em: 4 set. 2014.

FRANCISCHETTI, C. E. Aplicação da Lei dos Números Anômalos ou Lei de NewComb-Benford para o controle das demonstrações financeiras das organizações. 2007. Dissertação (Mestrado)- Universidade Metodista de Piracicaba - Faculdade de Gestão e Negócios, 2007. Disponível em: <https://www.unimep.br/phpg/bibdig/pdfs/2006/CYYCKXQDWKIK.pdf>. Acesso em: maio de 2013.

FREE SOFTWARE FOUNDATION. [Portal]. 2014. Disponível em: <http://www.fsf.org/>. Acesso em: 17 ago. 2014.

FREITAS, C. O. ; ROCHA, A. Mensagem da Coordenação do WFC. In: SbSEG, 12., 2012. Anais... 2012. Disponível em:<http://sbseg2012.ppgia.pucpr.br/@docs/SBSeg2012Anais.pdf>. Acesso em: 19 jun. 2013.

GATEN, T. Z-tests and T-tests. Leicester: University of Leicester. Department of Biology, 2000. Disponível em: <http://www.le.ac.uk/bl/gat/virtualfc/Stats/ttest.html>. Acesso em: 19 jan. 2014.

GEHRKE, J. ; GANTI, V. ; RAMAKRISHNAN, R. BOAT—optimistic decision tree construction. In: SIGMOD '99. ACM SIGMOD INTERNATIONAL CONFERENCE ON MANAGEMENT OF DATA, 1999. Proceedings… 1999. Disponível em: <http://dl.acm.org/citation.cfm?id=304197>. Acesso em: 31 jul. 2014.

GERÔNIMO, L. et al. Governança corporativa: uma abordagem segundo a Lei Sarbanes-Oxley. RUC – Revista Unieuro de Contabilidade, Brasília, 2009.

GOLDWATER, E. Using excel for statistical data analysis - caveats. Massachusetts: University of Massachusetts School of Public Health, 2007. Disponível em: <http://people.umass.edu/evagold/excel.html>. Acesso em: 16 ago. 2014.

GOOGLE. [Portal]. 2014. Disponível em:<https://www.google.com.br>. Acesso em: 2 mar. 2014.

GROBLER, C.; LOUWRENS, C. ; VON SOLMS, S. A framework to guide the implementation of Proactive Digital Forensics in Organizations. In: INTERNATIONAL CONFERENCE ON AVAILABILITY, RELIABILITY AND SECURITY. 2010. Proceedings… Krakow, Poland, 2010.

88

HARVARD UNIVERSITY. What is a t-test? 2014. Disponível em: <http://isites.harvard.edu/fs/docs/icb.topic241760.files/Presentation_3-_t_test.ppt>. Acesso em: 1 set. 2014.

HEINRICH, J. A guide to the Pearson type IV distribution. Pennsylvania: University of Pennsylvania, CDF note 6820. 2004 Disponível em: <http://www-cdf.fnal.gov/physics/statistics/notes/cdf6820_pearson4.pdf>. Acesso em: 30 ago. 2014.

HILL, T.P. The first digit phenomenon. American Scientist, 1998. ISSN: 86:358.

HOGAN, C. E. et al.Financial Statement Fraud: Insights from the Academic Literature. AUDITING: A Journal of Practice & Theory, v. 27, n. 2, p. 231-252, nov. 2008. Disponível em: <http://aaahq.org/audit/Pubs/Audrep/07summer/team08.pdf>. Acesso em: 31 maio 2013.

HORMOZI, E. et al. Accuracy evaluation of a credit card fraud detection system on Hadoop MapReduce. In: INFORMATION AND KNOWLEDGE TECHNOLOGY (IKT), 2013 5TH CONFERENCE, 2013. Proceedings… 2013. Doi: 10.1109/IKT.2013.6620034. Disponível em : <http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6620034& isnumber=6620027>. Acesso em: 2 mar. 2014.

IADIS DIGITAL LIBRARY. International Association for Development of the Information Society. [Portal]. 2014. Disponível em: <http://www.iadisportal.org/digital-library>. Acesso em: 5 jun. 2014.

IBGE. [Portal]. 2014. Disponível em: <http://www.ibge.gov.br/>. Acesso em: 8 set. 2014.

IEEEXPLORE DIGITAL LIBRARY. [Portal]. 2014. Disponível em: <http://ieeexplore.ieee.org/ Xplore/home.jsp>. Acesso em: 2 mar. 2014.

IPHIX LLC. [Portal]. 2014. Disponível em: <http://iphix.net/>. Acesso em: 17 ago. 2014.

IFRS. XQRT Paper. 2012. Disponível em: <http://www.ifrs.org/Meetings/MeetingDocs/IASB/2012/XBRLOctober/9a)%20IFRS%20Taxonomy%20-%20the%20data%20point%20model-XQRT.pdf>. Acesso em: 16 ago. 2014.

INSTITUTO GAUSS DE MATEMÁTICA. Distribuição Normal. 2010. Disponível em: <http://www.igm.mat.br/aplicativos/index.php?option=com_content&view=article&id=340:intro&catid=61:distnormal>. Acesso em: 23 fev. 2013.

KHAN, A. ; SINGH, T. ; SINHAL, A. Implement credit card fraudulent detection system using observation probabilistic in hidden Markov model. In: ENGINEERING (NUICONE), 2012 NIRMA UNIVERSITY INTERNATIONAL CONFERENCE, 2012. Proceedings… 2012. Doi: 10.1109/NUICONE.2012.6493206. Disponível em: <http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6493206&isnumber=6493172>. Acesso em: 2 mar. 2014.

KIM, A. et al. Fraud and Financial Crime Detection Model Using Malware Forensics. Multimedia Tools and Applications, v.68, n.2, p. 479-496, jan. 2014. Disponível em:

89

<http://link.springer.com/article/10.1007%2Fs11042-013-1410-3#page-1>. Acesso em: 24 jul. 2014.

KIRKOSA, E.; SPATHISB, C. ; MANOLOPOULOSC, Y. Data Mining techniques for the detection of fraudulent financial statements. Journal Expert Systems with Applications: An International Journal archive, v. 32, n.4, p.9995-1003, may 2007. Elsevier. DOI: 10.1016/j.eswa.2006.02.016. Disponível em: <http://dl.acm.org/citation.cfm?id=1222770>. Acesso em: 28 jul. 2014.

LAGIOIA, U. et al. Aplicabilidade da Lei de Newcomb-Benford nas fiscalizações do imposto sobre serviços - ISS. Revista Contabilidade & Finanças, v.22, n.56, p.203-224, 2011. Disponível em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S151970772011 000200006&lng=pt&tlng=pt. 10.1590/S1519-70772011000200006>. Acesso em: 20 jan. 2014.

LENARCIC, A. ; STANLEY, K. Statistics 104. Harvard University, 2008. Disponível em: <http://isites.harvard.edu/fs/docs/icb.topic481506.files/Section62008MidtermReview.pdf>. Acesso em: 17 jan. 2014.

LI, A.; YONG, H.; LI, Z. Iteration Learning SGNN. Neural Networks and Brain, 2005. In: ICNN&B '05. INTERNATIONAL CONFERENCE, 2005. Proceedings… 2005. doi: 10.1109/ICNNB.2005.1614998.

LI, O.; NI, C. ; LIN, Y. Does XBRL Adoption Reduce the Cost of Equity Capital? National University of Singapore. 2013.Diponsível em: <http://dx.doi.org/10.2139/ssrn.2131001>. Acesso em: 31maio 2013.

MATTES, I.V. ; PETRI, S. M. Accounting Information Security: Procedures for the Preparation of a Security Policy Based on ISO 27001 and ISO 27002. In: INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS AND TECHNOLOGY MANAGEMENT – CONTECSI, 10., 2013, São Paulo, Brazil. Anais… 2013.

MCCULLOUGH, B. ; WILSONB, B. On the accuracy of statistical procedures in Microsoft Excel 2003. 2005. Disponível em: <http://www.sciencedirect.com/science/article/pii/S0167947304002026>. Acesso em: 16 ago. 2014.

MCKEMMISH, R. What is Forensic Computing? Trends & Issues in crime and criminal justice. Australian Institute of Criminology, n. 118, 1999. ISSN 0817-8542.

MENEGUSSI, E. ; IANESKO, J. A Importância da Auditoria Contábil na Prevenção e Combates aos Erros e às Fraudes na Organizações. Revista Eletrônica Lato Sensu – UNICENTRO , ed. 6, 2008. ISSN: 1980-6116.

MICROSOFT. MDX Language Reference (MDX). 2008. Disponível em: <http://msdn. microsoft.com/pt-br/library/ms145595.aspx>. Acesso em: 28 jun. 2013.

MICROSOFT. About macros in Excel. 2014. Disponível em: <http://office.microsoft.com/en-us/excel-help/about-macros-in-excel-HP005201201.aspx>. Acesso em: 29 jul. 2014.

90

MONDRIAN. [Portal]. 2014. Disponível em: <http://mondrian.pentaho.org>. Acesso em: 17 jul. 2014.

MORILLA, V. Data Point Modelling (DPM) Methodology. 2014. Disponível em: <https://docs.google.com/document/d/12sIqru0nVI4l8KcvExdnNLLSTTmB-MSrzlGaFNNy2Vc/edit>. Acesso em: 16 de agosto de 2014.

NIGRINI, M. Benford's Law Excel 2007/2010 software. 2009. Disponível em: <http://www.nigrini.com/datas_software.htm>. Acesso em: 29 jul. 2014.

NIGRINI, M. ; WELLS, J. Benford's Law: Applications for Forensic Accounting, Auditing, and Fraud Detection. [S.l.]: Wiley Corporate F&A, 2012.

NIGRINI, M. Excel Templates. 2014. Disponível em: <http://www.nigrini.com/ForensicAnalytics/NigriniCycle.xlsx>. Acesso em: 24 de julho de 2014.

ODUEKE, A. ; WEIR, G. Triage in Forensic Accounting using Zipf's Law. Department of Computer and Information Sciences, University of Strathclyde, Glasgow. Issues in Cybercrime, Security and Digtal Forensics. [S.l.]: University of Strathclyde Publishing, 2012. Disponível em: <http://www.cis.strath.ac.uk/cis/research/publications/papers/strath_cis_publication_2590.pdf>. Acesso em: 19 jan. 2014.

OPEN SOURCE INITIATIVE. [Portal]. 2014. Disponível em: <http://opensource.org/>. Acesso em: 17 ago. 2014.

ORACLE CORPORATION. SGBD MySQL. 2014. Disponível em: <http://www.mysql.com/>. Acesso em: 12 jun. 2014.

ORLOFF, J. Null Hypothesis Signicance Testing (NHST) Rejection regions, Z-tests. 2013. Disponível em: <http://web.mit.edu/jorloff/www/18.05/pdf/class22-prep.pdf >. Acesso em: 20 de janeiro de 2014.

OXFORD REFERENCE. Z Test. 2014. Diponível em: <http://www.oxfordreference.com/ view/10.1093/oi/authority.20110803133548456>. Acesso em: 17 jan. 2014.

PANIGRAHI, P. K. A Framework for Discovering Internal Financial Fraud Using Analytics. In: COMMUNICATION SYSTEMS AND NETWORK TECHNOLOGIES (CSNT), 2011 INTERNATIONAL CONFERENCE, 2011. Proceedings… 2011. Doi: 10.1109/CSNT.2011.74. Disponível em: <http://ieeexplore.ieee.org/stamp/ stamp.jsp?tp=&arnumber=5966462&isnumber=5966391>. Acesso em: 2 mar. 2014.

PARADA, A. Contabilidade Forense. 2013. Disponível em: <http://www.cosif.com.br/ mostra.asp?arquivo=forense02-introduc>. Acesso em: 23 abr. 2013.

PASQUALI, L. Psicometria. 2008. Disponível em: <http://www.revistas.usp.br/reeusp/ article/download/40416/43399>. Acesso em: 8 set. 2014.

PEARL, J. Bayesian networks. [S.l.]: Department of Statistics, UCLA, 2011. Disponível em: <https://escholarship.org/uc/item/53n4f34m>. Acesso em: 2 ago. 2014.

91

PENG, E. ; SHON, J. ; TAN, C. XBRL and Accruals: Empirical Evidence from China. [S.l.]: Wiley Online Library, 2011. Disponível em: <http://onlinelibrary.wiley.com/doi/10.1111/j.1911-3838.2011.00021.x/abstract>. Acesso em: 31 maio 2013.

PWC. Know Your Customer: Quick Reference Guide. 2013. Disponível em: <http://www.pwc.com/en_gx/gx/financial-services/assets/pwc-kyc-anti-money-laundering-guide-2013.pdf>. Acesso em: 16 ago. 2014.

RAKOTOMALALA, R. Sipina Overview. Lumière Lyon: Département informatique et statistique, Université Lumière Lyon 2, Lyon, France, 2014. Disponível em: <http://eric.univ-lyon2.fr/~ricco/sipina.html>. Acesso em: 28 jul. 2014.

REPORTING STANDARD. The XBRL Database. 2014. Diponível em: <http://www.reportingstandard.com/index.php/en/productos/xbrl-database>. Acesso em: 4 ago. 2014.

RICCIO, E. L. ; SILVA, P. C. ; MARICI, G. XBRL: a divulgação de informações empresariais. Rio de Janeiro: Ciência Moderna, 2005. ISBN: 8573934719.

ROSENHOLTZ, R. Statistical Methods in Brain and Cognitive Science. Spring 2004. (MIT OpenCourseWare: Massachusetts Institute of Technology), License: Creative Commons BY-NC-SA., 2004. Disponível em: <http://ocw.mit.edu/courses/brain-and-cognitive-sciences/9-07-statistical-methods-in-brain-and-cognitive-science-spring-2004/lecture-notes/17_chi_sq_tests.pdf >. Acesso em: 28 jul. 2014.

RUDIN, C.Prediction: Machine Learning and Statistics. Springer 2012. (MIT OpenCourseWare: Massachusetts Institute of Technology), License: Creative Commons BY-NC-SA, 2012. Disponível em: < http://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/lecture-notes/MIT15_097S12_lec08.pdf >. Acesso em: 28 jul. 2014.

SANTOS ; GRATERON. Contabilidade criativa e responsabilidade dos auditores. 2003. Disponível em: < http://www.scielo.br/scielo.php?script=sci_arttext& pid=S1519-70772003000200001>. Acesso em: 3 set. 2014.

SCHOLAR GOOGLE. [Postal]. 2011 Disponível em: <http://scholar.google.com.br>. Acesso em: 2 mar. 2011.

SEO, K. et al. Research about extracting and analyzing accounting data of company to detect financial fraud. INTELLIGENCE AND SECURITY INFORMATICS, 2009. ISI '09. IEEE INTERNATIONAL CONFERENCE, 2009. Proceedings… 2009. Doi: 10.1109/ISI.2009.5137302. Disponível em:<http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5137302&isnumber=5137253>. Acesso: 8 fev. 2014.

SEUNG, S. Introduction to Neural Networks. Spring 2005. (MIT OpenCourseWare: Massachusetts Institute of Technology), License: Creative Commons BY-NC-SA, 2005. Disponível em: <http://ocw.mit.edu/courses/brain-and-cognitive-sciences/9-641j-introduction-to-neural-networks-spring-2005>. Acesso em: 28 jul. 2014.

92

SILVA, P. C. ; TEIXEIRA, C. C. Informações Financeiras como Hiperdocumentos na Web. In: BRAZILIAN SYMPOSIUM ON MULTIMEDIA AND HYPERMEDIA SYSTEMS - SBMIDIA, BRAZILIAN SYMPOSIUM ON MULTIMEDIA AND HYPERMEDIA SYSTEMS – SBMIDIA, 8., 2002, Fortaleza. Anais... Fortaleza: SBC, 2002. p. 356-364.

SILVA, P. C ; TEIXEIRA, C. C. A Gestão da Informação Financeira do Banco Central do Brasil Apoiada por XBRL. In: WORKSHOP DE TECNOLOGIA DA INFORMAÇÃO E GERÊNCIA DO CONHECIMENTO, 1., 2003, Fortaleza. Anais... 2003.

SILVA, P.C. ; SULAIMAN, A. XBRL, regras de negócios e relatórios financeiros. In: KMBRASIL 2003, 2003, São Paulo. Anais... 2003.

SILVA, P. C. Explorando linguagens de marcação para representação de relatórios de informações financeiras. 2007. Dissertação (Mestrado)- UNIFACS Universidade Salvador, 2007. Disponível em: < http://tede.unifacs.br/tde_arquivos/2/TDE-2007-07-26T170817Z-94/Publico/Dissertacao%20Paulo%20Caetano.pdf>. Acesso em: 10 jan. 2013.

SILVA, P.C. et al. XBRL: conceitos e aplicações. Rio de Janeiro: Ciência Moderna, 2006. ISBN: 8573934999.

SILVA, P. C. ; TIMES, V.C. LMDQL: Link-based and multidimensional query language. In: DOLAP 09 - ACM TWELFTH INTERNATIONAL WORKSHOP ON DATA WAREHOUSING AND OLAP. ACM TWELFTH INTERNATIONAL WORKSHOP ON DATA WAREHOUSING AND OLAP, 2009, Hong Kong. Proceedings…2009.

SILVA, P. C. Análise multidimensional de dados XML baseados em links: modelos e linguagens. 2010. Tese (Doutorado)- Centro de Informática, Universidade Federal de Pernambuco, Recife, PE, Brasil, 2010. Disponível em: <http://xbrlframework.files.wordpress.com/2014/02/tese-xldm-e-lmdql.pdf>. Acesso em: 17 jul. 2010.

SILVA, P. C.; SANTOS, M. S. ; TIMES,V.C. XLPath: a XML Linking Path Language. In: IADIS INTERNATIONAL CONFERENCE ON WWW/INTERNET 2010. TIMISOARA, ROMANIA. IADIS ON WWW/INTERNET, 2010. Proceedings… Timisoara: Bebo White, Pedro Isaías and Diana And one, 2010.

SILVA, P. C. et al. Analytical Processing Over XML and XLink. International Journal of Data Warehousing and Mining (IJDWM), v. 8, n.1, 2012.

SILVA, M. A.; SILVA, P.C. ; CAMPOS, J. A. XBRL GIS - Integrating Geographic Information in XBRL Documents. In: INTERNATIONAL CONFERENCE ON INFORMATION SYSTEMS AND TECHNOLOGY MANAGEMENT – CONTECSI, 10., 2013, São Paulo, Brazil. Proceedings… 2013. Disponível em: <http://www.infoteca.inf.br/contecsi/smarty/ templates/arquivos_template/upload_arquivos/acervo/docs/PDFs/211.pdf >. Acesso em: 17 jul. 2010.

SILVA JR. ; G. R. Lei NewComb-Benford: uma aplicação vertical nas peças financeiras de uma empresa concessionária de rodovias. In: CONGRESSO USP

93

CONTROLADORIA E CONTABILIDADE, 13., 2013. Anais... 2013. Disponível em: <http://www.congressousp.fipecafi.org/web/artigos132013/ 528.pdf >. Acesso em: 19 jan. 2014.

SHAFER, G. Dempster–Shafer theory. 2002. Disponível em: <http://www.glennshafer.com/assets/downloads/articles/article48.pdf>. Acesso em: 30 ago. 2014.

SHERLY, K. K. ; NEDUNCHEZHIAN, R. BOAT adaptive credit card fraud detection system. Computational Intelligence and Computing Research (ICCIC), 2010. In: IEEE INTERNATIONAL CONFERENCE, 2010. Proceedings… 2010. Doi: 10.1109/ICCIC.2010.5705824. Disponível em: <http://ieeexplore.ieee.org/ stamp/stamp.jsp?tp=&arnumber=5705824&isnumber=5705719>. Acesso em: 2 mar. 2014.

SPOFFORD, G. MDX solutions: with Microsof SQL Server Analysis Services. New York: J. Wiley, 2001.

SPRINGER. [Portal]. Disponível em: <www.springer.com/?SGWID=12-102-0-0-0>. Acesso em: 12. jun. 2014.

STEENKAMP, L. P. ; NEL, G. F. The adoption of XBRL in South Africa: an empirical study. The Electronic Library, v. 30, n.3, p.409-425, 2013.

SPERBERG-MCQUEEN, C. M. ; THOMPSON, H. XML Schema. 2000. Disponível em: <http://www.w3.org/XML/Schema>. Acesso em: 23 jun. 2013.

STOPFRAUD.GOV. [Portal]. 2014. Disponível em: <http://www.stopfraud.gov/>. Acesso em: 27 jul. 2014.

TAN, P. ; KUMAR, V. ; STEINBACH, M. The k-means algorithm. In: IEEE INTERNATIONAL CONFERENCE ON DATA MINING, 2006. Proceedings… 2006. Disponível em: <http://www.cs.uvm.edu/~icdm/algorithms/ 10Algorithms-08.pdf>. Acesso em: 31 jul. 2014.

THE APACHE SOFTWARE FOUNDATION. Apache License, Version 2.0. 2014. Disponível em: <http://www.apache.org/licenses/LICENSE-2.0.html>. Acesso em: 17 ago. 2014.

THE BOOK OF THREES. EmpiricalRule - The 68-95-99,7. 2013. Disponível em: <http://www.threes.com/index.php?view=article&catid=72%3Amathematics&id=2341%3Aempirical-rule-the-68-95-997-rule&format=pdf&option=com_cont ent&Itemid=50>. Acesso em: 26 abr. 2013.

THE JOHNS HOPKINS UNIVERSITY ; DIENER-WEST, M. Use of the Chi-Square Statistic. The Johns Hopkins University. 2008. Disponível em: <http://ocw.jhsph.edu/courses/fundepiii/PDFs/Lecture17.pdf>. Acesso em: 24 jul. 2014.

THE OXFORD MATH CENTER. The Empirical Rule. [S.l.]: Oxford College, 2014. Disponível em: <http://www.oxfordmathcenter.com/drupal7/node/290>. Acesso em: 26 abr. 2013.

TONBELLER, A. G. JPivot. 2003. Disponível em: <http://jpivot.sourceforge.net/>. Acesso em: 5 ago. 2014.

94

UNICAMP. Laboratório de Quimiometria em Química Analítica. [Portal]. 2006. Disponível em: <http://laqqa.iqm.unicamp.br/>. Acesso em: 8 set. 2014.

U.S. DEPARTMENT OF JUSTICE. President Obama Establishes Interagency Financial Fraud Enforcement Task Force. 2009. Disponível em: <http://www.sec.gov/ news/press/2009/2009-249.htm>. Acesso em: 27 jul. 2014.

U.S SEC. XBRL Glossary. 2010. Disponível em: <http://www.sec.gov/spotlight/xbrl/glossary.shtml>. Acesso em: 31 ago. 2014.

U.S. SECURITIES AND EXCHANGE COMMISSION (U.S. SEC). 2014. Disponível em: <http://www.sec.gov/>. Acesso em: 29 mar. 2014.

USPENSKY, J. Introduction to mathematical probability . New York: McGraw Hill, 1937.

VOLONINO, L. ; GODWIN, J. ; ANZALDUA, R. Computer Forensics, Principles and Practices. [S.l.]: Pearson Vue, 2006.

WEN, W. ; JENNINGS, A. ; LIU, H. Learning a neural tree. In: INTERNARIONAL JOINT CONFERENCE ON NEURAL NETWORKS, 1992, Beijing, China. Proceedings… 1992, p.751-756.

WINTER, C.; SCHNEIDER, M. ; YANNIKOS, Y. (2012) Model-Based Digit Analysis for Fraud Detection Overcomes Limitations of Benford Analysis. In: AVAILABILITY, RELIABILITY AND SECURITY (ARES), 2012 INTERNATIONAL CONFERENCE, 70., 2012. Proceedings… 2012. Doi: 10.1109/ARES.2012.37. Disponível em: <http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6329191&isnumber=6329168>. Acesso em: 15 abr. 2014.

WIRTH, N. Extended Backus-Naur Form (EBNF). [S.l.]: ISO/IEC, 1996.

WU, J. ; VASARHELYI, M. XBRL: A New Tool For Electronic Financial Reporting. In: ANANDARAJAN, M.; ANANDARAJAN, A.; SRINIVASAN, C. Business Intelligence Techniques A Perspective from Accounting and Finance. 2004. p. 73-92. Disponível em: <http://link.springer.com/book/ 10.1007/978-3-540-24700-5>. Acesso em: 11 abr. 2014.

XBRL FRAMEWORK. XBRL Framework Projects. 2014. Disponível em: sourceforge.net/projects/xbrlframework/. Acesso em: 4 set. 2014.

XBRL INTERNATIONAL INC. XBRL Dimensions 1.0. 2006. Disponível em: <http://www.xbrl.org/Specification/XDT-REC-2006-09-18.htm>. Acesso em: 16 ago. 2014.

XBRL INTERNATIONAL INC. XBRL Global Ledger Framework. 2007. Disponível em: <http://xbrl.org/int/gl/2007-04-17/GLFramework-REC-2007-04-17.htm>. Acesso em: 16 ago. 2014.

XBRL INTERNATIONAL INC. Extensible Business Reporting Language 2.1 - Recommendation. (2008a). Disponível em: <http://www.xbrl.org/Specification/ XBRL-RECOMMENDATION-2003-12-31+Corrected-Errata-2008-07-02.htm>. Acesso em: 12 jan. 2014.

95

XBRL INTERNATIONAL INC. Link Role Registry - Structure 2.0. (2008b). Disponível em: <http://www.xbrl.org/Specification/lrr/REC-2008-07-31/lrr-REC-2008-07-31.html>. Acesso em: 4 ago. 2014.

XBRL INTERNATIONAL INC. XBRL Infoset 0.3. (2009a). Disponível em: <http://www.xbrl.org/specification/infoset/pwd-2009-02-04/infoset-pwd-2009-02-04.html>. Acesso em: 4 ago. 2014.

XBRL INTERNATIONAL INC. Formula 1.0. (2009b). Disponível em: <http://www.xbrl.org/specification/formula/rec-2009-06-22/formula-rec-2009-06-22.html>. Acesso em: 18 ago. 2014.

XBRL INTERNATIONAL INC. Table Linkbase Overview 1.0. (2011a). Disponível em: <http://www.xbrl.org/wgn/table-linkbase-overview/pwd-2011-12-21/table-linkbase-overview-wgn-pwd-2011-12-21.html>. Acesso em: 04 ago. 2014.

XBRL INTERNATIONAL INC. XBRL Formula Overview 1.0. (2011b). Disponível em: <http://xbrl.org/WGN/XBRL-formula-overview/PWD-2011-12-21/XBRL-formula-overview-WGN-PWD-2011-12-21.html>. Acesso em: 16 ago. 2014.

XBRL INTERNATIONAL INC. Overview of Versioning 1.0. (2011c). Disponível em: <http://xbrl.org/WGN/versioning-overview/PWD-2011-10-19/versioning-overview-WGN-PWD-2011-10-19.html>. Acesso em: 16 ago. 2014.

XBRL INTERNATIONAL INC. Inline XBRL Part 1: Specification 1.0. (2011d). Disponível em: <http://www.xbrl.org/specification/inlinexbrl-part1/rec-2010-04-20/inlinexbrl-part1-rec-2010-04-20+corrected-errata-2011-08-17.html>. Acesso em: 28 ago. 2014.

XBRL INTERNATIONAL INC. XBRL Abstract Model 2.0. 2012. Disponível em: <http://xbrl.org/Specification/abstractmodel-primary/PWD-2012-06-06/abstractmodel-primary-pwd-2012-06-06.html>. Acesso em: 14 de abril 2014.

XBRL INTERNATIONAL INC. XBRL Internacional Consortium . 2014. Disponível em: <http://xbrl.org/>. Acesso em: 14 abr. 2014.

ZHANG, K.; LI, A. ; SONG, B. Fraud Detection in Tax Declaration Using Ensemble ISGNN. In: COMPUTER SCIENCE AND INFORMATION ENGINEERING, 2009 WRI WORLD CONGRESS ON, 2009. Proceedings… 2009. Doi: 10.1109/CSIE.2009.73. Disponível em: <http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5170994&isnumber=5170943>. Acesso em: 2 mar. 2014.

96

ANEXO A – LMDQL Forense EBNF

<MDX_statement> ::= <select_statement> | <create_formula_statement> | <drop_formula_statement> <select_statement> ::= [$VARIABLE <variable_specification>] [WITH <formula_specification>] SELECT [<axis_specification> [, <axis_specification>...]] FROM [<cube_specification>] [WHERE [<slicer_specification>]] [<cell_props>] <variable_specification> ::= <member>.<identifier> [<or><member>.<identifier>…] <or> ::= | <formula_specification> ::= <single_formula_specification> [<single_formula_specification>...] <single_formula_specification> ::= <member_specification> | <set_specification> <member_specification> ::= MEMBER <member_name> AS <value_expression> [, <solve_order_specification>] [, <member_property_definition>...] <member_name> ::= <member>.<identifier> | <cube_name>.<member>.<identifier> <solve_order_specification> ::= SOLVE_ORDER = <unsigned_integer> <member_property_definition> ::= <identifier> = <value_expression> <set_specification> ::= SET <set_name> AS <set> <set_name> ::= <identifier> | <cube_name>.<identifier> <axis_specification> ::= [NON EMPTY] <set> [<dim_props>] ON <axis_name> <axis_name> ::= COLUMNS | ROWS | PAGES | CHAPTERS | SECTIONS | AXIS(<index>) <dim_props> ::= [DIMENSION] PROPERTIES <property> [, <property>...] cube_specification> ::= [<cube_name> [,<cube_name>...]] <slicer_specification> ::= {<set> | <tuple>} <cell_props> ::= [CELL] PROPERTIES <cell_property> [, <cell_property>...] <cell_property> ::= <mandatory_cell_property> | <optional_cell_property> | <provider_specific_cell_property> <mandatory_cell_property> ::= CELL_ORDINAL | VALUE | FORMATTED_VALUE <optional_cell_property> ::= FORMAT_STRING | FORE_COLOR | BACK_COLOR | FONT_NAME | FONT_SIZE | FONT_FLAGS <provider_specific_cell_property> ::= <identifier> <create_formula_statement> ::= CREATE [<scope>]<formula_specification> <drop_formula_statement> ::= <drop_member_statement> | <drop_set_statement> <drop_member_statement> ::= DROP MEMBER <member_name> [, <member_name>...] <drop_set_statement> ::= DROP SET <set_name> [, <set_name>...] <scope> := GLOBAL | SESSION <identifier> ::= <regular_identifier> | <delimited_identifier> <regular_identifier> ::= <alpha_char> [{<alpha_char> | <digit> | <underscore>}...] <delimited_identifier> ::= <start_delimiter>{<double_end_delimiter> | <nondelimit_end_symbol>} [{<double_end_delimiter> | <nondelimit_end_symbol> }...]

97

<end_delimiter> <start_delimiter> ::= <open_bracket> <end_delimiter> ::= <close_bracket> <double_end_delimiter> ::= <end_delimiter><end_delimiter> <nondelimit_end_symbol> ::= !! Any character except <end_delimiter> <cube_name> ::= [ [ [ <data_source>.] <catalog_name>.][<schema_name>.] <identifier> <data_source> ::= <identifier> <catalog_name> ::= <identifier> <schema_name> ::= <identifier> <dim_hier> ::= [<cube_name>.]<dimension_name> | [[<cube_name>.]< dimension_name>.]<hierarchy_name> <dimension_name> ::= <identifier> | <member>.DIMENSION | <level>.DIMENSION | <hierarchy>.DIMENSION <dimension> ::= <dimension_name> <hierarchy> ::= <hierarchy_name> <hierarchy_name> ::= <identifier> | < member>.HIERARCHY | <level>.HIERARCHY <level> ::= [<dim_hier>.]< identifier> | <dim_hier>.LEVELS(<index>) | <member>.LEVEL <member> ::= [<level>.]<identifier> | <dim_hier>.<identifier> | <member>.<identifier> | <member_value_expression> <property> ::= <mandatory_property> | <user_defined_property> <mandatory_property> ::= CATALOG_NAME | SCHEMA_NAME | CUBE_NAME | DIMENSION_UNIQUE_NAME | HIERARCHY_UNIQUE_NAME | LEVEL_UNIQUE_NAME | LEVEL_NUMBER | MEMBER_UNIQUE_NAME | MEMBER_NAME | MEMBER_TYPE | MEMBER_GUID | MEMBER_CAPTION | MEMBER_ORDINAL | CHILDREN_CARDINALITY | PARENT_LEVEL | PARENT_UNIQUE_NAME | PARENT_COUNT | DESCRIPTION <user_defined_property> ::= <dim_hier>.<identifier> | <level>.<identifier> | <member>.<identifier> <tuple> ::= <member> | (<member> [, <member>...]) | <tuple_value_expression> <set> ::= <member>:<member> | <set_value_expression> | <open_brace>[<set>|<tuple> [, <set>|<tuple>...]]<close_brace> | (<set>) <open_brace> ::= { <close_brace> ::= } <open_bracket> ::= [

98

<close_bracket> ::= ] <open_parenthesis> ::= ( <close_parenthesis> ::= ) <underscore> ::= _ <alpha_char> ::= a | b | c | ...| z | A | B | C | ... | Z <digit> ::= 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 <value_expression> ::= <numeric_value_expression> | <string_value_expression> <numeric_value_expression> ::= <term> | <numeric_value_expression> {<plus | <minus>} <term> <term> ::= <factor> | <term> {<asterisk> | <solidus>| <exponentiation> | <root>} <factor> <factor> ::= [<sign>] <numeric_primary> <sign> ::= + | - <plus> ::= + <minus> ::= - <asterisk>::= * <solidus> ::= / <exponentiation> ::= ^ <root> ::= root <numeric_primary> ::= <value_expression_primary> | <numeric_value_function> <value_expression_primary> ::= <unsigned_numeric_literal> | (<value_expression>) | <character_string_literal> | [<cube_name>.]<tuple>[.VALUE] | <property>[.VALUE] | <conditional_expression> <conditional_expression> ::= <if_expression> | <case_expression> <if_expression> ::= IIF(<search_condition>, <true_part>, <false_part>) <true_part> ::= <value_expression> <false_part> ::= <value_expression> <case_expression> ::= <simple_case> | <searched_case> | <coalesce_empty> <simple_case> ::= CASE <case_operand> <simple_when_clause>... [<else_clause>] END <searched_case> ::= CASE <searched_when_clause>... [<else_clause>] END <simple_when_clause> ::= WHEN <when_operand> THEN <result> <searched_when_clause> ::= WHEN <search_condition> THEN <result> <else_clause> ::= ELSE <value_expression> <case_operand> ::= <value_expression> <when_operand> ::= <value_expression> <result> ::= <value_expression> <coalesce_empty> ::= COALESCEEMPTY (<value_expression> , <value_expression> [, <value_expression> ]...) <unsigned_numeric_literal> ::= <exact_numeric_literal> | <approximate_numeric_literal> <exact_numeric_literal> ::= <unsigned_integer>[.<unsigned_integer>] | <unsigned_integer>. | .<unsigned_integer> <unsigned_integer> ::= {<digit>}... <approximate_numeric_literal> ::= <mantissa>E<exponent> <mantissa> ::= < exact_numeric_literal> <exponent> ::= [<sign>]<unsigned_integer> <string_value_expression> ::= <value_expression_primary> | <string_value_expression>

99

<concatenation_operator> <value_expression_primary> <character_string_literal>::=<quote>[<character_representation>...] <quote> <character_representation> ::= <nonquote_character> | <quote_symbol> <nonquote_character> ::= !! Any character in the character set other than <quote> <quote_symbol> ::= <quote><quote> <quote> ::= ' <concatenation_operator> ::= || <index> ::= <numeric_value_expression> <percentage> ::= <numeric_value_expression> <set_value_expression> ::= <dim_hier>.MEMBERS | <level>.MEMBERS | <member>.CHILDREN | BOTTOMCOUNT(<set>, <index> [, <numeric_value_expression>]) | BOTTOMPERCENT(<set>, <percentage>, <numeric_value_expression>) | BOTTOMSUM(<set>, <numeric_value_expression>, <numeric_value_expression>) | CROSSJOIN(<set>, <set>) | DESCENDANTS(<member>, <level> [,<desc_flags>]) | DISTINCT(<set>) | DRILLDOWNLEVEL(<set> [, <level>]) | DRILLDOWNLEVELBOTTOM(<set>, <index> [,[<level>], <numeric_value_expression>]) | DRILLDOWNLEVELTOP(<set>, <index>[, [<level>] , <numeric_value_expression>]) | DRILLDOWNMEMBER(<set>, <set>[, RECURSIVE]) | DRILLDOWNMEMBERBOTTOM(<set>, <set>, <index> [, <numeric_value_expression>], RECURSIVE]) | DRILLDOWNMEMBERTOP(<set>, <set>, <index> [, [<numeric_value_expression>], RECURSIVE]) | DRILLUPLEVEL(<set>[, <level>]) | DRILLUPMEMBER(<set>, <set>) | EXCEPT(<set>, <set> [, [ALL]]) | EXTRACT(<set>, <dim_hier>[, <dim_hier>...]) | FILTER(<set>, <search_condition>) | GENERATE(<set>, <set> [, [ALL]]) | HIERARCHIZE(<set>) | INTERSECT(<set>, <set> [, [ALL]]) | LASTPERIODS(<index> [, <member>]) | MTD([<member>]) | ORDER(<set>, <value_expression> [, ASC | DESC | BASC | BDESC]) | PERIODSTODATE([<level>[, <member>]]) | QTD([<member>]) | TOGGLEDRILLSTATE(<set1>, <set2>[, RECURSIVE]) | TOPCOUNT(<set>, <index> [, <numeric_value_expression>]) | TOPPERCENT(<set>, <percentage>, <numeric_value_expression>) | TOPSUM(<set>, <numeric_value_expression>, <numeric_value_expression>) | UNION(<set>, <set> [, [ALL]]) | WTD([<member>]) | YTD(<member>) | OPERATORDEFINITION (<string_value_expression>, <string_value_expression> [,PARAM<open_parenthesis> <string_value_expression>...

100

<close_parenthesis>]) | HANALYSIS (<set>, <set><set>[<set>] [,<unsigned_numeric_literal>...]) | VANALYSIS (<member>, <set>) | CROSS (<member>[, <string_value_expression>...]) | NNEARESTVALUES (<member>, <unsigned_integer> [, ASC | DESC]) | NNEARESTVALUESPERCENTUAL (<member>, <unsigned_numeric_literal> [, ASC | DESC]) | EMPIRICALRULE (<member>, <set>, <set> ,<set>) | FIRSTDIGIT (<member>,<set>, <set> ,<string_value_expression>) | ZTEST (<numeric_value_expression>, <numeric_value_expression>, <unsigned_integer>,

<unsigned_integer>, <unsigned_numeric>) | CHISQUAREDTEST (<numeric_value_expression>, <numeric_value_expression>, <unsigned_numeric>) <desc_flags> ::= SELF | AFTER | BEFORE | BEFORE_AND_AFTER | SELF_AND_AFTER | SELF_AND_BEFORE | SELF_BEFORE_AFTER <member_value_expression> ::= <member>.{PARENT | FIRSTCHILD | LASTCHILD | PREVMEMBER | NEXTMEMBER} | <member>.LEAD(<index>) | <member>.LAG(<index>) | <member>.{FIRSTSIBLING | LASTSIBLING} | <dimension>[.CURRENTMEMBER] | <dimension>.DEFAULTMEMBER | <hierarchy>.DEFAULTMEMBER | ANCESTOR(<member>, <level>) | CLOSINGPERIOD(<level>[, <member>]) | COUSIN(<member>, <member>) | OPENINGPERIOD(<level>[, <member>]) | PARALLELPERIOD([<level>[, <index> [, <member>]]]) <tuple_value_expression> ::= <set>.CURRENTMEMBER | <set>[.ITEM]({<string_value_expression> [, <string_value_expression>...]} | <index>) <boolean_primary> ::= <value_expression><comp_op><value_expression> alter_statement ::= <create_statement> | <remove_statement> | <move_statement> | <update_statement> <create_statement> ::= CREATE DIMENSION MEMBER <member_spec>, KEY='<key_value>' [[, <property_name>='<value>'] [, <property_name>='<value>']...] <remove_statement> ::= DROP DIMENSION MEMBER <member_spec> [WITH DESCENDANTS] <move_statement> ::= MOVE DIMENSION MEMBER <member_spec> [WITH DESCENDANTS] UNDER <member_spec> <update_statement> ::= UPDATE DIMENSION MEMBER <member_spec> [AS '<mdx_expression>', ] | <property_name>='<value>' [[, <property_name>='<value>']...] <numeric_value_function> ::=

AGGREGATE(<set> [, <numeric_value_expression>]) AVG(<set>[, <numeric_value_expression>]) CORRELATION(<set> , <numeric_value_expression> [, <numeric_value_expression>]) COVARIANCE(<set>, <numeric_value_expression> [, <numeric_value_expression>]) COUNT(<set>[, INCLUDEEMPTY]) LINREGINTERCEPT(<set>, <numeric_value_expression> [, <numeric_value_expression>])

LINREGPOINT(<numeric_value_expression>, <set>, <numeric_value_expression> [,<numeric_value_expression>])

LINREGR2(<set>, <numeric_value_expression> [, <numeric_value_expression>]) LINREGSLOPE(<set>, <numeric_value_expression> [, <numeric_value_expression>]) LINREGVARIANCE(<set>, <numeric_value_expression> [, <numeric_value_expression>])

101

MAX(<set>[, <numeric_value_expression>]) MEDIAN(<set>[, <numeric_value_expression>]) MIN(<set>[, <numeric_value_expression>]) RANK(<tuple>, <set>) STDEV(<set>[, <numeric_value_expression>]) SUM(<set>[, <numeric_value_expression>]) VAR(<set>[, <numeric_value_expression>]) SEPARATRIX (<set>, <member>, <unsigned_integer>)

<search_condition> ::= <boolean_term> | <search_condition> {OR | XOR} <boolean_term> <boolean_term> ::= <boolean_factor> | <boolean_term> AND <boolean_factor> <boolean_factor> ::= [NOT] <boolean_primary> <boolean_primary> ::= <value_expression><comp_op><value_expression> | ISEMPTY(<value_expression>) | (<search_condition>) <comp_op> ::= <equals_operator> | <not_equals_operator> | <less_than_operator> | <greater_than_operator> | <less_than_or_equals_operator> | <greater_than_or_equals_operator> <equals_operator> ::= = <not_equals_operator> ::= <> <greater_than_operator> ::= > <less_than_operator> ::= < <greater_than_or_equals_operator> ::= >= <less_than_or_equals_operator> ::= <=

102

ANEXO B - Modelo de dados do XBRL Abstract model database

UNIFACS UNIVERSIDADE SALVADOR MESTRADO … · e por abrir caminhos que permitiram a realização de...

Documents

Transcript of UNIFACS UNIVERSIDADE SALVADOR MESTRADO … · e por abrir caminhos que permitiram a realização de...