DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise...

68
DESCOBRINDO REGRAS DE ASSOCIAC ¸ ˜ AO DIVERGENTES: UM ESTUDO DE CASO DA MAL ´ ARIA NA AMAZ ˆ ONIA LEGAL Lais Ribeiro Baroni Qualifica¸ ao de Mestrado apresentada ao Pro- grama de os-gradua¸c˜ ao em Engenharia de Produ¸ ao e Sistemas, Centro Federal de Educa¸ ao Tecnol´ ogica Celso Suckow da Fon- seca CEFET/RJ, como parte dos requisitos ne- cess´ arios ` a obten¸ ao do t´ ıtulo de mestre. Orientadores: Eduardo Soares Ogasawara e Marcel de Moraes Pedroso Rio de Janeiro, Outubro de 2019

Transcript of DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise...

Page 1: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

DESCOBRINDO REGRAS DE ASSOCIACAO DIVERGENTES: UM ESTUDO DE

CASO DA MALARIA NA AMAZONIA LEGAL

Lais Ribeiro Baroni

Qualificacao de Mestrado apresentada ao Pro-grama de Pos-graduacao em Engenharia deProducao e Sistemas, Centro Federal deEducacao Tecnologica Celso Suckow da Fon-seca CEFET/RJ, como parte dos requisitos ne-cessarios a obtencao do tıtulo de mestre.

Orientadores:Eduardo Soares Ogasawara e Marcel de MoraesPedroso

Rio de Janeiro,

Outubro de 2019

Page 2: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

Descobrindo regras de associacao divergentes: um estudo de caso da

Malaria na Amazonia Legal

Qualificacao de Mestrado em Engenharia de Producao e Sistemas, Centro Federal de

Educacao Tecnologica Celso Suckow da Fonseca, CEFET/RJ.

Lais Ribeiro Baroni

Aprovada por:

Presidente, Prof. Eduardo Soares Ogasawara, D.Sc. (orientador)

Alvaro Chrispino, D.Sc.

Gustavo Paiva Guedes e Silva, D.Sc.

Marcel de Moraes Pedroso, D.Sc.

Christovam Barcellos, D.Sc.

Rio de Janeiro,

Outubro de 2019

Page 3: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

RESUMO

Descobrindo regras de associacao divergentes: um estudo de caso da Malaria na Amazonia

Legal

Lais Ribeiro Baroni

Orientadores:Eduardo Soares Ogasawara e Marcel de Moraes Pedroso

Resumo da Qualificacao submetida ao Programa de Pos-graduacao em Engenharia de Producao eSistemas do Centro Federal de Educacao Tecnologica Celso Suckow da Fonseca CEFET/RJ comoparte dos requisitos necessarios a obtencao do tıtulo de mestre.

Um problema conhecido em mineracao de padroes frequentes e o fato de comumente seremproduzidas milhares de regras de associacao, tornando-se arduo o estudo de cada uma delas, en-fraquecendo o processo de descoberta de informacao util. Tendo em vista este desafio, essa dis-sertacao propoe uma nova abordagem para obtencao de regras de associacao interessantes a partirda divergencia entre as regras obtidas e a distribuicao esperada dos dados. A abordagem ineditadesenvolvida, denominada ARD, e avaliada sobre dados da malaria na Amazonia Legal Brasileiranos anos de 2009 a 2015. A partir dessa abordagem foi determinado um numero de padroes pra-ticavel para analise, de onde sao levantadas informacoes relacionadas a malaria na Amazonia Legale as tendencias associadas a organizacao das Regioes de Saude. Os resultados levantados mostrama capacidade da ARD, uma vez que indicou para regras que trouxeram informacao relevante sobreos dados minerados.

Palavras-chave:Mineracao de Padroes Frequentes. Regras de Associacao. Regras Interessantes. Regras Diver-

gentes. Malaria. Amazonia Legal. Regioes de Saude.

Rio de Janeiro,

Outubro de 2019

Page 4: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

Sumario

I Introducao 1

I.1 Exemplo Motivacional: Malaria 2

I.2 Proposta e Contribuicoes do Trabalho 3

II Data Analytics 4

II.1 Analise Exploratoria 5

II.2 Padroes Frequentes 6

II.2.1 Parametros 7

II.2.2 Algoritmo Apriori 9

II.3 Avaliacao de Padroes 12

II.4 Processo Geral 15

IIITrabalhos Relacionados 17

III.1 Mineracao de Padroes 17

III.2 Data Analytics em Malaria 20

IV Analise por Divergencia 23

V Metodologia 24

V.1 Apresentacao do Dataset 24

V.2 Pre-processamento 26

V.2.1 Selecao de Atributos 27

V.2.2 Limpeza de Dados 27

V.2.3 Transformacao de Dados 28

V.3 Geracao das Regras de Associacao 31

V.4 Pos-processamento 35

V.5 Obtencao de Regras Divergentes 35

VI Avaliacao Experimental 36

VI.1 Analise Exploratoria de Dados 36

Page 5: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

VI.1.1 Analise Exploratoria dos Dados Brutos 37

VI.1.2 Analise Exploratoria dos Dados Pre-Processados 40

VI.2 Analise das Regras de Associacao 43

VI.2.1 Divergencia no Atributo Ano de Notificacao 44

VI.2.2 Divergencia no Atributo Hemoparasitas 44

VI.2.3 Divergencia no Atributo de Ocupacao 46

VI.2.4 Divergencia nas Regioes de Saude 47

VI.2.5 Divergencia no Atributo de Raca 48

VI.2.6 Divergencia em Outros Atributos 49

VIIConclusoes 52

Referencias Bibliograficas 52

Page 6: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

Lista de Figuras

II.1 Diagrama das etapas do Apriori 9

V.1 Diagrama com os metodos utilizados na pesquisa 24

VI.1 Proporcao de numero de atendimentos realizados e de casos positivos 38

VI.2 Proporcao de casos positivos por numero de atendimentos 38

VI.3 Grafico de quantidade de casos negativos e positivos de malaria no tempo (mes e ano) 39

VI.4 Numero de casos de malaria por tipo de Plasmodio 40

VI.5 Tempos de notificacao, exame e tratamento nos estados da Amazonia Legal 41

VI.6 Proporcoes de indivıduos afetados pela malaria por genero 41

VI.7 Proporcoes de indivıduos afetados pela malaria por raca 42

VI.8 Quantidade de pessoas afetadas pela malaria mes a mes 42

VI.9 Mapa da Usina Teles Pires 47

Page 7: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

Lista de Tabelas

II.1 Exemplos de regras de associacao com tamanhos (ordem) de 2 a 5 8

II.2 Transacoes da Base de Dados 10

II.3 Conjunto de itens frequentes de tamanho 1 (que atendem o suporte mınimo) 11

II.4 Conjunto de regras formadas com os padroes frequentes 12

V.1 Atributos do tipo “notificacao” do dataset bruto 25

V.2 Atributos do tipo “exame” do dataset bruto 26

V.3 Atributos do tipo “paciente” do dataset bruto 26

V.4 Construcao do atributo de migracao 29

V.5 Pre-processamento dos atributos do dataset bruto 32

V.6 Atributos do dataset pre-processado 33

V.7 Parametros comuns para a geracao dos conjuntos de regras de associacao no arules-R 34

V.8 Informacoes dos parametros para geracao dos conjuntos de regras. 34

VI.1 Porcentagem de dados preenchidos 37

VI.2 Associacao entre o tipo de deteccao e a percepcao dos sintomas 40

VI.3 Numero de regras dos conjuntos de regras antes de depois das filtragens 43

VI.4 Suporte das regras para os pacientes com vivax nos sete anos de estudo 44

VI.5 Regras de Associacao com ocupacao construcao de estradas para RHS = Negativo 47

VI.6 Regras de Associacao para RHS = malaria falciparum 48

Page 8: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

Lista de Abreviacoes

DATASUS Departamento De Informatica Do Sistema De Saude 25, 28

IR Taxa De Desequilıbrio 14, 15

KULC Medida De Interesse Kulczynski 14, 15

LHS Left Hand Side 7, 16

PNCM Programa Nacional De Controle Da Malaria 2

RHS Right Hand Side 7, 16

SIVEPMALARIA Sistema De Informacoes De Vigilancia Epidemiologica Modulo Malaria 20, 24

SUS Sistema Unico De Saude 2

Page 9: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

1

Capıtulo I Introducao

Dentre as diversas possibilidades para minerar dados, a mineracao de padroes frequentes desem-

penha um papel relevante para o levantamento de associacoes, correlacoes e muitas outras relacoes

interessantes entre os dados [Han et al., 2011]. Os itens frequentes em um dataset podem ser

expressos por regras de associacao. As regras de associacao funcionam de forma que apresentam

itens frequentes na posicao de antecedente levando a um item frequente na posicao de consequente

[Lodhi, 2013]. Desta forma, os itens no antecedente sao as condicoes necessarias para se chegar ao

item do consequente.

Um problema conhecido em mineracao de padroes frequentes e o fato de frequentemente serem

produzidas milhares de regras de associacao, tornando-se arduo o estudo de cada uma delas, en-

fraquecendo o processo de descoberta de informacao util. Entre as principais tecnicas para escolha

de padroes interessantes existem aquelas que utilizam medidas de interesse para classificar padroes

[Tan and Kumar, 2000; Zhang et al., 2004], aquelas que elencam os padroes de acordo com criterios

pre-estabelecidos baseados principalmente em suas propriedades [Pasquier et al., 1999; Bayardo

et al., 1999; Dong and Li, 1999] a ainda aquelas que se utilizam de analise subjetiva, como a consi-

deracao de opiniao de um especialista no tema [Liu et al., 1999c; Silberschatz and Tuzhilin, 1995;

Sahar, 1999].

O que se espera com a utilizacao dessas tecnicas e que seja determinado um numero de padroes

praticavel para analise e que nao sejam triviais ou ja conhecidos. A dificuldade em alcancar esse

objetivo aumenta quanto maior o numero de padroes formados, que e fortemente influenciado pela

pluralidade de valores disponıveis no dataset e pela escolha do suporte mınimo a ser considerado

[Gadar and Abonyi, 2019]. Sendo assim, mesmo existindo na literatura uma diversidade de tecnicas

e a possibilidade de combinacao de varias delas, nem sempre estas sendo capazes de suprir a

necessidade da pesquisa [McGarry, 2005].

Esse trabalho propoe uma nova abordagem para obtencao de regras de associacao interessantes

a partir da divergencia entre as regras obtidas e a distribuicao esperada dos dados. Tal abordagem,

denominada ARD, aponta para os itens que se apresentaram nas regras com menos ou com mais

frequencia do que esperado segundo a hipotese naive de que as variaveis sao independentes e que,

portanto, divergem da mesma. A ARD foi avaliada em cima do estudo de caso da Malaria.

Page 10: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

2

I.1 Exemplo Motivacional: Malaria

A malaria e uma doenca infecciosa causada por parasitas protozoarios do genero Plasmodio

(Plasmodium) e e transmitida a partir da picada do mosquito do genero Anopheles, quando este

ja esta infectado. A transmissao tambem pode se dar, menos frequentemente, pela utilizacao de

seringas infectadas, por transfusao de sangue e transmissao do parasita da mae para feto durante a

gravidez [Bressan and Brasil, 2013]. Os paıses tropicais e subtropicais constituem a area endemica

da doenca por terem estacoes chuvosas que proporcionam grande disponibilidade de agua limpa

parada, onde os mosquitos vetores podem depositar seus ovos e se proliferar [WHO, 2018].

O Brasil e o segundo paıs das Americas com o maior numero de casos de malaria, perdendo

apenas para a Venezuela [WHO, 2017]. A Amazonia Legal - que compreende os estados do Acre,

Amapa, Amazonas, Mato Grosso, Para, Rondonia, Roraima, Tocantins e parte do estado do Ma-

ranhao - e a regiao mais susceptıvel a malaria no Brasil [Almeida et al., 2010a]. Dentro da Amazonia

Legal, a ocorrencia da doenca nao e homogenea, variando de localidade a localidade de acordo com

algumas caracterısticas como fatores naturais, fatores geograficos e condicoes sociais [Confalonieri

et al., 2014; Tauil et al., 1985]. A ocorrencia de malaria esta intimamente relacionada a pobreza

[Sachs and Malaney, 2002].

A forma mais eficiente de evitar que casos leves de malaria se desenvolvam em doencas graves

e mortes e a partir do rapido diagnostico e tratamento [WHO, 2017]. Embora ainda nao exista

vacina contra a malaria, existem medicamentos antimalaricos que sao eficientes na cura da infeccao.

A Organizacao Mundial de Saude considera que sistemas de vigilancia epidemiologica da malaria

sao essenciais para controle da doenca ja que podem dar apoio a tomada de decisoes polıticas a fim

de melhorar o atendimento ao paciente infectado [WHO, 2017].

Em questao de atendimento em saude, no Brasil, o Sistema Unico de Saude (SUS) e responsavel

por oferecer servicos publicos de saude para toda a populacao. Como forma de organizacao do

servico, o territorio brasileiro e divido em regioes de saude e o SUS deve garantir que cada regiao

de saude seja capaz de promover e prevenir saude para os municıpios que engloba, inclusive no que

diz respeito as doencas endemicas, como a malaria.

No Brasil, esforcos tem sido feitos pelos governos na luta contra a malaria desde 1965. Em

2003, motivado em manter um sistema de vigilancia efetivo, o Programa Nacional de Controle da

Malaria (PNCM) foi implantado pela Secretaria de Vigilancia em Saude do Ministerio da Saude.

O PNCM tem como uma de suas principais ferramentas para o monitoramento o SivepMalaria.

Por se tratar de uma doenca de notificacao compulsoria, todos os casos suspeitos ou confirmados

da malaria tem obrigatoriedade de serem notificados e registrados no SivepMalaria.

Tendo em vista a necessidade de se obter conhecimento util sobre a malaria e a disponibilidade

Page 11: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

3

de um banco de dados rico em informacao a ser explorada e minerada, que e o SivepMalaria,

percebe-se a mineracao de padroes como possibilidade para alcancar esse objetivo. No entanto,

observa-se tambem as dificuldades envolvidas nessa tarefa, ja que o SivepMalaria e um banco

extenso, tanto em quantidade de registros quanto em numero de atributos.

I.2 Proposta e Contribuicoes do Trabalho

Tendo em vista o desafio de se obter regras interessantes em um conjunto de padroes frequentes,

a proposta deste trabalho e apresentar a abordagem para obtencao de regras divergentes e avalia-

la sobre os dados do SivepMalaria nos anos de 2009 a 2015. Esses dados constituem-se como

bom cenario para utilizacao da abordagem para a obtencao de regras divergentes. Ao longo deste

trabalho, mostra-se a complexidade em extrair informacao util desse banco. Os dados passam

pelo pre-processamento, analise exploratoria, determinacao das regras de associacao dos padroes

frequentes e ainda por tecnicas de filtragem e classificacao de regras antes de aplicar a ARD. Com

isso, pretende-se mostrar um exemplo solido onde os metodos comuns de classificacao de regras nao

sao suficientes para extracao de conhecimento util e a metodologia de obtencao de regras divergentes

se torna relevante.

A principal contribuicao deste trabalho e o desenvolvimento da abordagem inedita para obtencao

de regras divergentes (ARD). A partir da utilizacao dessa metodologia nos dados do SivepMalaria,

sao levantadas informacoes relacionadas a malaria na Amazonia Legal e as tendencias associadas a

organizacao das Regioes de Saude. Os resultados levantados mostram a capacidade da ARD, uma

vez que indicou para regras que trouxeram informacao relevante sobre os dados minerados.

Alem desta introducao, outros cinco capıtulos compoe este trabalho. O Capıtulo II apresenta

a revisao bibliografica sobre analise de dados, voltada para o metodo de padroes frequentes. O

Capıtulo III levanta os trabalhos relacionados, fazendo uma analise do tema e metodologia. O

Capıtulo ?? apresenta a ARD. O Capıtulo V apresenta a metodologia utilizada para o estudo

de caso da malaria. No Capıtulo VI e feita a avaliacao experimental, dividida em descricao do

conjunto de dados, processo de experimentacao, analise exploratoria de dados, analise das regras

de associacao e a analise das regras divergentes. Por fim, no Capıtulo VII sao feitas as consideracoes

finais do trabalho.

Page 12: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

4

Capıtulo II Data Analytics

O processo de extracao de informacoes por mineracao de dados tem sido aplicado em diversas

areas do conhecimento, dado o grande volume de dados atualmente disponıveis. Na area da saude,

a mineracao de dados pode fornecer informacoes oportunas e confiaveis para otimizar diagnosticos,

tratamentos, medidas preventivas, entre outros [Fayyad et al., 1996; Obenshain, 2004; Koh et al.,

2011; Jensen et al., 2012]. Segundo Han et al. [2011], a disponibilidade de grandes bases de dados

e a necessidade de transformar tais dados em informacoes e conhecimentos uteis para o suporte

a decisao exigem investimentos consideraveis da comunidade cientıfica e da industria de software.

Na area de saude isso e especialmente importante ja que existe uma demanda crescente de dados

dos quais e muito interessante extrair informacoes de maior qualidade e produtividade. Portanto,

diversas tecnicas de mineracao de dados podem ser aplicadas para extrair conhecimento de bancos

de dados, a fim de auxiliar os gestores de saude na tomada de decisoes voltadas a prevencao e

promocao da saude [Gadar and Abonyi, 2019].

Apos a obtencao dos dados a serem estudados, os passos comuns a serem tomados antes de

se aplicar a tecnica de mineracao dos dados sao a analise exploratoria e o pre-processamento dos

dados. A analise exploratoria permite o estudo dos padroes e tendencias apresentados pelos dados

[Chen et al., 1996]. Uma analise descritiva detalhada permite ao pesquisador familiarizar-se com

os dados, organiza-los e sintetiza-los de forma a obter as informacoes necessarias para responder

as questoes a serem solucionadas. A compreensao dos dados permite a percepcao da necessidade

de manipulacao e correcao dos dados, que sao feitas durante o pre-processamento. A fase de pre-

processamento compreende a aplicacao de tecnicas para a preparacao dos dados desde a correcao

ou remocao de dados errados ate o ajuste da formatacao dos dados para os algoritmos de mineracao

de dados que sao utilizados. Essa etapa tende a consumir a maior parte do tempo dedicado ao

processo de mineracao de dados [Han et al., 2011].

Apos o pre-processamento de dados, as tecnicas de mineracao podem ser aplicadas. Os metodos

para minerar diferentes tipos de conhecimento - incluindo regras de associacao, classificacao, agru-

pamento, previsao, etc. - sao usados para a descoberta de conhecimento a partir de bancos de

dados [Chen et al., 1996].

Esta secao esta organizada em tres subsecoes. Elas resumem o entendimento fundamental

sobre analise de dados em relacao as aplicacoes do presente trabalho. A primeira subsecao (II.1)

Page 13: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

5

faz uma breve revisao sobre analise exploratoria de dados. A subsecao II.2 apresenta a mineracao

de padroes frequentes voltada para regras de associacao, incluindo conceitos relacionados como

algoritmo Apriori. A secao II.3 discorre sobre metodos para avaliar padroes.

II.1 Analise Exploratoria

A analise exploratoria e a primeira tarefa importante do processo de mineracao de dados,

sobretudo para permitir a familiarizacao com o banco de dados que esta sendo trabalhado [Han

et al., 2011]. A partir da analise exploratoria e possıvel levantar informacoes sobre os tipos de

atributos e valores, os formatos dos valores (se em texto, em numero contınuo, discreto, de forma

categorica etc), como os valores estao distribuıdos, como se relacionam entre si, identificar outliers,

entre diversas outras informacoes.

A analise exploratoria dos dados nao busca corroborar uma hipotese ou atender a um conceito

esperado ou pre-estabelecido, mas detectar padroes e caracterısticas que ja estao presentes nos

dados. A percepcao dos dados obtida auxilia nas analises subsequentes, como para execucao do

pre-processamento dos dados e na escolha do metodo de mineracao de dados a ser utilizado e, por

isso, a analise exploratoria e considerada por alguns autores como um precursor da mineracao de

dados [Myatt and Johnson, 2014; Larose and Larose, 2014].

A analise exploratoria pode se dar pela utilizacao de medidas estatısticas, por visualizacao

grafica dos dados e por utilizacao de tecnicas diversas para conhecimento dos dados, como aquelas

capazes de determinar correlacao entre variaveis.

Em estatıstica, a analise exploratoria de dados e uma abordagem a analise de conjuntos de

dados de modo a resumir suas caracterısticas principais. Nessa analise sao observadas medidas

de tendencia central como media, moda e mediana, medidas de dispersao como desvio padrao,

variancia e quartis. Essas medidas estatısticas basicas podem ser representadas graficamente a

partir de graficos como histogramas, graficos de dispersao (scatter plot) e diagramas de caixa

(boxplot).

A analise estatıstica dos dados, no entanto, e questionada por pesquisadores desde os anos 70.

Tukey [1977], por exemplo, acreditava que se dava enfase demais aos testes de hipoteses estatısticas

(analise confirmatoria de dados) e que se precisava dar mais enfase ao uso de dados para sugerir

hipoteses a serem testadas. Isso se baseia na ideia de que a matematica e a estatıstica basica sao

ferramentas para entender os dados que se baseiam na probabilidade e, em muitos casos, as questoes

de trabalho nao sao probabilısticas.

Portanto, adotar modelos estatısticos especıficos pode impedir a consideracao de diferentes

solucoes possıveis [Yu, 1977]. Uma analise exploratoria robusta (nao somente baseada em medidas

estatısticas) ajuda a maximizar o valor dos dados, nao sendo restritos a conjuntos iniciais de

Page 14: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

6

hipoteses, pesquisas anteriores e o que os pesquisadores podem prever a priori.

Com o advento de computadores de alta potencia e possibilidade de armazenamento e acesso

a dados volumosos, as tecnicas exploratorias voltadas para visualizacao dados se tornaram uma

opcao praticavel e eficiente. A visualizacao de dados visa comunicar dados de forma clara e eficaz

por meio de representacao grafica e tem a vantagem de ser capaz de descobrir e representar relacoes

de dados que, de outra forma, nao seriam facilmente observadas.

A analise exploratoria em dados quantitativos e executada principalmente com analises es-

tatısticas [Ellison, 1993]. Isso porque a descricao de valores como media e desvio padrao e o que vai

ser capaz de orientar quando as caracterısticas do dado, sua abrangencia, prevalencia e distribuicao.

No caso de dados qualitativos, a obtencao dessas medidas estatısticas nao e factıvel, mas ainda e

importante extrair informacao sobre seu comportamento.

Sendo assim, uma observacao bastante util para entendimento dos dados e a distribuicao das

frequencias dos valores dos atributos. A distribuicao de frequencias contabiliza o numero de

ocorrencias em cada classe. Esse numero e considerado a frequencia absoluta do valor.

Para a representacao de distribuicao de frequencias de dados qualitativos e comum a utilizacao

dos graficos em barras [Duquia et al., 2014]. Neste caso, e plotada uma barra para cada classe

onde a altura das barras representa a frequencia da classe correspondente. Existem variacoes

possıveis para essa representacao, como por exemplo os chamados graficos de Pareto que ordenam

as frequencias das ocorrencias, da maior para a menor, permitindo uma interpretacao mais rapida

das classes predominantes [Wilkinson, 2006].

Outra representacao possıvel e a partir dos graficos de setores (ou graficos em pizza ou torta) que

sao construıdos dividindo-se um cırculo em setores proporcionais a frequencia de cada categoria. Os

graficos em setores, no entanto, nao apresentam a informacao de forma tao clara quanto os graficos

em barra. Isto porque e mais difıcil fazer a comparacao das frequencias das classes observando as

areas (ou angulos) dos setores do que observando a altura das barras [Streit and Gehlenborg, 2014].

Alem disso, quando uma classe e muito pouco frequente a sua percepcao no grafico de setores fica

dificultada.

II.2 Padroes Frequentes

As tecnicas de padroes frequentes sao voltadas para apoiar o processo de extracao de conhe-

cimento usando tecnicas transacionais na observacao de padroes de itens frequentes e sequencias

de itens frequentes com o objetivo de descobrir as associacoes importantes entre itens, de modo

que a presenca de alguns itens em uma transacao implicara a presenca de outros itens na mesma

transacao [Aumann and Lindell, 1999].

Os itens frequentes em um dataset podem ser expressos por regras de associacao. As regras de

Page 15: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

7

associacao funcionam de forma que apresentam os itens frequentes na posicao de antecedente (Left

Hand Side (LHS)) ou consequente (Right Hand Side (RHS)) [Lodhi, 2013]. Os itens no antecedente

sao as condicoes necessarias para chegar ao item do consequente, ou, em outras palavras, as regras

de associacao descrevem com que frequencia os itens aparecem juntos. As regras sao geradas em

duas etapas. A primeira etapa encontra todos os itens frequentes do dataset e a segunda gera as

regras de associacao a partir dos itens encontrados.

Um exemplo hipotetico no caso do dataset da malaria, se existe a regra “idade = de 10 a 15 anos

⇒ plasmodium = falciparum significa dizer que, segundo a analise do dataset”, o item frequente

que indica o intervalo de idade do paciente como de 10 a 15 anos e frequentemente acompanhado

pelo item frequente que indica que o tipo de plasmodium e o falciparum, como observado no

consequente. Contudo, sao necessarios parametros para reduzir o numero de regras de associacao

possıveis. Esses parametros devem ser dados como entrada para o algoritmo de criacao das regras e

sao: os tamanhos mınimo e maximo das regras e os valores mınimos de suporte e confianca. Essas

medidas limitam o conjunto de regras gerado, pois tratam-se de condicoes a serem cumpridas.

A mineracao de regras de associacao pode ser vista como tendo dois diferentes problemas a serem

resolvidos. O primeiro e a mineracao de conjuntos de itens frequentes (ou padroes frequentes) e o

segundo e a geracao das regras de associacao a partir dos padroes frequentes. Diversos algoritmos

com essa finalidade tem sido desenvolvidos a aprimorados [Toivonen and others, 1996] entre eles

Apriori [Agrawal et al., 1994], FP-growth [Han et al., 2000] e ECLAT [Zaki, 2000]. Neste trabalho

fez-se uso do algoritmo Apriori.

II.2.1 Parametros

Os tamanhos maximo e mınimo das regras determinam quantos item frequentes devem aparecer

na regra de associacao, contando tanto os itens no antecedente quanto o do consequente. O tamanho

mınimo de regras determina o menor numero de itens enquanto o maximo determina o maior

numero de itens para geracao das regras. Se ambos os tamanhos sao definidos por 2, apenas regras

com um item no antecedente e outro no consequente sao criadas, assim como a regra dada como

exemplo no paragrafo anterior. A Figura II.1 mostra exemplos de regras com tamanhos diferentes.

Os parametros de tamanho mınimo e maximo devem ser pensados com cuidado. As regras com

muitos itens podem ser difıceis de interpretar e trazer redundancia, alem de demandar um esforco

computacional maior para gerar mais regras. Por outro lado, diminuir o tamanho maximo pode

limitar a investigacao e omitir correspondencias importantes.

O suporte define a frequencia do item dentro do dataset [Berzal et al., 2002]. Ao se definir um

suporte de 50%, por exemplo, esta-se estipulando que somente itens que aparecem em pelo menos

metade das transacoes sao considerados como frequentes. Dado um conjunto de dados D, o suporte

Page 16: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

8

Tabela II.1: Exemplos de regras de associacao com tamanhos (ordem) de 2 a 5

Regras Tamanho

{rs.notificacao=Codo} ⇒ {resultado.exame=Negativo} 2{rs.notificacao=Central; resultado.exame=Vivax} ⇒{tipo.deteccao=Passiva} 3

{rs.notificacao=Centro Norte; mes.notificacao=12;ano.notificacao=2014} ⇒ {resultado.exame=Negativo} 4

{rs.notificacao=Area Norte; tipo.deteccao=Ativa;mes.notificacao=02; ano.notificacao=2009} ⇒{resultado.exame=Negativo}

5

(sup) para um item X e o percentual de ocorrencias de X em relacao a D. Compreendendo-se as

ocorrencias de X em D como sendo um evento, a Equacao II.1 apresenta o suporte de do item X

como sendo a probabilidade de X ocorrer em D.

sup(X) = P (X) (II.1)

Analisando-se uma regra de associacao do tipo X ⇒ Y , tem-se que sup(X ⇒ Y ) e a probabili-

dade de ambos eventos X e Y ocorrerem juntos, i.e., sup(X ⇒ Y ) = P (X ∩ Y )1.

Caso um item apareca com menos frequencia que aquela determinada pelo suporte no algoritmo

de geracao das regras, este item nao aparece em nenhuma regra de associacao. Por outro lado,

definir um suporte baixo pode gerar mais regras do que seria util na pratica [Zheng et al., 2001].

Em suma, suportes baixos tem como consequencia um numero maior de regras enquanto, por

outro lado, suportes altos podem excluir itens menos frequentes da analise e que poderiam trazer

informacao bastante relevante. Alem do suporte, outra medida de entrada necessaria para a geracao

das regras e a confianca.

A confianca nao se preocupa com a frequencia do item no dataset. Ela investiga a chance daquela

regra ser verdadeira. E condicional, analisando a porcentagem de ocorrencia do consequente dado

que o antecedente acontece [Berzal et al., 2002]. Numa regra de associacao X ⇒ Y, a confianca e

dada pela Equacao II.2, representa a probabilidade condicional de Y ocorrer dado X.

conf(X ⇒ Y ) = P (Y | X) (II.2)

Exemplificando com a regra dada de exemplo, se esta tem confianca de 80% significa dizer que

em 80% das transacoes onde tem o item plasmodium = falciparum vai ter tambem o item idade =

de 10 a 15 anos. Logo, enquanto o suporte exprime essencialmente a frequencia dos itens da regra,

a confianca e uma medida sobre a forca da associacao entre esses itens.

1Nos artigos classicos de padroes frequentes utilizam X ∪ Y como sendo a uniao dos itemsets [Han et al., 2011;Gadar and Abonyi, 2019]. Nesta dissertacao, a uniao dos itemsets se traduz na intersecao dos seus respectivos eventosestatısticos [?], ou seja, P (X ∩ Y ).

Page 17: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

9

II.2.2 Algoritmo Apriori

O algoritmo Apriori e o pioneiro e talvez o mais compreensivo algoritmo de mineracao de

conjuntos de padroes frequentes [Zheng et al., 2001]. Foi proposto em 1994 por R. Agrawal e R.

Srikant e tem o objetivo de produzir eficientemente as regras de associacao [Agrawal et al., 1994].

Para isso, o Apriori faz uma abordagem iterativa conhecida como pesquisa de nıvel e se baseia

em seu princıpio conceitual. O princıpio e chamado propriedade do Apriori e se trata da seguinte

constatacao: “todos os subconjuntos nao vazios de um conjunto de itens frequentes tambem devem

ser frequentes” [Agrawal et al., 1994]. O algoritmo Apriori tambem envolve a criacao de regras de

associacao. Essa abordagem utiliza apenas um item no consequente e todos os outros (κ-1 itens,

num padrao de tamanho κ) no antecedente. A regra X ⇒ Y e presente em o conjunto de transacoes

desde que satisfaca a condicao de confianca mınima determinada [Han et al., 2000]. A Figura II.1

apresenta o diagrama das etapas principais executadas pelo algoritmo Apriori para geracao de

regras de associacao.

Figura II.1: Diagrama das etapas do Apriori

O Algoritmo 1 apresenta o algoritmo Apriori. Determinam-se os itens candidatos dentro do

suporte a partir de uma varredura nos dados. Essa varredura e iterativa, variando para cada

tamanho κ de conjunto de itens. Nota-se a chamada de duas funcoes dentro da funcao principal

(apriori gen e subset).

Algorithm 1 Algoritmo Apriori

1: Entrada: Uma base de dados D e o valor do suporte mınimo (minsup)2: Saıda: O conjunto L com todos os conjuntos de itens frequentes3: function apriori(D,minsup)4: for κ = 2;Lk−1 6= ∅; k + + do5: Ck = apriori gen(Lk−1)6: for each t ∈ D do7: Ct = subset(Ck, t);8: for each c ∈ Ct do9: c.count+ +t;

10: Lk = c ∈ Ck|c.count+ + ≥ minsup;11: return L = tkLk

Page 18: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

10

Para encontrar padroes frequentes, duas etapas principais compoem o Apriori: a de geracao de

candidatos (ou juncao) e a de poda (ou remocao) [Han et al., 2011]. O algoritmo dessas etapas

esta representado pelo pseudocodigo da funcao apriori gen contidas na funcao principal apriori.

Na etapa de geracao de candidatos (join), considerando η como o numero de itens de um conjunto

de itens (itemset) e κ variando de 1 a η, os conjuntos de itens candidatos de tamanho (κ + 1)

sao gerados a partir de conjuntos de itens frequentes de tamanho κ. Utilizando o princıpio do

Apriori, apenas sao avaliados os conjuntos de tamanho (κ+ 1) onde seu subconjunto de tamanho

κ e sabidamente frequente. Na etapa de poda, os conjuntos de itens gerados sao avaliados e e

verificado se ele atende ao requisito de suporte mınimo. Os conjuntos que atendem aos requisitos

seguem para a iteracao seguinte (juncao de mais um item ao conjunto) e os conjuntos que nao

atendem nao participam das proximas iteracoes.

Outra funcao contida no algoritmo principal do Apriori e a funcao subset. Ela e responsavel

por determinar os suportes de cada conjunto de itens para eliminar aqueles que nao sao frequentes

no dataset. Para tanto, essa funcao recebe os conjuntos de itens ja podados (que ja passaram pela

funcao apriori gen) e transacoes t da base de dados para retornar conjuntos de itens frequentes no

dataset.

Para exemplificar o comportamento do algoritmo Apriori, considere o banco de dados represen-

tado na Tabela II.2. Cada linha representa uma transacao, tendo um total de quatro transacoes.

Considerando o suporte mınimo de 50%, para encontrar os conjuntos de itens frequentes temos:

Tabela II.2: Transacoes da Base de Dados

Transacao Mes Ano Exame Genero

1 12 2009 positivo feminino2 12 2010 - masculino3 12 2009 negativo masculino4 10 - negativo masculino

Como primeiro passo, conta-se as ocorrencias dos itens para determinar quais sao frequentes.

Note que, como sao 4 transacoes no total, o suporte de cada item se da pela divisao da quantidade

de transacoes que esse item aparece pelo total de transacoes. O item 12 aparece tres vezes no

conjunto de dados, logo o suporte e 3/4 = 0.75, e da mesma forma para os demais.

As quatro primeiras linhas da Tabela II.3 representam os conjuntos de itens frequentes de

tamanho um que atendem o suporte mınimo de 0,50. As tres linhas finais da Tabela II.3 apresentam

os conjuntos de itens frequentes de tamanho dois que atendem o suporte mınimo de 0,50 formados

a partir das combinacoes dos itens frequentes de tamanho um.

Da mesma forma, juntam-se os elementos de tamanho dois para formar superconjuntos de

tamanho tres. A funcao de juncao, utiliza-se da propriedade do Apriori para nao gerar com-

Page 19: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

11

Tabela II.3: Conjunto de itens frequentes de tamanho 1 (que atendem o suporte mınimo)

Conjunto de itens Suporte

{12} 0.75{2009} 0.50{negativo} 0.50{masculino} 0.75

{12,2009} 0.50{12,masculino} 0.50{negativo,masculino} 0.50

binacao de itens considerados nao frequentes. Ou seja, o superconjunto (12,masculino,negativo)

nao vai aparecer ja que, embora os tres itens individualmente sejam frequentes e seus subconjuntos

(12,masculino) e (masculino,negativo) tambem sejam frequentes, o outro subconjunto (12,negativo)

nao e frequente. Dessa forma nao ha um conjunto candidato de tamanho tres que atendam aos

princıpios do Apriori.

Nesse caso nao foram determinados limites de tamanho, mınimo ou maximo, para a geracao

dos padroes. Em conjunto de dados extenso e importante que se utilize essas medidas pois, caso

o contrario, sera gerado um numero muito grande de padroes e com uma quantidade exagerada

de itens. Adicionalmente, acarretara em custo computacional muito alto para execucao de todo o

processamento demandado. Se for determinado um tamanho maximo para os conjuntos de regras,

entao as iteracoes do Apriori sao interrompidas apos a juncao e poda de padroes desse tamanho

e nao somente ao se extinguir todas as possibilidades de combinacoes de itens que atendem ao

suporte mınimo. Determinar o tamanho mınimo como 2 tambem pode ser um bom recurso se o

interesse e trabalhar com regras de associacao, ja que sao necessarios no mınimo dois itens para se

formar uma regra.

Uma vez abordado o primeiro problema: encontrar padroes frequentes no dataset, o segundo

problema e abordado: obter as regras de associacao a partir dos padroes frequentes descobertos.

Esse problema e relativamente mais facil de resolver [Agrawal et al., 1994]. A confianca e a medida

utilizada nessa etapa para validar a forca da regra de associacao. O procedimento baseia-se em usar

os padroes frequentes e organizar cada um deles em forma de regras do tipo X ⇒ Y (X implica

em Y) [Agrawal et al., 1993]. Para cada padrao frequente com tamanho κ, pode-se gerar todas as

regras (no maximo κ regras) que usam itens do conjunto. O algoritmo dessa etapa e representado

pelo pseudocodigo 2.

Dado os padroes frequentes encontrados para o banco de dados da II.2, vamos encontrar as

regras de associacao correspondentes. Assume-se que a confianca mınima e de 90% (ou 0,9). Com os

padroes de tamanho 1, com apenas um item, nao existe como criar regras pois nao ha possibilidade

de qualquer um dos lados das regras (consequente ou antecedente) ser um conjunto vazio.

Page 20: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

12

Algorithm 2 Geracao de regras

1: Entrada: Um conjunto de conjunto de itens L e a confianca mınima da regra (minconf )2: Saıda: O conjunto regras R3: function ap genrules(L,minconf )4: for each κ ∈ L do5: for each i = κ− 1; i ≥ 1; i−− do6: for each i ⊂ κ do7: conf = suporte(κ)/suporte(i);8: if conf ≥ minconf then9: adicione i → (k − i) em R;

10: return R;

A Tabela II.4 mostra as regras de associacao possıveis para os padroes frequentes e as respectivas

confiancas. A confianca e calculada observando-se, no caso de uma regra X ⇒ Y , em quantas

transacoes onde aparece X, aparece tambem Y. Observando a primeira regra da Tabela II.4 e a

base de dados da Tabela II.2. O item 12 aparece em tres transacoes e, dessas tres transacoes,

em duas aparece o item 2009. Logo, a confianca da regra e dada por 2/3 = 0, 67. Na segunda

transacao onde sao considerados os mesmos itens, mas na ordem trocada (2009 no antecedente e 12

no consequente) a confianca muda, uma vez que 2009 aparece duas vezes e nessas duas transacoes

aparece tambem 12, logo, a confianca nesse caso e 1 (ou 100%).

Tabela II.4: Conjunto de regras formadas com os padroes frequentes

Conjunto de Itens Confianca

12 ⇒ 2009 0.672009 ⇒ 12 1.0012 ⇒ masculino 0.67masculino ⇒ 12 0.67masculino ⇒ negativo 0.67negativo ⇒ masculino 1.00

Por fim, a partir de valores de suporte igual a 50% e confianca 90%, as regras a serem conside-

radas para o dataset de exemplo seriam a segunda e a ultima da Tabela II.4. E possıvel observar

que ao diminuir esses parametros o numero de regras tende a aumentar. Da mesma forma, ao

aumentar esses parametros o numero de regras tem a diminuir. O ajuste desses parametros deve

ser feito iterativamente ao longo da analise dos dados.

II.3 Avaliacao de Padroes

Uma das dificuldades de extrair conhecimento de regras de associacao e que uma quantidade

muito grande de regras pode ser criada ate mesmo de um conjunto de dados pequeno. Soma-se a isso

o fato de que muito dos padroes fortes encontrados, que potencialmente resultariam em analises

interessantes, se mostram triviais e desinteressantes [Witten et al., 2016]. Sendo assim, extrair

Page 21: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

13

aqueles que sao interessantes nao e trivial [Dhar, 2013]. Porem, existem tecnicas para contornar

essa dificuldade como o emprego de medidas de interesse, utilizacao de subconjunto de padroes

frequentes fechados e nao redundantes.

Uma regra de associacao pode ser medida tambem pela correlacao entre os conjuntos de itens

no antecedente e no consequente. Existem muitas medidas de correlacao diferentes, chamadas de

medidas de interesse (interesting measures) entre as quais escolher [Han et al., 2011], muito embora

um numero significativo delas fornece informacoes conflitantes sobre a relevancia de um padrao

[Tan et al., 2004]. Dentre o numero abundante de medidas, duas sao amplamente difundidas na

literatura, o lift e o qui-quadrado (χ2). Outras duas, Kulczynski e taxa de desequilıbrio (imbalance

ratio) sao medidas sugeridas por Han et al. [2011] para apresentar as relacoes de padroes entre os

conjuntos de itens. As quatro sao brevemente explicadas.

Uma das medidas de interesse mais conhecidas, depois de suporte e confianca e o lift. O lift

e definido pela Equacao II.3, onde seu resultado e o fator que avalia o grau em que a ocorrencia

de um item “promove” a ocorrencia do outro [Brin et al., 1997]. O valor de lift igual a 1 aponta

independencia entre os itens enquanto valores maiores que 1 indicam associacao entre eles, ou em

outras palavras, que eles sao complementares (ou estao poisitivamente relacionados) [Hahsler and

Hornik, 2007]. O lift abaixo de 1 significa que a presenca de um item “promove” a ausencia do

outro (ou estao negativamente relacionados) e, nesse caso, os itens sao considerados substitutos.

lift(X ⇒ Y ) =conf(X ⇒ Y )

sup(Y )(II.3)

A analise de qui-quadrado (χ2) e uma tecnica estatıstica padrao que permite medir o grau de

dependencia entre as variaveis [Alvarez, 2003]. Sendo assim, e utilizada para testar a independencia

e/ou correlacao entre o antecedente e o consequente da regra. Para esse teste sao considerados

eventos independentes. No caso presente, onde existe apenas um item no consequente, o evento

considera tuplas usando um item do antecedente e o item do consequente. Por exemplo, para

uma regra de tamanho 5, 4 eventos sao considerados. A formula para calculo do valor do χ2,

representada na Equacao II.4, leva em consideracao as frequencias observadas (fo) e as frequencias

esperadas (fe) de cada evento. Na Equacao II.4 abaixo, κ e o tamanho da regra.

χ2 =k−1∑i=1

((fo)i − fe)2

fo(II.4)

A frequencia observada trata-se da contagem do evento nas transacoes enquanto frequencia

esperada e calculada pela multiplicacao da contagem do item do antecedente X pela contagem do

item do consequente Y dividida pelo numero total de tuplas do dataset. A Equacao II.5 apresenta

a formula para calculo da frequencia observada em um evento com item X no antecedente e Y no

Page 22: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

14

consequente em um dataset composto de n tuplas [Han et al., 2011].

fe =|x| · |y|n

(II.5)

Se o valor de χ2 e 0, todos os itens sao independentes e se for superior a um valor de corte definido

(segundo um nıvel de significancia) a hipotese de independencia e rejeitada [Liu et al., 1999b].

A estatıstica do qui-quadrado considera simultaneamente e uniformemente todas as combinacoes

possıveis da presenca e ausencia dos varios atributos, em oposicao a confianca que considera a

implicacao direcional e trata a ausencia e a presenca de atributos de maneira nao uniforme [Liu

et al., 1999a].

As medidas de interesse apresentadas ate o momento (lift e qui-quadrado) nao possuem a

propriedade de invariancia nula. Isso quer dizer que os resultados sao influenciados por transacoes

nulas, que nao contem nenhum dos conjuntos de itens sendo examinados [Tan et al., 2004]. A

invariancia nula, porem, e uma propriedade importante para medir padroes de associacao em bancos

de dados grandes, ja que nos bancos de dados reais e esperado que o numero de transacoes nulas

seja bastante significativo [Han et al., 2011]. Um exemplo de medida de interesse de invariancia

nula e a Kulczynski.

A medida de interesse Medida de interesse Kulczynski (kulc) foi proposta em 1927 pelo ma-

tematico polones Kulczynski [Kulczynski, 1928]. Dados dois conjuntos de itens, X e Y , essa medida

trata-se da media de duas medidas de confianca. A primeira medida de confianca e a probabilidade

condicional de o conjunto de itens Y ocorrer dado o conjunto de itens X ocorre e a segunda e a

probabilidade condicional de o conjunto de itens X ocorrer dado que o conjunto de itens Y ocorre.

A Equacao II.6 apresenta o calculo de kulc, onde P e a probabilidade. O grau da correlacao e

representado por um numero real entre 0 e 1. Se Kulczynski estiver perto de 0 ou 1, entao a regra e

considerada interessante sendo negativa ou positivamente associada, respectivamente. Se o numero

resultante estiver proximo de 0,5, o ındice kulc e considerado neutro, ou seja, a regra pode ou nao

ser interessante.

kulc(X,Y ) =1

2(P (X|Y ) + P (Y |X)) (II.6)

A medida de interesse chamada Razao de Desequilıbrio (imbalance ratio - Taxa de desequilıbrio

(IR)) tambem possui a propriedade de invariancia nula, alem de nao ser influenciada pelo tamanho

do banco de transacoes. A IR mede o grau de assimetria entre dois eventos que contem o conjunto

de itens antecedentes X e o item consequente Y [Wu et al., 2010]. Para cada regra de associacao o

IR sera calculado de acordo com a Equacao II.7, onde o numerador e o valor absoluto da diferenca

entre os suportes dos conjuntos X e Y e o denominador o numero percentual (suporte) de transacoes

Page 23: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

15

que contem X ou Y mas nao contem ambos juntos.

IR(X,Y ) =|sup(X)− sup(Y )|

sup(X) + sup(Y )− sup(X ∪ Y )(II.7)

De acordo com Han et al. [2011], deve-se usar as medidas kulc e razao de desiquilıbrio em

conjunto. Isso consiste na ideia de primeiramente filtrar as regras interessantes pela utilizacao da

medida kulc e depois a medida IR para avaliar as regras que apresentaram kulc proximo de 0,5

(neutro). Uma vez que kulc neutro e pouco informativo, uma IR (balanceada proxima a 0) vai

comprovar uma regra desinteressante, caso a IR mostra valores proximos a 1, entao, a regra pode

ser considerada interessante.

Alem das medidas de interesse, outro recurso para estudar padroes interessantes e a partir da

consideracao de redundancias no conjunto de regras. A logica envolvida no processo de decisao se

baseia na ideia de que uma regra e redundante se existirem regras mais gerais com a mesma ou

maior confianca. Por regra mais geral entende-se a regra com mesmo consequente (rhs) e menor

quantidade de itens no antecedente (sendo os itens presentes iguais aos das regras menos gerais).

Ou seja, se ao adicionar um item do lado esquerdo da regra a confianca diminuir ou permanecer

igual, entao essa regra sera redundante. Isso equivale dizer que a consideracao daquele novo item

equivale a uma melhoria negativa ou nula na regra [Bayardo et al., 1999]. Formalmente, podemos

representar uma regra X ⇒ Y como redundante se:

∃X ′ ⊂ X | conf(X ′ ⇒ Y ) ≥ conf(X ⇒ Y ) (II.8)

II.4 Processo Geral

A partir dos conceitos introduzidos ate aqui e possıvel apresentar o processo geral de Mineracao

de Dados utilizando padroes frequentes, descrito pelo Algoritmo 3. O algoritmo tem como entrada

uma base de dados D, um limiar de suporte sup e confianca conf , um conjunto de restricoes cons

e um conjunto de abordagens para obtencao de regras interessantes inter. A saıda do algoritmo e

conjunto ICR com todas as regras de associacao filtradas por restricoes e consideradas interessantes.

Algorithm 3 Mineracao de Padroes Frequentes

1: Entrada: Dataset D, suporte sup, confianca conf , restricoes cons e abord. de interesse inter.2: Saıda: Regras de associacao IR.3: function pattern mining(D, sup, conf, cons, inter)4: I ← apriori(D, sup)5: R← gen rules(I, conf)6: CR← apply constraints(R, cons)7: ICR← apply interestingness(CR, inter)8: return ICR

Page 24: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

16

O algoritmo apriori recebe a base de dados (D) e o suporte mınimo (sup) como parametro

e produz como resultado o conjunto I de padroes frequentes. O conjunto I, juntamente com

o parametro de confianca mınimo (conf), e trabalhado pelo algoritmo gen rules e gera como

resultado o conjunto R de regras de associacao.

A essas regras sao atribuıdas algumas restricoes, como, por exemplo, a fixacao dos atributos no

LHS e RHS e tamanhos mınimo e maximo das regras. Tais restricoes reduzem o conjunto de regras

R para o conjunto CR.

No conjunto CR sao aplicadas abordagens de selecao de regras interessantes, como, por exem-

plo, indicacao de valores mınimos para lift, kulc e regras nao redundantes. No contexto dessa

dissertacao, a ARD enquadra-se como uma abordagem adicional de obtencao de regras interes-

santes que pode ser aliada as demais existentes. Essa etapa produz o conjunto de regras ICR

retornado pelo Algoritmo 3.

Page 25: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

17

Capıtulo III Trabalhos Relacionados

Neste capıtulo sao citadas as principais publicacoes relacionadas ao trabalho desenvolvido nesta

dissertacao. O objetivo e situar quanto ao que ja foi desenvolvido e os principais resultados obtidos,

assim como procurar fazer uma comparacao deste trabalho com o que ja existe na comunidade

cientıfica e, assim, destacar as contribuicoes aqui propostas.

O capıtulo esta dividido em duas secoes. A primeira aponta para os trabalhos que empregam

tecnicas para classificacao/reducao de padroes e a segunda apresenta os trabalhos relacionados com

relacao a estudos analogos em malaria. A divisao se justifica pois, tendo em vista a metodolo-

gia e a aplicacao deste trabalho, e importante considerar estudos analogos tanto com relacao a

malaria, tema em estudo, quanto com relacao as tecnicas de avaliacao de regras de associacao, ja

que este trabalho propoe uma nova metodologia com esse objetivo como uma das suas principais

contribuicoes.

III.1 Mineracao de Padroes

Um problema conhecido em mineracao de padroes e o fato de que, apos a determinacao dos

conjuntos de padroes a partir dos dados, muitas centenas e frequentemente milhares de padroes sao

gerados e torna-se inviavel o estudo de cada um deles, enfraquecendo o processo de descoberta de

informacao util. Uma tarefa importante, entao, passa a ser a de determinar os padroes mais uteis

entre eles, ou seja, aqueles que nao sao triviais ou ja conhecidos.

Na literatura, diversos trabalhos abordam sobre metodos para determinar conjuntos de padroes

interessantes em um banco de dados. A propria metodologia de padroes frequentes e regras de

associacao ja sao, por si so, uma maneira de elencar padroes interessantes a partir do uso das

medidas de suporte e confianca.

Alem do suporte e da confianca, outras diversas medidas de interesse desempenham um papel

importante nesse contexto pois sao capazes de descobrir dependencias e correlacoes entre as variaveis

de um dataset e possibilitam a classificacao dos padroes de acordo com seus valores. Diversos

trabalhos sao desenvolvidos nesse sentido, tanto criando ou derivando novas medidas de interesse

[Tan and Kumar, 2000; Zhang et al., 2004] quanto estudando essas medidas para descrever suas

utilidades e aplicacoes [McGarry, 2005; Geng and Hamilton; Tan et al., 2002].

Page 26: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

18

Outra tecnica utilizada para reduzir padroes frequentes foi levantada por Liu et al. [2000]. Os

autores utilizam abordagem subjetiva para encontrar regras inesperadas. Essa tecnica exige um

conhecimento mais aprofundado do banco de dados que e minerado, pois sao as consideracoes de

especialistas no domınio que sao norteadoras do processo de identificacao de padroes esperados.

A partir da definicao do especialista, as regras inesperadas sao descobertas de acordo com varios

criterios de interesse. Outros autores tambem publicaram esse tipo de pesquisa como Liu et al.

[1999c]; Silberschatz and Tuzhilin [1995]; Sahar [1999]; Padmanabhan and Tuzhilin [1998]; Ng et al.

[1998]; Srikant et al. [1997]. Essa abordagem pode ser bastante util quando as outras tecnicas nao

sao suficientes para filtrar um numero aceitavel de regras boas, o que acontece em grande parte dos

bancos de dados reais, principalmente quando estes sao extensos.

Alem das ja citadas, outras tecnicas foram desenvolvidas para ajudar na tarefa de selecionar

os padroes/regras mais relevantes dentre todos os gerados. Alguns exemplos sao a utilizacao dos

padroes fechados [Pasquier et al., 1999], padroes maximos [Bayardo Jr, 1998], padroes redundantes

[Bayardo et al., 1999] e padroes emergentes [Dong and Li, 1999]. Todos esses tratam-se de conceitos

amplamente utilizados e difundidos na literatura.

Alguns autores, no entanto, propoem uma abordagem diferenciada para o tratamento dos

padroes disponıveis. Nos proximos paragrafos seis artigos sao brevemente apresentados. Estes

artigos sao destacados por apresentarem o que se tem de mais atual com relacao a classificacao de

padroes/regras e que apresentam abordagem semelhante a abordagem desenvolvida neste trabalho

(ARD).

Gan et al. [2019] se baseiam na mineracao de padroes orientada a utilidade (utility mining) ao

propor uma abordagem chamada non-redundant Correlated high-Utility Pattern Miner (CoUPM).

Os autores criticam que a maioria das aplicacoes em utility mining nao consideram a correlacao

inerente de itens entre os padroes, descobrindo padroes que contem muitos itens fracamente cor-

relacionados. Com o objetivo de contornar essa caracterıstica, consideram, alem da utilidade, a

correlacao positiva entre os itens. Concluem que a metodologia desenvolvida (CoUPM) e eficiente

para classificar regras em bancos de dados quantitativos.

Tambem criticando a mineracao tradicional de conjuntos de itens de alta utilidade, Fournier-

Viger et al. [2019] propoe o algoritmo FCHM. Este algoritmo e baseado no algoritmo FHM [Fournier-

Viger et al., 2014], desenvolvido em um trabalho anterior que compartilha o mesmo autor principal.

O algoritmo FHM associa uma estrutura chamada lista de utilitario a cada conjunto de itens.

As listas de utilitarios permitem calcular rapidamente a utilidade de um conjunto de itens, pois

determinam os valores de utilidade dos padroes maiores a partir dos padroes mais curtos. O FCHM

adiciona um passo seguinte a analise do FHM ao considerar a correlacao entre os itens do padrao

na medida chamada medida de vınculo (bond measure). Resultados mostraram que o FCHM pode

Page 27: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

19

ser muito mais eficiente do que o algoritmo FHM, removendo uma enorme quantidade de itens

considerados de alta utilidade, no entanto, pouco correlacionados.

Ainda na linha de mineracao de padroes orientada a utilidade mas como interesse em trabalhar

com conjuntos de itens que variam ao longo do tempo, Fournier-Viger et al. [2016] propoem tres

algoritmos denominados LHUI-Miner, PHUI-Miner e NPHUI-Miner. Nessa ordem, estes algoritmos

propoem extrair conjuntos de itens de alta utilidade local (LHUI), conjunto de itens que geram um

utilitario muito mais alto que o normal, chamados padroes de pico (PHUI) e conjuntos menores de

padroes de pico nao redundantes. Avaliacoes experimentais realizadas pelos autores mostram que

os algoritmos propostos sao eficientes e podem encontrar padroes uteis.

Motivados pela Internet das Coisas (Internet of Things), Yan et al. [2018] desenvolveram uma

metodologia para compactar padroes que sao gerados de forma sequencial e contınua (stream data).

O objetivo do algoritmo e encontrar continuamente os padroes representativos em fluxos de eventos

de janela deslizante usando o princıpio do Comprimento Mınimo da Descricao (Minimum Descrip-

tion Length), ou seja, uma medida para selecionar o modelo de codificacao que melhor comprime

os dados. O algoritmo desenvolvido, chamado SWIFT, e apresentado como uma estrategia de

mineracao de padrao contınuo capaz de compactar as codificacoes de padrao com ate 50% mais

eficiencia que o melhor metodo existente, alem de apresentar uma aceleracao de 4 ordens de mag-

nitude.

Pellegrina and Vandin [2018] concentram-se no processo de encontrar padroes estatisticamente

significativos do ponto de vista computacional. A definicao de significancia e geralmente dada a

partir de teste estatıstico que fornece um valor que quantifica a probabilidade de que a associacao

observada em dados reais surja apenas por acaso. Os autores desenvolvem o TopKWY, que extrai

eficientemente os k padroes estatisticamente mais significativos de um conjunto de padroes. O

algoritmo ainda garante o controle rigoroso da taxa de erro familiar (FWER), que e a probabilidade

de que uma ou mais descobertas falsas seja(m) feita(s). Nas conclusoes do artigo e evidenciado que

TopKWY permite a extracao dos padroes mais significativos de grandes conjuntos de dados que

nao puderam ser analisados pelo estado da arte.

Soulet et al. [2011] publicaram um estudo com o objetivo minerar os padroes uteis considerando

a preferencia do usuario. Acreditam que escolher um limite para a geracao das regras influencia

os resultados, entao trabalha com a ideia de consultas de skyline para extrair padroes de skyline

de maneira livre de limites. A abordagem proposta, apelidada de Aetheris, e livre de limitacoes

e utiliza as medidas de frequencia e area. A frequencia de um conjunto de itens e referente a

quantidade de vezes que ele acontece no dataset e a area de um conjunto de itens e definida como

um produto da frequencia e o comprimento do padrao. Os resultados apresentados com base em

estudo de caso mostram a eficiencia do Aetheris de acordo com aspectos quantitativos e qualitativos.

Page 28: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

20

Tendo em vista os trabalhos apresentados e possıvel concluir que, apos busca extensiva e minu-

ciosa das publicacoes existente, nenhum trabalho encontrado considera a questao da comparacao

das frequencias das ocorrencias dos itens no conjunto de regras e no dataset. Isto corrobora a

afirmativa de que a ARD desenvolvida neste trabalho e original, desde sua fundamentacao teorica

de base ate sua implementacao.

III.2 Data Analytics em Malaria

Como a malaria e uma doenca de bastante relevancia no contexto de saude mundial, muito

tem se publicado sobre o assunto. As publicacoes envolvendo a doencas giram em torno de varios

temas, como prevencao, diagnostico, controle, tratamento, entre outros. Como forma de avaliar

artigos relacionados a este trabalho, foi utilizada a tecnica de mapeamento sistematico. O obje-

tivo e encontrar trabalhos que facam data anaylitcs em dados de malaria, ou seja, tanto analises

exploratorias quando aplicacao de metodos de mineracao de dados. Para tanto, utilizou-se a base

de dados bibliografica Scopus para avaliacao da literatura pela seguinte string de busca: TITLE-

ABS-KEY (( “data mining” ∨ “frequent pattern” ∨ “association rules” ∨ “exploratory analysis”

∨ “preprocessing”) ∧ ( “malaria” )). A busca retornou 154 referencias.

Todas as 154 referencia foram analisadas. Boa parte delas tratavam-se de assuntos bastante

divergentes a este trabalho, como por exemplo, estudos relacionados com bioinformatica e especifi-

cidades da biologia do mosquito ou do plasmodio, segmentacao e classificacao de laminas de sangue

para diagnostico de malaria e tambem analise do comportamento clınico de pessoas submetidas ao

tratamento de malaria. Apos uma consulta mais aprofundada dos textos, foram selecionados 13

trabalhos mais estreitamente relacionados aos temas aqui abordados.

Muitos autores fazem uso de tecnicas de analise exploratoria de banco de dados e estudos de

variaveis para fins relacionados a malaria. Wiefels et al. [2016], por exemplo estudam os dados

do Sistema de Vigilancia Epidemiologica de Malaria (Sistema de Informacoes de Vigilancia Epide-

miologica modulo malaria (SivepMalaria)) do Amazonas de 2003 a 2014 para avaliar sua qualidade

e precisao. Concluem que existem muitos dados faltantes, dados discrepantes e inconsistencias,

principalmente naqueles dados que dependem dos pacientes para serem registrados. Ressaltam a

necessidade de um pre-processamento cuidadoso para obtencao de dados estatisticamente corretos

para analises posteriores.

Loucoubar et al. [2011] usam HyperCubeR© para analisar um dataset de episodios clınicos de

malaria por Plasmodium falciparum. Os autores apresentam a ferramenta de mineracao de dados

exaustiva, nao euclidiana e nao parametrica que visa encontrar a melhor combinacao de fatores

que predizem o resultado da infeccao por malaria. Avaliam a abordagem como sendo eficiente na

analise de dados complexos e de alta dimensao.

Page 29: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

21

Sweeney et al. [2007] usam GARP (algoritmo genetico para previsao de conjunto de regras)

com dados ambientais (climaticos e topograficos) e dados de presenca ou ausencia de mosquitos

vetores da malaria levantados em campo, no norte da Australia. Uma vez que o objetivo consistia

em apontar os principais fatores ambientais que influenciam na distribuicao de vetores de malaria,

identificaram a umidade atmosferica como ator crıtico na sobrevivencia de mosquitos adultos. Ana-

logamente, pois trabalham com o mesmo tipo de dados, mas em Niamey, Republica do Nıger e com

foco mais voltado para urbanizacao, Labbo et al. [2016] fazem uma analise exploratoria da asso-

ciacao entre a ocorrencia de mosquitos vetores urbanos da malaria e de fatores ambientais. Usam

Analise de Componentes Principais e teste nao parametrico de Kruskall-Wallis para confirmacao

das analises.

Ainda nessa mesma linha, Sahle and Meshesha [2014] procuram inferir a relacao entre fatores

ambientais e a ocorrencia de malaria, alem das possıveis causas de morte causadas pela doenca na

Etiopia. A metodologia aplicada foi a mineracao de dados para criacao de classificadores segundo

tres diferentes algoritmos (arvore de decisao J48, inducao de regra JRip e Rede Neural Multilayer

Perceptron (MLP)). Entre as consideracoes, apontam a chuva como principal fator determinante

para a prevalencia da malaria e uma probabilidade aumentada de risco de morte para criancas

menores de 5 anos de idade.

Diallo et al. [2017] fazem analise exploratoria a partir de amostragem de sangue de criancas em

quatro localidades no continente Africano, sendo duas com endemicidade de malaria moderada a

alta em Burkina Faso e duas com baixa endemicidade de malaria no Senegal. Os autores fazem

consideracoes sobre a variabilidade na prevalencia de especies de plasmodio, de numeros de criancas

afetadas por faixa e etaria e tambem sobre as ocorrencias considerando a utilizacao de medidas de

controle da malaria.

Johansson et al. [2016] usam arvores de classificacao para minerar dados clınicos de unidades

de saude de Malawi em 2013-2014 com o objetivo de estimar a correlacao entre a prescricao de

antibioticos e o resultado de testes de malaria. A hipotese estudada e que, ao ser medicado para os

sintomas da malaria com antibioticos, o resultado do exame para a malaria sao mascarados, podendo

acusar negativo enquanto o paciente na verdade possui a enfermidade. Evidenciam, por fim, a

importancia do uso racional de medicamentos antimalaricos e antibioticos pensando, inclusive, nos

compromissos de combate a resistencia.

Autores tem trabalhado para desenvolver metodos capazes de trazer informacoes confiaveis e

uteis para auxiliar na difıcil tarefa de alocar os recursos e esforcos escassos para o combate a malaria

em regioes prioritarias e de maneira acertada.

Buczak et al. [2015] fazem a previsao de surtos de malaria a partir da aplicacao de Mineracao

de Regras da Associacao Fuzzy em dados epidemiologicos da malaria, meteorologicos, climaticos e

Page 30: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

22

socioeconomicos em uma regiao da Coreia do Sul. As regras geradas formaram classificadores para

prever uma regiao como tendo baixo, medio ou alto numero de casos futuros de malaria. O artigo

e um aperfeicoamento de um trabalho anterior com o mesmo objetivo mas aplicado a dados de

dengue nas Filipinas [Buczak et al., 2014]. Como conclusao e afirmado que a abordagem baseada

em dados pode ser usada para a previsao de diferentes doencas.

Ndiath et al. [2015] estudam hotspots de malaria em comunidades da regiao de Keur Soce, no

Senegal, para explorar a variabilidade espacial das relacoes entre incidencia/persistencia de malaria

e fatores socioeconomicos e ambientais. Para isso, usaram metodo de regressao com ponderacao

geografica. Com os resultados apresentam potenciais motivos para a existencia dos hotspots da

malaria em Keur Soce.

Gu et al. [2015] objetivam auxiliar no processo de prevencao e controle da malaria acusando

areas de risco de infeccao. Para esse fim, propoem um modelo de rede de difusao heterogenea para

caracterizacao de padroes espaco-temporais. Usam dados reais da China para validar o metodo

desenvolvido e concluem que este supera o estado-da-arte existente, assumindo ainda que sua

aplicacao pode ser estendida a outras regioes e a outras doencas transmitidas por vetores.

Jeefoo et al. [2009] apresentam um mapa de area de prevalencia da malaria usando Sistema

de Informacao Geografica (SIG) e Sensoriamento Remoto. Usam dados geoespaciais e registro

estatıstico de casos de malaria da provıncia de Kanchanaburi, na Tailandia, para analises estatısticas

e criacao do valor da informacao (i-value) que identificam relacoes entre as variaveis. A analise

permite a criacao de um mapa de risco de malaria com regioes identificadas em classes de alto risco,

risco moderado ou risco baixo.

Murty et al. [2008] aplicam SOM (self organizing maps) para priorizar as zonas endemicas de

malaria no estado de Manipur, na India. As zonas sao classificadas por endemicidade baixa, media

ou alta. Concluem que a metodologia e eficiente para dar apoio a tomada de decisao no que diz

respeito a aplicacao de medidas de controle em areas endemicas afetadas pela malaria.

Tendo em vista toda a pesquisa bibliografica feita e apresentada, nosso trabalho se destaca

por procurar levantar relacoes entre variaveis clınicas, incluindo dados pessoais, usando mineracao

por regra de associacao. A metodologia a ser aplicada tambem nao se aproxima de nenhuma ja

executada dentro do mesmo escopo, ja que sera trabalhado com algoritmo Apriori para regras de

associacao e uma nova abordagem de determinacao de regras interessante, a ARD. Alem disso, sera

feita a mineracao em cima de dados brasileiros de malaria, muito pouco explorados na literatura.

Page 31: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

23

Capıtulo IV Analise por Divergencia

*** Esse capıtulo foi omitido para fins de publicacao. Atualizaremos o documento assim que

possıvel. ***

Page 32: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

24

Capıtulo V Metodologia

O metodo de analise por divergencia desenvolvido neste trabalho foi aplicado em dados sobre

malaria na Amazonia Legal brasileira. O caminho percorrido ate a aplicacao deste metodo, no

entanto, envolve outros processos conforme apresentado na Figura V.1.

Figura V.1: Diagrama com os metodos utilizados na pesquisa

Todo o processo de investigacao se inicia com a tomada dos dados que passam pelo pre-

processamento e depois sao submetidos ao algoritmo de mineracao. A etapa de analise exploratoria

esta inserida entre o pre-processamento e a tecnica de mineracao pelo fato de ser fundamental o

estudo dos dados para a definicao da tecnica, algoritmo e parametros de mineracao. Depois que as

regras sao geradas, elas passam por pos-processamento afim de reduzir o conjunto de regras para

as regras mais interessante. Por ultimo faz-se uso da ARD que aponta para as regras divergentes

a serem estudadas.

V.1 Apresentacao do Dataset

O banco de dados utilizado para a mineracao trata-se de um compilado dos dados do Sistema

de Informacoes de Vigilancia Epidemiologica modulo malaria (SivepMalaria). O SivepMalaria foi

implantado em 2003 com o objetivo de fazer o monitoramento da malaria na regiao da Amazonia

Legal. O proposito de sua aplicacao foi o de aprimorar a agilidade e qualidade dos dados de malaria,

atraves da notificacao on-line, pela Internet, e tambem, de modulo local, off-line, nos municıpios

que ainda nao possuıam conexao com a Internet [Braz, 2003].

O sistema de informacao e composto por modulos que registram dados de notificacao, dados

do exame e informacoes sobre o paciente [Wiefels et al., 2016]. O SivepMalaria foi implantado

pela Secretaria de Vigilancia em Saude em 2003 e se mostra, segundo Almeida et al. [2010b], como

Page 33: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

25

importante ferramenta para o conhecimento da distribuicao da malaria e que deve ser usado para

controle da endemia. Os dados do SivepMalaria estao disponıveis nos arquivos de banco de dados

mantidos pelo Departamento de Informatica do Sistema de Saude (DATASUS) [MS, 2018].

Os responsaveis pelo preenchimento sao os profissionais de saude, agentes de saude notificantes

e supervisores de campo que devem ser orientados quanto a importancia no processo de coleta dos

dados. Todos os campos da ficha devem ser criteriosamente preenchidos e digitados, evitando-se

campos em branco, duplicidades de registros e dados inconsistentes [MS, 2018].

Embora o objetivo desse sistema seja para monitoramento e administracao da malaria, os dados

compoem uma excelente fonte para pesquisa cientıfica [Wiefels et al., 2016]. Desde que o Sivep-

Malaria foi implantado, o formulario para seu preenchimento teve algumas alteracoes. O perıodo

escolhido para essa pesquisa, no entanto, apresenta certa regularidade nas variaveis existentes. No

total, 30 atributos compoem o banco de dados com 15.764.287 registros. Desses registros, cerca de

12% correspondem a casos positivos de malaria.

Os atributos do dataset compreendem dados da notificacao, dados do exame e informacoes sobre

o paciente. Com excecao das datas, todos os dados do dataset contendo as informacoes originais

extraıdas do SivepMalaria sao categoricos e estao codificados. A relacao entre a codificacao e seus

significados sao traduzidos por um dicionario de dados. As Tabelas V.1, V.2 e V.3 apresentam os

30 atributos, separados por tipo (notificacao, exame ou paciente) com seus significados e o formato

de seus valores. Nessas tabelas, os valores entre parenteses apresentam o numero de classes dos

atributos categoricos.

Tabela V.1: Atributos do tipo “notificacao” do dataset bruto

Atributo Significado Formato

dt notif Data da notificacao dd/mm/aaaasem noti Semana epidemiologica da notificacao ss/aaaauf noti UF que esta notificando codigo IBGEmun noti Municıpio que esta notificando codigo IBGE

Ha um numero muito grande de campos vazios no SivepMalaria, cerca de 66%. Apenas cinco

campos estao totalmente preenchidos, sem nenhum valor faltante. Esses campos sao os de data de

notificacao, municıpio e estado de notificacao, tipo de deteccao e resultado do exame. Informacoes

sobre o paciente somente sao preenchidas para aqueles pacientes que obtiveram resultado positivo

no exame de malaria.

Entre os valores possıveis dos atributos, a maioria deles nao e distribuıda de forma proporcional.

Por exemplo, entre os valores possıveis para resultados de exame, como ja foi dito, quase 88%

possuem o valor “negativo”. Alem disso, alguns valores simplesmente nao agregam informacao

significativa na pesquisa, como por exemplo no caso da variavel de ocupacao, onde entre 12 possıveis

Page 34: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

26

Tabela V.2: Atributos do tipo “exame” do dataset bruto

Atributo Significado Formato

res exam Resultado do exame categorico (11)tipo lam Tipo de deteccao categorico (2)dt exame Data que o exame foi realizado dd/mm/aaaadt sinto Data em que o paciente sentiu os primeiros sintomas dd/mm/aaaadt trata Data do inıcio do tratamento dd/mm/aaaaexame Tipo de exame realizado categorico (2)

hemoparasiResultado do exame para outros hemoparasitaspesquisados

categorico (5)

pais inf Paıs em que provavelmente o paciente foi infectado codigo IBGEuf infec UF provavel de infeccao codigo IBGEmun infe Municıpio provavel de infeccao codigo IBGEloc infe Localidade provavel de infeccao codigosintomas Se o paciente sentiu sintoma categorico (2)

falciparumSe o paciente recebeu tratamento para malariafalciparum nos ultimos 40 dias antes da notificacao

categorico (2)

vivaxSe o paciente recebeu tratamento para malaria vivaxnos ultimos 60 dias antes da notificacao

categorico (2)

Tabela V.3: Atributos do tipo “paciente” do dataset bruto

Atributo Significado Formato

COD OCUPPrincipal atividade exercida pelo paciente nosultimos 15 dias

categorico (12)

dt nasci Data de nascimento do paciente dd/mm/aaaaniv esco Nıvel de escolaridade do paciente por grau atingido categorico (10)niv esco 1 Nıvel de escolaridade do paciente em anos de estudo categorico (7)id pacie Idade do paciente numero inteiroid dimea Formato que a idade esta sendo especificada categorico (3)pais res Paıs de residencia do paciente codigo IBGEuf resid UFde residencia do paciente codigo IBGEmun resi Municıpio de residencia do paciente codigo IBGEloc resi localidade de residencia do paciente codigoraca Raca / Cor do paciente categorico (5)sexo Sexo do paciente categorico (2)

valores existentes, mais de 50% dos campos preenchidos correspondem aos valores “ignorado” ou

“outros”. Para a mineracao de padroes frequentes esses tipos de situacoes proporcionam um desafio

adicional na busca por informacao relevante. Alguns desses problemas sao minimizados na fase de

pre-processamento de dados, onde caracterısticas dos dados sao alteradas para melhor atender os

objetivos da pesquisa.

V.2 Pre-processamento

Com o objetivo de preparar os dados para a mineracao de padroes frequentes, tecnicas de pre-

processamento foram aplicadas, entre elas: selecao de atributos, limpeza de dados e transformacao

Page 35: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

27

de dados, incluindo construcao de atributos, discretizacao e geracao de hierarquia de conceitos. A

selecao de atributos objetiva escolher, dentre os atributos disponıveis no SivepMalaria, aqueles que

de fato agregam valor a pesquisa e devem ser mantidos para a mineracao. A limpeza dos dados

visa minimizar os erros encontrados no banco de dados a partir da identificacao e resolucao de

inconsistencias. A transformacao de atributos, por construcao, discretizacao e geracao de hierarquia

de conceitos, e responsavel por transformar atributos contınuos em categoricos ou para substituir

dados muito especıficos por dados mais gerais, alem de criar atributos derivados de outros.

Todos os criterios para as manipulacoes feitas nos dados tem base em estudos minuciosos dos

dados do SivepMalaria e suporte de especialistas no domınio. O dataset pre-processado possui,

depois de todas as manipulacoes descritas, 19 atributos.

V.2.1 Selecao de Atributos

A tecnica de selecao de atributos foi aplicada para descartar atributos irrelevantes ou redundan-

tes. Sete atributos do SivepMalaria foram eliminados durante a selecao de atributos: loc infec,

loc resid, uf infec, uf notif, pais inf, sem noti e dt nasci.

Uma vez que deseja-se estudar a malaria tendo como limite geografico as Regioes de Saude, os

atributos que nao correspondem a este nıvel de investigacao tornam-se fora do escopo da pesquisa.

Como e visto na secao ??, os atributos de Regioes de Saude foram construıdos a partir dos atri-

butos correspondentes de municıpio. Sendo assim, os atributos referentes a localidade (loc infec

e loc resid), a estados de infeccao e notificacao (uf infec e uf notif) e a paıs de infeccao

(pais inf) sao subtraıdos do banco de dados. Os atributos referentes a estado e paıs de residencia

(uf resid e pais res) nao sao eliminados ainda pois sao usados posteriormente para enriquecer o

atributo de regiao de saude de residencia.

Outro atributo eliminado trata-se do que indica a semana de notificacao (sem noti). A semana

de notificacao trata-se apenas de uma maneira diferenciada de apresentar a data de notificacao

(armazenada em outro atributo) e compreende, portanto, informacao redundante. Por fim, o

atributo de data de nascimento (dt nasci) tambem foi subtraıdo do conjunto de dados uma vez

que dia e mes de nascimento nao foram considerados como informacao relevante e o atributo de

idade do paciente exprime o mesmo conteudo que o ano de seu nascimento.

V.2.2 Limpeza de Dados

A limpeza de dados e a etapa responsavel por detectar e remover todos os principais erros e

inconsistencias contidos no banco de dados [Chu et al., 2016]. Como os dados SivepMalaria sao

provenientes de anotacao de formulario, e razoavel que existam erros (de anotacao e de digitacao)

nos dados e estes devem ser corrigidos. Foi feita uma procura por inconsistencias nas tuplas daqueles

Page 36: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

28

atributos que tenham alguma associacao. Uma verificacao e correcao foi feita, por exemplo, para os

atributos de data de notificacao (dt notif) e data de exame (dt exame) uma vez que essas datas

estao correlacionadas pois o exame so e feito depois de se registrar a notificacao, nunca antes. Outro

exemplo e que, em casos onde o paciente nao sentiu sintomas (indicado pelo atributo sintomas) o

campo de data do sintoma (dt sinto) deve estar vazio.

Para a analise de erros e inconsistencias e suas correcoes foi feito uso de graficos como boxplots,

histogramas alem de analises estatısticas. A limpeza de dados funcionou de forma manual, onde

cada atributo foi estudado individualmente. Vale ressaltar que algumas transformacoes tambem vao

acabar por resolver ruıdos, como por exemplo, a categorizacao que tem a capacidade de suprimir

os efeitos dos outliers.

Embora existam muitos dados em branco no SivepMalaria, nenhuma tecnica de preenchimento

de dados faltantes foi aplicada. Os atributos sao informacoes especıficas sobre dados medicos e

pessoais dos pacientes e, entao, qualquer tentativa de preenchimento dos valores faltantes seria

inapropriada e diminuiria a confiabilidade dos dados.

V.2.3 Transformacao de Dados

A transformacao de dados, mais do que a limpeza de dados, e responsavel pela preparacao

dos dados visando a configuracao que permitira a melhor solucao para mineracao. Quase todos os

atributos foram modificados de alguma forma durante o pre-processamento. A maioria deles teve

que ter seus valores transformados de codigo para texto. Essa transformacao nao afeta o processo

de mineracao em si, mas melhora a interpretabilidade do produto da mineracao. Para exemplificar

basta imaginar um conjunto de regras na forma “idade = de 10 a 15 anos” ⇒ “plasmodium =

falciparum” e um conjunto de regras na forma “idade = 1” ⇒ “plasmodium = 3”, onde haveria

necessidade de procurar o significado dos codigos “1” e “3” para compreensao das regras.

A partir da tecnica de geracao de hierarquia de conceito, onde valores de dados brutos sao

substituıdos por intervalos ou nıveis conceituais mais altos, os atributos de Regioes de Saude

(rs.notificacao, rs.infeccao e rs.residencia) foram construıdos. Segundo MS [2018], a

Regiao de Saude e um espaco geografico contınuo constituıdo por grupos de Municıpios limıtrofes”,

o que significa que uma unidade de saude e um agrupamento de municıpios. Sendo assim, os atri-

butos do dataset que dao informacoes sobre municıpio (mun noti, mun resi e mun infe) tiveram

seus valores substituıdos a partir de uma tabela que correlaciona cada cidade a sua respectiva

regiao de saude. Essa tabela e dado disponıvel para download na pagina do DATASUS [DATASUS,

2018]. Apos a criacao dos atributos de regiao de saude, os atributos de municıpio sao subtraıdos

do dataset.

A partir dos atributos de Regiao de Saude de notificacao e de residencia, o atributo de migracao

Page 37: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

29

(migracao) foi construıdo. Quando a Regiao de Saude de residencia e a diferente da Regiao de

Saude de notificacao ha migracao e o valor atribuıdo ao atributo de migracao sera “sim”. Do

contrario, se nao houve mudanca de Regiao de Saude o valor atribuıdo e “nao”. A Tabela V.4

ilustra as transformacoes executadas para a criacao do atributo de migracao. Apos a criacao desse

atributo, o atributo rs.notificacao foi subtraıdo do dataset.

Tabela V.4: Construcao do atributo de migracao

Verificacao Valor atribuıdo

rs.residencia = rs.notificacao naors.residencia 6= rs.notificacao sim

De forma equivalente a criacao do atributo de migracao, foi criado o atributo de caso.autoctone.

Dessa vez, entao, foram comparadas os atributos de Regiao de Saude de residencia e Regiao de

Saude de infeccao. Como em medicina caso autoctone e o nome que se da para uma doenca que

adquirida na zona da residencia do enfermo, quando nao e este o caso (ou seja, regiao de saude

de residencia e diferente da regiao de saude de infeccao) o atributo caso.autoctone recebe o

valor “Nao”. Caso contrario, recebe o valor ”sim”. Apos a criacao desse atributo, o atributo

rs.infeccao foi subtraıdo do dataset.

No caso da notificacao, esta pode ter sido feita apenas nos estados da Amazonia Legal. Para o

local de residencia do paciente, no entanto, pode acontecer de ser fora da Amazonia Legal ou ate

fora do Brasil. Entao, o atributo local.residencia foi criado para unir o atributo rs.residencia

com estados fora da Amazonia Legal e paıses fora do Brasil. Para isso foram usados os atributos

do dataset bruto uf resid e pais res.

Antes de serem incorporados ao atributo local.residencia os valores provenientes dos estados

fora da Amazonia Legal passaram por um processo de discretizacao, onde no lugar dos estados

individuais o que entrou no novo atributo foram valores categorizados por “estado fronteira” para

aqueles estados que fazem fronteira com qualquer um dos nove estados da Amazonia Legal e “outros

estados” para os outros estados do Brasil. Analogamente, discretizou-se o atributo de paıs, onde

o “paıs fronteira” e considerado para os paıses que fazem fronteira com os estados da Amazonia

Legal.

Com o objetivo de levantar variaveis relacionadas ao atendimento aos pacientes com suspeita de

malaria, nota-se a importancia de obter atributos que facam esse tipo de analise. Sendo assim, a par-

tir das datas de notificacao, exame, sintoma e tratamento, tres novos atributos foram construıdos.

O primeiro, chamado tempo.exame, trata-se da subtracao da data do exame (dt exame) pela

data da notificacao (dt notif) e, portanto, apresenta o tempo levou, desde a data de notificacao,

para a execucao do exame. O segundo trata-se do tempo que passou entre o exame e o comeco

Page 38: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

30

do tratamento a partir dos atributos dt exame e dt trata e chama-se tempo.tratamento. O

ultimo, chamado tempo.notificacao marca o tempo decorrido entre o dia que o paciente sen-

tiu os primeiros sintomas ate o dia que a notificacao foi feita, para isso os atributos dt sinto e

dt notif foram usados.

Apos quantificar, em dias, esses intervalos de tempo, esses atributos foram discretizados em

quatro classes: “no mesmo dia”, “de 1 a 7 dias”, “de 8 a 30 dias” e “mais de um mes”. No caso

do atributo tempo.tratamento ainda existe uma quinta classe de valor “tratamento antes do

exame” que incorpora os casos onde o tratamento e feito antes de ser feito o exame. Isso acontece

em casos onde o paciente apresenta um quadro avancado da doenca, precisando de atendimento

imediato e, entao, comeca a ser tratado antes mesmo de fazer o exame.

As datas de exame (dt exame), sintoma (dt sinto) e data de tratamento (dt trata) foram

excluıdas apos a construcao dos novos atributos enquanto a data de notificacao foi transformada.

A transformacao se deu a partir de hierarquia de conceitos. Ou seja, a partir desse atributo

foram formados dois novos atributos categoricos, um com valores de mes (de 1 a 12) e outra com

valores de ano (de 2009 a 2015). Dessa forma, a partir das regras de associacao, torna-se possıvel

observar fenomenos no tempo, como por exemplo certa ocorrencia prevalecer num determinado

mes, independentemente do ano.

Os dados brutos contem duas variaveis para descrever o nıvel de escolaridade: niv esco e

niv esco 1. Embora ambos tragam informacoes sobre o nıvel de escolaridade dos pacientes, eles

registram valores com formatos diferentes. Enquanto um se refere ao perıodo em anos que o

paciente estudou, como “de 8 a 11 anos de estudo” o outro refere-se ao grau de educacao como

“ensino fundamental completo”. Isso porque o campo de nıvel de escolaridade no formulario do

SivepMalaria sofreu mudanca ao longo dos anos. Nao e desejado manter dois atributos com a

mesma informacao e o ideal tambem nao e desconsiderar um dos atributos, ja que dessa forma

haveria perda de informacao. A maneira de contornar esse problema foi a construcao de um novo

atributo com valores em formato de nıvel de escolaridade em grau atingido, considerando os dois

atributos anteriores. Para isso, os campos preenchidos na variavel niv esc foram aproveitados

e, onde estavam ausentes, os valores de niv esc 1 foram convertidos para o formato adequado

e incorporados a nova variavel. A conversao de formatos se deu pela construcao de uma tabela

cruzada entre niv esc e niv esc 1, onde suas frequencias cruzadas foram consideradas, e, onde

as frequencias eram mais altas as categorias nos dois formatos foram consideradas associadas (ou

equivalentes). A correspondencia so foi possıvel porque havia uma grande quantidade de tuplas

com os dois campos preenchidos.

Como pode ser observado na Tabela V.3, os dados brutos apresentam dois atributos diferen-

tes para descrever a idade dos pacientes: id dimea e id pacie. Enquanto id pacie e numerico,

Page 39: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

31

id dimea diz se esse numero corresponde a dias, meses ou anos. A nova variavel de idade pre-

processada recebeu valores de id dimea iguais a meses e dias nas categorias “menor 01 ano”. Os

valores para os anos foram classificados segundo os intervalos utilizados pela Organizacao Pan-

Americana de Saude (OPS).

Outra aplicacao de construcao de atributos uniu os atributos de tratamento para falciparum

(falciparum) e tratamento para vivax (vivax) num mesmo atributo. Este atributo foi chamado

tratamento.anterior que pode assumir quatro valores. O valor “vivax” para quando o paci-

ente se submeteu a tratamento para o plasmodio vivax nos ultimos 60 dias antes da notificacao,

“faciparum” para quando o paciente recebeu tratamento para plasmodio falciparum nos ultimos

40 dias antes da notificacao, “vivax e falciparum” quando o paciente foi submetido ao tratamento

dos dois plamodios (considerando ainda 40 dias para falciparum e 60 para vivax) e “nao” quando o

paciente nao foi submetido a nenhum tratamento para esses dois plasmodios nos perıodos de tempo

especificados.

A Tabela V.5 apresenta os atributos do dataset bruto e em que atributos se transformaram

a partir de qual(is) tecnica(s) de pre-processamento. Onde le-se transformacao, significa que o

processo consistiu em mudanca de nome do atributo e a passagem de seus valores de codigo para

texto descritivo. Nesta tabela nao foram incluıdos os procedimentos de limpeza de dados.

Na Tabela V.6 sao apresentados os 19 atributos resultantes no dataset pre-processado, com seus

significados e exemplos de valor. No capıtulo de avaliacao experimental, na secao VI.1, sao feitas

alguns estudos em cima do dataset pre-processado de acordo com o que foi apresentado nessa secao.

V.3 Geracao das Regras de Associacao

As regras de associacao foram geradas a partir do algoritmo Apriori, implementado por meio do

pacote Arules [Hahsler et al., 2018] do software R [R Core Team, 2014]. Os parametros escolhidos

para a determinacao da regra inclui os tamanhos maximos e mınimos, o valores de suporte e

confianca e o tempo maximo de processamento. Ainda e possıvel estabelecer o item (ou o conjunto

de itens) que e permitido estar do lado direito ou esquerdo das da regras, como consequente ou

antecedente.

Para atender ao objetivo da pesquisa de entender os fatores associados a ocorrencia (ou a

nao ocorrencia) da malaria, do lado direito da regra (rhs) foi fixado o tipo de malaria. Para

fins desse estudo, os tipos de malaria considerados foram Falciparum, Nao Falciparum, Vivax,

Malariae, Ovale e Negativo, todos valores do atributo resultado de exame. Como a frequencia

de cada tipo e muito dıspar (vide Figura VI.4) e difıcil encontrar um suporte adequado que seja

capaz de gerar regras para todos os tipos. Considerando o dataset dos dados pre-processados, caso

fosse determinado um suporte relativamente alto, apenas apareceriam regras para o tipo vivax que e

Page 40: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

32

Tabela V.5: Pre-processamento dos atributos do dataset bruto

Atributo Atributo resultante Tecnica

dt notiftempo.notificacao ;

tempo.exame ano.notificacao ;mes.notificacao

construcao de atributoshierarquia de conceitos

sem noti - selecao de atributosuf noti - selecao de atributos

mun notirs.notificacao

migracaohierarquia de conceitosconstrucao de atributos

res exam resultado.exame transformacaotipo lam tipo.deteccao transformacao

dt exametempo.tratamento ;

tempo.exameconstrucao de atributos

dt sinto tempo.notificacao construcao de atributos

dt tratames.tratamento ;ano.tratamento

tempo.tratamento

hierarquia de conceitosconstrucao de atributos

exame tipo.exame transformacaohemoparasi hemoparasita transformacaopais inf - selecao de atributosuf infec - selecao de atributosmun infe caso.autoctone construcao de atributosloc infe - selecao de atributossintomas sintoma transformacaofalciparum tratamento.anterior construcao de atributosvivax tratamento.anterior construcao de atributoscod ocup ocupacao transformacaodt nasci - selecao de atributosniv esco escolaridade construcao de atributosniv esco 1 escolaridade construcao de atributos

id pacie idadeconstrucao de atributosdiscretizacao

id dimea idade construcao de atributospais res local.residencia discretizacaouf resid local.residencia discretizacao

mun resilocal.residencia

migracaocaso.autoctone

hierarquia de conceitosconstrucao de atributos

loc resi - selecao de atributosraca raca transformacaosexo sexo transformacao

absolutamente predominante. Caso fosse determinado um suporte baixo suficiente para possibilitar

o aparecimento de padroes para os tipos de menor frequencia, seria gerado um numero excessivo

de regras, impossibilitando a analise. A maneira definida para contornar esse problema foi, entao,

criar conjuntos diferentes de regras para cada resultado de exame (cada tipo de malaria e resultado

negativo). A diferenciacao foi feita por meio da determinacao de um suporte especıfico para cada

conjunto de regras.

Page 41: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

33

Tabela V.6: Atributos do dataset pre-processado

Atributo Significado Exemplo de valor

tempo.exame tempo entre notificacao e exame de 8 e 30 diastempo.tratamento tempo entre exame e inıcio do tratamento de 1 e 7 diastempo.notificacao tempo entre sintoma e notificacao no mesmo diames.notificacao mes que a notificacao foi registrada 10ano.notificacao ano que a notificacao foi registrada 2010

migracaose a Regiao de Saude de residencia e diferente ade notificacao

sim

caso.autoctonese a Regiao de Saude de infeccao e igual a deresidencia

nao

local.residencia localidade de residencia do paciente Paıs Fronteiraresultado.exame resultado do exame vivaxtipo.deteccao tipo de deteccao ativatipo.exame tipo do exame teste rapidosintoma se o paciente sentiu sintoma sim

hemoparasitaresultado do exame para outros hemoparasitaspesquisados

Microfilaria

trata-mento.anterior

se o paciente foi submetido a tratamentoanterior para vivax ou para falciparum

nao

ocupacao principal atividade nos ultimos 15 dias agriculturaescolaridade tempo de estudo analfabetoidade intervalo de idade do paciente 01 a 04 anosraca raca/cor do paciente pardasexo sexo do paciente feminino

A Tabela V.7 resume os valores dos parametros comuns a todos os quatro conjuntos de regras.

As regras de associacao foram criadas de forma a garantir que as informacoes relevantes para o

estudo fossem representadas. Para isso, forcamos o aparecimento do local de residencia do lado

esquerdo da regra (lhs). Dessa forma e garantido que a analise possa ser feita espacialmente, ou

seja, considerando em que localidade cada padrao ocorre. Sendo assim, todas as regras trazem

no seu lado esquerdo (lhs) o atributo de local de residencia e mais um (regras de tamanho 3) ou

dois (regras de tamanho 4) atributos do dataset pre-processado. A confianca mınima foi definida

como 0,8, ou 80%. A confianca deve ser alta para assegurar que o conjunto de itens do antecedente

(lhs) sejam realmente determinantes para promover o resultado apresentado do lado direito da

regra (rhs). Por fim, o tempo de processamento foi deixado ilimitado, fazendo que o processamento

acabe so depois de todas as regras possıveis sejam formadas.

Os suportes de cada conjunto de regras foram definidos pelo metodo de curvatura maxima, cal-

culado segundo o subset dos atributos mes.notificacao, ano.notificacao, local.residencia,

sexo, idade e para os registros do tipo de malaria em questao. Esses atributos foram escolhidos

por serem capazes de refletir um bom perfil do dataset. Os atributos ano e mes definem temporal-

mente, o atributo local define espacialmente e os atributos sexo e idade garantem diversificacao nas

Page 42: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

34

Tabela V.7: Parametros comuns para a geracao dos conjuntos de regras de associacao no arules-R

Parametro Valor atribuıdo

lhs local.residenciatamanho mınimo 3tamanho maximo 4confianca 80%tempo maximo ∞

caracterısticas pessoais dos pacientes. Usar todos os atributos, com todos seus valores possıveis,

sobrecarregaria a funcao, podendo gerar resultados incoerentes.

O metodo de curvatura maxima consiste na contagem da quantidade de vezes que cada com-

binacao possıvel de ocorrencia dos atributos do subset aparecerem juntas na mesma ocorrencia (na

mesma notificacao, mesmo paciente). A partir disso, plota-se um grafico de numero de regras com

(eixo y) e numero quantidade de combinacoes (eixo x). Define-se, entao, o ponto de curvatura

maxima de valor x igual a suporte absoluto a ser utilizado na determinacao das regras. Este valor

representa a quantidade de dados mınima ser considerada a fim de se obter combinacoes diferen-

tes. Considerar um conjunto de observacoes (registros do SivepMalaria) menor que esse resulta em

analise redundante e considerar um conjunto maior pode causar perda de informacao importante.

Em suma, o valor calculado por curvatura maxima reflete o numero mınimo de registros que devem

conter aquele padrao para que ele seja considerado relevante.

Para que os itens sejam considerados frequentes eles tem de atender o suporte mınimo estabe-

lecido. A tabela V.8 apresenta os valores de suporte utilizados na geracao das regras de associacao

para cada conjunto de regras. Como pode ser observado, para o tipo de malaria ovale nao foi

possıvel o calculo do suporte. Isso de deu pelo fato de que apenas 9 casos de malaria do tipo ovale

ocorrem no dataset, o que nao e o suficiente para a analise da curvatura maxima. Os suportes

absoluto e relativo sao, respectivamente, o suporte calculado pelo metodo de curvatura maxima e

este valor dividido pelo total de linhas do dataset pre-processado.

Tabela V.8: Informacoes dos parametros para geracao dos conjuntos de regras.

rhsSuporteAbsoluto

SuporteRelativo

Negativo 161 1.02x10−5

Vivax 149 9.4x10−6

Falciparum 33 2.1x10−6

Nao Falciparum 10 6.3x10−7

Malariae 2 1.2x10−7

Ovale - -

O processo de geracao das regras exige um esforco computacional muito grande, tornando

Page 43: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

35

essencial a utilizacao de um computador com alto poder de processamento. As tecnicas de pos-

processamento irao tratar de filtrar as regras geradas, possibilitando que uma analise mais “limpa”

das regras. Os metodos de filtragem de regras sao discutidos na proxima secao.

V.4 Pos-processamento

Mesmo com as limitacoes de suporte, confianca e tamanhos mınimos e maximos, devido a

dimensao do dataset um numero muito grande de regras e gerado. Por isso torna-se indispensavel

uma maneira de filtrar as regras interessantes para que apenas estas sejam investigadas. As tres

maneiras utilizadas neste trabalho com esse fim sao o uso de medidas de interesse, a consideracao

de regras nao-redundantes e a exclusao de regras com valores desinteressantes.

A primeira etapa da filtracao consistiu na exclusao das regras que traziam informacoes irrele-

vantes como “ocupacao = ignorado”. Depois foi feito o uso das medidas de interesse lift, kulc e

imbalance ratio. As regras consideradas desinteressantes segundo essas medidas, como explicado na

secao II.3, foram excluıdas. Por ultimo, todas as regras consideradas redundantes foram tambem

descartadas dos conjuntos de regras.

Mesmo depois de todo o processo de filtragem ainda permanecem muitas regras a serem anali-

sadas. Fez-se necessario entao desenvolver um metodo para otimizar o estudo e explorar o dataset

a fim de encontrar o conjunto de regras com maior potencial de fornecer informacao util. Esse

metodo sera explicado na proxima secao.

V.5 Obtencao de Regras Divergentes

*** Essa secao foi omitida para fins de publicacao. Atualizaremos o documento assim que

possıvel. ***

Page 44: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

36

Capıtulo VI Avaliacao Experimental

Este capıtulo e dividido em tres secoes. A primeira secao (secao VI.1) apresenta analises do

estudo exploratorio dos dados brutos e pre-processados. Com essa analise pretende-se apresentar

as tendencias principais do dado. A secao VI.2, apresenta caracterısticas das regras geradas na

mineracao de padroes como detalhado na secao V.3. A secao traz os resultados obtidos segundo a

abordagem descrita no capıtulo ??.

Enquanto a primeira analise visa a obtencao de uma visualizacao dos dados, de forma que se

possa ter uma visao geral e permitir o conhecimento dos principais comportamentos do dado, a

analise dos padroes encontra aspectos mais especıficos do dado visando encontrar relacionamentos

inesperados e de resumir os dados de uma forma que eles tragam informacao util, contribuindo no

processo de descoberta de conhecimento.

VI.1 Analise Exploratoria de Dados

Esta secao apresenta uma breve analise exploratoria dos dados. Essa analise ajuda a entender

o dataset e corroborar as tendencias que ja haviam sido comentadas em outros topicos, alem de

acentuar os desafios e a relevancia do trabalho que esta sendo executado. As duas secoes desse

capıtulo estao assim dividas pois, enquanto a primeira traz resultados de analises mais simples,

baseadas nos dados e em funcoes estatısticas mais basicas em cima dos dados brutos do SivepMa-

laria, a segunda traz os resultados de uma analise exploratoria mais aprofundada. A ideia de uma

analise mais aprofundada se baseia na utilizacao de tecnicas exploratorias mais avancadas, analises

provenientes de dados derivados do pre-processamento e/ou integracao de dados.

Dentre inumeras possibilidades de analise que poderiam ser apresentadas, julgou-se que os pro-

dutos apresentados (graficos e tabelas) sao capazes de representar as tendencias mais relevantes dos

dados. Alem disso, eles compreendem informacao necessaria para constatar, ao longo do desenvol-

vimento do trabalho, que as tecnicas de mineracao de dados aplicadas podem trazer observacoes

diferenciadas daquelas obtidas na analise exploratoria dos dados, mesmo que a esta tenha sido feita

de forma adequada, variada e avancada.

Page 45: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

37

VI.1.1 Analise Exploratoria dos Dados Brutos

A primeira analise a ser explorada e a nocao de completude dos dados. Como ja comentado

na secao V.1, os dados se apresentam esparsos no dataset bruto. Quando consideramos, portanto,

apenas os casos positivos de malaria ha uma porcao muito maior de dados preenchidos. A Tabela

VI.1 apresenta as porcentagens de dados preenchidos considerando primeiro o total de registros e

depois apenas os casos confirmados de malaria.

Tabela VI.1: Porcentagem de dados preenchidos para o total do dataset bruto (15764287 registros)e dos dados positivos para malaria (1744626)

Atributo TotalCasos

PositivosAtributo Total

CasosPositivos

cod ocup 11% 94% niv esco 1 5% 45%dt exame 12% 100% pais inf 12% 100%dt nasci 9% 76% pais res 12% 100%dt notif 100% 100% raca 6% 53%dt sinto 11% 94% res exam 100% 100%dt trata 11% 98% id pacie 12% 100%exame. 52% 53% id dimea 12% 100%falciparum 52% 53% id dimea 12% 100%hemoparasi 52% 53% sem noti 100% 100%loc infe 11% 96% sexo 12% 100%loc resi 12% 99% sintomas 12% 100%mun infe 12% 97% tipo lam 100% 100%mun noti 100% 100% tipo lam 100% 100%mun resi 12% 100% uf infec 12% 97%niv esco 11% 93% uf notif 100% 100%vivax 52% 53% uf resid 12% 97%

A Figura VI.1 apresenta dois graficos que mostram a proporcao do numero de atendimentos

(esquerda) e numero de casos positivos (direita) registrados nos estados da Amazonia Legal. O

campo “Outros” corresponde aos estados do Tocantis, Maranhao e Mato Grosso juntos. Percebe-se

que o Amazonas ocupa 40% do grafico de numero de atendimentos, mas os casos positivos, em

comparacao, sao bem menores. Em contraste existe, por exemplo, o estado do Para que possui

proporcionalmente aos outros estados muito mais casos positivos que numero de atendimentos

realizados.

A Figura VI.2 sumariza os graficos anteriores (Figura VI.1), apresentando a porcentagem de

registros que confirmaram a suspeita de malaria. Os estados do Para a Amapa apresentam as

maiores proporcoes de casos por atendimento, ja que, de 100 pacientes notificados, um numero

entre 15 a 20 sao diagnosticados com malaria. O Maranhao e o unico estado a apresentar menos

de 5% de casos entre as notificacoes feitas no estado.

O grafico da Figura VI.3 apresenta no tempo a quantidade de casos positivos e negativos.

Page 46: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

38

Figura VI.1: Proporcao de numero de atendimentos realizados (a esquerda) e proporcao de numerode casos positivos registrados (a direita) em cada estado da Amazonia Legal considerando os regis-tros do SivepMalaria compreendidos entre os anos 2009 e 2015. Os rotulo “Outros” refere-se aosregistros somados dos estados de Tocantins, Maranhao e Mato Grosso

Figura VI.2: Proporcao de casos positivos por numero de atendimentos realizados nos estados daAmazonia Legal considerando os registros do SivepMalaria compreendidos entre os anos 2009 e2015

Corroborando o que ja foi dito anteriormente, percebe-se um padrao decrescente ao longo dos

anos no numero de casos positivos e negativos, que nesse caso reflete o numero de atendimentos

notificados de malaria. Outra tendencia e a ondulacao percebida principalmente na linha dos casos

Page 47: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

39

positivos. E notavel o aumento de numero de casos no meado do ano (inverno no Brasil) e a

diminuicao no inıcio e fim do ano.

Figura VI.3: Grafico de quantidade de casos negativos e positivos de malaria no tempo (mes e ano)

O grafico da Figura VI.4 apresenta a distribuicao do tipo de malaria nos sete anos de estudo.

Vivax e claramente o tipo de plasmodio predominante, sendo o tipo Falciparum o segundo mais

presente. Outros tipos de Plasmodio ocorrem mais raramente, sao esses: F+FG (P. falciparum +

gametocitos de P. falciparum), F+V (P. falciparum + P. vivax), V+FG (P. vivax + gametocitos

de P. falciparum), FG (gametocitos de P. falciparum), M (P. malariae), F+M (P. falciparum + P.

malariae), Ov (P. ovale) e Nao F (nao falciparum). Esse ultimo e inconclusivo sobre o tipo exato

de plasmodio, apenas descarta a hipotese de ser Falciparum. Isso ocorre para casos de exames

feitos com teste rapido que so e capaz de acusar os resultados Negativo, F (P. falciparum), F+V

(P. falciparum + P. vivax ou Nao F (nao falciparum).

Durante o estudo dos atributos, a partir de analise de matrizes de correlacao, notou-se uma

correlacao entre os atributos sintomas e tipo lam. Isso motivou a analise combinada desses dois

atributos para entender o motivo dessa correlacao. A Tabela VI.2 mostra o resultado dessa analise.

Percebe-se que, para a deteccao do tipo ativa (quando o paciente e procurado pelo profissional

de saude para fazer o exame) 16% dos pacientes diagnosticados com malaria nao apresentavam

sintomas. No caso da deteccao passiva (quando o paciente procura a unidade de saude notificante

para fazer o exame) apenas em 2% dos casos o paciente nao apresentava sintomas. Essa observacao

e esperada, uma vez que o paciente normalmente busca por atendimento em decorrencia do fato

de estar sentindo algum sintoma. A analise tambem mostra que a deteccao ativa pode ser impor-

tante para encontrar (e, posteriormente, diagnosticar e tratar) indivıduos que apresentam casos

assintomaticos e que, muito provavelmente, nao procurariam uma unidade de saude.

Page 48: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

40

Figura VI.4: Numero de casos de malaria por tipo de Plasmodio de 2009 a 2015. O grafico representatodos os casos positivos do SivepMalaria nestes anos

Tabela VI.2: Associacao entre o tipo de deteccao e a percepcao dos sintomas

Sintoma Deteccao Ativa Deteccao Passiva

Sim 84% 98%Nao 16% 2%

VI.1.2 Analise Exploratoria dos Dados Pre-Processados

Os graficos da Figura VI.5 apresentam uma analise dos atributos de tempo criados no pre-

processamento. Para os tempos de notificacao, tratamento e exame, a quantidade de pontos em

cada quadrante e proporcional a quantidade de registros em cada intervalo de tempo e para cada

estado de notificacao (1 ponto para cada 500 registros). E interessante reparar que o tempo entre

o diagnostico e o inıcio do tratamento (tempo de tratamento) e o tempo entre a notificacao e a

execucao do exame (tempo de exame) sao predominantemente de ate um dia para todos os estados.

O Maranhao se destaca no tempo de exame por ser o unico a apresentar o intervalo de 1 a 7 dias

mais equilibrado com o intervalo de 1 dia, indicando que nesse estado ha uma maior demora na

obtencao do diagnostico se comparado aos outros estados.

Para o tempo de notificacao, o padrao mostra maiores registros no intervalo de 1 a 7 dias. Isso

indica que ha uma lacuna de tempo entre o momento que o paciente sente o primeiro sintoma ate

o momento que vai procurar a unidade de saude (ou vai ser encontrado pelos agentes de saude).

Analisando agora os atributos relacionados as informacoes pessoais dos pacientes infectados por

malaria e considerando os dados do censo de 2010 do IBGE da frequencia de cada classe para

ponderar os valores absolutos foram construıdos os graficos das Figuras VI.6 e VI.7. Vemos que

em todos os estados predomina-se o sexo masculino como o mais afetado. Existe uma variacao

Page 49: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

41

Figura VI.5: Grafico com proporcao (1:500) de registros em cada estado da Amazonia Legal,considerando os intervalos dos tempos de notificacao (superior), exame (central) e tratamento(inferior)

entre os estados no que diz respeito a proporcao de homens e mulheres com malaria, por exemplo,

enquanto no Mato Grosso 77% dos casos sao em pessoas do sexo masculino, no Acre a disparidade

entre homens e mulheres e bem menor, sendo 56% homens e 44% mulheres.

Figura VI.6: Graficos de cada estado da amazonia legal com as proporcoes de homens (sexo mas-culino) e mulheres (sexo feminino) afetados pela malaria. Os valores sao ponderados pelos dadosdo censo de 2010 do IBGE

Na Figura VI.7 e possıvel notar que a populacao indıgena e a mais afetada pela malaria nos

estados da Amazonia Legal. Essa tendencia so pode ser observada porque, para a confeccao do

grafico, os dados foram ponderados com os dados de populacao do IBGE, censo 2010. Isso significa

que, dentre toda a populacao indıgena, uma porcentagem muito maior de indivıduos e infectada pela

malaria em comparacao com outras racas. Caso a quantidade de indivıduos de cada raca nao fosse

considerada, o grafico representaria as porcentagens dos numeros absolutos de casos notificados e,

Page 50: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

42

dessa forma, a raca parda predominaria.

Figura VI.7: Grafico com as proporcoes de raca, entre preta, parda, indıgena, branca e amarela deindivıduos afetados pela malaria nos estados da Amazonia Legal. Os valores sao ponderados pelosdados da raca da populacao segundo o censo de 2010 do IBGE

O ultimo grafico, da Figura VI.8, apresenta os meses e anos com cores representando a variacao

em numero de casos de malaria comparados ao total de casos em 2009 (308406 casos). Quanto mais

quentes forem as cores, assim como quanto maior os raios das circunferencias, maior o numero de

casos. Dessa forma e possıvel observar como se deu a variacao na ocorrencia da doenca ao longo de

meses e anos. As duas tendencias ja observadas da Figura VI.3 sao verificadas com mais clareza a

partir desse grafico onde vemos que, ao longo dos anos os casos diminuem e que em todos os anos

a prevalencia da doenca se da mais pro meio do ano (de maio a setembro) que pro inıcio ou fim.

Figura VI.8: Observacao de variacao na ocorrencia de numero de pessoas afetadas pela malariaentre todos os meses dos anos de 2009 a 2015. As cores representam os valores dos ındices calculadopela divisao do numero de casos registrados no mes e ano pelo numero de referencia. A referenciae o numero absoluto de casos em 2009 (308406 casos). Sendo assim, quanto mais quente a cor emaior o raio da circunferencia, maior o valor desse ındice

Page 51: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

43

A analise exploratoria de dados ja e capaz de mostrar padroes e tendencias nos dados. Entao,

um estudo aprofundado, como a mineracao por regra de associacao, por ser mais robusto, promete

levantar informacoes bastante relevantes.

VI.2 Analise das Regras de Associacao

Nesta secao, apresentamos caracterısticas gerais das regras de associacao geradas a partir do

Apriori e de acordo com o descrito na secao V.3. A Tabela VI.3 apresenta o numero de regras gera-

das pelo Apriori e os numeros apos cada etapa de filtragem dos dados. Como pode ser observado,

para o tipo de malaria malariae nenhuma regra foi gerada. Isso se deu pelo fato de que, mesmo

definindo um suporte muito baixo, a presenca desse tipo e tao rara no dataset que nao foi possıvel

obter padroes. Dessa forma, quatro conjuntos de regras, com o numero de regras indicado pela

coluna Regras Final na Tabela VI.3, foram utilizadas nessa analise.

Tabela VI.3: Informacoes sobre numero de regras dos conjuntos de regras antes de depois de cadaetapa de filtragem. A filtragem 1 corresponde a etapa de eliminacao de valores desinteressantes,a filtragem 2 a consideracao das medidas de interesse e a filtragem 3 a eliminacao das regrasredundantes.

rhsNumero de

RegrasGeradas

Numero deRegras aposfiltragem 1

Numero deRegras aposfiltragem 2

Numero deRegras aposfiltragem 3

Negativo 1452 316 151 118Vivax 64104 23461 23461 10838Falciparum 44 30 30 24Nao Falciparum 407 283 283 224Malariae 0 0 0 0

Observando a Tabela VI.3, vemos que mesmo apos as filtragem restam ainda muitas regras a

serem consideradas para analise, principalmente para o conjunto de regras que trazem a malaria do

tipo Vivax do lado direito da regra. Na proxima secao, sao apresentados os resultados da analise

das regras divergentes encontradas segundo a ARD, como indicado no capıtulo ??.

Como apresentado na secao anterior, mesmo depois da utilizacao de recursos para reduzir os

conjuntos de regras geradas pelo Apriori para que sejam mantidos apenas os padroes interessantes,

vemos que muitas regras ainda permanecem para ser analisadas. Por esse motivo, em cima desse

conjunto de regras ja filtrado, foi aplicada a ARD, como detalhado no capıtulo?? da metodologia.

Nesta secao, entao, apresentamos a analise das regras divergentes, ou seja, aquelas que contem os

atributos considerados divergentes. Propoe-se que os resultados provenientes dessa analise sejam

diferenciados do que ja pode ser observado na analise exploratoria dos dados (Secao VI.1).

Page 52: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

44

VI.2.1 Divergencia no Atributo Ano de Notificacao

A primeira observacao interessante foi a percepcao de que os anos de 2009 e 2010, que sao os

que mais aparecem no dataset do SivepMalaria (vide Figuras VI.8 e VI.4), aparecem com menor

frequencia nos datasets das regras. Entao, despertou-se o interesse em buscar o possıvel motivo

para tal. Para isso, o dataset pre-processado voltou a ser estudado, com foco no atributo do

ano de notificacao. Notou-se que alguns atributos nos registros desses dois anos foram raramente

preenchidos, constituindo muitos campos vazios e dificultando a busca por padroes das regras

de associacao. Essa observacao representa uma descoberta interessante sobre preenchimento e

completude dos dados que nao foi observada na analise exploratoria inicial.

Os atributos mal preenchidos tratam-se dos que traziam informacao sobre hemoparasitas pesqui-

sados, tipo de exame, tratamento anterior, e raca do paciente. Todos os quatro foram atributos que

comecaram a ser registrados apenas em 2011, quando houve troca de formulario do SivepMalaria

Wiefels et al. [2016].

Alem dessa divergencia ter indicado uma caracterıstica do dado, ajuda a dar consistencia a

metodologia adotada neste trabalho. A Tabela VI.4 apresenta os suportes relativos indicando o

quanto dos registros foram contemplados nos padroes gerados para resultados de exame dando

em vivax. Percebe-se que para todos os anos esse suporte e alto, variando em torno de 70%,

inclusive nos anos de 2009 e 2010, onde encontra-se a divergencia. Logo, caso apenas fosse levado

em consideracao a analise dos suportes, nada poderia ser observado com relacao a peculiaridade

dos atributos faltantes nos dois primeiros anos considerados neste estudo.

Tabela VI.4: Suporte das regras para os pacientes com vivax nos sete anos de estudo

Ano 2009 2010 2011 2012 2013 2014 2015

Suporte 0.710 0.815 0.838 0.743 0.728 0.615 0.949

Essa avaliacao nos permite afirmar que, neste caso, foram gerados menos padroes que o esperado

para os anos 2009 e 2010 nao pelo fato de que nesses anos fosse mais difıcil encontrar padroes, mas

apenas pelo fato de que existem menos atributos (e valores) a serem considerados para a geracao

das regras.

VI.2.2 Divergencia no Atributo Hemoparasitas

O atributo hemoparasita do dataset estudado apresenta a informacao se o paciente apresenta

os hemoparasitas microfilaria e/ou trypanosoma causadores, respectivamente, da filariose e da

doenca de chagas. Essa informacao so e possıvel nos casos onde o exame feito foi esfregaco ou

gota espessa, pois se tratam do exame microscopico do sangue e permitem a observacao de outros

hemoparasitas, alem do plasmodio. Observando este atributo nos datasets das regras percebeu-se

Page 53: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

45

uma tendencia ao aparecimento do hemoparasita microfilaria em casos negativos e o aparecimento

do hemoparasita trypanossoma em casos positivos de malaria. Considerando os quatro datasets de

regras (Negativo, Vivax, Falciparum e Nao Falciparum), das 11 regras onde aparece microfilaria,

nove resultam em resultado negativo e das 13 onde aparece trypanossma todas resultam em vivax.

Alem disso, nota-se que as duas regras que apresentam microfilaria dando em resultado positivo de

malaria apresentam a confianca consideravelmente mais baixa.

Cerca de 70% dos casos detectados de trypanossoma no dataset e representado em padroes

com o resultado em Vivax. A malaria e a doenca de Chagas, embora sejam transmitidas por

vetores diferentes, ambas apresentam-se predominantes em comunidades carentes. Nos padroes

onde apareceu o Trypanosoma, apenas duas regioes de saude aparecem, ambas no Para. Sao essas

a regiao de saude Marajo I, que e constituıda pelos municıpios Afua, Cachoeira do Arari, Chaves,

Muana, Ponta de Pedras, Salvaterra, Santa Cruz do Arari, Sao Sebastiao da Boa Vista e Soure,

e a regiao de saude Tocantins composta pelos municıpios Abaetetuba, Baiao, Barcarena, Cameta,

Igarape-Miri, Limoeiro do Ajuru, Mocajuba, Moju e Oeiras do Para. Algumas fontes apontam

para surtos de doenca de Chagas em alguns desses municıpios, corroborando para a validade dos

resultados encontrados [Santos, 2013; Junior et al., 2017; Pinto et al., 2003].

No estado do Para, especificamente, ha muitas ocorrencia de doenca de Chagas. Uma maneira

bastante comum de obter a doenca de Chagas e a partir da ingestao de alimentos contaminados

por Trypanosoma, principalmente o acaı e a cana de acucar. Os barbeiros, vetores da doenca,

encontram nessas plantacoes condicoes ideias para seu desenvolvimento e podem ser triturados e

comercializados junto com o produto. As fezes do inseto tambem contaminam os alimentos [Ferreira

et al., 2014].

Dois padroes encontrados para a regiao de Marajo I trazem consigo os meses de notificacao,

sendo esses marco e abril. No total, mais de 500 casos de malaria do tipo vivax e doenca de

Chagas juntas acontecem nesses meses. De acordo com o boletim epidemiologico, no entanto,

existem mais casos de Chagas nos meses de agosto a novembro [da Saude (BR). Secretaria de

Vigilancia em Saude, 2015]. Outros valores que compoem os padroes com essas caracterısticas sao

genero feminino, tempo de notificacao de 1 a 7 dias, ano 2011, idade de 1 a 4 anos, escolaridade 1o

a 4o seria incompleta do Ensino Fundamental, deteccao ativa e raca branca.

Para resultados positivos para microfilaria, nove regras sao geradas onde o resultado da malaria

e negativo. Essas regras contemplam cerca de 34% dos casos de microfilaria que aparecem no

dataset. As regioes de saude mostrada nos padroes foram Alto Solimoes, Regional Jurua e Regional

Purus, nessa ordem em numeros de casos contemplados. Essas tres regioes de saude encontram-se

no estado do Amazonas.

Outros valores associados a casos de filariose positivo e de malaria negativo sao meses de verao

Page 54: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

46

(dezembro a marco), que ja vimos que nao sao os meses onde predomina a malaria. O ano de 2011

tambem aparece para Alto Solimoes e Regional Jurua. A ausencia de sintomas e outro valor que

surge nos padroes. Esse ultimo e bastante interessante pois indica que a partir da iniciativa de

testar para malaria o paciente pode vir a ser diagnosticado com outra enfermidade que ainda nem

manifestava sintomas. No caso da filariose o diagnostico previo e de especial importancia ja que

as filarias ocupam o sistema linfatico, obstruindo os vasos e causando inchaco e engrossamento da

pele na area, dano que pode ser irreversıvel.

VI.2.3 Divergencia no Atributo de Ocupacao

No dataset das regras para o resultado negativo observa-se predominancia na ocupacao “cons-

trucao de estradas” entre todas as outras ocupacoes. Alem disso, o suporte das regras com essa

ocupacao e consideravelmente maior que o suporte da outras ocupacoes, sugerindo que o resultado

negativo para malaria esta relacionadas a ocupacao “construcao de estradas”. Outra observacao

feita e que apenas no dataset das regras para resultado negativo o tipo de deteccao ativa aparece

com mais frequencia que o tipo de deteccao passiva.

Essa ultima observacao e coerente, uma vez que a chance de se obter resultados de exame

negativo e maior quando os agentes de saude vao ate certa localidade para fazer exames em um

conjunto de pessoas que, diferentemente da maioria das pessoas que vao procurar atendimento,

podem nao estar sentindo nenhum tipo de sintoma. Com relacao a ocupacao, no entanto, nao ha

uma logica direta que leve a uma deducao do motivo disso acontecer.

Para buscar respostas, foi feito um teste qui-quadrado para estudar o nıvel de relacao existente

entre os atributos ocupacao (sendo reduzido a dois valores: construcao de estrada e outros) e tipo

de deteccao. O teste foi executado num subconjunto dos resultados negativos do dataset pre-

processado. O valor P (p-value) calculado e menor que o nıvel de significancia de 0.5 e, portanto,

descarta a hipotese de independencia entre os dois atributos. Como desfecho dessa analise, que

comecou pela identificacao de comportamento divergente no dataset de regras, descobrimos uma

relacao importante entre os dois atributos, indicando que, possivelmente, muitas das campanhas

de deteccao ativa sao feitas em locais de construcao de estradas.

Outra observacao a cerca da ocupacao de construcao de estradas e que os padroes encontrados

para resultado negativo de malaria estao na regiao de saude Alto Tapajos, no estado do Mato

Grosso. Nessa regiao (fronteira dos estados do Para e Mato Grosso) encontra-se a usina hidreletrica

Teles Pires (UHE Teles Pires), com capacidade instalada de 1820 MW, sendo a maior usina do

Complexo Teles Pires (Figura VI.9).

Outros valores que acompanham esses padroes sao o ano de 2012, tipo de deteccao ativa e

tempo de exame de 1 a 7 dias. Sabendo que a ocupacao chamada de “construcao de estradas”

Page 55: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

47

Figura VI.9: Mapa com a localizacao da regiao de saude Alto Tapajos e da Usina Hidreletrica TelesPires

no SivepMalaria inclui tambem trabalhadores de construcao de hidreletrica e observando ainda

estes valores encontrados nos padroes gerados, e possıvel inferir que esses exames foram feitos por

consequencia do Plano de Acao e Controle da Malaria, previsto no Projeto Basico Ambiental da

UHE Teles Pires. Neste projeto, e assumido o compromisso de se realizar testes de malaria nos

funcionarios da construcao da barragem na admissao, demissao e tambem a realizacao de exames

periodicos [Pires]. A Tabela VI.5 apresenta os 5 padroes com suporte mais alto para as regras

geradas no subset do SivepMalaria para resultado negativo onde aparece a ocupacao construcao de

estradas.

Tabela VI.5: Regras de Associacao com ocupacao construcao de estradas para RHS = Negativo

LHS Regiao de Saude Suporte

{ocupacao=Constr estradas} Alto Tapajos 5.90x10−5

{ocupacao=Constr estradas; tipo.exame=Gotaespessa/Esfregaco} Alto Tapajos 5.89x10−5

{ocupacao=Constr estradas; raca=Parda} Alto Tapajos 3.34x10−5

{ocupacao=Constr estradas; tempo.exame=de 1 a 7 dias} Alto Tapajos 3.14x10−5

{ocupacao=Constr estradas; ano.notificacao=2012} Alto Tapajos 2.54x10−5

VI.2.4 Divergencia nas Regioes de Saude

Ao analisar o dataset de regras para o tipo de malaria falciparum foi curioso observar que

apenas 3 regioes de saude aparecem nas regras, sendo que a regiao de saude Codo, no Maranhao

aparece em 21 das 24 regras geradas. Essa regiao de saude abrange os municıpios Codo, Coroata,

Page 56: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

48

Sao Mateus do Maranhao, Alto Alegre do Maranhao e Timbiras.

A regiao de saude Codo nao e uma das regioes com mais altas taxas de incidencia da malaria

(mais exatamente, e a 47◦ numa lista das regioes de saude por ordem decrescente de casos de

malaria) mas se destaca pelo fato de apresentar mais casos de falciparum do que de vivax. O

ano de 2009 acompanha todas os padroes da regiao de saude Codo com resultado de malaria do

tipo falciparum, alem de valores mostrando escolaridade baixa, genero feminino, a existencia de

sintomas, agricultura como atividade ocupacional e meses de notificacao entre marco e julho. A

Tabela VI.6 mostras os 5 padroes de maior suporte para o tipo de malaria falciparum.

Tabela VI.6: Regras de Associacao para RHS = malaria falciparum

LHSRegiao de

SaudeSuporte

{ano.notificacao=2009} Codo 2.38x10−5

{ano.notificacao=2009; sintomas=Sim} Codo 2.37x10−5

{ocupacao=Agricultura; ano.notificacao=2009} Codo 1.74x10−5

{ano.notificacao=2009; sexo=Feminino} Codo 8.94x10−6

{tempo.exame=de 1 a 7 dias; ano.notificacao=2009} Codo 8.75x10−6

Esses 21 padroes para regiao de saude Codo caracterizam mais de 70% dos registros da regiao

(considerando resultado de exame para malaria falciparum). Isso significa que a malaria do tipo

falciparum nessa regiao era bastante bem caracterizada em 2009. Este tipo de analise pode ajudar

na determinacao de grupos de risco e orientar campanhas de prevencao.

As outras duas regioes de saude que aparecem sao Marajo I (2 padroes) e Triangulo (1 padrao)

localizados, respectivamente, nos estados do Para e Amazonas. Essas duas regioes de saude apre-

sentam um numero muito superior de casos de malaria se comparados a Codo e esses padroes nao

cobrem nem 2% do total desses casos, logo, a caracterizacao da malaria do tipo falciparum nessas

regioes nao e tao compreendida quanto em Codo e, portanto, nao sera discutida.

Uma ultima observacao a cerca desses topico e que em todos os padroes onde os atributos

de tempo (notificacao, exame e tratamento) aparecem, os valores mostram que estes tempos sao

curtos, ou seja, a notificacao, o exame e o tratamento sao feitos de maneira rapida. Isso pode estar

relacionado ao fato de que a malaria do tipo falciparum e considerada uma emergencia medica e

o seu tratamento deve ser iniciado nas primeiras 24h do inıcio da febre. O motivo de emergencia

medica e que este e considerado o tipo mais agressivo de malaria e pode gerar diversos outros

problemas medicos em um curto perıodo de tempo.

VI.2.5 Divergencia no Atributo de Raca

A ARD apontou que nos subsets da malaria do tipo vivax e resultado negativo, no atributo

“raca”, a raca indıgena contem menos regras que o esperado. Na busca de um provavel motivo para

Page 57: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

49

este fato, constatou-se que a raca indıgena apresenta uma porcentagem muito menor de deteccao

passiva que ativa em comparacao a outras racas. Isso significa que os indivıduos da raca indıgena

estao menos propensos a procurar uma unidade de atendimento e ficam mais dependentes das

campanhas de deteccao ativa.

A deteccao do tipo ativa se da principalmente a partir de campanhas onde os agentes de saude

se dirigem ate certa localidade e submetem os indivıduos ao teste de malaria. Dessa forma, como

se trata de uma acao em saude, com rotinas e protocolos, tem um padrao mais bem definido. Em

comparacao, na deteccao do tipo passiva indivıduos vao a procura de atendimentos e as variaveis

envolvidas tendem a ser mais disperdas, dificultando a formacao de padroes.

Com relacao ao suporte das regras que contemplam a raca indıgena, cerca de 72% dos indivıduos

estao incluıdos nas regras, tanto pra os casos de vivax quanto para os casos negativos. Isso nao e

menos que as outras racas (no caso do subset dos negativos e, inclusive, o de maior porcentagem),

o que descaracteriza a possibilidade de que menos regras tenham sido geradas pelo fato de padroes

nao terem se formado.

Pelo grafico da analise exploratoria das racas (Figura VI.7) onde percebe-se que a populacao

indıgena esta mais vulneravel a malaria que qualquer outra, essa informacao de que os ındios tendem

a procurar por atendimento medico com menos frequencia e bastante relevante. Isso pode significar

que mais campanhas de deteccao ativa devem ser feitas nas localidades onde se encontram esses

indivıduos, visando a promocao de saude para essa populacao em risco.

VI.2.6 Divergencia em Outros Atributos

Essa subsecao apresenta uma discussao das outras divergencias apontadas que nao foram discu-

tidas nos topicos anteriores. Algumas consideracoes sao feitas em cima desses resultados buscando

apresentar as caracterısticas envolvidas na divergencia, embora nenhuma descoberta mais solida te-

nha sido feita. Esses sao exemplos de que valores apontados como divergentes nao necessariamente

irao guiar para analises interessantes ou pelo menos que essa descoberta nao e trivial.

Um caso de divergencia foi evidenciado na comparacao dos graficos de frequencia para o atri-

buto sexo em todos os quatro datasets das regras. O genero feminino aparece em mais regras que

o genero masculino, contrariando o esperado pela predominancia do genero masculino no Sivep-

Malaria. Embora exista mais regras para o genero feminino, ao suporte dessas regras nao supera

o suporte das regras com genero masculino o que indica que existem mais padroes relacionados

ao genero feminino, no entanto, os padroes onde aparece o sexo masculino acontecem com mais

frequencia.

Divergencias tambem foram encontradas no atributo que indica tratamento anterior em tres

subsets: nao falciparum, vivax e falciparum. Para a malaria do tipo vivax e nao falciparum (que

Page 58: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

50

pode ser vivax ou outro tipo que nao falciparum), a divergencia aponta que mais regras foram

geradas para tratamento anterior em vivax. Analogamente, para a malaria do tipo falciparum, a

divergencia acusa mais regras geradas para tratamento anterior em falciparum. Isso pode estar

correlacionado com o fato de que, quando o paciente adquire malaria mais de uma vez, o tipo da

malaria geralmente e recorrente. Isso e comum ate mesmo pelas condicoes/regioes de infeccao a

qual aquele indivıduo esta constantemente exposto.

No subset dos resultados negativos, foi apontada uma divergencia no atributo de sintomas.

Embora existam mais ocorrencias para o valor “sim”, muito mais regras foram formadas para o

valor “nao” (45 regras com nao e 2 com sim). E curioso observar que entre as 45 regras geradas

com “nao” para o atributo sintoma nesse subset, mais da metade esta na regiao de saude Ze

Doca. Essa regiao compreende 17 municıpios do estado do Maranhao e e a 25 se listar as regioes

de saude comecando por aquela que tem o maior numero de casos de malaria. As regras como

suportes mais altos (que sao em Ze Doca) tambem envolvem valores como “tipo de exame = Gota

Espessa/Esfregaco”, “raca = Parda” e “tipo de deteccao = ativa”.

Para o atributo de escolaridade houve indicacao de divergencia no conjunto das regras para

o tipo de malaria vivax, onde “analfabeto” aparece em menos regras que o esperado. Cerca de

67% dos indivıduos que alegaram ser analfabetos e foram diagnosticados com malaria do tipo vivax

estao incluıdos em um das 199 regras criadas. Isso indica que menores escolaridades estao mais

bem caracterizadas em casos positivos de malaria (vivax), ja que boa parte dos indivıduos pode ser

descrita em menos regras.

Menos regras do que esperado para ocupacao garimpagem para malaria do tipo vivax foi outro

ponto destacado na divergencia. A indicacao de divergencia e bastante forte nesse atributo, que

apresenta valor de divergencia bastante extremo com relacao aos demais. As 26 regras formadas

para a ocupacao garimpagem envolvem apenas cerca de 7,7% dos registros de casos de vivax nessa

ocupacao. Como esta porcentagem e bastante baixa, temos que indivıduos dessa ocupacao apre-

sentam padroes pouco caracterısticos no que diz respeito a infecao causada pelo plasmodio vivax,

dificultado a formacao de padroes e regras. Entre as regras de maiores suportes, outros valores

encontrados sao: tipo de exame gota espessa, sexo masculino, ano 2015 e tempo de notificacao de

1 a 7 dias. As regioes de saude mais frequentes entre as regras sao: Araguaia (9 regras), Xingu (5

regras) e paıs fronteira (4 regras).

Alguns valores apresentaram ındices de divergencia extremos dentro da certa variavel num

certo conjunto de dados, mas nao constituem uma divergencia relevante e, por isso, nao foram

considerados. Um exemplo e o que acontece para o atributo que indica o tipo de deteccao. Tanto

para falciparum quanto para nao falciparum ha uma troca na ordem esperada do valor que deveria

gerar mais regras, configurando divergencia. Porem, percebe-se que ha apenas uma regra nesse

Page 59: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

51

atributo no subset nao falciparum e no subset do nao falciparum a diferenca e de apenas uma regra

(3 regras com “Ativa” e 4 com “Passiva”) o que acaba configurando uma divergencia fraca e nao

importante.

Outros casos de divergencia fraca acontecem para o ano de 2015 nos subsets do falciparum e

do nao falciparum (so duas regras geradas) e para as escolaridades ensino superior incompleto e

ensino medio completo no subset dos negativos (nenhuma e 4 regras geradas, respectivamente). O

ultimo caso de divergencia tambem considerado irrelevante para analise foi a indicacao de geracao

de mais regras do que esperado em 2015 nas regras dando em resultado negativo de malaria. O

motivo dessa divergencia nao ser importante e que as regras compreendem apenas 0,13% dos dados

do subset, ou seja, essas 11 regras geradas tem um suporte muito baixo e nao sao suficientes para

resumir os dados.

A Tabela no Anexo mostra o resultados da ARD para todos os atributos nos quatro datasets para

os diferentes resultados de exames. Os valores destacados em amarelo sao os valores considerados

divergentes, por serem extremos (altos ou baixos) se comparado aos outros valores do atributo.

Como explicado na metodologia, os atributos de migracao e caso autoctone so possuem um valor

(“sim” e “nao”, respectivamente) e nao podem ser analisados pela ARD, por isso, a fonte esta

em vermelho na Tabela no Anexo. Todos as divergencias encontradas foram, de alguma forma,

mencionadas nessa secao.

Page 60: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

52

Capıtulo VII Conclusoes

A abordagem para obtencao de regras divergentes (ARD) desenvolvida neste trabalho se provou

util na descoberta de conhecimento, ja que, por meio dela foi possıvel levantar as informacoes

relevantes sobre a malaria que nao se mostravam claras durante a analise exploratoria de dados.

A riqueza do banco de dados estudado, principalmente apos o pre-processamento, tem potencial

de trazer conhecimento interessante a partir da aplicacao bem empregada de mineracao de padroes

frequentes. As informacoes levantadas apontam ocorrencias relevantes e coerentes sobre a malaria

no contexto das regioes de saude.

Na avaliacao experimental, apresentamos a analise exploratoria e analise das regras, mostrando

que as tecnicas utilizadas envolvendo mineracao de padroes e analise de regras divergentes sao

capazes de buscar informacao mais profundas do que aquelas que poderiam ser levantadas por

analise exploratoria.

Vale ressaltar que esse estudo apresenta as investigacoes que foram obtidas no escopo da me-

todologia e, portanto, de abrangencia limitada. Logo, as analises aqui discutidas sao apenas uma

fracao do que pode ser obtido a partir do estudo dos dados e dos padroes gerados. O potencial de

descoberta de informacao util a partir desses dados e incalculavel, sendo impossıvel explora-lo por

completo neste estudo.

Para trabalhos futuros, pretende-se utilizar a ARD em outras aplicacoes para ver seus resultados

em um outro contexto. Pretende-se tambem ver as descobertas para dados mais recentes do Sivep-

Malaria, ja que a analise do presente trabalho foi feita em cima de dados de 2009 a 2015.

Page 61: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

53

Referencias Bibliograficas

Agrawal, R., Imielinski, T., and Swami, A. (1993). Mining Association Rules Between Sets of Items

in Large Databases. SIGMOD Rec., 22(2):207–216. 08599. 11

Agrawal, R., Srikant, R., and others (1994). Fast algorithms for mining association rules. In Proc.

20th int. conf. very large data bases, VLDB, volume 1215, pages 487–499. 7, 9, 11

Almeida, C. A., Valeriano, D. M., Escada, M. I. S., and Renno, C. D. (2010a). Estimativa de area

de vegetacao secundaria na Amazonia Legal Brasileira. Acta Amazonica, 40(2):289–302. 2

Almeida, L. B. d., Barbosa, M. d. G. V., and Martinez-Espinosa, F. E. (2010b). Malaria among

women aged 10 to 49 years, according to SIVEP-Malaria, Manaus, State of Amazonas, 2003-2006.

Revista da Sociedade Brasileira de Medicina Tropical, 43(3):304–308. 24

Alvarez, S. A. (2003). Chi-squared computation for association rules: preliminary results. Boston,

MA: Boston College. 13

Aumann, Y. and Lindell, Y. (1999). A statistical theory for quantitative association rules. In

Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery and

data mining, pages 261–270. ACM. 6

Bayardo, R. J., Agrawal, R., and Gunopulos, D. (1999). Constraint-based rule mining in large,

dense databases. In Proceedings 15th International Conference on Data Engineering (Cat. No.

99CB36337), pages 188–197. IEEE. 1, 15, 18

Bayardo Jr, R. J. (1998). Efficiently mining long patterns from databases. In ACM Sigmod Record,

volume 27, pages 85–93. ACM. 18

Berzal, F., Blanco, I., Vila, M., and others (2002). Measuring the accuracy and interest of associ-

ation rules: A new framework. Intelligent Data Analysis, 6(3):221–235. 7, 8

Braz, R. M. (2003). Manual de Preenchimento da Ficha de Notificacao de Caso de Malaria. MS

- Secretaria de Vigilancia em Saude Coordenacao Geral do Programa Nacional de Prevencao e

Controle da Malaria. 24

Bressan, C. and Brasil, P. (2013). Malaria. 2

Page 62: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

54

Brin, S., Motwani, R., Ullman, J. D., and Tsur, S. (1997). Dynamic itemset counting and implica-

tion rules for market basket data. Acm Sigmod Record, 26(2):255–264. 13

Buczak, A., Baugher, B., Guven, E., Ramac-Thomas, L., Elbert, Y., Babin, S., and Lewis, S.

(2015). Fuzzy association rule mining and classification for the prediction of malaria in South

Korea. BMC medical informatics and decision making, 15:47. cited By 3. 21

Buczak, A. L., Baugher, B., Babin, S. M., Ramac-Thomas, L. C., Guven, E., Elbert, Y., Koshute,

P. T., Velasco, J. M. S., Roque Jr, V. G., Tayag, E. A., and others (2014). Prediction of high

incidence of dengue in the Philippines. PLoS neglected tropical diseases, 8(4):e2771. 22

Chen, M.-S., Han, J., and Yu, P. S. (1996). Data mining: an overview from a database perspective.

IEEE Transactions on Knowledge and Data Engineering, 8(6):866–883. 01185. 4

Chu, X., Ilyas, I., Krishnan, S., and Wang, J. (2016). Data cleaning: Overview and emerging

challenges. In Proceedings of the ACM SIGMOD International Conference on Management of

Data, volume 26-June-2016, pages 2201–2206. cited By 8. 27

Confalonieri, U., Margonari, C., and Quintao, A. (2014). Environmental change and the dynamics

of parasitic diseases in the Amazon. Acta Tropica, 129(1):33–41. cited By 24. 2

da Saude (BR). Secretaria de Vigilancia em Saude, M. (2015). Doenca de chagas aguda no brasil:

serie historica de 2000 a 2013. Bol Epidemiol, 46(21). 45

DATASUS (2018). Indice de /territorio/tabelas. 28

Dhar, V. (2013). Data science and prediction. Communications of the ACM, 56(12):64–73. cited

By 162. 13

Diallo, A., Sie, A., Sirima, S., Sylla, K., Ndiaye, M., Bountogo, M., Ouedraogo, E., Tine, R., Ndiaye,

A., Coulibaly, B., and others (2017). An epidemiological study to assess Plasmodium falciparum

parasite prevalence and malaria control measures in Burkina Faso and Senegal. Malaria journal,

16(1):63. 21

Dong, G. and Li, J. (1999). Efficient mining of emerging patterns: Discovering trends and differen-

ces. In Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery

and data mining, pages 43–52. Citeseer. 1, 18

Duquia, R. P., Bastos, J. L., Bonamigo, R. R., Gonzalez-Chica, D. A., and Martınez-Mesa, J.

(2014). Presenting data in tables and charts. Anais brasileiros de dermatologia, 89(2):280–285.

6

Page 63: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

55

Ellison, A. M. (1993). Exploratory data analysis and graphic display. Design and analysis of

ecological experiments, pages 14–45. 6

Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., and Uthurusamy, R. (1996). Advances in kno-

wledge discovery and data mining, volume 21. AAAI press Menlo Park. 4

Ferreira, R. T. B., Branquinho, M. R., Leite, P. C., et al. (2014). Transmissao oral da doenca de

chagas pelo consumo de acaı: um desafio para a vigilancia sanitaria. 45

Fournier-Viger, P., Lin, J. C.-W., Dinh, T., and Le, H. B. (2016). Mining correlated high-utility

itemsets using the bond measure. In International Conference on Hybrid Artificial Intelligence

Systems, pages 53–65. Springer. 19

Fournier-Viger, P., Wu, C.-W., Zida, S., and Tseng, V. S. (2014). Fhm: Faster high-utility itemset

mining using estimated utility co-occurrence pruning. In International symposium on methodo-

logies for intelligent systems, pages 83–92. Springer. 18

Fournier-Viger, P., Zhang, Y., Lin, J. C.-W., Fujita, H., and Koh, Y. S. (2019). Mining local and

peak high utility itemsets. Information Sciences, 481:344–367. 18

Gadar, L. and Abonyi, J. (2019). Frequent pattern mining in multidimensional organizational

networks. Scientific Reports, 9(1). cited By 0. 1, 4, 8

Gan, W., Lin, J. C.-W., Chao, H.-C., Fujita, H., and Philip, S. Y. (2019). Correlated utility-based

pattern mining. Information Sciences, 504:470–486. 18

Geng, L. and Hamilton, H. Interestingness measures for data mining. ACM Computing Surveys,

38(3). 17

Gu, X., Chen, H., and Yang, B. (2015). Heterogeneous data mining for planning active surveillance

of malaria. In ACM International Conference Proceeding Series, volume 07-09-Ocobert-2015.

cited By 0. 22

Hahsler, M., Buchta, C., Gruen, B., and Hornik, K. (2018). arules: Mining Association Rules and

Frequent Itemsets. R package version 1.6-0. 31

Hahsler, M. and Hornik, K. (2007). New probabilistic interest measures for association rules.

Intelligent Data Analysis, 11(5):437–455. 13

Han, J., Kamber, M., and Pei, J. (2011). Data Mining: Concepts and Techniques. Morgan Kauf-

mann, Haryana, India; Burlington, MA, 3 edition. 00000. 1, 4, 5, 8, 10, 13, 14, 15

Page 64: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

56

Han, J., Pei, J., and Yin, Y. (2000). Mining Frequent Patterns Without Candidate Generation.

In Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data,

SIGMOD ’00, pages 1–12, New York, NY, USA. ACM. 03524. 7, 9

Jeefoo, P., Tripathi, N., Souris, M., et al. (2009). Exploring geospatial factors contributing to

malaria prevalence in kanchanaburi, thailand. International journal of geoinformatics, 5(1). 22

Jensen, P., Jensen, L., and Brunak, S. (2012). Mining electronic health records: Towards better

research applications and clinical care. Nature Reviews Genetics, 13(6):395–405. cited By 392. 4

Johansson, E., Selling, K., Nsona, H., Mappin, B., Gething, P., Petzold, M., Peterson, S., and

Hildenwall, H. (2016). Integrated paediatric fever management and antibiotic over-treatment in

Malawi health facilities: Data mining a national facility census. Malaria Journal, 15(1). cited

By 5. 21

Junior, S., da Silva, A., Palacios, V. R. d. C. M., Miranda, C. d. S., Costa, R. J. F. d., Catete, C. P.,

Chagasteles, E. J., Pereira, A. L. R. R., and Goncalves, N. V. (2017). Analise espaco-temporal

da doenca de chagas e seus fatores de risco ambientais e demograficos no municıpio de barcarena,

para, brasil. Revista Brasileira de Epidemiologia, 20:742–755. 45

Koh, H. C., Tan, G., and others (2011). Data mining applications in healthcare. Journal of

healthcare information management, 19(2):65. 4

Kulczynski, S. (1928). Die pflanzenassoziationen der pieninen. Imprimerie de l’Universite. 14

Labbo, R., Fandeur, T., Jeanne, I., Czeher, C., Williams, E., Arzika, I., Soumana, A., Lazoumar,

R., and Duchemin, J.-B. (2016). Ecology of urban malaria vectors in Niamey, Republic of Niger.

Malaria journal, 15(1):314. 21

Larose, D. T. and Larose, C. D. (2014). Discovering knowledge in data: an introduction to data

mining. John Wiley & Sons. 5

Liu, B., Hsu, W., Chen, S., and Ma, Y. (2000). Analyzing the subjective interestingness of associ-

ation rules. IEEE Intelligent Systems and their Applications, 15(5):47–55. 00146. 18

Liu, B., Hsu, W., and Ma, Y. (1999a). Mining association rules with multiple minimum supports.

pages 337–341. ACM Press. 14

Liu, B., Hsu, W., and Ma, Y. (1999b). Pruning and summarizing the discovered associations. In

Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery and data

mining, pages 125–134. ACM. 14

Page 65: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

57

Liu, B., Hsu, W., Mun, L.-F., and Lee, H.-Y. (1999c). Finding interesting patterns using user

expectations. IEEE Transactions on Knowledge and Data Engineering, 11(6):817–832. 1, 18

Lodhi, K. (2013). Survey on frequent pattern mining. International Journal of Engineering, Science

and Mathematics, 2(3):64. 1, 7

Loucoubar, C., Paul, R., Bar-Hen, A., Huret, A., Tall, A., Sokhna, C., Trape, J.-F., Ly, A., Faye,

J., Badiane, A., Diakhaby, G., Sarr, F., Diop, A., Sakuntabhai, A., and Bureau, J.-F. (2011).

An exhaustive, non-euclidean, non-parametric data mining tool for Unraveling the complexity of

biological systems - novel insights into malaria. PLoS ONE, 6(9). cited By 6. 20

McGarry, K. (2005). A survey of interestingness measures for knowledge discovery. The knowledge

engineering review, 20(1):39–61. 1, 17

MS (2018). Notificacao de Malaria - Ministerio da Saude. 25, 28

Murty, U., Srinivasa Rao, M., and Misra, S. (2008). Prioritization of malaria endemic zones using

self-organizing maps in the Manipur state of India. Informatics for Health and Social Care,

33(3):170–178. cited By 4. 22

Myatt, G. and Johnson, W. (2014). Making Sense of Data I: A Practical Guide to Exploratory

Data Analysis and Data Mining. Wiley-Blackwell, 2 edition. 5

Ndiath, M., Cisse, B., Ndiaye, J., Gomis, J., Bathiery, O., Dia, A., Gaye, O., and Faye, B. (2015).

Application of geographically-weighted regression analysis to assess risk factors for malaria hots-

pots in Keur Soce health and demographic surveillance site. Malaria Journal, 14(1). cited By 3.

22

Ng, R. T., Lakshmanan, L. V., Han, J., and Pang, A. (1998). Exploratory mining and pruning

optimizations of constrained associations rules. In ACM Sigmod Record, volume 27, pages 13–24.

ACM. 18

Obenshain, M. K. (2004). Application of data mining techniques to healthcare data. Infection

Control & Hospital Epidemiology, 25(8):690–695. 4

Padmanabhan, B. and Tuzhilin, A. (1998). A Belief-Driven Method for Discovering Unexpected

Patterns. In KDD, volume 98, pages 94–100. 18

Pasquier, N., Bastide, Y., Taouil, R., and Lakhal, L. (1999). Discovering frequent closed itemsets

for association rules. In International Conference on Database Theory, pages 398–416. Springer.

1, 18

Page 66: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

58

Pellegrina, L. and Vandin, F. (2018). Efficient mining of the most significant patterns with permu-

tation testing. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge

Discovery & Data Mining, pages 2070–2079. ACM. 19

Pinto, A., Valente, S., Lopes, R., Silva, O., Castro, T., and Valente, V. (2003). Ocorrencia de

tripanosomıase aguda familiar no municıpio de igarape-miri, para: gravidade de apresentacao

clınica em idosos. Rev Soc Bras Med Trop, 36(Suppl 1):381. 45

Pires, U. T. Projeto basico ambiental (pba). 47

R Core Team (2014). R: A Language and Environment for Statistical Computing. R Foundation

for Statistical Computing, Vienna, Austria. 31

Sachs, J. and Malaney, P. (2002). The economic and social burden of malaria. Nature,

415(6872):680. 2

Sahar, S. (1999). Interestingness via what is not interesting. In Proceedings of the fifth ACM

SIGKDD international conference on Knowledge discovery and data mining, pages 332–336.

ACM. 1, 18

Sahle, G. and Meshesha, M. (2014). Uncovering knowledge that supports malaria prevention and

control intervention program in ethiopia. Electronic Journal of Health Informatics, 8(1). cited

By 2. 21

Santos, S. O. d. (2013). Eco-epidemiologia da doenca de chagas aguda em area amazonica. municıpio

de abaetetuba, estado do para, brasil, 2008–2009. 45

Silberschatz, A. and Tuzhilin, A. (1995). On subjective measures of interestingness in knowledge

discovery. In KDD, volume 95, pages 275–281. 1, 18

Soulet, A., Raıssi, C., Plantevit, M., and Cremilleux, B. (2011). Mining dominant patterns in the

sky. In 2011 IEEE 11th International Conference on Data Mining, pages 655–664. IEEE. 19

Srikant, R., Vu, Q., and Agrawal, R. (1997). Mining association rules with item constraints. In

Kdd, volume 97, pages 67–73. 18

Streit, M. and Gehlenborg, N. (2014). Points of view: bar charts and box plots. 6

Sweeney, A., Beebe, N., and Cooper, R. (2007). Analysis of environmental factors influencing the

range of anopheline mosquitoes in northern Australia using a genetic algorithm and data mining

methods. Ecological Modelling, 203(3-4):375–386. cited By 22. 20

Page 67: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

59

Tan, P.-N. and Kumar, V. (2000). Interestingness measures for association patterns: A perspective.

In Proc. of Workshop on Postprocessing in Machine Learning and Data Mining, pages 00–036.

1, 17

Tan, P.-N., Kumar, V., and Srivastava, J. (2002). Selecting the right interestingness measure for

association patterns. In Proceedings of the eighth ACM SIGKDD international conference on

Knowledge discovery and data mining, pages 32–41. ACM. 17

Tan, P.-N., Kumar, V., and Srivastava, J. (2004). Selecting the right objective measure for associ-

ation analysis. Information Systems, 29(4):293–313. 13, 14

Tauil, P., Deane, L., Sabroza, P., and Ribeiro, C. (1985). A malaria no Brasil. Cadernos de Saude

Publica, 1(1):71–111. 2

Toivonen, H. and others (1996). Sampling large databases for association rules. In VLDB, vo-

lume 96, pages 134–145. 7

Tukey, J. W. (1977). Exploratory Data Analysis. Pearson. 5

WHO (2017). World malaria report 2017 - World Health Organization. 2

WHO (2018). Key malaria facts. 2

Wiefels, A., Wolfarth-Couto, B., Filizola, N., Durieux, L., and Mangeas, M. (2016). Accuracy of

the malaria epidemiological surveillance system data in the state of Amazonas. Acta Amazonica,

46(4):383–390. 00000. 20, 24, 25, 44

Wilkinson, L. (2006). Revising the pareto chart. The American Statistician, 60(4):332–334. 6

Witten, I. H., Frank, E., Hall, M. A., and Pal, C. J. (2016). Data Mining: Practical machine

learning tools and techniques. Morgan Kaufmann. 12

Wu, T., Chen, Y., and Han, J. (2010). Re-examination of interestingness measures in pattern

mining: a unified framework. Data Mining and Knowledge Discovery, 21(3):371–397. 14

Yan, Y., Cao, L., Madden, S., and Rundensteiner, E. A. (2018). Swift: mining representative

patterns from large event streams. Proceedings of the VLDB Endowment, 12(3):265–277. 19

Yu, C. H. (1977). Exploratory data analysis. Methods, 2:131–160. 5

Zaki, M. J. (2000). Scalable algorithms for association mining. IEEE Transactions on Knowledge

and Data Engineering, 12(3):372–390. 00726. 7

Page 68: DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise Explorat oria 5 II.2 Padr~oes Frequentes 6 II.2.1 Par^ametros 7 II.2.2 Algoritmo Apriori

60

Zhang, H., Padmanabhan, B., and Tuzhilin, A. (2004). On the discovery of significant statisti-

cal quantitative rules. In Proceedings of the tenth ACM SIGKDD international conference on

Knowledge discovery and data mining, pages 374–383. ACM. 1, 17

Zheng, Z., Kohavi, R., and Mason, L. (2001). Real world performance of association rule algorithms.

In Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery

and data mining, pages 401–406. ACM. 8, 9