DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise...
Transcript of DESCOBRINDO REGRAS DE ASSOCIAC˘AO DIVERGENTES: UM … · II Data Analytics 4 II.1 An alise...
DESCOBRINDO REGRAS DE ASSOCIACAO DIVERGENTES: UM ESTUDO DE
CASO DA MALARIA NA AMAZONIA LEGAL
Lais Ribeiro Baroni
Qualificacao de Mestrado apresentada ao Pro-grama de Pos-graduacao em Engenharia deProducao e Sistemas, Centro Federal deEducacao Tecnologica Celso Suckow da Fon-seca CEFET/RJ, como parte dos requisitos ne-cessarios a obtencao do tıtulo de mestre.
Orientadores:Eduardo Soares Ogasawara e Marcel de MoraesPedroso
Rio de Janeiro,
Outubro de 2019
Descobrindo regras de associacao divergentes: um estudo de caso da
Malaria na Amazonia Legal
Qualificacao de Mestrado em Engenharia de Producao e Sistemas, Centro Federal de
Educacao Tecnologica Celso Suckow da Fonseca, CEFET/RJ.
Lais Ribeiro Baroni
Aprovada por:
Presidente, Prof. Eduardo Soares Ogasawara, D.Sc. (orientador)
Alvaro Chrispino, D.Sc.
Gustavo Paiva Guedes e Silva, D.Sc.
Marcel de Moraes Pedroso, D.Sc.
Christovam Barcellos, D.Sc.
Rio de Janeiro,
Outubro de 2019
RESUMO
Descobrindo regras de associacao divergentes: um estudo de caso da Malaria na Amazonia
Legal
Lais Ribeiro Baroni
Orientadores:Eduardo Soares Ogasawara e Marcel de Moraes Pedroso
Resumo da Qualificacao submetida ao Programa de Pos-graduacao em Engenharia de Producao eSistemas do Centro Federal de Educacao Tecnologica Celso Suckow da Fonseca CEFET/RJ comoparte dos requisitos necessarios a obtencao do tıtulo de mestre.
Um problema conhecido em mineracao de padroes frequentes e o fato de comumente seremproduzidas milhares de regras de associacao, tornando-se arduo o estudo de cada uma delas, en-fraquecendo o processo de descoberta de informacao util. Tendo em vista este desafio, essa dis-sertacao propoe uma nova abordagem para obtencao de regras de associacao interessantes a partirda divergencia entre as regras obtidas e a distribuicao esperada dos dados. A abordagem ineditadesenvolvida, denominada ARD, e avaliada sobre dados da malaria na Amazonia Legal Brasileiranos anos de 2009 a 2015. A partir dessa abordagem foi determinado um numero de padroes pra-ticavel para analise, de onde sao levantadas informacoes relacionadas a malaria na Amazonia Legale as tendencias associadas a organizacao das Regioes de Saude. Os resultados levantados mostrama capacidade da ARD, uma vez que indicou para regras que trouxeram informacao relevante sobreos dados minerados.
Palavras-chave:Mineracao de Padroes Frequentes. Regras de Associacao. Regras Interessantes. Regras Diver-
gentes. Malaria. Amazonia Legal. Regioes de Saude.
Rio de Janeiro,
Outubro de 2019
Sumario
I Introducao 1
I.1 Exemplo Motivacional: Malaria 2
I.2 Proposta e Contribuicoes do Trabalho 3
II Data Analytics 4
II.1 Analise Exploratoria 5
II.2 Padroes Frequentes 6
II.2.1 Parametros 7
II.2.2 Algoritmo Apriori 9
II.3 Avaliacao de Padroes 12
II.4 Processo Geral 15
IIITrabalhos Relacionados 17
III.1 Mineracao de Padroes 17
III.2 Data Analytics em Malaria 20
IV Analise por Divergencia 23
V Metodologia 24
V.1 Apresentacao do Dataset 24
V.2 Pre-processamento 26
V.2.1 Selecao de Atributos 27
V.2.2 Limpeza de Dados 27
V.2.3 Transformacao de Dados 28
V.3 Geracao das Regras de Associacao 31
V.4 Pos-processamento 35
V.5 Obtencao de Regras Divergentes 35
VI Avaliacao Experimental 36
VI.1 Analise Exploratoria de Dados 36
VI.1.1 Analise Exploratoria dos Dados Brutos 37
VI.1.2 Analise Exploratoria dos Dados Pre-Processados 40
VI.2 Analise das Regras de Associacao 43
VI.2.1 Divergencia no Atributo Ano de Notificacao 44
VI.2.2 Divergencia no Atributo Hemoparasitas 44
VI.2.3 Divergencia no Atributo de Ocupacao 46
VI.2.4 Divergencia nas Regioes de Saude 47
VI.2.5 Divergencia no Atributo de Raca 48
VI.2.6 Divergencia em Outros Atributos 49
VIIConclusoes 52
Referencias Bibliograficas 52
Lista de Figuras
II.1 Diagrama das etapas do Apriori 9
V.1 Diagrama com os metodos utilizados na pesquisa 24
VI.1 Proporcao de numero de atendimentos realizados e de casos positivos 38
VI.2 Proporcao de casos positivos por numero de atendimentos 38
VI.3 Grafico de quantidade de casos negativos e positivos de malaria no tempo (mes e ano) 39
VI.4 Numero de casos de malaria por tipo de Plasmodio 40
VI.5 Tempos de notificacao, exame e tratamento nos estados da Amazonia Legal 41
VI.6 Proporcoes de indivıduos afetados pela malaria por genero 41
VI.7 Proporcoes de indivıduos afetados pela malaria por raca 42
VI.8 Quantidade de pessoas afetadas pela malaria mes a mes 42
VI.9 Mapa da Usina Teles Pires 47
Lista de Tabelas
II.1 Exemplos de regras de associacao com tamanhos (ordem) de 2 a 5 8
II.2 Transacoes da Base de Dados 10
II.3 Conjunto de itens frequentes de tamanho 1 (que atendem o suporte mınimo) 11
II.4 Conjunto de regras formadas com os padroes frequentes 12
V.1 Atributos do tipo “notificacao” do dataset bruto 25
V.2 Atributos do tipo “exame” do dataset bruto 26
V.3 Atributos do tipo “paciente” do dataset bruto 26
V.4 Construcao do atributo de migracao 29
V.5 Pre-processamento dos atributos do dataset bruto 32
V.6 Atributos do dataset pre-processado 33
V.7 Parametros comuns para a geracao dos conjuntos de regras de associacao no arules-R 34
V.8 Informacoes dos parametros para geracao dos conjuntos de regras. 34
VI.1 Porcentagem de dados preenchidos 37
VI.2 Associacao entre o tipo de deteccao e a percepcao dos sintomas 40
VI.3 Numero de regras dos conjuntos de regras antes de depois das filtragens 43
VI.4 Suporte das regras para os pacientes com vivax nos sete anos de estudo 44
VI.5 Regras de Associacao com ocupacao construcao de estradas para RHS = Negativo 47
VI.6 Regras de Associacao para RHS = malaria falciparum 48
Lista de Abreviacoes
DATASUS Departamento De Informatica Do Sistema De Saude 25, 28
IR Taxa De Desequilıbrio 14, 15
KULC Medida De Interesse Kulczynski 14, 15
LHS Left Hand Side 7, 16
PNCM Programa Nacional De Controle Da Malaria 2
RHS Right Hand Side 7, 16
SIVEPMALARIA Sistema De Informacoes De Vigilancia Epidemiologica Modulo Malaria 20, 24
SUS Sistema Unico De Saude 2
1
Capıtulo I Introducao
Dentre as diversas possibilidades para minerar dados, a mineracao de padroes frequentes desem-
penha um papel relevante para o levantamento de associacoes, correlacoes e muitas outras relacoes
interessantes entre os dados [Han et al., 2011]. Os itens frequentes em um dataset podem ser
expressos por regras de associacao. As regras de associacao funcionam de forma que apresentam
itens frequentes na posicao de antecedente levando a um item frequente na posicao de consequente
[Lodhi, 2013]. Desta forma, os itens no antecedente sao as condicoes necessarias para se chegar ao
item do consequente.
Um problema conhecido em mineracao de padroes frequentes e o fato de frequentemente serem
produzidas milhares de regras de associacao, tornando-se arduo o estudo de cada uma delas, en-
fraquecendo o processo de descoberta de informacao util. Entre as principais tecnicas para escolha
de padroes interessantes existem aquelas que utilizam medidas de interesse para classificar padroes
[Tan and Kumar, 2000; Zhang et al., 2004], aquelas que elencam os padroes de acordo com criterios
pre-estabelecidos baseados principalmente em suas propriedades [Pasquier et al., 1999; Bayardo
et al., 1999; Dong and Li, 1999] a ainda aquelas que se utilizam de analise subjetiva, como a consi-
deracao de opiniao de um especialista no tema [Liu et al., 1999c; Silberschatz and Tuzhilin, 1995;
Sahar, 1999].
O que se espera com a utilizacao dessas tecnicas e que seja determinado um numero de padroes
praticavel para analise e que nao sejam triviais ou ja conhecidos. A dificuldade em alcancar esse
objetivo aumenta quanto maior o numero de padroes formados, que e fortemente influenciado pela
pluralidade de valores disponıveis no dataset e pela escolha do suporte mınimo a ser considerado
[Gadar and Abonyi, 2019]. Sendo assim, mesmo existindo na literatura uma diversidade de tecnicas
e a possibilidade de combinacao de varias delas, nem sempre estas sendo capazes de suprir a
necessidade da pesquisa [McGarry, 2005].
Esse trabalho propoe uma nova abordagem para obtencao de regras de associacao interessantes
a partir da divergencia entre as regras obtidas e a distribuicao esperada dos dados. Tal abordagem,
denominada ARD, aponta para os itens que se apresentaram nas regras com menos ou com mais
frequencia do que esperado segundo a hipotese naive de que as variaveis sao independentes e que,
portanto, divergem da mesma. A ARD foi avaliada em cima do estudo de caso da Malaria.
2
I.1 Exemplo Motivacional: Malaria
A malaria e uma doenca infecciosa causada por parasitas protozoarios do genero Plasmodio
(Plasmodium) e e transmitida a partir da picada do mosquito do genero Anopheles, quando este
ja esta infectado. A transmissao tambem pode se dar, menos frequentemente, pela utilizacao de
seringas infectadas, por transfusao de sangue e transmissao do parasita da mae para feto durante a
gravidez [Bressan and Brasil, 2013]. Os paıses tropicais e subtropicais constituem a area endemica
da doenca por terem estacoes chuvosas que proporcionam grande disponibilidade de agua limpa
parada, onde os mosquitos vetores podem depositar seus ovos e se proliferar [WHO, 2018].
O Brasil e o segundo paıs das Americas com o maior numero de casos de malaria, perdendo
apenas para a Venezuela [WHO, 2017]. A Amazonia Legal - que compreende os estados do Acre,
Amapa, Amazonas, Mato Grosso, Para, Rondonia, Roraima, Tocantins e parte do estado do Ma-
ranhao - e a regiao mais susceptıvel a malaria no Brasil [Almeida et al., 2010a]. Dentro da Amazonia
Legal, a ocorrencia da doenca nao e homogenea, variando de localidade a localidade de acordo com
algumas caracterısticas como fatores naturais, fatores geograficos e condicoes sociais [Confalonieri
et al., 2014; Tauil et al., 1985]. A ocorrencia de malaria esta intimamente relacionada a pobreza
[Sachs and Malaney, 2002].
A forma mais eficiente de evitar que casos leves de malaria se desenvolvam em doencas graves
e mortes e a partir do rapido diagnostico e tratamento [WHO, 2017]. Embora ainda nao exista
vacina contra a malaria, existem medicamentos antimalaricos que sao eficientes na cura da infeccao.
A Organizacao Mundial de Saude considera que sistemas de vigilancia epidemiologica da malaria
sao essenciais para controle da doenca ja que podem dar apoio a tomada de decisoes polıticas a fim
de melhorar o atendimento ao paciente infectado [WHO, 2017].
Em questao de atendimento em saude, no Brasil, o Sistema Unico de Saude (SUS) e responsavel
por oferecer servicos publicos de saude para toda a populacao. Como forma de organizacao do
servico, o territorio brasileiro e divido em regioes de saude e o SUS deve garantir que cada regiao
de saude seja capaz de promover e prevenir saude para os municıpios que engloba, inclusive no que
diz respeito as doencas endemicas, como a malaria.
No Brasil, esforcos tem sido feitos pelos governos na luta contra a malaria desde 1965. Em
2003, motivado em manter um sistema de vigilancia efetivo, o Programa Nacional de Controle da
Malaria (PNCM) foi implantado pela Secretaria de Vigilancia em Saude do Ministerio da Saude.
O PNCM tem como uma de suas principais ferramentas para o monitoramento o SivepMalaria.
Por se tratar de uma doenca de notificacao compulsoria, todos os casos suspeitos ou confirmados
da malaria tem obrigatoriedade de serem notificados e registrados no SivepMalaria.
Tendo em vista a necessidade de se obter conhecimento util sobre a malaria e a disponibilidade
3
de um banco de dados rico em informacao a ser explorada e minerada, que e o SivepMalaria,
percebe-se a mineracao de padroes como possibilidade para alcancar esse objetivo. No entanto,
observa-se tambem as dificuldades envolvidas nessa tarefa, ja que o SivepMalaria e um banco
extenso, tanto em quantidade de registros quanto em numero de atributos.
I.2 Proposta e Contribuicoes do Trabalho
Tendo em vista o desafio de se obter regras interessantes em um conjunto de padroes frequentes,
a proposta deste trabalho e apresentar a abordagem para obtencao de regras divergentes e avalia-
la sobre os dados do SivepMalaria nos anos de 2009 a 2015. Esses dados constituem-se como
bom cenario para utilizacao da abordagem para a obtencao de regras divergentes. Ao longo deste
trabalho, mostra-se a complexidade em extrair informacao util desse banco. Os dados passam
pelo pre-processamento, analise exploratoria, determinacao das regras de associacao dos padroes
frequentes e ainda por tecnicas de filtragem e classificacao de regras antes de aplicar a ARD. Com
isso, pretende-se mostrar um exemplo solido onde os metodos comuns de classificacao de regras nao
sao suficientes para extracao de conhecimento util e a metodologia de obtencao de regras divergentes
se torna relevante.
A principal contribuicao deste trabalho e o desenvolvimento da abordagem inedita para obtencao
de regras divergentes (ARD). A partir da utilizacao dessa metodologia nos dados do SivepMalaria,
sao levantadas informacoes relacionadas a malaria na Amazonia Legal e as tendencias associadas a
organizacao das Regioes de Saude. Os resultados levantados mostram a capacidade da ARD, uma
vez que indicou para regras que trouxeram informacao relevante sobre os dados minerados.
Alem desta introducao, outros cinco capıtulos compoe este trabalho. O Capıtulo II apresenta
a revisao bibliografica sobre analise de dados, voltada para o metodo de padroes frequentes. O
Capıtulo III levanta os trabalhos relacionados, fazendo uma analise do tema e metodologia. O
Capıtulo ?? apresenta a ARD. O Capıtulo V apresenta a metodologia utilizada para o estudo
de caso da malaria. No Capıtulo VI e feita a avaliacao experimental, dividida em descricao do
conjunto de dados, processo de experimentacao, analise exploratoria de dados, analise das regras
de associacao e a analise das regras divergentes. Por fim, no Capıtulo VII sao feitas as consideracoes
finais do trabalho.
4
Capıtulo II Data Analytics
O processo de extracao de informacoes por mineracao de dados tem sido aplicado em diversas
areas do conhecimento, dado o grande volume de dados atualmente disponıveis. Na area da saude,
a mineracao de dados pode fornecer informacoes oportunas e confiaveis para otimizar diagnosticos,
tratamentos, medidas preventivas, entre outros [Fayyad et al., 1996; Obenshain, 2004; Koh et al.,
2011; Jensen et al., 2012]. Segundo Han et al. [2011], a disponibilidade de grandes bases de dados
e a necessidade de transformar tais dados em informacoes e conhecimentos uteis para o suporte
a decisao exigem investimentos consideraveis da comunidade cientıfica e da industria de software.
Na area de saude isso e especialmente importante ja que existe uma demanda crescente de dados
dos quais e muito interessante extrair informacoes de maior qualidade e produtividade. Portanto,
diversas tecnicas de mineracao de dados podem ser aplicadas para extrair conhecimento de bancos
de dados, a fim de auxiliar os gestores de saude na tomada de decisoes voltadas a prevencao e
promocao da saude [Gadar and Abonyi, 2019].
Apos a obtencao dos dados a serem estudados, os passos comuns a serem tomados antes de
se aplicar a tecnica de mineracao dos dados sao a analise exploratoria e o pre-processamento dos
dados. A analise exploratoria permite o estudo dos padroes e tendencias apresentados pelos dados
[Chen et al., 1996]. Uma analise descritiva detalhada permite ao pesquisador familiarizar-se com
os dados, organiza-los e sintetiza-los de forma a obter as informacoes necessarias para responder
as questoes a serem solucionadas. A compreensao dos dados permite a percepcao da necessidade
de manipulacao e correcao dos dados, que sao feitas durante o pre-processamento. A fase de pre-
processamento compreende a aplicacao de tecnicas para a preparacao dos dados desde a correcao
ou remocao de dados errados ate o ajuste da formatacao dos dados para os algoritmos de mineracao
de dados que sao utilizados. Essa etapa tende a consumir a maior parte do tempo dedicado ao
processo de mineracao de dados [Han et al., 2011].
Apos o pre-processamento de dados, as tecnicas de mineracao podem ser aplicadas. Os metodos
para minerar diferentes tipos de conhecimento - incluindo regras de associacao, classificacao, agru-
pamento, previsao, etc. - sao usados para a descoberta de conhecimento a partir de bancos de
dados [Chen et al., 1996].
Esta secao esta organizada em tres subsecoes. Elas resumem o entendimento fundamental
sobre analise de dados em relacao as aplicacoes do presente trabalho. A primeira subsecao (II.1)
5
faz uma breve revisao sobre analise exploratoria de dados. A subsecao II.2 apresenta a mineracao
de padroes frequentes voltada para regras de associacao, incluindo conceitos relacionados como
algoritmo Apriori. A secao II.3 discorre sobre metodos para avaliar padroes.
II.1 Analise Exploratoria
A analise exploratoria e a primeira tarefa importante do processo de mineracao de dados,
sobretudo para permitir a familiarizacao com o banco de dados que esta sendo trabalhado [Han
et al., 2011]. A partir da analise exploratoria e possıvel levantar informacoes sobre os tipos de
atributos e valores, os formatos dos valores (se em texto, em numero contınuo, discreto, de forma
categorica etc), como os valores estao distribuıdos, como se relacionam entre si, identificar outliers,
entre diversas outras informacoes.
A analise exploratoria dos dados nao busca corroborar uma hipotese ou atender a um conceito
esperado ou pre-estabelecido, mas detectar padroes e caracterısticas que ja estao presentes nos
dados. A percepcao dos dados obtida auxilia nas analises subsequentes, como para execucao do
pre-processamento dos dados e na escolha do metodo de mineracao de dados a ser utilizado e, por
isso, a analise exploratoria e considerada por alguns autores como um precursor da mineracao de
dados [Myatt and Johnson, 2014; Larose and Larose, 2014].
A analise exploratoria pode se dar pela utilizacao de medidas estatısticas, por visualizacao
grafica dos dados e por utilizacao de tecnicas diversas para conhecimento dos dados, como aquelas
capazes de determinar correlacao entre variaveis.
Em estatıstica, a analise exploratoria de dados e uma abordagem a analise de conjuntos de
dados de modo a resumir suas caracterısticas principais. Nessa analise sao observadas medidas
de tendencia central como media, moda e mediana, medidas de dispersao como desvio padrao,
variancia e quartis. Essas medidas estatısticas basicas podem ser representadas graficamente a
partir de graficos como histogramas, graficos de dispersao (scatter plot) e diagramas de caixa
(boxplot).
A analise estatıstica dos dados, no entanto, e questionada por pesquisadores desde os anos 70.
Tukey [1977], por exemplo, acreditava que se dava enfase demais aos testes de hipoteses estatısticas
(analise confirmatoria de dados) e que se precisava dar mais enfase ao uso de dados para sugerir
hipoteses a serem testadas. Isso se baseia na ideia de que a matematica e a estatıstica basica sao
ferramentas para entender os dados que se baseiam na probabilidade e, em muitos casos, as questoes
de trabalho nao sao probabilısticas.
Portanto, adotar modelos estatısticos especıficos pode impedir a consideracao de diferentes
solucoes possıveis [Yu, 1977]. Uma analise exploratoria robusta (nao somente baseada em medidas
estatısticas) ajuda a maximizar o valor dos dados, nao sendo restritos a conjuntos iniciais de
6
hipoteses, pesquisas anteriores e o que os pesquisadores podem prever a priori.
Com o advento de computadores de alta potencia e possibilidade de armazenamento e acesso
a dados volumosos, as tecnicas exploratorias voltadas para visualizacao dados se tornaram uma
opcao praticavel e eficiente. A visualizacao de dados visa comunicar dados de forma clara e eficaz
por meio de representacao grafica e tem a vantagem de ser capaz de descobrir e representar relacoes
de dados que, de outra forma, nao seriam facilmente observadas.
A analise exploratoria em dados quantitativos e executada principalmente com analises es-
tatısticas [Ellison, 1993]. Isso porque a descricao de valores como media e desvio padrao e o que vai
ser capaz de orientar quando as caracterısticas do dado, sua abrangencia, prevalencia e distribuicao.
No caso de dados qualitativos, a obtencao dessas medidas estatısticas nao e factıvel, mas ainda e
importante extrair informacao sobre seu comportamento.
Sendo assim, uma observacao bastante util para entendimento dos dados e a distribuicao das
frequencias dos valores dos atributos. A distribuicao de frequencias contabiliza o numero de
ocorrencias em cada classe. Esse numero e considerado a frequencia absoluta do valor.
Para a representacao de distribuicao de frequencias de dados qualitativos e comum a utilizacao
dos graficos em barras [Duquia et al., 2014]. Neste caso, e plotada uma barra para cada classe
onde a altura das barras representa a frequencia da classe correspondente. Existem variacoes
possıveis para essa representacao, como por exemplo os chamados graficos de Pareto que ordenam
as frequencias das ocorrencias, da maior para a menor, permitindo uma interpretacao mais rapida
das classes predominantes [Wilkinson, 2006].
Outra representacao possıvel e a partir dos graficos de setores (ou graficos em pizza ou torta) que
sao construıdos dividindo-se um cırculo em setores proporcionais a frequencia de cada categoria. Os
graficos em setores, no entanto, nao apresentam a informacao de forma tao clara quanto os graficos
em barra. Isto porque e mais difıcil fazer a comparacao das frequencias das classes observando as
areas (ou angulos) dos setores do que observando a altura das barras [Streit and Gehlenborg, 2014].
Alem disso, quando uma classe e muito pouco frequente a sua percepcao no grafico de setores fica
dificultada.
II.2 Padroes Frequentes
As tecnicas de padroes frequentes sao voltadas para apoiar o processo de extracao de conhe-
cimento usando tecnicas transacionais na observacao de padroes de itens frequentes e sequencias
de itens frequentes com o objetivo de descobrir as associacoes importantes entre itens, de modo
que a presenca de alguns itens em uma transacao implicara a presenca de outros itens na mesma
transacao [Aumann and Lindell, 1999].
Os itens frequentes em um dataset podem ser expressos por regras de associacao. As regras de
7
associacao funcionam de forma que apresentam os itens frequentes na posicao de antecedente (Left
Hand Side (LHS)) ou consequente (Right Hand Side (RHS)) [Lodhi, 2013]. Os itens no antecedente
sao as condicoes necessarias para chegar ao item do consequente, ou, em outras palavras, as regras
de associacao descrevem com que frequencia os itens aparecem juntos. As regras sao geradas em
duas etapas. A primeira etapa encontra todos os itens frequentes do dataset e a segunda gera as
regras de associacao a partir dos itens encontrados.
Um exemplo hipotetico no caso do dataset da malaria, se existe a regra “idade = de 10 a 15 anos
⇒ plasmodium = falciparum significa dizer que, segundo a analise do dataset”, o item frequente
que indica o intervalo de idade do paciente como de 10 a 15 anos e frequentemente acompanhado
pelo item frequente que indica que o tipo de plasmodium e o falciparum, como observado no
consequente. Contudo, sao necessarios parametros para reduzir o numero de regras de associacao
possıveis. Esses parametros devem ser dados como entrada para o algoritmo de criacao das regras e
sao: os tamanhos mınimo e maximo das regras e os valores mınimos de suporte e confianca. Essas
medidas limitam o conjunto de regras gerado, pois tratam-se de condicoes a serem cumpridas.
A mineracao de regras de associacao pode ser vista como tendo dois diferentes problemas a serem
resolvidos. O primeiro e a mineracao de conjuntos de itens frequentes (ou padroes frequentes) e o
segundo e a geracao das regras de associacao a partir dos padroes frequentes. Diversos algoritmos
com essa finalidade tem sido desenvolvidos a aprimorados [Toivonen and others, 1996] entre eles
Apriori [Agrawal et al., 1994], FP-growth [Han et al., 2000] e ECLAT [Zaki, 2000]. Neste trabalho
fez-se uso do algoritmo Apriori.
II.2.1 Parametros
Os tamanhos maximo e mınimo das regras determinam quantos item frequentes devem aparecer
na regra de associacao, contando tanto os itens no antecedente quanto o do consequente. O tamanho
mınimo de regras determina o menor numero de itens enquanto o maximo determina o maior
numero de itens para geracao das regras. Se ambos os tamanhos sao definidos por 2, apenas regras
com um item no antecedente e outro no consequente sao criadas, assim como a regra dada como
exemplo no paragrafo anterior. A Figura II.1 mostra exemplos de regras com tamanhos diferentes.
Os parametros de tamanho mınimo e maximo devem ser pensados com cuidado. As regras com
muitos itens podem ser difıceis de interpretar e trazer redundancia, alem de demandar um esforco
computacional maior para gerar mais regras. Por outro lado, diminuir o tamanho maximo pode
limitar a investigacao e omitir correspondencias importantes.
O suporte define a frequencia do item dentro do dataset [Berzal et al., 2002]. Ao se definir um
suporte de 50%, por exemplo, esta-se estipulando que somente itens que aparecem em pelo menos
metade das transacoes sao considerados como frequentes. Dado um conjunto de dados D, o suporte
8
Tabela II.1: Exemplos de regras de associacao com tamanhos (ordem) de 2 a 5
Regras Tamanho
{rs.notificacao=Codo} ⇒ {resultado.exame=Negativo} 2{rs.notificacao=Central; resultado.exame=Vivax} ⇒{tipo.deteccao=Passiva} 3
{rs.notificacao=Centro Norte; mes.notificacao=12;ano.notificacao=2014} ⇒ {resultado.exame=Negativo} 4
{rs.notificacao=Area Norte; tipo.deteccao=Ativa;mes.notificacao=02; ano.notificacao=2009} ⇒{resultado.exame=Negativo}
5
(sup) para um item X e o percentual de ocorrencias de X em relacao a D. Compreendendo-se as
ocorrencias de X em D como sendo um evento, a Equacao II.1 apresenta o suporte de do item X
como sendo a probabilidade de X ocorrer em D.
sup(X) = P (X) (II.1)
Analisando-se uma regra de associacao do tipo X ⇒ Y , tem-se que sup(X ⇒ Y ) e a probabili-
dade de ambos eventos X e Y ocorrerem juntos, i.e., sup(X ⇒ Y ) = P (X ∩ Y )1.
Caso um item apareca com menos frequencia que aquela determinada pelo suporte no algoritmo
de geracao das regras, este item nao aparece em nenhuma regra de associacao. Por outro lado,
definir um suporte baixo pode gerar mais regras do que seria util na pratica [Zheng et al., 2001].
Em suma, suportes baixos tem como consequencia um numero maior de regras enquanto, por
outro lado, suportes altos podem excluir itens menos frequentes da analise e que poderiam trazer
informacao bastante relevante. Alem do suporte, outra medida de entrada necessaria para a geracao
das regras e a confianca.
A confianca nao se preocupa com a frequencia do item no dataset. Ela investiga a chance daquela
regra ser verdadeira. E condicional, analisando a porcentagem de ocorrencia do consequente dado
que o antecedente acontece [Berzal et al., 2002]. Numa regra de associacao X ⇒ Y, a confianca e
dada pela Equacao II.2, representa a probabilidade condicional de Y ocorrer dado X.
conf(X ⇒ Y ) = P (Y | X) (II.2)
Exemplificando com a regra dada de exemplo, se esta tem confianca de 80% significa dizer que
em 80% das transacoes onde tem o item plasmodium = falciparum vai ter tambem o item idade =
de 10 a 15 anos. Logo, enquanto o suporte exprime essencialmente a frequencia dos itens da regra,
a confianca e uma medida sobre a forca da associacao entre esses itens.
1Nos artigos classicos de padroes frequentes utilizam X ∪ Y como sendo a uniao dos itemsets [Han et al., 2011;Gadar and Abonyi, 2019]. Nesta dissertacao, a uniao dos itemsets se traduz na intersecao dos seus respectivos eventosestatısticos [?], ou seja, P (X ∩ Y ).
9
II.2.2 Algoritmo Apriori
O algoritmo Apriori e o pioneiro e talvez o mais compreensivo algoritmo de mineracao de
conjuntos de padroes frequentes [Zheng et al., 2001]. Foi proposto em 1994 por R. Agrawal e R.
Srikant e tem o objetivo de produzir eficientemente as regras de associacao [Agrawal et al., 1994].
Para isso, o Apriori faz uma abordagem iterativa conhecida como pesquisa de nıvel e se baseia
em seu princıpio conceitual. O princıpio e chamado propriedade do Apriori e se trata da seguinte
constatacao: “todos os subconjuntos nao vazios de um conjunto de itens frequentes tambem devem
ser frequentes” [Agrawal et al., 1994]. O algoritmo Apriori tambem envolve a criacao de regras de
associacao. Essa abordagem utiliza apenas um item no consequente e todos os outros (κ-1 itens,
num padrao de tamanho κ) no antecedente. A regra X ⇒ Y e presente em o conjunto de transacoes
desde que satisfaca a condicao de confianca mınima determinada [Han et al., 2000]. A Figura II.1
apresenta o diagrama das etapas principais executadas pelo algoritmo Apriori para geracao de
regras de associacao.
Figura II.1: Diagrama das etapas do Apriori
O Algoritmo 1 apresenta o algoritmo Apriori. Determinam-se os itens candidatos dentro do
suporte a partir de uma varredura nos dados. Essa varredura e iterativa, variando para cada
tamanho κ de conjunto de itens. Nota-se a chamada de duas funcoes dentro da funcao principal
(apriori gen e subset).
Algorithm 1 Algoritmo Apriori
1: Entrada: Uma base de dados D e o valor do suporte mınimo (minsup)2: Saıda: O conjunto L com todos os conjuntos de itens frequentes3: function apriori(D,minsup)4: for κ = 2;Lk−1 6= ∅; k + + do5: Ck = apriori gen(Lk−1)6: for each t ∈ D do7: Ct = subset(Ck, t);8: for each c ∈ Ct do9: c.count+ +t;
10: Lk = c ∈ Ck|c.count+ + ≥ minsup;11: return L = tkLk
10
Para encontrar padroes frequentes, duas etapas principais compoem o Apriori: a de geracao de
candidatos (ou juncao) e a de poda (ou remocao) [Han et al., 2011]. O algoritmo dessas etapas
esta representado pelo pseudocodigo da funcao apriori gen contidas na funcao principal apriori.
Na etapa de geracao de candidatos (join), considerando η como o numero de itens de um conjunto
de itens (itemset) e κ variando de 1 a η, os conjuntos de itens candidatos de tamanho (κ + 1)
sao gerados a partir de conjuntos de itens frequentes de tamanho κ. Utilizando o princıpio do
Apriori, apenas sao avaliados os conjuntos de tamanho (κ+ 1) onde seu subconjunto de tamanho
κ e sabidamente frequente. Na etapa de poda, os conjuntos de itens gerados sao avaliados e e
verificado se ele atende ao requisito de suporte mınimo. Os conjuntos que atendem aos requisitos
seguem para a iteracao seguinte (juncao de mais um item ao conjunto) e os conjuntos que nao
atendem nao participam das proximas iteracoes.
Outra funcao contida no algoritmo principal do Apriori e a funcao subset. Ela e responsavel
por determinar os suportes de cada conjunto de itens para eliminar aqueles que nao sao frequentes
no dataset. Para tanto, essa funcao recebe os conjuntos de itens ja podados (que ja passaram pela
funcao apriori gen) e transacoes t da base de dados para retornar conjuntos de itens frequentes no
dataset.
Para exemplificar o comportamento do algoritmo Apriori, considere o banco de dados represen-
tado na Tabela II.2. Cada linha representa uma transacao, tendo um total de quatro transacoes.
Considerando o suporte mınimo de 50%, para encontrar os conjuntos de itens frequentes temos:
Tabela II.2: Transacoes da Base de Dados
Transacao Mes Ano Exame Genero
1 12 2009 positivo feminino2 12 2010 - masculino3 12 2009 negativo masculino4 10 - negativo masculino
Como primeiro passo, conta-se as ocorrencias dos itens para determinar quais sao frequentes.
Note que, como sao 4 transacoes no total, o suporte de cada item se da pela divisao da quantidade
de transacoes que esse item aparece pelo total de transacoes. O item 12 aparece tres vezes no
conjunto de dados, logo o suporte e 3/4 = 0.75, e da mesma forma para os demais.
As quatro primeiras linhas da Tabela II.3 representam os conjuntos de itens frequentes de
tamanho um que atendem o suporte mınimo de 0,50. As tres linhas finais da Tabela II.3 apresentam
os conjuntos de itens frequentes de tamanho dois que atendem o suporte mınimo de 0,50 formados
a partir das combinacoes dos itens frequentes de tamanho um.
Da mesma forma, juntam-se os elementos de tamanho dois para formar superconjuntos de
tamanho tres. A funcao de juncao, utiliza-se da propriedade do Apriori para nao gerar com-
11
Tabela II.3: Conjunto de itens frequentes de tamanho 1 (que atendem o suporte mınimo)
Conjunto de itens Suporte
{12} 0.75{2009} 0.50{negativo} 0.50{masculino} 0.75
{12,2009} 0.50{12,masculino} 0.50{negativo,masculino} 0.50
binacao de itens considerados nao frequentes. Ou seja, o superconjunto (12,masculino,negativo)
nao vai aparecer ja que, embora os tres itens individualmente sejam frequentes e seus subconjuntos
(12,masculino) e (masculino,negativo) tambem sejam frequentes, o outro subconjunto (12,negativo)
nao e frequente. Dessa forma nao ha um conjunto candidato de tamanho tres que atendam aos
princıpios do Apriori.
Nesse caso nao foram determinados limites de tamanho, mınimo ou maximo, para a geracao
dos padroes. Em conjunto de dados extenso e importante que se utilize essas medidas pois, caso
o contrario, sera gerado um numero muito grande de padroes e com uma quantidade exagerada
de itens. Adicionalmente, acarretara em custo computacional muito alto para execucao de todo o
processamento demandado. Se for determinado um tamanho maximo para os conjuntos de regras,
entao as iteracoes do Apriori sao interrompidas apos a juncao e poda de padroes desse tamanho
e nao somente ao se extinguir todas as possibilidades de combinacoes de itens que atendem ao
suporte mınimo. Determinar o tamanho mınimo como 2 tambem pode ser um bom recurso se o
interesse e trabalhar com regras de associacao, ja que sao necessarios no mınimo dois itens para se
formar uma regra.
Uma vez abordado o primeiro problema: encontrar padroes frequentes no dataset, o segundo
problema e abordado: obter as regras de associacao a partir dos padroes frequentes descobertos.
Esse problema e relativamente mais facil de resolver [Agrawal et al., 1994]. A confianca e a medida
utilizada nessa etapa para validar a forca da regra de associacao. O procedimento baseia-se em usar
os padroes frequentes e organizar cada um deles em forma de regras do tipo X ⇒ Y (X implica
em Y) [Agrawal et al., 1993]. Para cada padrao frequente com tamanho κ, pode-se gerar todas as
regras (no maximo κ regras) que usam itens do conjunto. O algoritmo dessa etapa e representado
pelo pseudocodigo 2.
Dado os padroes frequentes encontrados para o banco de dados da II.2, vamos encontrar as
regras de associacao correspondentes. Assume-se que a confianca mınima e de 90% (ou 0,9). Com os
padroes de tamanho 1, com apenas um item, nao existe como criar regras pois nao ha possibilidade
de qualquer um dos lados das regras (consequente ou antecedente) ser um conjunto vazio.
12
Algorithm 2 Geracao de regras
1: Entrada: Um conjunto de conjunto de itens L e a confianca mınima da regra (minconf )2: Saıda: O conjunto regras R3: function ap genrules(L,minconf )4: for each κ ∈ L do5: for each i = κ− 1; i ≥ 1; i−− do6: for each i ⊂ κ do7: conf = suporte(κ)/suporte(i);8: if conf ≥ minconf then9: adicione i → (k − i) em R;
10: return R;
A Tabela II.4 mostra as regras de associacao possıveis para os padroes frequentes e as respectivas
confiancas. A confianca e calculada observando-se, no caso de uma regra X ⇒ Y , em quantas
transacoes onde aparece X, aparece tambem Y. Observando a primeira regra da Tabela II.4 e a
base de dados da Tabela II.2. O item 12 aparece em tres transacoes e, dessas tres transacoes,
em duas aparece o item 2009. Logo, a confianca da regra e dada por 2/3 = 0, 67. Na segunda
transacao onde sao considerados os mesmos itens, mas na ordem trocada (2009 no antecedente e 12
no consequente) a confianca muda, uma vez que 2009 aparece duas vezes e nessas duas transacoes
aparece tambem 12, logo, a confianca nesse caso e 1 (ou 100%).
Tabela II.4: Conjunto de regras formadas com os padroes frequentes
Conjunto de Itens Confianca
12 ⇒ 2009 0.672009 ⇒ 12 1.0012 ⇒ masculino 0.67masculino ⇒ 12 0.67masculino ⇒ negativo 0.67negativo ⇒ masculino 1.00
Por fim, a partir de valores de suporte igual a 50% e confianca 90%, as regras a serem conside-
radas para o dataset de exemplo seriam a segunda e a ultima da Tabela II.4. E possıvel observar
que ao diminuir esses parametros o numero de regras tende a aumentar. Da mesma forma, ao
aumentar esses parametros o numero de regras tem a diminuir. O ajuste desses parametros deve
ser feito iterativamente ao longo da analise dos dados.
II.3 Avaliacao de Padroes
Uma das dificuldades de extrair conhecimento de regras de associacao e que uma quantidade
muito grande de regras pode ser criada ate mesmo de um conjunto de dados pequeno. Soma-se a isso
o fato de que muito dos padroes fortes encontrados, que potencialmente resultariam em analises
interessantes, se mostram triviais e desinteressantes [Witten et al., 2016]. Sendo assim, extrair
13
aqueles que sao interessantes nao e trivial [Dhar, 2013]. Porem, existem tecnicas para contornar
essa dificuldade como o emprego de medidas de interesse, utilizacao de subconjunto de padroes
frequentes fechados e nao redundantes.
Uma regra de associacao pode ser medida tambem pela correlacao entre os conjuntos de itens
no antecedente e no consequente. Existem muitas medidas de correlacao diferentes, chamadas de
medidas de interesse (interesting measures) entre as quais escolher [Han et al., 2011], muito embora
um numero significativo delas fornece informacoes conflitantes sobre a relevancia de um padrao
[Tan et al., 2004]. Dentre o numero abundante de medidas, duas sao amplamente difundidas na
literatura, o lift e o qui-quadrado (χ2). Outras duas, Kulczynski e taxa de desequilıbrio (imbalance
ratio) sao medidas sugeridas por Han et al. [2011] para apresentar as relacoes de padroes entre os
conjuntos de itens. As quatro sao brevemente explicadas.
Uma das medidas de interesse mais conhecidas, depois de suporte e confianca e o lift. O lift
e definido pela Equacao II.3, onde seu resultado e o fator que avalia o grau em que a ocorrencia
de um item “promove” a ocorrencia do outro [Brin et al., 1997]. O valor de lift igual a 1 aponta
independencia entre os itens enquanto valores maiores que 1 indicam associacao entre eles, ou em
outras palavras, que eles sao complementares (ou estao poisitivamente relacionados) [Hahsler and
Hornik, 2007]. O lift abaixo de 1 significa que a presenca de um item “promove” a ausencia do
outro (ou estao negativamente relacionados) e, nesse caso, os itens sao considerados substitutos.
lift(X ⇒ Y ) =conf(X ⇒ Y )
sup(Y )(II.3)
A analise de qui-quadrado (χ2) e uma tecnica estatıstica padrao que permite medir o grau de
dependencia entre as variaveis [Alvarez, 2003]. Sendo assim, e utilizada para testar a independencia
e/ou correlacao entre o antecedente e o consequente da regra. Para esse teste sao considerados
eventos independentes. No caso presente, onde existe apenas um item no consequente, o evento
considera tuplas usando um item do antecedente e o item do consequente. Por exemplo, para
uma regra de tamanho 5, 4 eventos sao considerados. A formula para calculo do valor do χ2,
representada na Equacao II.4, leva em consideracao as frequencias observadas (fo) e as frequencias
esperadas (fe) de cada evento. Na Equacao II.4 abaixo, κ e o tamanho da regra.
χ2 =k−1∑i=1
((fo)i − fe)2
fo(II.4)
A frequencia observada trata-se da contagem do evento nas transacoes enquanto frequencia
esperada e calculada pela multiplicacao da contagem do item do antecedente X pela contagem do
item do consequente Y dividida pelo numero total de tuplas do dataset. A Equacao II.5 apresenta
a formula para calculo da frequencia observada em um evento com item X no antecedente e Y no
14
consequente em um dataset composto de n tuplas [Han et al., 2011].
fe =|x| · |y|n
(II.5)
Se o valor de χ2 e 0, todos os itens sao independentes e se for superior a um valor de corte definido
(segundo um nıvel de significancia) a hipotese de independencia e rejeitada [Liu et al., 1999b].
A estatıstica do qui-quadrado considera simultaneamente e uniformemente todas as combinacoes
possıveis da presenca e ausencia dos varios atributos, em oposicao a confianca que considera a
implicacao direcional e trata a ausencia e a presenca de atributos de maneira nao uniforme [Liu
et al., 1999a].
As medidas de interesse apresentadas ate o momento (lift e qui-quadrado) nao possuem a
propriedade de invariancia nula. Isso quer dizer que os resultados sao influenciados por transacoes
nulas, que nao contem nenhum dos conjuntos de itens sendo examinados [Tan et al., 2004]. A
invariancia nula, porem, e uma propriedade importante para medir padroes de associacao em bancos
de dados grandes, ja que nos bancos de dados reais e esperado que o numero de transacoes nulas
seja bastante significativo [Han et al., 2011]. Um exemplo de medida de interesse de invariancia
nula e a Kulczynski.
A medida de interesse Medida de interesse Kulczynski (kulc) foi proposta em 1927 pelo ma-
tematico polones Kulczynski [Kulczynski, 1928]. Dados dois conjuntos de itens, X e Y , essa medida
trata-se da media de duas medidas de confianca. A primeira medida de confianca e a probabilidade
condicional de o conjunto de itens Y ocorrer dado o conjunto de itens X ocorre e a segunda e a
probabilidade condicional de o conjunto de itens X ocorrer dado que o conjunto de itens Y ocorre.
A Equacao II.6 apresenta o calculo de kulc, onde P e a probabilidade. O grau da correlacao e
representado por um numero real entre 0 e 1. Se Kulczynski estiver perto de 0 ou 1, entao a regra e
considerada interessante sendo negativa ou positivamente associada, respectivamente. Se o numero
resultante estiver proximo de 0,5, o ındice kulc e considerado neutro, ou seja, a regra pode ou nao
ser interessante.
kulc(X,Y ) =1
2(P (X|Y ) + P (Y |X)) (II.6)
A medida de interesse chamada Razao de Desequilıbrio (imbalance ratio - Taxa de desequilıbrio
(IR)) tambem possui a propriedade de invariancia nula, alem de nao ser influenciada pelo tamanho
do banco de transacoes. A IR mede o grau de assimetria entre dois eventos que contem o conjunto
de itens antecedentes X e o item consequente Y [Wu et al., 2010]. Para cada regra de associacao o
IR sera calculado de acordo com a Equacao II.7, onde o numerador e o valor absoluto da diferenca
entre os suportes dos conjuntos X e Y e o denominador o numero percentual (suporte) de transacoes
15
que contem X ou Y mas nao contem ambos juntos.
IR(X,Y ) =|sup(X)− sup(Y )|
sup(X) + sup(Y )− sup(X ∪ Y )(II.7)
De acordo com Han et al. [2011], deve-se usar as medidas kulc e razao de desiquilıbrio em
conjunto. Isso consiste na ideia de primeiramente filtrar as regras interessantes pela utilizacao da
medida kulc e depois a medida IR para avaliar as regras que apresentaram kulc proximo de 0,5
(neutro). Uma vez que kulc neutro e pouco informativo, uma IR (balanceada proxima a 0) vai
comprovar uma regra desinteressante, caso a IR mostra valores proximos a 1, entao, a regra pode
ser considerada interessante.
Alem das medidas de interesse, outro recurso para estudar padroes interessantes e a partir da
consideracao de redundancias no conjunto de regras. A logica envolvida no processo de decisao se
baseia na ideia de que uma regra e redundante se existirem regras mais gerais com a mesma ou
maior confianca. Por regra mais geral entende-se a regra com mesmo consequente (rhs) e menor
quantidade de itens no antecedente (sendo os itens presentes iguais aos das regras menos gerais).
Ou seja, se ao adicionar um item do lado esquerdo da regra a confianca diminuir ou permanecer
igual, entao essa regra sera redundante. Isso equivale dizer que a consideracao daquele novo item
equivale a uma melhoria negativa ou nula na regra [Bayardo et al., 1999]. Formalmente, podemos
representar uma regra X ⇒ Y como redundante se:
∃X ′ ⊂ X | conf(X ′ ⇒ Y ) ≥ conf(X ⇒ Y ) (II.8)
II.4 Processo Geral
A partir dos conceitos introduzidos ate aqui e possıvel apresentar o processo geral de Mineracao
de Dados utilizando padroes frequentes, descrito pelo Algoritmo 3. O algoritmo tem como entrada
uma base de dados D, um limiar de suporte sup e confianca conf , um conjunto de restricoes cons
e um conjunto de abordagens para obtencao de regras interessantes inter. A saıda do algoritmo e
conjunto ICR com todas as regras de associacao filtradas por restricoes e consideradas interessantes.
Algorithm 3 Mineracao de Padroes Frequentes
1: Entrada: Dataset D, suporte sup, confianca conf , restricoes cons e abord. de interesse inter.2: Saıda: Regras de associacao IR.3: function pattern mining(D, sup, conf, cons, inter)4: I ← apriori(D, sup)5: R← gen rules(I, conf)6: CR← apply constraints(R, cons)7: ICR← apply interestingness(CR, inter)8: return ICR
16
O algoritmo apriori recebe a base de dados (D) e o suporte mınimo (sup) como parametro
e produz como resultado o conjunto I de padroes frequentes. O conjunto I, juntamente com
o parametro de confianca mınimo (conf), e trabalhado pelo algoritmo gen rules e gera como
resultado o conjunto R de regras de associacao.
A essas regras sao atribuıdas algumas restricoes, como, por exemplo, a fixacao dos atributos no
LHS e RHS e tamanhos mınimo e maximo das regras. Tais restricoes reduzem o conjunto de regras
R para o conjunto CR.
No conjunto CR sao aplicadas abordagens de selecao de regras interessantes, como, por exem-
plo, indicacao de valores mınimos para lift, kulc e regras nao redundantes. No contexto dessa
dissertacao, a ARD enquadra-se como uma abordagem adicional de obtencao de regras interes-
santes que pode ser aliada as demais existentes. Essa etapa produz o conjunto de regras ICR
retornado pelo Algoritmo 3.
17
Capıtulo III Trabalhos Relacionados
Neste capıtulo sao citadas as principais publicacoes relacionadas ao trabalho desenvolvido nesta
dissertacao. O objetivo e situar quanto ao que ja foi desenvolvido e os principais resultados obtidos,
assim como procurar fazer uma comparacao deste trabalho com o que ja existe na comunidade
cientıfica e, assim, destacar as contribuicoes aqui propostas.
O capıtulo esta dividido em duas secoes. A primeira aponta para os trabalhos que empregam
tecnicas para classificacao/reducao de padroes e a segunda apresenta os trabalhos relacionados com
relacao a estudos analogos em malaria. A divisao se justifica pois, tendo em vista a metodolo-
gia e a aplicacao deste trabalho, e importante considerar estudos analogos tanto com relacao a
malaria, tema em estudo, quanto com relacao as tecnicas de avaliacao de regras de associacao, ja
que este trabalho propoe uma nova metodologia com esse objetivo como uma das suas principais
contribuicoes.
III.1 Mineracao de Padroes
Um problema conhecido em mineracao de padroes e o fato de que, apos a determinacao dos
conjuntos de padroes a partir dos dados, muitas centenas e frequentemente milhares de padroes sao
gerados e torna-se inviavel o estudo de cada um deles, enfraquecendo o processo de descoberta de
informacao util. Uma tarefa importante, entao, passa a ser a de determinar os padroes mais uteis
entre eles, ou seja, aqueles que nao sao triviais ou ja conhecidos.
Na literatura, diversos trabalhos abordam sobre metodos para determinar conjuntos de padroes
interessantes em um banco de dados. A propria metodologia de padroes frequentes e regras de
associacao ja sao, por si so, uma maneira de elencar padroes interessantes a partir do uso das
medidas de suporte e confianca.
Alem do suporte e da confianca, outras diversas medidas de interesse desempenham um papel
importante nesse contexto pois sao capazes de descobrir dependencias e correlacoes entre as variaveis
de um dataset e possibilitam a classificacao dos padroes de acordo com seus valores. Diversos
trabalhos sao desenvolvidos nesse sentido, tanto criando ou derivando novas medidas de interesse
[Tan and Kumar, 2000; Zhang et al., 2004] quanto estudando essas medidas para descrever suas
utilidades e aplicacoes [McGarry, 2005; Geng and Hamilton; Tan et al., 2002].
18
Outra tecnica utilizada para reduzir padroes frequentes foi levantada por Liu et al. [2000]. Os
autores utilizam abordagem subjetiva para encontrar regras inesperadas. Essa tecnica exige um
conhecimento mais aprofundado do banco de dados que e minerado, pois sao as consideracoes de
especialistas no domınio que sao norteadoras do processo de identificacao de padroes esperados.
A partir da definicao do especialista, as regras inesperadas sao descobertas de acordo com varios
criterios de interesse. Outros autores tambem publicaram esse tipo de pesquisa como Liu et al.
[1999c]; Silberschatz and Tuzhilin [1995]; Sahar [1999]; Padmanabhan and Tuzhilin [1998]; Ng et al.
[1998]; Srikant et al. [1997]. Essa abordagem pode ser bastante util quando as outras tecnicas nao
sao suficientes para filtrar um numero aceitavel de regras boas, o que acontece em grande parte dos
bancos de dados reais, principalmente quando estes sao extensos.
Alem das ja citadas, outras tecnicas foram desenvolvidas para ajudar na tarefa de selecionar
os padroes/regras mais relevantes dentre todos os gerados. Alguns exemplos sao a utilizacao dos
padroes fechados [Pasquier et al., 1999], padroes maximos [Bayardo Jr, 1998], padroes redundantes
[Bayardo et al., 1999] e padroes emergentes [Dong and Li, 1999]. Todos esses tratam-se de conceitos
amplamente utilizados e difundidos na literatura.
Alguns autores, no entanto, propoem uma abordagem diferenciada para o tratamento dos
padroes disponıveis. Nos proximos paragrafos seis artigos sao brevemente apresentados. Estes
artigos sao destacados por apresentarem o que se tem de mais atual com relacao a classificacao de
padroes/regras e que apresentam abordagem semelhante a abordagem desenvolvida neste trabalho
(ARD).
Gan et al. [2019] se baseiam na mineracao de padroes orientada a utilidade (utility mining) ao
propor uma abordagem chamada non-redundant Correlated high-Utility Pattern Miner (CoUPM).
Os autores criticam que a maioria das aplicacoes em utility mining nao consideram a correlacao
inerente de itens entre os padroes, descobrindo padroes que contem muitos itens fracamente cor-
relacionados. Com o objetivo de contornar essa caracterıstica, consideram, alem da utilidade, a
correlacao positiva entre os itens. Concluem que a metodologia desenvolvida (CoUPM) e eficiente
para classificar regras em bancos de dados quantitativos.
Tambem criticando a mineracao tradicional de conjuntos de itens de alta utilidade, Fournier-
Viger et al. [2019] propoe o algoritmo FCHM. Este algoritmo e baseado no algoritmo FHM [Fournier-
Viger et al., 2014], desenvolvido em um trabalho anterior que compartilha o mesmo autor principal.
O algoritmo FHM associa uma estrutura chamada lista de utilitario a cada conjunto de itens.
As listas de utilitarios permitem calcular rapidamente a utilidade de um conjunto de itens, pois
determinam os valores de utilidade dos padroes maiores a partir dos padroes mais curtos. O FCHM
adiciona um passo seguinte a analise do FHM ao considerar a correlacao entre os itens do padrao
na medida chamada medida de vınculo (bond measure). Resultados mostraram que o FCHM pode
19
ser muito mais eficiente do que o algoritmo FHM, removendo uma enorme quantidade de itens
considerados de alta utilidade, no entanto, pouco correlacionados.
Ainda na linha de mineracao de padroes orientada a utilidade mas como interesse em trabalhar
com conjuntos de itens que variam ao longo do tempo, Fournier-Viger et al. [2016] propoem tres
algoritmos denominados LHUI-Miner, PHUI-Miner e NPHUI-Miner. Nessa ordem, estes algoritmos
propoem extrair conjuntos de itens de alta utilidade local (LHUI), conjunto de itens que geram um
utilitario muito mais alto que o normal, chamados padroes de pico (PHUI) e conjuntos menores de
padroes de pico nao redundantes. Avaliacoes experimentais realizadas pelos autores mostram que
os algoritmos propostos sao eficientes e podem encontrar padroes uteis.
Motivados pela Internet das Coisas (Internet of Things), Yan et al. [2018] desenvolveram uma
metodologia para compactar padroes que sao gerados de forma sequencial e contınua (stream data).
O objetivo do algoritmo e encontrar continuamente os padroes representativos em fluxos de eventos
de janela deslizante usando o princıpio do Comprimento Mınimo da Descricao (Minimum Descrip-
tion Length), ou seja, uma medida para selecionar o modelo de codificacao que melhor comprime
os dados. O algoritmo desenvolvido, chamado SWIFT, e apresentado como uma estrategia de
mineracao de padrao contınuo capaz de compactar as codificacoes de padrao com ate 50% mais
eficiencia que o melhor metodo existente, alem de apresentar uma aceleracao de 4 ordens de mag-
nitude.
Pellegrina and Vandin [2018] concentram-se no processo de encontrar padroes estatisticamente
significativos do ponto de vista computacional. A definicao de significancia e geralmente dada a
partir de teste estatıstico que fornece um valor que quantifica a probabilidade de que a associacao
observada em dados reais surja apenas por acaso. Os autores desenvolvem o TopKWY, que extrai
eficientemente os k padroes estatisticamente mais significativos de um conjunto de padroes. O
algoritmo ainda garante o controle rigoroso da taxa de erro familiar (FWER), que e a probabilidade
de que uma ou mais descobertas falsas seja(m) feita(s). Nas conclusoes do artigo e evidenciado que
TopKWY permite a extracao dos padroes mais significativos de grandes conjuntos de dados que
nao puderam ser analisados pelo estado da arte.
Soulet et al. [2011] publicaram um estudo com o objetivo minerar os padroes uteis considerando
a preferencia do usuario. Acreditam que escolher um limite para a geracao das regras influencia
os resultados, entao trabalha com a ideia de consultas de skyline para extrair padroes de skyline
de maneira livre de limites. A abordagem proposta, apelidada de Aetheris, e livre de limitacoes
e utiliza as medidas de frequencia e area. A frequencia de um conjunto de itens e referente a
quantidade de vezes que ele acontece no dataset e a area de um conjunto de itens e definida como
um produto da frequencia e o comprimento do padrao. Os resultados apresentados com base em
estudo de caso mostram a eficiencia do Aetheris de acordo com aspectos quantitativos e qualitativos.
20
Tendo em vista os trabalhos apresentados e possıvel concluir que, apos busca extensiva e minu-
ciosa das publicacoes existente, nenhum trabalho encontrado considera a questao da comparacao
das frequencias das ocorrencias dos itens no conjunto de regras e no dataset. Isto corrobora a
afirmativa de que a ARD desenvolvida neste trabalho e original, desde sua fundamentacao teorica
de base ate sua implementacao.
III.2 Data Analytics em Malaria
Como a malaria e uma doenca de bastante relevancia no contexto de saude mundial, muito
tem se publicado sobre o assunto. As publicacoes envolvendo a doencas giram em torno de varios
temas, como prevencao, diagnostico, controle, tratamento, entre outros. Como forma de avaliar
artigos relacionados a este trabalho, foi utilizada a tecnica de mapeamento sistematico. O obje-
tivo e encontrar trabalhos que facam data anaylitcs em dados de malaria, ou seja, tanto analises
exploratorias quando aplicacao de metodos de mineracao de dados. Para tanto, utilizou-se a base
de dados bibliografica Scopus para avaliacao da literatura pela seguinte string de busca: TITLE-
ABS-KEY (( “data mining” ∨ “frequent pattern” ∨ “association rules” ∨ “exploratory analysis”
∨ “preprocessing”) ∧ ( “malaria” )). A busca retornou 154 referencias.
Todas as 154 referencia foram analisadas. Boa parte delas tratavam-se de assuntos bastante
divergentes a este trabalho, como por exemplo, estudos relacionados com bioinformatica e especifi-
cidades da biologia do mosquito ou do plasmodio, segmentacao e classificacao de laminas de sangue
para diagnostico de malaria e tambem analise do comportamento clınico de pessoas submetidas ao
tratamento de malaria. Apos uma consulta mais aprofundada dos textos, foram selecionados 13
trabalhos mais estreitamente relacionados aos temas aqui abordados.
Muitos autores fazem uso de tecnicas de analise exploratoria de banco de dados e estudos de
variaveis para fins relacionados a malaria. Wiefels et al. [2016], por exemplo estudam os dados
do Sistema de Vigilancia Epidemiologica de Malaria (Sistema de Informacoes de Vigilancia Epide-
miologica modulo malaria (SivepMalaria)) do Amazonas de 2003 a 2014 para avaliar sua qualidade
e precisao. Concluem que existem muitos dados faltantes, dados discrepantes e inconsistencias,
principalmente naqueles dados que dependem dos pacientes para serem registrados. Ressaltam a
necessidade de um pre-processamento cuidadoso para obtencao de dados estatisticamente corretos
para analises posteriores.
Loucoubar et al. [2011] usam HyperCubeR© para analisar um dataset de episodios clınicos de
malaria por Plasmodium falciparum. Os autores apresentam a ferramenta de mineracao de dados
exaustiva, nao euclidiana e nao parametrica que visa encontrar a melhor combinacao de fatores
que predizem o resultado da infeccao por malaria. Avaliam a abordagem como sendo eficiente na
analise de dados complexos e de alta dimensao.
21
Sweeney et al. [2007] usam GARP (algoritmo genetico para previsao de conjunto de regras)
com dados ambientais (climaticos e topograficos) e dados de presenca ou ausencia de mosquitos
vetores da malaria levantados em campo, no norte da Australia. Uma vez que o objetivo consistia
em apontar os principais fatores ambientais que influenciam na distribuicao de vetores de malaria,
identificaram a umidade atmosferica como ator crıtico na sobrevivencia de mosquitos adultos. Ana-
logamente, pois trabalham com o mesmo tipo de dados, mas em Niamey, Republica do Nıger e com
foco mais voltado para urbanizacao, Labbo et al. [2016] fazem uma analise exploratoria da asso-
ciacao entre a ocorrencia de mosquitos vetores urbanos da malaria e de fatores ambientais. Usam
Analise de Componentes Principais e teste nao parametrico de Kruskall-Wallis para confirmacao
das analises.
Ainda nessa mesma linha, Sahle and Meshesha [2014] procuram inferir a relacao entre fatores
ambientais e a ocorrencia de malaria, alem das possıveis causas de morte causadas pela doenca na
Etiopia. A metodologia aplicada foi a mineracao de dados para criacao de classificadores segundo
tres diferentes algoritmos (arvore de decisao J48, inducao de regra JRip e Rede Neural Multilayer
Perceptron (MLP)). Entre as consideracoes, apontam a chuva como principal fator determinante
para a prevalencia da malaria e uma probabilidade aumentada de risco de morte para criancas
menores de 5 anos de idade.
Diallo et al. [2017] fazem analise exploratoria a partir de amostragem de sangue de criancas em
quatro localidades no continente Africano, sendo duas com endemicidade de malaria moderada a
alta em Burkina Faso e duas com baixa endemicidade de malaria no Senegal. Os autores fazem
consideracoes sobre a variabilidade na prevalencia de especies de plasmodio, de numeros de criancas
afetadas por faixa e etaria e tambem sobre as ocorrencias considerando a utilizacao de medidas de
controle da malaria.
Johansson et al. [2016] usam arvores de classificacao para minerar dados clınicos de unidades
de saude de Malawi em 2013-2014 com o objetivo de estimar a correlacao entre a prescricao de
antibioticos e o resultado de testes de malaria. A hipotese estudada e que, ao ser medicado para os
sintomas da malaria com antibioticos, o resultado do exame para a malaria sao mascarados, podendo
acusar negativo enquanto o paciente na verdade possui a enfermidade. Evidenciam, por fim, a
importancia do uso racional de medicamentos antimalaricos e antibioticos pensando, inclusive, nos
compromissos de combate a resistencia.
Autores tem trabalhado para desenvolver metodos capazes de trazer informacoes confiaveis e
uteis para auxiliar na difıcil tarefa de alocar os recursos e esforcos escassos para o combate a malaria
em regioes prioritarias e de maneira acertada.
Buczak et al. [2015] fazem a previsao de surtos de malaria a partir da aplicacao de Mineracao
de Regras da Associacao Fuzzy em dados epidemiologicos da malaria, meteorologicos, climaticos e
22
socioeconomicos em uma regiao da Coreia do Sul. As regras geradas formaram classificadores para
prever uma regiao como tendo baixo, medio ou alto numero de casos futuros de malaria. O artigo
e um aperfeicoamento de um trabalho anterior com o mesmo objetivo mas aplicado a dados de
dengue nas Filipinas [Buczak et al., 2014]. Como conclusao e afirmado que a abordagem baseada
em dados pode ser usada para a previsao de diferentes doencas.
Ndiath et al. [2015] estudam hotspots de malaria em comunidades da regiao de Keur Soce, no
Senegal, para explorar a variabilidade espacial das relacoes entre incidencia/persistencia de malaria
e fatores socioeconomicos e ambientais. Para isso, usaram metodo de regressao com ponderacao
geografica. Com os resultados apresentam potenciais motivos para a existencia dos hotspots da
malaria em Keur Soce.
Gu et al. [2015] objetivam auxiliar no processo de prevencao e controle da malaria acusando
areas de risco de infeccao. Para esse fim, propoem um modelo de rede de difusao heterogenea para
caracterizacao de padroes espaco-temporais. Usam dados reais da China para validar o metodo
desenvolvido e concluem que este supera o estado-da-arte existente, assumindo ainda que sua
aplicacao pode ser estendida a outras regioes e a outras doencas transmitidas por vetores.
Jeefoo et al. [2009] apresentam um mapa de area de prevalencia da malaria usando Sistema
de Informacao Geografica (SIG) e Sensoriamento Remoto. Usam dados geoespaciais e registro
estatıstico de casos de malaria da provıncia de Kanchanaburi, na Tailandia, para analises estatısticas
e criacao do valor da informacao (i-value) que identificam relacoes entre as variaveis. A analise
permite a criacao de um mapa de risco de malaria com regioes identificadas em classes de alto risco,
risco moderado ou risco baixo.
Murty et al. [2008] aplicam SOM (self organizing maps) para priorizar as zonas endemicas de
malaria no estado de Manipur, na India. As zonas sao classificadas por endemicidade baixa, media
ou alta. Concluem que a metodologia e eficiente para dar apoio a tomada de decisao no que diz
respeito a aplicacao de medidas de controle em areas endemicas afetadas pela malaria.
Tendo em vista toda a pesquisa bibliografica feita e apresentada, nosso trabalho se destaca
por procurar levantar relacoes entre variaveis clınicas, incluindo dados pessoais, usando mineracao
por regra de associacao. A metodologia a ser aplicada tambem nao se aproxima de nenhuma ja
executada dentro do mesmo escopo, ja que sera trabalhado com algoritmo Apriori para regras de
associacao e uma nova abordagem de determinacao de regras interessante, a ARD. Alem disso, sera
feita a mineracao em cima de dados brasileiros de malaria, muito pouco explorados na literatura.
23
Capıtulo IV Analise por Divergencia
*** Esse capıtulo foi omitido para fins de publicacao. Atualizaremos o documento assim que
possıvel. ***
24
Capıtulo V Metodologia
O metodo de analise por divergencia desenvolvido neste trabalho foi aplicado em dados sobre
malaria na Amazonia Legal brasileira. O caminho percorrido ate a aplicacao deste metodo, no
entanto, envolve outros processos conforme apresentado na Figura V.1.
Figura V.1: Diagrama com os metodos utilizados na pesquisa
Todo o processo de investigacao se inicia com a tomada dos dados que passam pelo pre-
processamento e depois sao submetidos ao algoritmo de mineracao. A etapa de analise exploratoria
esta inserida entre o pre-processamento e a tecnica de mineracao pelo fato de ser fundamental o
estudo dos dados para a definicao da tecnica, algoritmo e parametros de mineracao. Depois que as
regras sao geradas, elas passam por pos-processamento afim de reduzir o conjunto de regras para
as regras mais interessante. Por ultimo faz-se uso da ARD que aponta para as regras divergentes
a serem estudadas.
V.1 Apresentacao do Dataset
O banco de dados utilizado para a mineracao trata-se de um compilado dos dados do Sistema
de Informacoes de Vigilancia Epidemiologica modulo malaria (SivepMalaria). O SivepMalaria foi
implantado em 2003 com o objetivo de fazer o monitoramento da malaria na regiao da Amazonia
Legal. O proposito de sua aplicacao foi o de aprimorar a agilidade e qualidade dos dados de malaria,
atraves da notificacao on-line, pela Internet, e tambem, de modulo local, off-line, nos municıpios
que ainda nao possuıam conexao com a Internet [Braz, 2003].
O sistema de informacao e composto por modulos que registram dados de notificacao, dados
do exame e informacoes sobre o paciente [Wiefels et al., 2016]. O SivepMalaria foi implantado
pela Secretaria de Vigilancia em Saude em 2003 e se mostra, segundo Almeida et al. [2010b], como
25
importante ferramenta para o conhecimento da distribuicao da malaria e que deve ser usado para
controle da endemia. Os dados do SivepMalaria estao disponıveis nos arquivos de banco de dados
mantidos pelo Departamento de Informatica do Sistema de Saude (DATASUS) [MS, 2018].
Os responsaveis pelo preenchimento sao os profissionais de saude, agentes de saude notificantes
e supervisores de campo que devem ser orientados quanto a importancia no processo de coleta dos
dados. Todos os campos da ficha devem ser criteriosamente preenchidos e digitados, evitando-se
campos em branco, duplicidades de registros e dados inconsistentes [MS, 2018].
Embora o objetivo desse sistema seja para monitoramento e administracao da malaria, os dados
compoem uma excelente fonte para pesquisa cientıfica [Wiefels et al., 2016]. Desde que o Sivep-
Malaria foi implantado, o formulario para seu preenchimento teve algumas alteracoes. O perıodo
escolhido para essa pesquisa, no entanto, apresenta certa regularidade nas variaveis existentes. No
total, 30 atributos compoem o banco de dados com 15.764.287 registros. Desses registros, cerca de
12% correspondem a casos positivos de malaria.
Os atributos do dataset compreendem dados da notificacao, dados do exame e informacoes sobre
o paciente. Com excecao das datas, todos os dados do dataset contendo as informacoes originais
extraıdas do SivepMalaria sao categoricos e estao codificados. A relacao entre a codificacao e seus
significados sao traduzidos por um dicionario de dados. As Tabelas V.1, V.2 e V.3 apresentam os
30 atributos, separados por tipo (notificacao, exame ou paciente) com seus significados e o formato
de seus valores. Nessas tabelas, os valores entre parenteses apresentam o numero de classes dos
atributos categoricos.
Tabela V.1: Atributos do tipo “notificacao” do dataset bruto
Atributo Significado Formato
dt notif Data da notificacao dd/mm/aaaasem noti Semana epidemiologica da notificacao ss/aaaauf noti UF que esta notificando codigo IBGEmun noti Municıpio que esta notificando codigo IBGE
Ha um numero muito grande de campos vazios no SivepMalaria, cerca de 66%. Apenas cinco
campos estao totalmente preenchidos, sem nenhum valor faltante. Esses campos sao os de data de
notificacao, municıpio e estado de notificacao, tipo de deteccao e resultado do exame. Informacoes
sobre o paciente somente sao preenchidas para aqueles pacientes que obtiveram resultado positivo
no exame de malaria.
Entre os valores possıveis dos atributos, a maioria deles nao e distribuıda de forma proporcional.
Por exemplo, entre os valores possıveis para resultados de exame, como ja foi dito, quase 88%
possuem o valor “negativo”. Alem disso, alguns valores simplesmente nao agregam informacao
significativa na pesquisa, como por exemplo no caso da variavel de ocupacao, onde entre 12 possıveis
26
Tabela V.2: Atributos do tipo “exame” do dataset bruto
Atributo Significado Formato
res exam Resultado do exame categorico (11)tipo lam Tipo de deteccao categorico (2)dt exame Data que o exame foi realizado dd/mm/aaaadt sinto Data em que o paciente sentiu os primeiros sintomas dd/mm/aaaadt trata Data do inıcio do tratamento dd/mm/aaaaexame Tipo de exame realizado categorico (2)
hemoparasiResultado do exame para outros hemoparasitaspesquisados
categorico (5)
pais inf Paıs em que provavelmente o paciente foi infectado codigo IBGEuf infec UF provavel de infeccao codigo IBGEmun infe Municıpio provavel de infeccao codigo IBGEloc infe Localidade provavel de infeccao codigosintomas Se o paciente sentiu sintoma categorico (2)
falciparumSe o paciente recebeu tratamento para malariafalciparum nos ultimos 40 dias antes da notificacao
categorico (2)
vivaxSe o paciente recebeu tratamento para malaria vivaxnos ultimos 60 dias antes da notificacao
categorico (2)
Tabela V.3: Atributos do tipo “paciente” do dataset bruto
Atributo Significado Formato
COD OCUPPrincipal atividade exercida pelo paciente nosultimos 15 dias
categorico (12)
dt nasci Data de nascimento do paciente dd/mm/aaaaniv esco Nıvel de escolaridade do paciente por grau atingido categorico (10)niv esco 1 Nıvel de escolaridade do paciente em anos de estudo categorico (7)id pacie Idade do paciente numero inteiroid dimea Formato que a idade esta sendo especificada categorico (3)pais res Paıs de residencia do paciente codigo IBGEuf resid UFde residencia do paciente codigo IBGEmun resi Municıpio de residencia do paciente codigo IBGEloc resi localidade de residencia do paciente codigoraca Raca / Cor do paciente categorico (5)sexo Sexo do paciente categorico (2)
valores existentes, mais de 50% dos campos preenchidos correspondem aos valores “ignorado” ou
“outros”. Para a mineracao de padroes frequentes esses tipos de situacoes proporcionam um desafio
adicional na busca por informacao relevante. Alguns desses problemas sao minimizados na fase de
pre-processamento de dados, onde caracterısticas dos dados sao alteradas para melhor atender os
objetivos da pesquisa.
V.2 Pre-processamento
Com o objetivo de preparar os dados para a mineracao de padroes frequentes, tecnicas de pre-
processamento foram aplicadas, entre elas: selecao de atributos, limpeza de dados e transformacao
27
de dados, incluindo construcao de atributos, discretizacao e geracao de hierarquia de conceitos. A
selecao de atributos objetiva escolher, dentre os atributos disponıveis no SivepMalaria, aqueles que
de fato agregam valor a pesquisa e devem ser mantidos para a mineracao. A limpeza dos dados
visa minimizar os erros encontrados no banco de dados a partir da identificacao e resolucao de
inconsistencias. A transformacao de atributos, por construcao, discretizacao e geracao de hierarquia
de conceitos, e responsavel por transformar atributos contınuos em categoricos ou para substituir
dados muito especıficos por dados mais gerais, alem de criar atributos derivados de outros.
Todos os criterios para as manipulacoes feitas nos dados tem base em estudos minuciosos dos
dados do SivepMalaria e suporte de especialistas no domınio. O dataset pre-processado possui,
depois de todas as manipulacoes descritas, 19 atributos.
V.2.1 Selecao de Atributos
A tecnica de selecao de atributos foi aplicada para descartar atributos irrelevantes ou redundan-
tes. Sete atributos do SivepMalaria foram eliminados durante a selecao de atributos: loc infec,
loc resid, uf infec, uf notif, pais inf, sem noti e dt nasci.
Uma vez que deseja-se estudar a malaria tendo como limite geografico as Regioes de Saude, os
atributos que nao correspondem a este nıvel de investigacao tornam-se fora do escopo da pesquisa.
Como e visto na secao ??, os atributos de Regioes de Saude foram construıdos a partir dos atri-
butos correspondentes de municıpio. Sendo assim, os atributos referentes a localidade (loc infec
e loc resid), a estados de infeccao e notificacao (uf infec e uf notif) e a paıs de infeccao
(pais inf) sao subtraıdos do banco de dados. Os atributos referentes a estado e paıs de residencia
(uf resid e pais res) nao sao eliminados ainda pois sao usados posteriormente para enriquecer o
atributo de regiao de saude de residencia.
Outro atributo eliminado trata-se do que indica a semana de notificacao (sem noti). A semana
de notificacao trata-se apenas de uma maneira diferenciada de apresentar a data de notificacao
(armazenada em outro atributo) e compreende, portanto, informacao redundante. Por fim, o
atributo de data de nascimento (dt nasci) tambem foi subtraıdo do conjunto de dados uma vez
que dia e mes de nascimento nao foram considerados como informacao relevante e o atributo de
idade do paciente exprime o mesmo conteudo que o ano de seu nascimento.
V.2.2 Limpeza de Dados
A limpeza de dados e a etapa responsavel por detectar e remover todos os principais erros e
inconsistencias contidos no banco de dados [Chu et al., 2016]. Como os dados SivepMalaria sao
provenientes de anotacao de formulario, e razoavel que existam erros (de anotacao e de digitacao)
nos dados e estes devem ser corrigidos. Foi feita uma procura por inconsistencias nas tuplas daqueles
28
atributos que tenham alguma associacao. Uma verificacao e correcao foi feita, por exemplo, para os
atributos de data de notificacao (dt notif) e data de exame (dt exame) uma vez que essas datas
estao correlacionadas pois o exame so e feito depois de se registrar a notificacao, nunca antes. Outro
exemplo e que, em casos onde o paciente nao sentiu sintomas (indicado pelo atributo sintomas) o
campo de data do sintoma (dt sinto) deve estar vazio.
Para a analise de erros e inconsistencias e suas correcoes foi feito uso de graficos como boxplots,
histogramas alem de analises estatısticas. A limpeza de dados funcionou de forma manual, onde
cada atributo foi estudado individualmente. Vale ressaltar que algumas transformacoes tambem vao
acabar por resolver ruıdos, como por exemplo, a categorizacao que tem a capacidade de suprimir
os efeitos dos outliers.
Embora existam muitos dados em branco no SivepMalaria, nenhuma tecnica de preenchimento
de dados faltantes foi aplicada. Os atributos sao informacoes especıficas sobre dados medicos e
pessoais dos pacientes e, entao, qualquer tentativa de preenchimento dos valores faltantes seria
inapropriada e diminuiria a confiabilidade dos dados.
V.2.3 Transformacao de Dados
A transformacao de dados, mais do que a limpeza de dados, e responsavel pela preparacao
dos dados visando a configuracao que permitira a melhor solucao para mineracao. Quase todos os
atributos foram modificados de alguma forma durante o pre-processamento. A maioria deles teve
que ter seus valores transformados de codigo para texto. Essa transformacao nao afeta o processo
de mineracao em si, mas melhora a interpretabilidade do produto da mineracao. Para exemplificar
basta imaginar um conjunto de regras na forma “idade = de 10 a 15 anos” ⇒ “plasmodium =
falciparum” e um conjunto de regras na forma “idade = 1” ⇒ “plasmodium = 3”, onde haveria
necessidade de procurar o significado dos codigos “1” e “3” para compreensao das regras.
A partir da tecnica de geracao de hierarquia de conceito, onde valores de dados brutos sao
substituıdos por intervalos ou nıveis conceituais mais altos, os atributos de Regioes de Saude
(rs.notificacao, rs.infeccao e rs.residencia) foram construıdos. Segundo MS [2018], a
Regiao de Saude e um espaco geografico contınuo constituıdo por grupos de Municıpios limıtrofes”,
o que significa que uma unidade de saude e um agrupamento de municıpios. Sendo assim, os atri-
butos do dataset que dao informacoes sobre municıpio (mun noti, mun resi e mun infe) tiveram
seus valores substituıdos a partir de uma tabela que correlaciona cada cidade a sua respectiva
regiao de saude. Essa tabela e dado disponıvel para download na pagina do DATASUS [DATASUS,
2018]. Apos a criacao dos atributos de regiao de saude, os atributos de municıpio sao subtraıdos
do dataset.
A partir dos atributos de Regiao de Saude de notificacao e de residencia, o atributo de migracao
29
(migracao) foi construıdo. Quando a Regiao de Saude de residencia e a diferente da Regiao de
Saude de notificacao ha migracao e o valor atribuıdo ao atributo de migracao sera “sim”. Do
contrario, se nao houve mudanca de Regiao de Saude o valor atribuıdo e “nao”. A Tabela V.4
ilustra as transformacoes executadas para a criacao do atributo de migracao. Apos a criacao desse
atributo, o atributo rs.notificacao foi subtraıdo do dataset.
Tabela V.4: Construcao do atributo de migracao
Verificacao Valor atribuıdo
rs.residencia = rs.notificacao naors.residencia 6= rs.notificacao sim
De forma equivalente a criacao do atributo de migracao, foi criado o atributo de caso.autoctone.
Dessa vez, entao, foram comparadas os atributos de Regiao de Saude de residencia e Regiao de
Saude de infeccao. Como em medicina caso autoctone e o nome que se da para uma doenca que
adquirida na zona da residencia do enfermo, quando nao e este o caso (ou seja, regiao de saude
de residencia e diferente da regiao de saude de infeccao) o atributo caso.autoctone recebe o
valor “Nao”. Caso contrario, recebe o valor ”sim”. Apos a criacao desse atributo, o atributo
rs.infeccao foi subtraıdo do dataset.
No caso da notificacao, esta pode ter sido feita apenas nos estados da Amazonia Legal. Para o
local de residencia do paciente, no entanto, pode acontecer de ser fora da Amazonia Legal ou ate
fora do Brasil. Entao, o atributo local.residencia foi criado para unir o atributo rs.residencia
com estados fora da Amazonia Legal e paıses fora do Brasil. Para isso foram usados os atributos
do dataset bruto uf resid e pais res.
Antes de serem incorporados ao atributo local.residencia os valores provenientes dos estados
fora da Amazonia Legal passaram por um processo de discretizacao, onde no lugar dos estados
individuais o que entrou no novo atributo foram valores categorizados por “estado fronteira” para
aqueles estados que fazem fronteira com qualquer um dos nove estados da Amazonia Legal e “outros
estados” para os outros estados do Brasil. Analogamente, discretizou-se o atributo de paıs, onde
o “paıs fronteira” e considerado para os paıses que fazem fronteira com os estados da Amazonia
Legal.
Com o objetivo de levantar variaveis relacionadas ao atendimento aos pacientes com suspeita de
malaria, nota-se a importancia de obter atributos que facam esse tipo de analise. Sendo assim, a par-
tir das datas de notificacao, exame, sintoma e tratamento, tres novos atributos foram construıdos.
O primeiro, chamado tempo.exame, trata-se da subtracao da data do exame (dt exame) pela
data da notificacao (dt notif) e, portanto, apresenta o tempo levou, desde a data de notificacao,
para a execucao do exame. O segundo trata-se do tempo que passou entre o exame e o comeco
30
do tratamento a partir dos atributos dt exame e dt trata e chama-se tempo.tratamento. O
ultimo, chamado tempo.notificacao marca o tempo decorrido entre o dia que o paciente sen-
tiu os primeiros sintomas ate o dia que a notificacao foi feita, para isso os atributos dt sinto e
dt notif foram usados.
Apos quantificar, em dias, esses intervalos de tempo, esses atributos foram discretizados em
quatro classes: “no mesmo dia”, “de 1 a 7 dias”, “de 8 a 30 dias” e “mais de um mes”. No caso
do atributo tempo.tratamento ainda existe uma quinta classe de valor “tratamento antes do
exame” que incorpora os casos onde o tratamento e feito antes de ser feito o exame. Isso acontece
em casos onde o paciente apresenta um quadro avancado da doenca, precisando de atendimento
imediato e, entao, comeca a ser tratado antes mesmo de fazer o exame.
As datas de exame (dt exame), sintoma (dt sinto) e data de tratamento (dt trata) foram
excluıdas apos a construcao dos novos atributos enquanto a data de notificacao foi transformada.
A transformacao se deu a partir de hierarquia de conceitos. Ou seja, a partir desse atributo
foram formados dois novos atributos categoricos, um com valores de mes (de 1 a 12) e outra com
valores de ano (de 2009 a 2015). Dessa forma, a partir das regras de associacao, torna-se possıvel
observar fenomenos no tempo, como por exemplo certa ocorrencia prevalecer num determinado
mes, independentemente do ano.
Os dados brutos contem duas variaveis para descrever o nıvel de escolaridade: niv esco e
niv esco 1. Embora ambos tragam informacoes sobre o nıvel de escolaridade dos pacientes, eles
registram valores com formatos diferentes. Enquanto um se refere ao perıodo em anos que o
paciente estudou, como “de 8 a 11 anos de estudo” o outro refere-se ao grau de educacao como
“ensino fundamental completo”. Isso porque o campo de nıvel de escolaridade no formulario do
SivepMalaria sofreu mudanca ao longo dos anos. Nao e desejado manter dois atributos com a
mesma informacao e o ideal tambem nao e desconsiderar um dos atributos, ja que dessa forma
haveria perda de informacao. A maneira de contornar esse problema foi a construcao de um novo
atributo com valores em formato de nıvel de escolaridade em grau atingido, considerando os dois
atributos anteriores. Para isso, os campos preenchidos na variavel niv esc foram aproveitados
e, onde estavam ausentes, os valores de niv esc 1 foram convertidos para o formato adequado
e incorporados a nova variavel. A conversao de formatos se deu pela construcao de uma tabela
cruzada entre niv esc e niv esc 1, onde suas frequencias cruzadas foram consideradas, e, onde
as frequencias eram mais altas as categorias nos dois formatos foram consideradas associadas (ou
equivalentes). A correspondencia so foi possıvel porque havia uma grande quantidade de tuplas
com os dois campos preenchidos.
Como pode ser observado na Tabela V.3, os dados brutos apresentam dois atributos diferen-
tes para descrever a idade dos pacientes: id dimea e id pacie. Enquanto id pacie e numerico,
31
id dimea diz se esse numero corresponde a dias, meses ou anos. A nova variavel de idade pre-
processada recebeu valores de id dimea iguais a meses e dias nas categorias “menor 01 ano”. Os
valores para os anos foram classificados segundo os intervalos utilizados pela Organizacao Pan-
Americana de Saude (OPS).
Outra aplicacao de construcao de atributos uniu os atributos de tratamento para falciparum
(falciparum) e tratamento para vivax (vivax) num mesmo atributo. Este atributo foi chamado
tratamento.anterior que pode assumir quatro valores. O valor “vivax” para quando o paci-
ente se submeteu a tratamento para o plasmodio vivax nos ultimos 60 dias antes da notificacao,
“faciparum” para quando o paciente recebeu tratamento para plasmodio falciparum nos ultimos
40 dias antes da notificacao, “vivax e falciparum” quando o paciente foi submetido ao tratamento
dos dois plamodios (considerando ainda 40 dias para falciparum e 60 para vivax) e “nao” quando o
paciente nao foi submetido a nenhum tratamento para esses dois plasmodios nos perıodos de tempo
especificados.
A Tabela V.5 apresenta os atributos do dataset bruto e em que atributos se transformaram
a partir de qual(is) tecnica(s) de pre-processamento. Onde le-se transformacao, significa que o
processo consistiu em mudanca de nome do atributo e a passagem de seus valores de codigo para
texto descritivo. Nesta tabela nao foram incluıdos os procedimentos de limpeza de dados.
Na Tabela V.6 sao apresentados os 19 atributos resultantes no dataset pre-processado, com seus
significados e exemplos de valor. No capıtulo de avaliacao experimental, na secao VI.1, sao feitas
alguns estudos em cima do dataset pre-processado de acordo com o que foi apresentado nessa secao.
V.3 Geracao das Regras de Associacao
As regras de associacao foram geradas a partir do algoritmo Apriori, implementado por meio do
pacote Arules [Hahsler et al., 2018] do software R [R Core Team, 2014]. Os parametros escolhidos
para a determinacao da regra inclui os tamanhos maximos e mınimos, o valores de suporte e
confianca e o tempo maximo de processamento. Ainda e possıvel estabelecer o item (ou o conjunto
de itens) que e permitido estar do lado direito ou esquerdo das da regras, como consequente ou
antecedente.
Para atender ao objetivo da pesquisa de entender os fatores associados a ocorrencia (ou a
nao ocorrencia) da malaria, do lado direito da regra (rhs) foi fixado o tipo de malaria. Para
fins desse estudo, os tipos de malaria considerados foram Falciparum, Nao Falciparum, Vivax,
Malariae, Ovale e Negativo, todos valores do atributo resultado de exame. Como a frequencia
de cada tipo e muito dıspar (vide Figura VI.4) e difıcil encontrar um suporte adequado que seja
capaz de gerar regras para todos os tipos. Considerando o dataset dos dados pre-processados, caso
fosse determinado um suporte relativamente alto, apenas apareceriam regras para o tipo vivax que e
32
Tabela V.5: Pre-processamento dos atributos do dataset bruto
Atributo Atributo resultante Tecnica
dt notiftempo.notificacao ;
tempo.exame ano.notificacao ;mes.notificacao
construcao de atributoshierarquia de conceitos
sem noti - selecao de atributosuf noti - selecao de atributos
mun notirs.notificacao
migracaohierarquia de conceitosconstrucao de atributos
res exam resultado.exame transformacaotipo lam tipo.deteccao transformacao
dt exametempo.tratamento ;
tempo.exameconstrucao de atributos
dt sinto tempo.notificacao construcao de atributos
dt tratames.tratamento ;ano.tratamento
tempo.tratamento
hierarquia de conceitosconstrucao de atributos
exame tipo.exame transformacaohemoparasi hemoparasita transformacaopais inf - selecao de atributosuf infec - selecao de atributosmun infe caso.autoctone construcao de atributosloc infe - selecao de atributossintomas sintoma transformacaofalciparum tratamento.anterior construcao de atributosvivax tratamento.anterior construcao de atributoscod ocup ocupacao transformacaodt nasci - selecao de atributosniv esco escolaridade construcao de atributosniv esco 1 escolaridade construcao de atributos
id pacie idadeconstrucao de atributosdiscretizacao
id dimea idade construcao de atributospais res local.residencia discretizacaouf resid local.residencia discretizacao
mun resilocal.residencia
migracaocaso.autoctone
hierarquia de conceitosconstrucao de atributos
loc resi - selecao de atributosraca raca transformacaosexo sexo transformacao
absolutamente predominante. Caso fosse determinado um suporte baixo suficiente para possibilitar
o aparecimento de padroes para os tipos de menor frequencia, seria gerado um numero excessivo
de regras, impossibilitando a analise. A maneira definida para contornar esse problema foi, entao,
criar conjuntos diferentes de regras para cada resultado de exame (cada tipo de malaria e resultado
negativo). A diferenciacao foi feita por meio da determinacao de um suporte especıfico para cada
conjunto de regras.
33
Tabela V.6: Atributos do dataset pre-processado
Atributo Significado Exemplo de valor
tempo.exame tempo entre notificacao e exame de 8 e 30 diastempo.tratamento tempo entre exame e inıcio do tratamento de 1 e 7 diastempo.notificacao tempo entre sintoma e notificacao no mesmo diames.notificacao mes que a notificacao foi registrada 10ano.notificacao ano que a notificacao foi registrada 2010
migracaose a Regiao de Saude de residencia e diferente ade notificacao
sim
caso.autoctonese a Regiao de Saude de infeccao e igual a deresidencia
nao
local.residencia localidade de residencia do paciente Paıs Fronteiraresultado.exame resultado do exame vivaxtipo.deteccao tipo de deteccao ativatipo.exame tipo do exame teste rapidosintoma se o paciente sentiu sintoma sim
hemoparasitaresultado do exame para outros hemoparasitaspesquisados
Microfilaria
trata-mento.anterior
se o paciente foi submetido a tratamentoanterior para vivax ou para falciparum
nao
ocupacao principal atividade nos ultimos 15 dias agriculturaescolaridade tempo de estudo analfabetoidade intervalo de idade do paciente 01 a 04 anosraca raca/cor do paciente pardasexo sexo do paciente feminino
A Tabela V.7 resume os valores dos parametros comuns a todos os quatro conjuntos de regras.
As regras de associacao foram criadas de forma a garantir que as informacoes relevantes para o
estudo fossem representadas. Para isso, forcamos o aparecimento do local de residencia do lado
esquerdo da regra (lhs). Dessa forma e garantido que a analise possa ser feita espacialmente, ou
seja, considerando em que localidade cada padrao ocorre. Sendo assim, todas as regras trazem
no seu lado esquerdo (lhs) o atributo de local de residencia e mais um (regras de tamanho 3) ou
dois (regras de tamanho 4) atributos do dataset pre-processado. A confianca mınima foi definida
como 0,8, ou 80%. A confianca deve ser alta para assegurar que o conjunto de itens do antecedente
(lhs) sejam realmente determinantes para promover o resultado apresentado do lado direito da
regra (rhs). Por fim, o tempo de processamento foi deixado ilimitado, fazendo que o processamento
acabe so depois de todas as regras possıveis sejam formadas.
Os suportes de cada conjunto de regras foram definidos pelo metodo de curvatura maxima, cal-
culado segundo o subset dos atributos mes.notificacao, ano.notificacao, local.residencia,
sexo, idade e para os registros do tipo de malaria em questao. Esses atributos foram escolhidos
por serem capazes de refletir um bom perfil do dataset. Os atributos ano e mes definem temporal-
mente, o atributo local define espacialmente e os atributos sexo e idade garantem diversificacao nas
34
Tabela V.7: Parametros comuns para a geracao dos conjuntos de regras de associacao no arules-R
Parametro Valor atribuıdo
lhs local.residenciatamanho mınimo 3tamanho maximo 4confianca 80%tempo maximo ∞
caracterısticas pessoais dos pacientes. Usar todos os atributos, com todos seus valores possıveis,
sobrecarregaria a funcao, podendo gerar resultados incoerentes.
O metodo de curvatura maxima consiste na contagem da quantidade de vezes que cada com-
binacao possıvel de ocorrencia dos atributos do subset aparecerem juntas na mesma ocorrencia (na
mesma notificacao, mesmo paciente). A partir disso, plota-se um grafico de numero de regras com
(eixo y) e numero quantidade de combinacoes (eixo x). Define-se, entao, o ponto de curvatura
maxima de valor x igual a suporte absoluto a ser utilizado na determinacao das regras. Este valor
representa a quantidade de dados mınima ser considerada a fim de se obter combinacoes diferen-
tes. Considerar um conjunto de observacoes (registros do SivepMalaria) menor que esse resulta em
analise redundante e considerar um conjunto maior pode causar perda de informacao importante.
Em suma, o valor calculado por curvatura maxima reflete o numero mınimo de registros que devem
conter aquele padrao para que ele seja considerado relevante.
Para que os itens sejam considerados frequentes eles tem de atender o suporte mınimo estabe-
lecido. A tabela V.8 apresenta os valores de suporte utilizados na geracao das regras de associacao
para cada conjunto de regras. Como pode ser observado, para o tipo de malaria ovale nao foi
possıvel o calculo do suporte. Isso de deu pelo fato de que apenas 9 casos de malaria do tipo ovale
ocorrem no dataset, o que nao e o suficiente para a analise da curvatura maxima. Os suportes
absoluto e relativo sao, respectivamente, o suporte calculado pelo metodo de curvatura maxima e
este valor dividido pelo total de linhas do dataset pre-processado.
Tabela V.8: Informacoes dos parametros para geracao dos conjuntos de regras.
rhsSuporteAbsoluto
SuporteRelativo
Negativo 161 1.02x10−5
Vivax 149 9.4x10−6
Falciparum 33 2.1x10−6
Nao Falciparum 10 6.3x10−7
Malariae 2 1.2x10−7
Ovale - -
O processo de geracao das regras exige um esforco computacional muito grande, tornando
35
essencial a utilizacao de um computador com alto poder de processamento. As tecnicas de pos-
processamento irao tratar de filtrar as regras geradas, possibilitando que uma analise mais “limpa”
das regras. Os metodos de filtragem de regras sao discutidos na proxima secao.
V.4 Pos-processamento
Mesmo com as limitacoes de suporte, confianca e tamanhos mınimos e maximos, devido a
dimensao do dataset um numero muito grande de regras e gerado. Por isso torna-se indispensavel
uma maneira de filtrar as regras interessantes para que apenas estas sejam investigadas. As tres
maneiras utilizadas neste trabalho com esse fim sao o uso de medidas de interesse, a consideracao
de regras nao-redundantes e a exclusao de regras com valores desinteressantes.
A primeira etapa da filtracao consistiu na exclusao das regras que traziam informacoes irrele-
vantes como “ocupacao = ignorado”. Depois foi feito o uso das medidas de interesse lift, kulc e
imbalance ratio. As regras consideradas desinteressantes segundo essas medidas, como explicado na
secao II.3, foram excluıdas. Por ultimo, todas as regras consideradas redundantes foram tambem
descartadas dos conjuntos de regras.
Mesmo depois de todo o processo de filtragem ainda permanecem muitas regras a serem anali-
sadas. Fez-se necessario entao desenvolver um metodo para otimizar o estudo e explorar o dataset
a fim de encontrar o conjunto de regras com maior potencial de fornecer informacao util. Esse
metodo sera explicado na proxima secao.
V.5 Obtencao de Regras Divergentes
*** Essa secao foi omitida para fins de publicacao. Atualizaremos o documento assim que
possıvel. ***
36
Capıtulo VI Avaliacao Experimental
Este capıtulo e dividido em tres secoes. A primeira secao (secao VI.1) apresenta analises do
estudo exploratorio dos dados brutos e pre-processados. Com essa analise pretende-se apresentar
as tendencias principais do dado. A secao VI.2, apresenta caracterısticas das regras geradas na
mineracao de padroes como detalhado na secao V.3. A secao traz os resultados obtidos segundo a
abordagem descrita no capıtulo ??.
Enquanto a primeira analise visa a obtencao de uma visualizacao dos dados, de forma que se
possa ter uma visao geral e permitir o conhecimento dos principais comportamentos do dado, a
analise dos padroes encontra aspectos mais especıficos do dado visando encontrar relacionamentos
inesperados e de resumir os dados de uma forma que eles tragam informacao util, contribuindo no
processo de descoberta de conhecimento.
VI.1 Analise Exploratoria de Dados
Esta secao apresenta uma breve analise exploratoria dos dados. Essa analise ajuda a entender
o dataset e corroborar as tendencias que ja haviam sido comentadas em outros topicos, alem de
acentuar os desafios e a relevancia do trabalho que esta sendo executado. As duas secoes desse
capıtulo estao assim dividas pois, enquanto a primeira traz resultados de analises mais simples,
baseadas nos dados e em funcoes estatısticas mais basicas em cima dos dados brutos do SivepMa-
laria, a segunda traz os resultados de uma analise exploratoria mais aprofundada. A ideia de uma
analise mais aprofundada se baseia na utilizacao de tecnicas exploratorias mais avancadas, analises
provenientes de dados derivados do pre-processamento e/ou integracao de dados.
Dentre inumeras possibilidades de analise que poderiam ser apresentadas, julgou-se que os pro-
dutos apresentados (graficos e tabelas) sao capazes de representar as tendencias mais relevantes dos
dados. Alem disso, eles compreendem informacao necessaria para constatar, ao longo do desenvol-
vimento do trabalho, que as tecnicas de mineracao de dados aplicadas podem trazer observacoes
diferenciadas daquelas obtidas na analise exploratoria dos dados, mesmo que a esta tenha sido feita
de forma adequada, variada e avancada.
37
VI.1.1 Analise Exploratoria dos Dados Brutos
A primeira analise a ser explorada e a nocao de completude dos dados. Como ja comentado
na secao V.1, os dados se apresentam esparsos no dataset bruto. Quando consideramos, portanto,
apenas os casos positivos de malaria ha uma porcao muito maior de dados preenchidos. A Tabela
VI.1 apresenta as porcentagens de dados preenchidos considerando primeiro o total de registros e
depois apenas os casos confirmados de malaria.
Tabela VI.1: Porcentagem de dados preenchidos para o total do dataset bruto (15764287 registros)e dos dados positivos para malaria (1744626)
Atributo TotalCasos
PositivosAtributo Total
CasosPositivos
cod ocup 11% 94% niv esco 1 5% 45%dt exame 12% 100% pais inf 12% 100%dt nasci 9% 76% pais res 12% 100%dt notif 100% 100% raca 6% 53%dt sinto 11% 94% res exam 100% 100%dt trata 11% 98% id pacie 12% 100%exame. 52% 53% id dimea 12% 100%falciparum 52% 53% id dimea 12% 100%hemoparasi 52% 53% sem noti 100% 100%loc infe 11% 96% sexo 12% 100%loc resi 12% 99% sintomas 12% 100%mun infe 12% 97% tipo lam 100% 100%mun noti 100% 100% tipo lam 100% 100%mun resi 12% 100% uf infec 12% 97%niv esco 11% 93% uf notif 100% 100%vivax 52% 53% uf resid 12% 97%
A Figura VI.1 apresenta dois graficos que mostram a proporcao do numero de atendimentos
(esquerda) e numero de casos positivos (direita) registrados nos estados da Amazonia Legal. O
campo “Outros” corresponde aos estados do Tocantis, Maranhao e Mato Grosso juntos. Percebe-se
que o Amazonas ocupa 40% do grafico de numero de atendimentos, mas os casos positivos, em
comparacao, sao bem menores. Em contraste existe, por exemplo, o estado do Para que possui
proporcionalmente aos outros estados muito mais casos positivos que numero de atendimentos
realizados.
A Figura VI.2 sumariza os graficos anteriores (Figura VI.1), apresentando a porcentagem de
registros que confirmaram a suspeita de malaria. Os estados do Para a Amapa apresentam as
maiores proporcoes de casos por atendimento, ja que, de 100 pacientes notificados, um numero
entre 15 a 20 sao diagnosticados com malaria. O Maranhao e o unico estado a apresentar menos
de 5% de casos entre as notificacoes feitas no estado.
O grafico da Figura VI.3 apresenta no tempo a quantidade de casos positivos e negativos.
38
Figura VI.1: Proporcao de numero de atendimentos realizados (a esquerda) e proporcao de numerode casos positivos registrados (a direita) em cada estado da Amazonia Legal considerando os regis-tros do SivepMalaria compreendidos entre os anos 2009 e 2015. Os rotulo “Outros” refere-se aosregistros somados dos estados de Tocantins, Maranhao e Mato Grosso
Figura VI.2: Proporcao de casos positivos por numero de atendimentos realizados nos estados daAmazonia Legal considerando os registros do SivepMalaria compreendidos entre os anos 2009 e2015
Corroborando o que ja foi dito anteriormente, percebe-se um padrao decrescente ao longo dos
anos no numero de casos positivos e negativos, que nesse caso reflete o numero de atendimentos
notificados de malaria. Outra tendencia e a ondulacao percebida principalmente na linha dos casos
39
positivos. E notavel o aumento de numero de casos no meado do ano (inverno no Brasil) e a
diminuicao no inıcio e fim do ano.
Figura VI.3: Grafico de quantidade de casos negativos e positivos de malaria no tempo (mes e ano)
O grafico da Figura VI.4 apresenta a distribuicao do tipo de malaria nos sete anos de estudo.
Vivax e claramente o tipo de plasmodio predominante, sendo o tipo Falciparum o segundo mais
presente. Outros tipos de Plasmodio ocorrem mais raramente, sao esses: F+FG (P. falciparum +
gametocitos de P. falciparum), F+V (P. falciparum + P. vivax), V+FG (P. vivax + gametocitos
de P. falciparum), FG (gametocitos de P. falciparum), M (P. malariae), F+M (P. falciparum + P.
malariae), Ov (P. ovale) e Nao F (nao falciparum). Esse ultimo e inconclusivo sobre o tipo exato
de plasmodio, apenas descarta a hipotese de ser Falciparum. Isso ocorre para casos de exames
feitos com teste rapido que so e capaz de acusar os resultados Negativo, F (P. falciparum), F+V
(P. falciparum + P. vivax ou Nao F (nao falciparum).
Durante o estudo dos atributos, a partir de analise de matrizes de correlacao, notou-se uma
correlacao entre os atributos sintomas e tipo lam. Isso motivou a analise combinada desses dois
atributos para entender o motivo dessa correlacao. A Tabela VI.2 mostra o resultado dessa analise.
Percebe-se que, para a deteccao do tipo ativa (quando o paciente e procurado pelo profissional
de saude para fazer o exame) 16% dos pacientes diagnosticados com malaria nao apresentavam
sintomas. No caso da deteccao passiva (quando o paciente procura a unidade de saude notificante
para fazer o exame) apenas em 2% dos casos o paciente nao apresentava sintomas. Essa observacao
e esperada, uma vez que o paciente normalmente busca por atendimento em decorrencia do fato
de estar sentindo algum sintoma. A analise tambem mostra que a deteccao ativa pode ser impor-
tante para encontrar (e, posteriormente, diagnosticar e tratar) indivıduos que apresentam casos
assintomaticos e que, muito provavelmente, nao procurariam uma unidade de saude.
40
Figura VI.4: Numero de casos de malaria por tipo de Plasmodio de 2009 a 2015. O grafico representatodos os casos positivos do SivepMalaria nestes anos
Tabela VI.2: Associacao entre o tipo de deteccao e a percepcao dos sintomas
Sintoma Deteccao Ativa Deteccao Passiva
Sim 84% 98%Nao 16% 2%
VI.1.2 Analise Exploratoria dos Dados Pre-Processados
Os graficos da Figura VI.5 apresentam uma analise dos atributos de tempo criados no pre-
processamento. Para os tempos de notificacao, tratamento e exame, a quantidade de pontos em
cada quadrante e proporcional a quantidade de registros em cada intervalo de tempo e para cada
estado de notificacao (1 ponto para cada 500 registros). E interessante reparar que o tempo entre
o diagnostico e o inıcio do tratamento (tempo de tratamento) e o tempo entre a notificacao e a
execucao do exame (tempo de exame) sao predominantemente de ate um dia para todos os estados.
O Maranhao se destaca no tempo de exame por ser o unico a apresentar o intervalo de 1 a 7 dias
mais equilibrado com o intervalo de 1 dia, indicando que nesse estado ha uma maior demora na
obtencao do diagnostico se comparado aos outros estados.
Para o tempo de notificacao, o padrao mostra maiores registros no intervalo de 1 a 7 dias. Isso
indica que ha uma lacuna de tempo entre o momento que o paciente sente o primeiro sintoma ate
o momento que vai procurar a unidade de saude (ou vai ser encontrado pelos agentes de saude).
Analisando agora os atributos relacionados as informacoes pessoais dos pacientes infectados por
malaria e considerando os dados do censo de 2010 do IBGE da frequencia de cada classe para
ponderar os valores absolutos foram construıdos os graficos das Figuras VI.6 e VI.7. Vemos que
em todos os estados predomina-se o sexo masculino como o mais afetado. Existe uma variacao
41
Figura VI.5: Grafico com proporcao (1:500) de registros em cada estado da Amazonia Legal,considerando os intervalos dos tempos de notificacao (superior), exame (central) e tratamento(inferior)
entre os estados no que diz respeito a proporcao de homens e mulheres com malaria, por exemplo,
enquanto no Mato Grosso 77% dos casos sao em pessoas do sexo masculino, no Acre a disparidade
entre homens e mulheres e bem menor, sendo 56% homens e 44% mulheres.
Figura VI.6: Graficos de cada estado da amazonia legal com as proporcoes de homens (sexo mas-culino) e mulheres (sexo feminino) afetados pela malaria. Os valores sao ponderados pelos dadosdo censo de 2010 do IBGE
Na Figura VI.7 e possıvel notar que a populacao indıgena e a mais afetada pela malaria nos
estados da Amazonia Legal. Essa tendencia so pode ser observada porque, para a confeccao do
grafico, os dados foram ponderados com os dados de populacao do IBGE, censo 2010. Isso significa
que, dentre toda a populacao indıgena, uma porcentagem muito maior de indivıduos e infectada pela
malaria em comparacao com outras racas. Caso a quantidade de indivıduos de cada raca nao fosse
considerada, o grafico representaria as porcentagens dos numeros absolutos de casos notificados e,
42
dessa forma, a raca parda predominaria.
Figura VI.7: Grafico com as proporcoes de raca, entre preta, parda, indıgena, branca e amarela deindivıduos afetados pela malaria nos estados da Amazonia Legal. Os valores sao ponderados pelosdados da raca da populacao segundo o censo de 2010 do IBGE
O ultimo grafico, da Figura VI.8, apresenta os meses e anos com cores representando a variacao
em numero de casos de malaria comparados ao total de casos em 2009 (308406 casos). Quanto mais
quentes forem as cores, assim como quanto maior os raios das circunferencias, maior o numero de
casos. Dessa forma e possıvel observar como se deu a variacao na ocorrencia da doenca ao longo de
meses e anos. As duas tendencias ja observadas da Figura VI.3 sao verificadas com mais clareza a
partir desse grafico onde vemos que, ao longo dos anos os casos diminuem e que em todos os anos
a prevalencia da doenca se da mais pro meio do ano (de maio a setembro) que pro inıcio ou fim.
Figura VI.8: Observacao de variacao na ocorrencia de numero de pessoas afetadas pela malariaentre todos os meses dos anos de 2009 a 2015. As cores representam os valores dos ındices calculadopela divisao do numero de casos registrados no mes e ano pelo numero de referencia. A referenciae o numero absoluto de casos em 2009 (308406 casos). Sendo assim, quanto mais quente a cor emaior o raio da circunferencia, maior o valor desse ındice
43
A analise exploratoria de dados ja e capaz de mostrar padroes e tendencias nos dados. Entao,
um estudo aprofundado, como a mineracao por regra de associacao, por ser mais robusto, promete
levantar informacoes bastante relevantes.
VI.2 Analise das Regras de Associacao
Nesta secao, apresentamos caracterısticas gerais das regras de associacao geradas a partir do
Apriori e de acordo com o descrito na secao V.3. A Tabela VI.3 apresenta o numero de regras gera-
das pelo Apriori e os numeros apos cada etapa de filtragem dos dados. Como pode ser observado,
para o tipo de malaria malariae nenhuma regra foi gerada. Isso se deu pelo fato de que, mesmo
definindo um suporte muito baixo, a presenca desse tipo e tao rara no dataset que nao foi possıvel
obter padroes. Dessa forma, quatro conjuntos de regras, com o numero de regras indicado pela
coluna Regras Final na Tabela VI.3, foram utilizadas nessa analise.
Tabela VI.3: Informacoes sobre numero de regras dos conjuntos de regras antes de depois de cadaetapa de filtragem. A filtragem 1 corresponde a etapa de eliminacao de valores desinteressantes,a filtragem 2 a consideracao das medidas de interesse e a filtragem 3 a eliminacao das regrasredundantes.
rhsNumero de
RegrasGeradas
Numero deRegras aposfiltragem 1
Numero deRegras aposfiltragem 2
Numero deRegras aposfiltragem 3
Negativo 1452 316 151 118Vivax 64104 23461 23461 10838Falciparum 44 30 30 24Nao Falciparum 407 283 283 224Malariae 0 0 0 0
Observando a Tabela VI.3, vemos que mesmo apos as filtragem restam ainda muitas regras a
serem consideradas para analise, principalmente para o conjunto de regras que trazem a malaria do
tipo Vivax do lado direito da regra. Na proxima secao, sao apresentados os resultados da analise
das regras divergentes encontradas segundo a ARD, como indicado no capıtulo ??.
Como apresentado na secao anterior, mesmo depois da utilizacao de recursos para reduzir os
conjuntos de regras geradas pelo Apriori para que sejam mantidos apenas os padroes interessantes,
vemos que muitas regras ainda permanecem para ser analisadas. Por esse motivo, em cima desse
conjunto de regras ja filtrado, foi aplicada a ARD, como detalhado no capıtulo?? da metodologia.
Nesta secao, entao, apresentamos a analise das regras divergentes, ou seja, aquelas que contem os
atributos considerados divergentes. Propoe-se que os resultados provenientes dessa analise sejam
diferenciados do que ja pode ser observado na analise exploratoria dos dados (Secao VI.1).
44
VI.2.1 Divergencia no Atributo Ano de Notificacao
A primeira observacao interessante foi a percepcao de que os anos de 2009 e 2010, que sao os
que mais aparecem no dataset do SivepMalaria (vide Figuras VI.8 e VI.4), aparecem com menor
frequencia nos datasets das regras. Entao, despertou-se o interesse em buscar o possıvel motivo
para tal. Para isso, o dataset pre-processado voltou a ser estudado, com foco no atributo do
ano de notificacao. Notou-se que alguns atributos nos registros desses dois anos foram raramente
preenchidos, constituindo muitos campos vazios e dificultando a busca por padroes das regras
de associacao. Essa observacao representa uma descoberta interessante sobre preenchimento e
completude dos dados que nao foi observada na analise exploratoria inicial.
Os atributos mal preenchidos tratam-se dos que traziam informacao sobre hemoparasitas pesqui-
sados, tipo de exame, tratamento anterior, e raca do paciente. Todos os quatro foram atributos que
comecaram a ser registrados apenas em 2011, quando houve troca de formulario do SivepMalaria
Wiefels et al. [2016].
Alem dessa divergencia ter indicado uma caracterıstica do dado, ajuda a dar consistencia a
metodologia adotada neste trabalho. A Tabela VI.4 apresenta os suportes relativos indicando o
quanto dos registros foram contemplados nos padroes gerados para resultados de exame dando
em vivax. Percebe-se que para todos os anos esse suporte e alto, variando em torno de 70%,
inclusive nos anos de 2009 e 2010, onde encontra-se a divergencia. Logo, caso apenas fosse levado
em consideracao a analise dos suportes, nada poderia ser observado com relacao a peculiaridade
dos atributos faltantes nos dois primeiros anos considerados neste estudo.
Tabela VI.4: Suporte das regras para os pacientes com vivax nos sete anos de estudo
Ano 2009 2010 2011 2012 2013 2014 2015
Suporte 0.710 0.815 0.838 0.743 0.728 0.615 0.949
Essa avaliacao nos permite afirmar que, neste caso, foram gerados menos padroes que o esperado
para os anos 2009 e 2010 nao pelo fato de que nesses anos fosse mais difıcil encontrar padroes, mas
apenas pelo fato de que existem menos atributos (e valores) a serem considerados para a geracao
das regras.
VI.2.2 Divergencia no Atributo Hemoparasitas
O atributo hemoparasita do dataset estudado apresenta a informacao se o paciente apresenta
os hemoparasitas microfilaria e/ou trypanosoma causadores, respectivamente, da filariose e da
doenca de chagas. Essa informacao so e possıvel nos casos onde o exame feito foi esfregaco ou
gota espessa, pois se tratam do exame microscopico do sangue e permitem a observacao de outros
hemoparasitas, alem do plasmodio. Observando este atributo nos datasets das regras percebeu-se
45
uma tendencia ao aparecimento do hemoparasita microfilaria em casos negativos e o aparecimento
do hemoparasita trypanossoma em casos positivos de malaria. Considerando os quatro datasets de
regras (Negativo, Vivax, Falciparum e Nao Falciparum), das 11 regras onde aparece microfilaria,
nove resultam em resultado negativo e das 13 onde aparece trypanossma todas resultam em vivax.
Alem disso, nota-se que as duas regras que apresentam microfilaria dando em resultado positivo de
malaria apresentam a confianca consideravelmente mais baixa.
Cerca de 70% dos casos detectados de trypanossoma no dataset e representado em padroes
com o resultado em Vivax. A malaria e a doenca de Chagas, embora sejam transmitidas por
vetores diferentes, ambas apresentam-se predominantes em comunidades carentes. Nos padroes
onde apareceu o Trypanosoma, apenas duas regioes de saude aparecem, ambas no Para. Sao essas
a regiao de saude Marajo I, que e constituıda pelos municıpios Afua, Cachoeira do Arari, Chaves,
Muana, Ponta de Pedras, Salvaterra, Santa Cruz do Arari, Sao Sebastiao da Boa Vista e Soure,
e a regiao de saude Tocantins composta pelos municıpios Abaetetuba, Baiao, Barcarena, Cameta,
Igarape-Miri, Limoeiro do Ajuru, Mocajuba, Moju e Oeiras do Para. Algumas fontes apontam
para surtos de doenca de Chagas em alguns desses municıpios, corroborando para a validade dos
resultados encontrados [Santos, 2013; Junior et al., 2017; Pinto et al., 2003].
No estado do Para, especificamente, ha muitas ocorrencia de doenca de Chagas. Uma maneira
bastante comum de obter a doenca de Chagas e a partir da ingestao de alimentos contaminados
por Trypanosoma, principalmente o acaı e a cana de acucar. Os barbeiros, vetores da doenca,
encontram nessas plantacoes condicoes ideias para seu desenvolvimento e podem ser triturados e
comercializados junto com o produto. As fezes do inseto tambem contaminam os alimentos [Ferreira
et al., 2014].
Dois padroes encontrados para a regiao de Marajo I trazem consigo os meses de notificacao,
sendo esses marco e abril. No total, mais de 500 casos de malaria do tipo vivax e doenca de
Chagas juntas acontecem nesses meses. De acordo com o boletim epidemiologico, no entanto,
existem mais casos de Chagas nos meses de agosto a novembro [da Saude (BR). Secretaria de
Vigilancia em Saude, 2015]. Outros valores que compoem os padroes com essas caracterısticas sao
genero feminino, tempo de notificacao de 1 a 7 dias, ano 2011, idade de 1 a 4 anos, escolaridade 1o
a 4o seria incompleta do Ensino Fundamental, deteccao ativa e raca branca.
Para resultados positivos para microfilaria, nove regras sao geradas onde o resultado da malaria
e negativo. Essas regras contemplam cerca de 34% dos casos de microfilaria que aparecem no
dataset. As regioes de saude mostrada nos padroes foram Alto Solimoes, Regional Jurua e Regional
Purus, nessa ordem em numeros de casos contemplados. Essas tres regioes de saude encontram-se
no estado do Amazonas.
Outros valores associados a casos de filariose positivo e de malaria negativo sao meses de verao
46
(dezembro a marco), que ja vimos que nao sao os meses onde predomina a malaria. O ano de 2011
tambem aparece para Alto Solimoes e Regional Jurua. A ausencia de sintomas e outro valor que
surge nos padroes. Esse ultimo e bastante interessante pois indica que a partir da iniciativa de
testar para malaria o paciente pode vir a ser diagnosticado com outra enfermidade que ainda nem
manifestava sintomas. No caso da filariose o diagnostico previo e de especial importancia ja que
as filarias ocupam o sistema linfatico, obstruindo os vasos e causando inchaco e engrossamento da
pele na area, dano que pode ser irreversıvel.
VI.2.3 Divergencia no Atributo de Ocupacao
No dataset das regras para o resultado negativo observa-se predominancia na ocupacao “cons-
trucao de estradas” entre todas as outras ocupacoes. Alem disso, o suporte das regras com essa
ocupacao e consideravelmente maior que o suporte da outras ocupacoes, sugerindo que o resultado
negativo para malaria esta relacionadas a ocupacao “construcao de estradas”. Outra observacao
feita e que apenas no dataset das regras para resultado negativo o tipo de deteccao ativa aparece
com mais frequencia que o tipo de deteccao passiva.
Essa ultima observacao e coerente, uma vez que a chance de se obter resultados de exame
negativo e maior quando os agentes de saude vao ate certa localidade para fazer exames em um
conjunto de pessoas que, diferentemente da maioria das pessoas que vao procurar atendimento,
podem nao estar sentindo nenhum tipo de sintoma. Com relacao a ocupacao, no entanto, nao ha
uma logica direta que leve a uma deducao do motivo disso acontecer.
Para buscar respostas, foi feito um teste qui-quadrado para estudar o nıvel de relacao existente
entre os atributos ocupacao (sendo reduzido a dois valores: construcao de estrada e outros) e tipo
de deteccao. O teste foi executado num subconjunto dos resultados negativos do dataset pre-
processado. O valor P (p-value) calculado e menor que o nıvel de significancia de 0.5 e, portanto,
descarta a hipotese de independencia entre os dois atributos. Como desfecho dessa analise, que
comecou pela identificacao de comportamento divergente no dataset de regras, descobrimos uma
relacao importante entre os dois atributos, indicando que, possivelmente, muitas das campanhas
de deteccao ativa sao feitas em locais de construcao de estradas.
Outra observacao a cerca da ocupacao de construcao de estradas e que os padroes encontrados
para resultado negativo de malaria estao na regiao de saude Alto Tapajos, no estado do Mato
Grosso. Nessa regiao (fronteira dos estados do Para e Mato Grosso) encontra-se a usina hidreletrica
Teles Pires (UHE Teles Pires), com capacidade instalada de 1820 MW, sendo a maior usina do
Complexo Teles Pires (Figura VI.9).
Outros valores que acompanham esses padroes sao o ano de 2012, tipo de deteccao ativa e
tempo de exame de 1 a 7 dias. Sabendo que a ocupacao chamada de “construcao de estradas”
47
Figura VI.9: Mapa com a localizacao da regiao de saude Alto Tapajos e da Usina Hidreletrica TelesPires
no SivepMalaria inclui tambem trabalhadores de construcao de hidreletrica e observando ainda
estes valores encontrados nos padroes gerados, e possıvel inferir que esses exames foram feitos por
consequencia do Plano de Acao e Controle da Malaria, previsto no Projeto Basico Ambiental da
UHE Teles Pires. Neste projeto, e assumido o compromisso de se realizar testes de malaria nos
funcionarios da construcao da barragem na admissao, demissao e tambem a realizacao de exames
periodicos [Pires]. A Tabela VI.5 apresenta os 5 padroes com suporte mais alto para as regras
geradas no subset do SivepMalaria para resultado negativo onde aparece a ocupacao construcao de
estradas.
Tabela VI.5: Regras de Associacao com ocupacao construcao de estradas para RHS = Negativo
LHS Regiao de Saude Suporte
{ocupacao=Constr estradas} Alto Tapajos 5.90x10−5
{ocupacao=Constr estradas; tipo.exame=Gotaespessa/Esfregaco} Alto Tapajos 5.89x10−5
{ocupacao=Constr estradas; raca=Parda} Alto Tapajos 3.34x10−5
{ocupacao=Constr estradas; tempo.exame=de 1 a 7 dias} Alto Tapajos 3.14x10−5
{ocupacao=Constr estradas; ano.notificacao=2012} Alto Tapajos 2.54x10−5
VI.2.4 Divergencia nas Regioes de Saude
Ao analisar o dataset de regras para o tipo de malaria falciparum foi curioso observar que
apenas 3 regioes de saude aparecem nas regras, sendo que a regiao de saude Codo, no Maranhao
aparece em 21 das 24 regras geradas. Essa regiao de saude abrange os municıpios Codo, Coroata,
48
Sao Mateus do Maranhao, Alto Alegre do Maranhao e Timbiras.
A regiao de saude Codo nao e uma das regioes com mais altas taxas de incidencia da malaria
(mais exatamente, e a 47◦ numa lista das regioes de saude por ordem decrescente de casos de
malaria) mas se destaca pelo fato de apresentar mais casos de falciparum do que de vivax. O
ano de 2009 acompanha todas os padroes da regiao de saude Codo com resultado de malaria do
tipo falciparum, alem de valores mostrando escolaridade baixa, genero feminino, a existencia de
sintomas, agricultura como atividade ocupacional e meses de notificacao entre marco e julho. A
Tabela VI.6 mostras os 5 padroes de maior suporte para o tipo de malaria falciparum.
Tabela VI.6: Regras de Associacao para RHS = malaria falciparum
LHSRegiao de
SaudeSuporte
{ano.notificacao=2009} Codo 2.38x10−5
{ano.notificacao=2009; sintomas=Sim} Codo 2.37x10−5
{ocupacao=Agricultura; ano.notificacao=2009} Codo 1.74x10−5
{ano.notificacao=2009; sexo=Feminino} Codo 8.94x10−6
{tempo.exame=de 1 a 7 dias; ano.notificacao=2009} Codo 8.75x10−6
Esses 21 padroes para regiao de saude Codo caracterizam mais de 70% dos registros da regiao
(considerando resultado de exame para malaria falciparum). Isso significa que a malaria do tipo
falciparum nessa regiao era bastante bem caracterizada em 2009. Este tipo de analise pode ajudar
na determinacao de grupos de risco e orientar campanhas de prevencao.
As outras duas regioes de saude que aparecem sao Marajo I (2 padroes) e Triangulo (1 padrao)
localizados, respectivamente, nos estados do Para e Amazonas. Essas duas regioes de saude apre-
sentam um numero muito superior de casos de malaria se comparados a Codo e esses padroes nao
cobrem nem 2% do total desses casos, logo, a caracterizacao da malaria do tipo falciparum nessas
regioes nao e tao compreendida quanto em Codo e, portanto, nao sera discutida.
Uma ultima observacao a cerca desses topico e que em todos os padroes onde os atributos
de tempo (notificacao, exame e tratamento) aparecem, os valores mostram que estes tempos sao
curtos, ou seja, a notificacao, o exame e o tratamento sao feitos de maneira rapida. Isso pode estar
relacionado ao fato de que a malaria do tipo falciparum e considerada uma emergencia medica e
o seu tratamento deve ser iniciado nas primeiras 24h do inıcio da febre. O motivo de emergencia
medica e que este e considerado o tipo mais agressivo de malaria e pode gerar diversos outros
problemas medicos em um curto perıodo de tempo.
VI.2.5 Divergencia no Atributo de Raca
A ARD apontou que nos subsets da malaria do tipo vivax e resultado negativo, no atributo
“raca”, a raca indıgena contem menos regras que o esperado. Na busca de um provavel motivo para
49
este fato, constatou-se que a raca indıgena apresenta uma porcentagem muito menor de deteccao
passiva que ativa em comparacao a outras racas. Isso significa que os indivıduos da raca indıgena
estao menos propensos a procurar uma unidade de atendimento e ficam mais dependentes das
campanhas de deteccao ativa.
A deteccao do tipo ativa se da principalmente a partir de campanhas onde os agentes de saude
se dirigem ate certa localidade e submetem os indivıduos ao teste de malaria. Dessa forma, como
se trata de uma acao em saude, com rotinas e protocolos, tem um padrao mais bem definido. Em
comparacao, na deteccao do tipo passiva indivıduos vao a procura de atendimentos e as variaveis
envolvidas tendem a ser mais disperdas, dificultando a formacao de padroes.
Com relacao ao suporte das regras que contemplam a raca indıgena, cerca de 72% dos indivıduos
estao incluıdos nas regras, tanto pra os casos de vivax quanto para os casos negativos. Isso nao e
menos que as outras racas (no caso do subset dos negativos e, inclusive, o de maior porcentagem),
o que descaracteriza a possibilidade de que menos regras tenham sido geradas pelo fato de padroes
nao terem se formado.
Pelo grafico da analise exploratoria das racas (Figura VI.7) onde percebe-se que a populacao
indıgena esta mais vulneravel a malaria que qualquer outra, essa informacao de que os ındios tendem
a procurar por atendimento medico com menos frequencia e bastante relevante. Isso pode significar
que mais campanhas de deteccao ativa devem ser feitas nas localidades onde se encontram esses
indivıduos, visando a promocao de saude para essa populacao em risco.
VI.2.6 Divergencia em Outros Atributos
Essa subsecao apresenta uma discussao das outras divergencias apontadas que nao foram discu-
tidas nos topicos anteriores. Algumas consideracoes sao feitas em cima desses resultados buscando
apresentar as caracterısticas envolvidas na divergencia, embora nenhuma descoberta mais solida te-
nha sido feita. Esses sao exemplos de que valores apontados como divergentes nao necessariamente
irao guiar para analises interessantes ou pelo menos que essa descoberta nao e trivial.
Um caso de divergencia foi evidenciado na comparacao dos graficos de frequencia para o atri-
buto sexo em todos os quatro datasets das regras. O genero feminino aparece em mais regras que
o genero masculino, contrariando o esperado pela predominancia do genero masculino no Sivep-
Malaria. Embora exista mais regras para o genero feminino, ao suporte dessas regras nao supera
o suporte das regras com genero masculino o que indica que existem mais padroes relacionados
ao genero feminino, no entanto, os padroes onde aparece o sexo masculino acontecem com mais
frequencia.
Divergencias tambem foram encontradas no atributo que indica tratamento anterior em tres
subsets: nao falciparum, vivax e falciparum. Para a malaria do tipo vivax e nao falciparum (que
50
pode ser vivax ou outro tipo que nao falciparum), a divergencia aponta que mais regras foram
geradas para tratamento anterior em vivax. Analogamente, para a malaria do tipo falciparum, a
divergencia acusa mais regras geradas para tratamento anterior em falciparum. Isso pode estar
correlacionado com o fato de que, quando o paciente adquire malaria mais de uma vez, o tipo da
malaria geralmente e recorrente. Isso e comum ate mesmo pelas condicoes/regioes de infeccao a
qual aquele indivıduo esta constantemente exposto.
No subset dos resultados negativos, foi apontada uma divergencia no atributo de sintomas.
Embora existam mais ocorrencias para o valor “sim”, muito mais regras foram formadas para o
valor “nao” (45 regras com nao e 2 com sim). E curioso observar que entre as 45 regras geradas
com “nao” para o atributo sintoma nesse subset, mais da metade esta na regiao de saude Ze
Doca. Essa regiao compreende 17 municıpios do estado do Maranhao e e a 25 se listar as regioes
de saude comecando por aquela que tem o maior numero de casos de malaria. As regras como
suportes mais altos (que sao em Ze Doca) tambem envolvem valores como “tipo de exame = Gota
Espessa/Esfregaco”, “raca = Parda” e “tipo de deteccao = ativa”.
Para o atributo de escolaridade houve indicacao de divergencia no conjunto das regras para
o tipo de malaria vivax, onde “analfabeto” aparece em menos regras que o esperado. Cerca de
67% dos indivıduos que alegaram ser analfabetos e foram diagnosticados com malaria do tipo vivax
estao incluıdos em um das 199 regras criadas. Isso indica que menores escolaridades estao mais
bem caracterizadas em casos positivos de malaria (vivax), ja que boa parte dos indivıduos pode ser
descrita em menos regras.
Menos regras do que esperado para ocupacao garimpagem para malaria do tipo vivax foi outro
ponto destacado na divergencia. A indicacao de divergencia e bastante forte nesse atributo, que
apresenta valor de divergencia bastante extremo com relacao aos demais. As 26 regras formadas
para a ocupacao garimpagem envolvem apenas cerca de 7,7% dos registros de casos de vivax nessa
ocupacao. Como esta porcentagem e bastante baixa, temos que indivıduos dessa ocupacao apre-
sentam padroes pouco caracterısticos no que diz respeito a infecao causada pelo plasmodio vivax,
dificultado a formacao de padroes e regras. Entre as regras de maiores suportes, outros valores
encontrados sao: tipo de exame gota espessa, sexo masculino, ano 2015 e tempo de notificacao de
1 a 7 dias. As regioes de saude mais frequentes entre as regras sao: Araguaia (9 regras), Xingu (5
regras) e paıs fronteira (4 regras).
Alguns valores apresentaram ındices de divergencia extremos dentro da certa variavel num
certo conjunto de dados, mas nao constituem uma divergencia relevante e, por isso, nao foram
considerados. Um exemplo e o que acontece para o atributo que indica o tipo de deteccao. Tanto
para falciparum quanto para nao falciparum ha uma troca na ordem esperada do valor que deveria
gerar mais regras, configurando divergencia. Porem, percebe-se que ha apenas uma regra nesse
51
atributo no subset nao falciparum e no subset do nao falciparum a diferenca e de apenas uma regra
(3 regras com “Ativa” e 4 com “Passiva”) o que acaba configurando uma divergencia fraca e nao
importante.
Outros casos de divergencia fraca acontecem para o ano de 2015 nos subsets do falciparum e
do nao falciparum (so duas regras geradas) e para as escolaridades ensino superior incompleto e
ensino medio completo no subset dos negativos (nenhuma e 4 regras geradas, respectivamente). O
ultimo caso de divergencia tambem considerado irrelevante para analise foi a indicacao de geracao
de mais regras do que esperado em 2015 nas regras dando em resultado negativo de malaria. O
motivo dessa divergencia nao ser importante e que as regras compreendem apenas 0,13% dos dados
do subset, ou seja, essas 11 regras geradas tem um suporte muito baixo e nao sao suficientes para
resumir os dados.
A Tabela no Anexo mostra o resultados da ARD para todos os atributos nos quatro datasets para
os diferentes resultados de exames. Os valores destacados em amarelo sao os valores considerados
divergentes, por serem extremos (altos ou baixos) se comparado aos outros valores do atributo.
Como explicado na metodologia, os atributos de migracao e caso autoctone so possuem um valor
(“sim” e “nao”, respectivamente) e nao podem ser analisados pela ARD, por isso, a fonte esta
em vermelho na Tabela no Anexo. Todos as divergencias encontradas foram, de alguma forma,
mencionadas nessa secao.
52
Capıtulo VII Conclusoes
A abordagem para obtencao de regras divergentes (ARD) desenvolvida neste trabalho se provou
util na descoberta de conhecimento, ja que, por meio dela foi possıvel levantar as informacoes
relevantes sobre a malaria que nao se mostravam claras durante a analise exploratoria de dados.
A riqueza do banco de dados estudado, principalmente apos o pre-processamento, tem potencial
de trazer conhecimento interessante a partir da aplicacao bem empregada de mineracao de padroes
frequentes. As informacoes levantadas apontam ocorrencias relevantes e coerentes sobre a malaria
no contexto das regioes de saude.
Na avaliacao experimental, apresentamos a analise exploratoria e analise das regras, mostrando
que as tecnicas utilizadas envolvendo mineracao de padroes e analise de regras divergentes sao
capazes de buscar informacao mais profundas do que aquelas que poderiam ser levantadas por
analise exploratoria.
Vale ressaltar que esse estudo apresenta as investigacoes que foram obtidas no escopo da me-
todologia e, portanto, de abrangencia limitada. Logo, as analises aqui discutidas sao apenas uma
fracao do que pode ser obtido a partir do estudo dos dados e dos padroes gerados. O potencial de
descoberta de informacao util a partir desses dados e incalculavel, sendo impossıvel explora-lo por
completo neste estudo.
Para trabalhos futuros, pretende-se utilizar a ARD em outras aplicacoes para ver seus resultados
em um outro contexto. Pretende-se tambem ver as descobertas para dados mais recentes do Sivep-
Malaria, ja que a analise do presente trabalho foi feita em cima de dados de 2009 a 2015.
53
Referencias Bibliograficas
Agrawal, R., Imielinski, T., and Swami, A. (1993). Mining Association Rules Between Sets of Items
in Large Databases. SIGMOD Rec., 22(2):207–216. 08599. 11
Agrawal, R., Srikant, R., and others (1994). Fast algorithms for mining association rules. In Proc.
20th int. conf. very large data bases, VLDB, volume 1215, pages 487–499. 7, 9, 11
Almeida, C. A., Valeriano, D. M., Escada, M. I. S., and Renno, C. D. (2010a). Estimativa de area
de vegetacao secundaria na Amazonia Legal Brasileira. Acta Amazonica, 40(2):289–302. 2
Almeida, L. B. d., Barbosa, M. d. G. V., and Martinez-Espinosa, F. E. (2010b). Malaria among
women aged 10 to 49 years, according to SIVEP-Malaria, Manaus, State of Amazonas, 2003-2006.
Revista da Sociedade Brasileira de Medicina Tropical, 43(3):304–308. 24
Alvarez, S. A. (2003). Chi-squared computation for association rules: preliminary results. Boston,
MA: Boston College. 13
Aumann, Y. and Lindell, Y. (1999). A statistical theory for quantitative association rules. In
Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery and
data mining, pages 261–270. ACM. 6
Bayardo, R. J., Agrawal, R., and Gunopulos, D. (1999). Constraint-based rule mining in large,
dense databases. In Proceedings 15th International Conference on Data Engineering (Cat. No.
99CB36337), pages 188–197. IEEE. 1, 15, 18
Bayardo Jr, R. J. (1998). Efficiently mining long patterns from databases. In ACM Sigmod Record,
volume 27, pages 85–93. ACM. 18
Berzal, F., Blanco, I., Vila, M., and others (2002). Measuring the accuracy and interest of associ-
ation rules: A new framework. Intelligent Data Analysis, 6(3):221–235. 7, 8
Braz, R. M. (2003). Manual de Preenchimento da Ficha de Notificacao de Caso de Malaria. MS
- Secretaria de Vigilancia em Saude Coordenacao Geral do Programa Nacional de Prevencao e
Controle da Malaria. 24
Bressan, C. and Brasil, P. (2013). Malaria. 2
54
Brin, S., Motwani, R., Ullman, J. D., and Tsur, S. (1997). Dynamic itemset counting and implica-
tion rules for market basket data. Acm Sigmod Record, 26(2):255–264. 13
Buczak, A., Baugher, B., Guven, E., Ramac-Thomas, L., Elbert, Y., Babin, S., and Lewis, S.
(2015). Fuzzy association rule mining and classification for the prediction of malaria in South
Korea. BMC medical informatics and decision making, 15:47. cited By 3. 21
Buczak, A. L., Baugher, B., Babin, S. M., Ramac-Thomas, L. C., Guven, E., Elbert, Y., Koshute,
P. T., Velasco, J. M. S., Roque Jr, V. G., Tayag, E. A., and others (2014). Prediction of high
incidence of dengue in the Philippines. PLoS neglected tropical diseases, 8(4):e2771. 22
Chen, M.-S., Han, J., and Yu, P. S. (1996). Data mining: an overview from a database perspective.
IEEE Transactions on Knowledge and Data Engineering, 8(6):866–883. 01185. 4
Chu, X., Ilyas, I., Krishnan, S., and Wang, J. (2016). Data cleaning: Overview and emerging
challenges. In Proceedings of the ACM SIGMOD International Conference on Management of
Data, volume 26-June-2016, pages 2201–2206. cited By 8. 27
Confalonieri, U., Margonari, C., and Quintao, A. (2014). Environmental change and the dynamics
of parasitic diseases in the Amazon. Acta Tropica, 129(1):33–41. cited By 24. 2
da Saude (BR). Secretaria de Vigilancia em Saude, M. (2015). Doenca de chagas aguda no brasil:
serie historica de 2000 a 2013. Bol Epidemiol, 46(21). 45
DATASUS (2018). Indice de /territorio/tabelas. 28
Dhar, V. (2013). Data science and prediction. Communications of the ACM, 56(12):64–73. cited
By 162. 13
Diallo, A., Sie, A., Sirima, S., Sylla, K., Ndiaye, M., Bountogo, M., Ouedraogo, E., Tine, R., Ndiaye,
A., Coulibaly, B., and others (2017). An epidemiological study to assess Plasmodium falciparum
parasite prevalence and malaria control measures in Burkina Faso and Senegal. Malaria journal,
16(1):63. 21
Dong, G. and Li, J. (1999). Efficient mining of emerging patterns: Discovering trends and differen-
ces. In Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery
and data mining, pages 43–52. Citeseer. 1, 18
Duquia, R. P., Bastos, J. L., Bonamigo, R. R., Gonzalez-Chica, D. A., and Martınez-Mesa, J.
(2014). Presenting data in tables and charts. Anais brasileiros de dermatologia, 89(2):280–285.
6
55
Ellison, A. M. (1993). Exploratory data analysis and graphic display. Design and analysis of
ecological experiments, pages 14–45. 6
Fayyad, U. M., Piatetsky-Shapiro, G., Smyth, P., and Uthurusamy, R. (1996). Advances in kno-
wledge discovery and data mining, volume 21. AAAI press Menlo Park. 4
Ferreira, R. T. B., Branquinho, M. R., Leite, P. C., et al. (2014). Transmissao oral da doenca de
chagas pelo consumo de acaı: um desafio para a vigilancia sanitaria. 45
Fournier-Viger, P., Lin, J. C.-W., Dinh, T., and Le, H. B. (2016). Mining correlated high-utility
itemsets using the bond measure. In International Conference on Hybrid Artificial Intelligence
Systems, pages 53–65. Springer. 19
Fournier-Viger, P., Wu, C.-W., Zida, S., and Tseng, V. S. (2014). Fhm: Faster high-utility itemset
mining using estimated utility co-occurrence pruning. In International symposium on methodo-
logies for intelligent systems, pages 83–92. Springer. 18
Fournier-Viger, P., Zhang, Y., Lin, J. C.-W., Fujita, H., and Koh, Y. S. (2019). Mining local and
peak high utility itemsets. Information Sciences, 481:344–367. 18
Gadar, L. and Abonyi, J. (2019). Frequent pattern mining in multidimensional organizational
networks. Scientific Reports, 9(1). cited By 0. 1, 4, 8
Gan, W., Lin, J. C.-W., Chao, H.-C., Fujita, H., and Philip, S. Y. (2019). Correlated utility-based
pattern mining. Information Sciences, 504:470–486. 18
Geng, L. and Hamilton, H. Interestingness measures for data mining. ACM Computing Surveys,
38(3). 17
Gu, X., Chen, H., and Yang, B. (2015). Heterogeneous data mining for planning active surveillance
of malaria. In ACM International Conference Proceeding Series, volume 07-09-Ocobert-2015.
cited By 0. 22
Hahsler, M., Buchta, C., Gruen, B., and Hornik, K. (2018). arules: Mining Association Rules and
Frequent Itemsets. R package version 1.6-0. 31
Hahsler, M. and Hornik, K. (2007). New probabilistic interest measures for association rules.
Intelligent Data Analysis, 11(5):437–455. 13
Han, J., Kamber, M., and Pei, J. (2011). Data Mining: Concepts and Techniques. Morgan Kauf-
mann, Haryana, India; Burlington, MA, 3 edition. 00000. 1, 4, 5, 8, 10, 13, 14, 15
56
Han, J., Pei, J., and Yin, Y. (2000). Mining Frequent Patterns Without Candidate Generation.
In Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data,
SIGMOD ’00, pages 1–12, New York, NY, USA. ACM. 03524. 7, 9
Jeefoo, P., Tripathi, N., Souris, M., et al. (2009). Exploring geospatial factors contributing to
malaria prevalence in kanchanaburi, thailand. International journal of geoinformatics, 5(1). 22
Jensen, P., Jensen, L., and Brunak, S. (2012). Mining electronic health records: Towards better
research applications and clinical care. Nature Reviews Genetics, 13(6):395–405. cited By 392. 4
Johansson, E., Selling, K., Nsona, H., Mappin, B., Gething, P., Petzold, M., Peterson, S., and
Hildenwall, H. (2016). Integrated paediatric fever management and antibiotic over-treatment in
Malawi health facilities: Data mining a national facility census. Malaria Journal, 15(1). cited
By 5. 21
Junior, S., da Silva, A., Palacios, V. R. d. C. M., Miranda, C. d. S., Costa, R. J. F. d., Catete, C. P.,
Chagasteles, E. J., Pereira, A. L. R. R., and Goncalves, N. V. (2017). Analise espaco-temporal
da doenca de chagas e seus fatores de risco ambientais e demograficos no municıpio de barcarena,
para, brasil. Revista Brasileira de Epidemiologia, 20:742–755. 45
Koh, H. C., Tan, G., and others (2011). Data mining applications in healthcare. Journal of
healthcare information management, 19(2):65. 4
Kulczynski, S. (1928). Die pflanzenassoziationen der pieninen. Imprimerie de l’Universite. 14
Labbo, R., Fandeur, T., Jeanne, I., Czeher, C., Williams, E., Arzika, I., Soumana, A., Lazoumar,
R., and Duchemin, J.-B. (2016). Ecology of urban malaria vectors in Niamey, Republic of Niger.
Malaria journal, 15(1):314. 21
Larose, D. T. and Larose, C. D. (2014). Discovering knowledge in data: an introduction to data
mining. John Wiley & Sons. 5
Liu, B., Hsu, W., Chen, S., and Ma, Y. (2000). Analyzing the subjective interestingness of associ-
ation rules. IEEE Intelligent Systems and their Applications, 15(5):47–55. 00146. 18
Liu, B., Hsu, W., and Ma, Y. (1999a). Mining association rules with multiple minimum supports.
pages 337–341. ACM Press. 14
Liu, B., Hsu, W., and Ma, Y. (1999b). Pruning and summarizing the discovered associations. In
Proceedings of the fifth ACM SIGKDD international conference on Knowledge discovery and data
mining, pages 125–134. ACM. 14
57
Liu, B., Hsu, W., Mun, L.-F., and Lee, H.-Y. (1999c). Finding interesting patterns using user
expectations. IEEE Transactions on Knowledge and Data Engineering, 11(6):817–832. 1, 18
Lodhi, K. (2013). Survey on frequent pattern mining. International Journal of Engineering, Science
and Mathematics, 2(3):64. 1, 7
Loucoubar, C., Paul, R., Bar-Hen, A., Huret, A., Tall, A., Sokhna, C., Trape, J.-F., Ly, A., Faye,
J., Badiane, A., Diakhaby, G., Sarr, F., Diop, A., Sakuntabhai, A., and Bureau, J.-F. (2011).
An exhaustive, non-euclidean, non-parametric data mining tool for Unraveling the complexity of
biological systems - novel insights into malaria. PLoS ONE, 6(9). cited By 6. 20
McGarry, K. (2005). A survey of interestingness measures for knowledge discovery. The knowledge
engineering review, 20(1):39–61. 1, 17
MS (2018). Notificacao de Malaria - Ministerio da Saude. 25, 28
Murty, U., Srinivasa Rao, M., and Misra, S. (2008). Prioritization of malaria endemic zones using
self-organizing maps in the Manipur state of India. Informatics for Health and Social Care,
33(3):170–178. cited By 4. 22
Myatt, G. and Johnson, W. (2014). Making Sense of Data I: A Practical Guide to Exploratory
Data Analysis and Data Mining. Wiley-Blackwell, 2 edition. 5
Ndiath, M., Cisse, B., Ndiaye, J., Gomis, J., Bathiery, O., Dia, A., Gaye, O., and Faye, B. (2015).
Application of geographically-weighted regression analysis to assess risk factors for malaria hots-
pots in Keur Soce health and demographic surveillance site. Malaria Journal, 14(1). cited By 3.
22
Ng, R. T., Lakshmanan, L. V., Han, J., and Pang, A. (1998). Exploratory mining and pruning
optimizations of constrained associations rules. In ACM Sigmod Record, volume 27, pages 13–24.
ACM. 18
Obenshain, M. K. (2004). Application of data mining techniques to healthcare data. Infection
Control & Hospital Epidemiology, 25(8):690–695. 4
Padmanabhan, B. and Tuzhilin, A. (1998). A Belief-Driven Method for Discovering Unexpected
Patterns. In KDD, volume 98, pages 94–100. 18
Pasquier, N., Bastide, Y., Taouil, R., and Lakhal, L. (1999). Discovering frequent closed itemsets
for association rules. In International Conference on Database Theory, pages 398–416. Springer.
1, 18
58
Pellegrina, L. and Vandin, F. (2018). Efficient mining of the most significant patterns with permu-
tation testing. In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge
Discovery & Data Mining, pages 2070–2079. ACM. 19
Pinto, A., Valente, S., Lopes, R., Silva, O., Castro, T., and Valente, V. (2003). Ocorrencia de
tripanosomıase aguda familiar no municıpio de igarape-miri, para: gravidade de apresentacao
clınica em idosos. Rev Soc Bras Med Trop, 36(Suppl 1):381. 45
Pires, U. T. Projeto basico ambiental (pba). 47
R Core Team (2014). R: A Language and Environment for Statistical Computing. R Foundation
for Statistical Computing, Vienna, Austria. 31
Sachs, J. and Malaney, P. (2002). The economic and social burden of malaria. Nature,
415(6872):680. 2
Sahar, S. (1999). Interestingness via what is not interesting. In Proceedings of the fifth ACM
SIGKDD international conference on Knowledge discovery and data mining, pages 332–336.
ACM. 1, 18
Sahle, G. and Meshesha, M. (2014). Uncovering knowledge that supports malaria prevention and
control intervention program in ethiopia. Electronic Journal of Health Informatics, 8(1). cited
By 2. 21
Santos, S. O. d. (2013). Eco-epidemiologia da doenca de chagas aguda em area amazonica. municıpio
de abaetetuba, estado do para, brasil, 2008–2009. 45
Silberschatz, A. and Tuzhilin, A. (1995). On subjective measures of interestingness in knowledge
discovery. In KDD, volume 95, pages 275–281. 1, 18
Soulet, A., Raıssi, C., Plantevit, M., and Cremilleux, B. (2011). Mining dominant patterns in the
sky. In 2011 IEEE 11th International Conference on Data Mining, pages 655–664. IEEE. 19
Srikant, R., Vu, Q., and Agrawal, R. (1997). Mining association rules with item constraints. In
Kdd, volume 97, pages 67–73. 18
Streit, M. and Gehlenborg, N. (2014). Points of view: bar charts and box plots. 6
Sweeney, A., Beebe, N., and Cooper, R. (2007). Analysis of environmental factors influencing the
range of anopheline mosquitoes in northern Australia using a genetic algorithm and data mining
methods. Ecological Modelling, 203(3-4):375–386. cited By 22. 20
59
Tan, P.-N. and Kumar, V. (2000). Interestingness measures for association patterns: A perspective.
In Proc. of Workshop on Postprocessing in Machine Learning and Data Mining, pages 00–036.
1, 17
Tan, P.-N., Kumar, V., and Srivastava, J. (2002). Selecting the right interestingness measure for
association patterns. In Proceedings of the eighth ACM SIGKDD international conference on
Knowledge discovery and data mining, pages 32–41. ACM. 17
Tan, P.-N., Kumar, V., and Srivastava, J. (2004). Selecting the right objective measure for associ-
ation analysis. Information Systems, 29(4):293–313. 13, 14
Tauil, P., Deane, L., Sabroza, P., and Ribeiro, C. (1985). A malaria no Brasil. Cadernos de Saude
Publica, 1(1):71–111. 2
Toivonen, H. and others (1996). Sampling large databases for association rules. In VLDB, vo-
lume 96, pages 134–145. 7
Tukey, J. W. (1977). Exploratory Data Analysis. Pearson. 5
WHO (2017). World malaria report 2017 - World Health Organization. 2
WHO (2018). Key malaria facts. 2
Wiefels, A., Wolfarth-Couto, B., Filizola, N., Durieux, L., and Mangeas, M. (2016). Accuracy of
the malaria epidemiological surveillance system data in the state of Amazonas. Acta Amazonica,
46(4):383–390. 00000. 20, 24, 25, 44
Wilkinson, L. (2006). Revising the pareto chart. The American Statistician, 60(4):332–334. 6
Witten, I. H., Frank, E., Hall, M. A., and Pal, C. J. (2016). Data Mining: Practical machine
learning tools and techniques. Morgan Kaufmann. 12
Wu, T., Chen, Y., and Han, J. (2010). Re-examination of interestingness measures in pattern
mining: a unified framework. Data Mining and Knowledge Discovery, 21(3):371–397. 14
Yan, Y., Cao, L., Madden, S., and Rundensteiner, E. A. (2018). Swift: mining representative
patterns from large event streams. Proceedings of the VLDB Endowment, 12(3):265–277. 19
Yu, C. H. (1977). Exploratory data analysis. Methods, 2:131–160. 5
Zaki, M. J. (2000). Scalable algorithms for association mining. IEEE Transactions on Knowledge
and Data Engineering, 12(3):372–390. 00726. 7
60
Zhang, H., Padmanabhan, B., and Tuzhilin, A. (2004). On the discovery of significant statisti-
cal quantitative rules. In Proceedings of the tenth ACM SIGKDD international conference on
Knowledge discovery and data mining, pages 374–383. ACM. 1, 17
Zheng, Z., Kohavi, R., and Mason, L. (2001). Real world performance of association rule algorithms.
In Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery
and data mining, pages 401–406. ACM. 8, 9