Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

33
1 Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros Mineração de Dados Cleiton Lima ([email protected] ) Eric Ferreira ([email protected] ) Rossini Bezerra ([email protected] )

description

Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros. Mineração de Dados Cleiton Lima ( [email protected] ) Eric Ferreira ( [email protected] ) Rossini Bezerra ( [email protected] ). Roteiro. Motivação Introdução e Caracterização do Problema Objetivo - PowerPoint PPT Presentation

Transcript of Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

Page 1: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

1

Modelo de Estimativa de Risco de Incidência de

Tuberculose em Municípios Brasileiros

Mineração de DadosCleiton Lima ([email protected])Eric Ferreira ([email protected])Rossini Bezerra ([email protected])

Page 2: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

2

Roteiro Motivação Introdução e Caracterização do Problema Objetivo Parametrização do Problema Dados Disponíveis Pré-processamento dos Dados Modelagem Resultados Conclusões Referências

Page 3: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

3

1. Motivação A Tuberculose (TB) é um problema

de saúde tão grave hoje quanto no início do século passado.

Suas taxas de incidência permaneceram altas nas duas últimas décadas

Estima-se a existência de mais de 42 milhões de infectados no Brasil

112.000 óbitos no período

Page 4: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

4

2. Introdução e Caracterização do Problema (Mundo)

Page 5: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

5

3. Introdução e Caracterização do Problema (Mercado)

A Tuberculose é uma doença que estar diretamente relacionada com fator sócio-econômico.

A prevenção, tratamento e erradicação da Tuberculose não tem sido alvo das grandes Transnacionais da Área de Saúde

Page 6: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

6

4. Introdução e Caracterização do Problema (Brasil)

Page 7: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

7

5. Introdução e Caracterização do Problema (PNCT)

Diante do cenário atual de Tuberculose, o Ministério da Saúde elaborou o Plano Nacional de Controle da Tuberculose (PNCT).

As principais metas são: Integrar ações de controle em 100% do território

brasileiro Diagnosticar (até 2001) 90% dos casos de

Tuberculose Curar 85% dos casos já diagnosticados Reduzir (até 2007) a Incidência de Tuberculose em

no mínimo 50%. Reduzir (até 2007) em 66%, a Taxa de Mortalidade

Page 8: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

8

6. Introdução e Caracterização do Problema (PNCT)

Não existem, na atualidade, Mecanismos de Monitoramento das Ações e de Verificação da Eficácia das Metas aos Determinantes do Problema.

O Problema do Controle de Tuberculose no Brasil demanda Ações de Pesquisa, Monitoramento e Controle Coordenados.

Page 9: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

9

7. Objetivo do Trabalho

Integrar Ação de Pesquisa de Tuberculose (Instituto Ageu Magalhães - Prof Wayner Souza) com Pesquisadores do Grupo de Inteligência Computacional (CIN-UFPE)

Parametrizar o Problema da Tuberculose Propor um Modelo para Estimar o Risco de

Epidemia da Tuberculose em Áreas Urbanas (Municípios) no Brasil

Page 10: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

10

8. Objetivo do Trabalho

Extração de Regras para Avaliação das Variáveis de Impacto no Risco da Tuberculose

Estudo inicial de uma Ferramenta de Suporte às Instituições e Gestores de Saúde na Investigação e Controle de Tuberculose

Page 11: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

11

9. Parametrização do Problema

Na Parametrização dos Fatores de Risco de Epidemia da Tuberculose, selecionaram-se como determinantes: Fatores Populacionais e Sócio-econômicos e Fatores de Saúde

Os Dados foram selecionados para os 5.564 Municípios Brasileiros.

Vetor de 42 Características ou Variáveis (inicial)

Page 12: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

12

10. Dados Disponíveis – Descrição e Fontes

Dados Populacionais e Sócio-econômicos: Extraídos do Censo Demográfico do ano de 2000 do IBGE,

compreendendo População e caracterização Sócio-econômica.

Para períodos superiores utilizou-se Método de Projeção do próprio IBGE.

Dados de Saúde: Os dados da Tuberculose, BCG (Vacinas) e Desnutrição

foram extraídos no Sistema de Informações sobre Agravos de Notificação - SINAN, para o cálculo dos coeficientes anuais de (detecção de casos)/(setor censitário), entre

2000 a 2006.

Page 13: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

13

A Ferramenta TabWin: Foi utilizada para concatenar as duas bases de dados em

uma única base A ferramenta TabWin é disponibilizada no próprio site do

DATASUS);

Após concatenar as duas bases de dados do DATASUS e IBGE foi criado uma única base de dados No formato de planilha eletrônica( Excel)

A massa de dados é correspondente aos anos de 2001-2006

10. Dados Disponíveis – Descrição e Fontes

Page 14: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

14

11. Dados Disponíveis - Descrição

VARIÁVEL TIPO DESCRIÇÃO FONTE Casos confirmados de Tuberculose – 2001 Casos confirmados de Tuberculose – 2002 Casos confirmados de Tuberculose – 2003 Casos confirmados de Tuberculose – 2004 Casos confirmados de Tuberculose – 2005 Casos confirmados de Tuberculose – 2006

Contínua Casos confirmados em um município no período especificado.

DATASUS

BCG -2001 BCG -2002 BCG -2003 BCG -2004 BCG -2005 BCG -2006

Contínua Vacina contra a tuberculose (Bacilo de Calmette & Guérin).Dose única.

DATASUS

Abastecimento de Agua - 2000 Contínua Número de indivíduos com algum tipo de abastecimento de água.

IBGE

População Residente – 2001 População Residente – 2003 População Residente – 2004 População Residente – 2005 População Residente – 2006

Contínua População residente no município. Dados projetados a partir do último censo(2000) pelo IBGE.

IBGE

PIB – 2000 PIB Per Capita -2000 PIB – 2001 PIB Per Capita -2001 PIB – 2002 PIB Per Capita -2002

Contínua

O Produto Interno Bruto (PIB) representa a soma (em valores monetários) de todos os bens e serviços finais produzidos, neste caso, em um município.

IBGE

Instalações sanitárias - 2000 Contínua Número de indivíduos com instalações sanitárias de qualquer tipo.

IBGE

Óbitos por Município (Desnutrição) – 2001 Óbitos por Município (Desnutrição) – 2002 Óbitos por Município (Desnutrição) – 2003 Óbitos por Município (Desnutrição) – 2004 Óbitos por Município (Desnutrição) – 2005

Contínua Número de óbitos no município por desnutrição

DATASUS

Coleta de lixo - 2000 Contínua Número de indivíduos com qualquer tipo de coleta de lixo.

IBGE

Page 15: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

15

12. Pré-Processamento dos Dados (Novo Conjunto de Variáveis)

Normalização das variáveis numéricas: Para as variáveis numéricas, a normalização

foi realizada tendo como referência a variável População, ou seja:

= (Variável / População) Por Exemplo, utilizando a variável BCG2001,

o valor normalizado desta variável irá informar a porcentagem da população da cidade que foram vacinadas (BCG) no ano de 2001.

Page 16: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

16

12. Pré-Processamento dos Dados (Novo Conjunto de Variáveis)

Definição da variável Alvo A = Média de Casos confirmados de Tuberculose

nos anos 2004,2005 e 2006. B = Média da População nos anos de 2004, 2005 e

2006 Índice-Real nos anos de 2004, 2005 e 2006 (A/B) Índice Brasileiro – Índice do PNCT: meta de redução de 50%

da média nacional: (25 casos)/ (100.000 habitantes). Alvo ou Classe (Binária):

1 (S) : Se Índice Município > Índice do PNCT 0 (N): Se Índice Município <= Índice do PNCT

Page 17: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

17

13. Modelagem – Classificador Bayesiano

Para o Problema proposto de Estimar o Risco de Epidemia da Tuberculose nos Municípios Brasileiros propomos um Classificador Binário baseado em Redes Bayesianas.

Como Ferramenta de Simulação utilizamos o Weka para obtenção da Melhor Configuração para Rede Bayesiana.

Critério de Desempenho da Rede: Poder de Generalização ou Menor Erro na Fase de Teste.

Page 18: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

18

13. Dados Disponíveis – Variáveis selecionadas para modelo da rede

1. Municipio,2. TamanhoMunicipio,3. PIB-00, PIB-01, PIB-02,4. pib_pcap-00, pib_pcap-01, pib_pcap-02,5. InstalSanitarias- 2000,6. Óbitos2001, Óbitos2002, Óbitos2003, Óbitos2004,

Óbitos2005,7. Lixo,8. BCG2001, BCG2002, BCG2003, BCG2004,

BCG2005, BCG2006,9. AbastAgua,10. Alvo

Page 19: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

19

14. Modelagem - Classificador

Estratégia de Treinamento: Estratificado Treinamento (50%), Validação (25%) e Testes (25%).

Normalização dos Parâmetros: Realizada pelo Weka e Normalização das

variáveis numéricas (citada anteriormente) Avaliação de Desempenho do Classificador:

Curvas ROC e KS.

Page 20: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

20

15. Modelagem – Extração de Regras

Foram realizados dezenas de Experimentos para Extração do Conhecimento do Domínio do Problema

Para Extração de Regras Foi utilizada a ferramenta Weka

Algoritmo PART Configuração padrão

Page 21: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

21

16. Resultados - Classificador

Foram realizados dezenas de experimentos utilizando a ferramenta Weka para encontrar: O Melhor classificador Os parâmetros ótimos do classificador Conjunto de regras

Entre as dezenas de configurações, a rede neural que obteve a maior taxa de acerto (66%) foi: BayesNet

Estimador: SimpleEstimator – A 0.5 SearchAlgoritm: K2 – P 1-s Bayes

Page 22: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

22

16. Resultados – Curva ROC

Page 23: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

23

16. Resultados – Distribuição das Classes - BayesNet

Distribuição das Classes - BayesNet

00,1

0,20,3

0,40,50,6

0,70,8

0,91

1 151 301 451 601 751 901 1051 1201 1351

Municípios

Sco

re Alto Risco

Baixo Risco

Page 24: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

24

16. Resultados – Classificador Curva KS (Pr(Alta - Baixa))

KS (0.34)

0

0,2

0,4

0,6

0,8

1

1 151 301 451 601 751 901 1051 1201 1351

População

Pro

bab

ilid

ade

percAlta

PercBaixa

DifPercBaixAlta

Page 25: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

25

16. Resultados - Classificador

Total de Instâncias: 1391 S=Alto Risco com 690 Municípios N=Baixo Risco com 701municípios)

Instâncias Classificadas Corretamente : 918 – 66.00%

S = 456 (32,78%) N = 462 (33,22%)

Instâncias Classificadas Incorretamente : 473 – 34.00%

S = 239 (17,18%) N = 234 (16,82%)

Page 26: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

26

16. Resultados - Classificador

Matriz Confusão:

S NClassificador/

Alvo

456 234 S

239 462 N

Page 27: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

27

16. Resultados - Regras

Modelo do Classificador do conjunto de treinamento

Lista de Decisão PART Número de regras obtidas:

25 regras condicionais, do tipo: Se Condicão i and Condição j ... Então Alvo := (S/N)

Page 28: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

28

16. Resultados – Regras (exemplo)

Regra 1SE

BCG2006 > 0.020375 ANDÓbitos2004 > 0.000016 AND Óbitos2003 > 0.000276 ANDÓbitos2004 > 0.000135

EntãoS (20.0)

Apesar de 2% da população está vacinada, se os óbitos por desnutrição excederem 0,02% da mesma, temos alto risco de incidência de tuberculose.

Page 29: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

29

16. Resultados – Regras (exemplo)

Regra 2SE

BCG2006 <= 0.02258 AND Óbitos2003 <= 0.000297 ANDÓbitos2005 <= 0.000238 ANDInstalSanitarias-2000 > 0.874822 ANDBCG2006 <= 0.017122

Então N (742.0/231.0)

Se menos de 2% da população foi vacinada, mas os óbitos por desnutrição no período não excedem 0,02% e 87,4% possuir algum tipo de instalação sanitária, temos baixo risco de incidência de tuberculose

Page 30: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

30

16. Resultados – Regras (exemplo)

Regra 3SE

TamanhoMunicipio <= 6771 ANDÓbitos2003 <= 0.000074 ANDÓbitos2002 <= 0.000074

EntãoN (737.0/318.0)

Para municípios com menos de 6771 habitantes e óbitos por desnutrição menor que 0,0074% da população, temos baixo risco de tuberculose.

Page 31: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

31

16. Resultados – Regras (exemplo)

Regra 4SE

Óbitos2004 > 0.000268 ANDÓbitos2003 <= 0.00038 ANDBCG2006 > 0.018103

EntãoN (9.0)

Se a quantidade de óbitos por desnutrição em um município excede 0,026% da população em 2004 e for menor que 0,0038% em 2003 e ter mais de 1,8% da população vacinada, temos baixa probabilidade de incidência de tuberculose.

Page 32: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

32

17. Conclusões Utilizando a Metodologia de Mineração de

Dados em conjunto com Conhecimento do Negócio foi possível obter uma Ferramenta de Suporte a Decisão no Diagnóstico de TB em Municípios.

Utilização de Extração de Conhecimento usando Regras permitiu interpretar o Impacto das Variáveis no Risco de TB.

Constatamos através da Extração das Regras, que as Variáveis Sócio-econômicas estão diretamente relacionadas ao Risco de TB.

Page 33: Modelo de Estimativa de Risco de Incidência de Tuberculose em Municípios Brasileiros

33

18. Referências Referências Bibliográficas [1] Ministério da Saúde. Guia para tratamento da tuberculose para o

Programa de Saúde da Família. Brasília (DF); 2002. [2] Ximenes RA de A , Martelli CMT, Souza W V de, Lapa TM,

Albuquerque M de FM de, Andrade ALSS de et al. Vigilância de doenças endêmicas em áreas urbanas: a interface entre mapas digitais censitários e indicadores epidemiológicos. Cad Saúde Pública 1999;15:53-61.

[3] Instituto Brasileiro de Geografia e Estatística [IBGE]. Censos demográficos. Disponível em: <URL:http:// www.ibge.gov.br/ censos>

[4] Ministério da Saúde. Sistema de Informações sobre Mortalidade. Disponível em: <URL: http://www.datasus.gov.br>

[5] Ximenes RA de A , Martelli CMT, Souza W V de, Lapa TM, Albuquerque M de FM de, Andrade ALSS de et al. Tuberculosis in Brazil: construction of a territorially based surveillance system

Rev Saúde Pública 2005;39(1):82-9 [6] S. Haykin, “Neural Networks a Compreensive Foundation”, 2end

ed, Tom Robbins, Ed. USA, New Jersey: Prentice-Hall, Inc, 1999.