IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição...

70

Transcript of IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição...

Page 1: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

UNIVERSIDADE FEDERAL DE OURO PRETO

Samuel Evangelista Lima de Oliveira

IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTESEM SEQUÊNCIAS DE PROTEASE E

TRANSCRIPTASE REVERSA DO VÍRUS HIVPARA A PREDIÇÃO DA RESPOSTA DE

PACIENTES AO TRATAMENTO COM DROGASANTIRRETROVIRAIS

Ouro Preto

2012

Page 2: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

UNIVERSIDADE FEDERAL DE OURO PRETO

Samuel Evangelista Lima de Oliveira

IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTESEM SEQUÊNCIAS DE PROTEASE E

TRANSCRIPTASE REVERSA DO VÍRUS HIVPARA A PREDIÇÃO DA RESPOSTA DE

PACIENTES AO TRATAMENTO COM DROGASANTIRRETROVIRAIS

Dissertação de Mestrado submetida ao Pro-grama de Pós-Graduação em Ciência daComputação da Universidade Federal deOuro Preto como requisito parcial para a ob-tenção do título de Mestre. Área de concen-tração: Recuperação e Tratamento da Infor-mação.

Orientador:

Luiz Henrique de Campos Merschmann

Co-orientador:

Leoneide Érica Maduro Bouillet

Ouro Preto

2012

Page 3: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM SEQUÊNCIAS

DE PROTEASE E TRANSCRIPTASE REVERSA DO VÍRUS HIV PARA

A PREDIÇÃO DA RESPOSTA DE PACIENTES AO TRATAMENTO

COM DROGAS ANTIRRETROVIRAIS

Samuel Evangelista Lima de Oliveira

Dissertação de Mestrado submetida ao Pro-

grama de Pós-Graduação em Ciência da

Computação da Universidade Federal de

Ouro Preto como requisito parcial para a ob-

tenção do título de Mestre.

Aprovada por:

Luiz Henrique de Campos Merschmann, D.Sc. / DECOM-UFOP

(Presidente)

Leoneide Érica Maduro Bouillet, D.Sc. / CiPharma-UFOP

Alexandre Plastino de Carvalho, D.Sc. / IC-UFF

Gisele Lobo Pappa, Ph.D. / DCC-UFMG

Ouro Preto, 09 de Fevereiro de 2012.

Page 4: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

Catalogação: [email protected]

O482i Oliveira, Samuel Evangelista Lima de.

Identificação de atributos relevantes em sequências de protease e transcriptase reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas antirretrovirais [manuscrito] / Samuel Evangelista Lima de Oliveira – 2012.

69 f.: il.; grafs.; tabs. Orientador: Prof. Dr. Luiz Henrique de Campos Merschmann. Co-orientadora: Leoneide Érica Maduro Bouillet

Dissertação (Mestrado) - Universidade Federal de Ouro Preto. Instituto de Ciências Exatas e Biológicas. Departamento de Computação. Programa de Pós-graduação em Ciência da Computação.

Área de concentração: Recuperação e Tratamento da Informação.

1. Mineração de dados (Computação) - Teses. 2. Bioinformática - Teses. 3. Seleção de atributos - Teses. 4. Classificação - Teses. I. Universidade Federal de Ouro Preto. II. Título.

CDU: 575.112:004

Page 5: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

Agradecimentos

Muitas pessoas �zeram parte destes dois anos de caminhada e a construção e conclu-

são deste trabalho se deve também a elas. Nestes poucos parágrafos venho agradecer a

atenção, carinho, repeito, paciência e apoio recebidos de todos aqueles que trilharam este

caminho ao meu lado.

Primeiramente, agradeço a toda a minha família, especialmente a minha mãe e aos

meus irmãos. A minha mãe, por me apoiar sempre, estar ao meu lado e, principalmente,

por ter orgulho do meu trabalho. E aos meus irmãos pelo carinho que só um irmão é

capaz de compreender.

A minha namorada, Doris, por ter me acompanhado a cada passo me dando forças, me

animando quando era preciso e principalmente me incentivando e ouvindo pacientemente

os mais variados assuntos a respeito de computação de bioinformática.

Ao meu orientador, Luiz Merschmann, por ter me acolhido tão bem como orientando,

por todo o conhecimento cientí�co e pro�ssional compartilhado e, acima de tudo, pela

amizade e sinceridade sempre presentes nesses dois anos de convicência.

A minha co-orientadora, Leoneide Boillet, por ser uma verdadeira fonte de conhe-

cimento que contribuiu imensamente para a realização deste trabalho, e pelos ótimos

conselhos, sugestões e conversas.

Agradeço imensamente a todos os amigos que torceram por mim, aos amigos do

CEFET-OP, amigos do PPGCC/UFOP, os demais amigos da UFOP e aqueles que entra-

ram na minha vida por outros meios, todos vocês, direta ou indiretamente, fazem parte

desta conquista.

Por �m, agradeço a todos os funcionários e professores do DECOM/UFOP pela aten-

ção, dedicação e por me oferecer uma formação técnina e humana de qualidade da qual

tenho muito orgulho.

Page 6: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

Resumo

O vírus da Imunode�ciência Humana é um retrovirus que ataca principalmente o sistemaimunológico humano, reduzindo progressivamente a sua e�cácia. Combinações de dro-gas antirretrovirais são utilizadas no tratamento da infecção por HIV, contudo, as altastaxas de mutação nesse vírus podem desencadear fenótipos virais resistentes a algunsantirretrovirais e, consequentemente, causar falhas no tratamento.

Alguns trabalhos propostos na literatura utilizam técnicas de mineração de dadospara predizer a resposta de um paciente à terapia antirretroviral que está sendo utilizada.Contudo ainda há poucos estudos que avaliem a in�uência que diferentes tipos de atributosna tarefa de predição da resposta de pacientes às drogas antirretrovirais. Neste trabalho éapresentado um estudo comparativo sobre a utilização de diferentes atributos na prediçãoda resposta de pacientes recém infectados pelo HIV-1 ao tratamento com antirretrovirais.

Foram utilizados diferentes conjuntos de atributos para o treinamento de quatro mo-delos de classi�cação. A partir desses conjuntos de atributos foram realizadas três etapasde testes que envolveram a avaliação do impacto do desbalanceamento das bases no re-sultado dos modelos de classi�cação, a análise da importância de cada grupo de atributose, por �m, uma etapa de seleção de atributos.

A partir da avaliação do impacto do desbalanceamento nas bases de dados pode-seobservar que uma etapa de balanceamento ajudou na obtenção de resultados mais equili-brados entre as duas classes do problema de classi�cação em questão. Por sua vez a análiseda importância dos diferentes grupos de atributos demonstrou que os melhores resultadosde predição foram obtidos para os atributos que representam os níveis de resistência dospacientes às drogas antirretrovirais. Por �m, as bases de dados obtidas após uma fasede seleção de atributos apresentaram melhores resultados de predição quando compostaspor um conjunto variado de atributos. Nesta etapa dos testes foi possível observar no-vamente a importância dos atributos de nível de resistência, bem como a importância deum atributo que representa o tamanho de uma determinada proteína do HIV.

Palavras-chave: Mineração de dados, Classi�cação, Bioinformática, HIV.

Page 7: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

Abstract

The Human Immunode�ciency Virus (HIV) is a retrovirus that attacks the human immunesystem, progressively reducing its e�ectiveness. Combinations of antiretroviral drugs areused to treat the infection by HIV. However, the high mutation rate in the HIV virusmakes it resistant to some antiretroviral drugs and leads to treatment failure.

Nowadays, there are bioinformatic studies based on data mining techniques, to predictthe patients' response to antirretroviral therapies. However, there are few studies evalu-ating the contribution of di�erent types of features extracted from the HIV genotypein the prediction of patients' response to antirretroviral therapies. This work presents astudy comparing the in�uence of di�erent types of attributes in the prediction of patient'soutcome to therapy.

The attributes were grouped in di�erent datasets according to its biological meaning.Experiments were conduced trough four classi�cation methods, using the datasets previ-ously generated. Using these datasets it was possible to perform three experiments setswich envolved, the evaluation about the impact of datasets' unbalance in the classi�cationresults, the signi�cance of each attribute group and, �nally, an attribute selection step.

The results shown that, a previous balancing step helped to obtain good results tobooth classes of the prediction problem addressed in this work. The results also shownthat, between the attributes used in this work, the best attribute group for this predictiontask are the attributes that indicate the patients' resistance levels to the antirretroviraldrugs. Complementarly, the datasets obtained after an attribute selection step obtainedbetter prediction results when they are composed of diverse types of attributes. In these�nal experimentes was possible to notice again the signi�cance of the attributes thatindicate the patients' resistance levels, as well, the signi�cance of an attribute wich is thesize of an speci�c HIV protein.

Keywords: Data mining, classi�cation, bioinformatics, HIV.

Page 8: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

Sumário

Lista de Figuras viii

Lista de Tabelas ix

1 Introdução 1

2 Classi�cação de Dados 4

2.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2 Tarefa de Classi�cação . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.3 Medidas de Desempenho . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.4 Técnicas de Classi�cação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.4.1 Árvores de Decisão Alternadas . . . . . . . . . . . . . . . . . . . . . 8

2.5 Random Forests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.6 Classi�cadores Bayesianos . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.6.1 Teorema de Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.6.2 Classi�cador Bayesiano Simples . . . . . . . . . . . . . . . . . . . . 13

2.6.3 Redes Bayesianas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2.7 Máquinas de Vetor de Suporte . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.7.1 SVMs Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.7.2 SVMs Não Lineares . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3 Vírus da Imunode�ciência Humana 18

3.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

Page 9: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

Sumário vii

3.2 HIV-1 e seu Ciclo de Multiplicação . . . . . . . . . . . . . . . . . . . . . . 19

3.3 Tratamentos Contra a Infecção por HIV . . . . . . . . . . . . . . . . . . . 21

4 Predição da Resposta de Pacientes ao Tratamento com Drogas Antirretrovirais 25

4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

4.2 Trabalhos Relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

4.3 Base de Dados Original . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

5 Experimentos Computacionais 31

5.1 Pré-processamento da Base Original . . . . . . . . . . . . . . . . . . . . . . 31

5.1.1 Extração de Atributos . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.1.2 Valores Ausentes de Atributos . . . . . . . . . . . . . . . . . . . . . 33

5.2 Organização dos Experimentos . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.3 Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados 36

5.4 Avaliação Comparativa das Bases . . . . . . . . . . . . . . . . . . . . . . . 39

5.4.1 Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.4.2 F-measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

5.5 Análise das Bases Após a Seleção de Atributos . . . . . . . . . . . . . . . . 45

5.5.1 Acurácia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

5.5.2 F-measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.5.3 Análise dos Resultados da Base CfsBD . . . . . . . . . . . . . . . . 49

6 Conclusões 51

Apêndice A -- Exemplo de XML Retornado pelo Web Service Sierra 55

Referências Bibliográ�cas 57

Referências Bibliográ�cas 57

Page 10: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

Lista de Figuras

2.1 Matriz de confusão para um problema de classi�cação binário. . . . . . . . 6

2.2 Árvore de decisão clássica . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.3 Árvore de decisão alternada . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.4 Árvore de decisão alternada genérica . . . . . . . . . . . . . . . . . . . . . 10

2.5 Representação de um hiperplano ótimo separando duas classes . . . . . . . 16

3.1 Representação do genoma e da partícula viral do HIV-1 . . . . . . . . . . . 19

3.2 Ciclo de multiplicação do HIV-1 . . . . . . . . . . . . . . . . . . . . . . . . 20

4.1 Base de dados original. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.1 Base de dados após extração de atributos . . . . . . . . . . . . . . . . . . . 32

5.2 Médias de acurácia para os classi�cadores . . . . . . . . . . . . . . . . . . . 41

5.3 Teste Tukey's HSD para os dados de acurácia a 95% de con�abilidade . . . 42

5.4 Médias de F-Measure para os classi�cadores . . . . . . . . . . . . . . . . . 43

5.5 Teste Tukey's HSD para os dados de F-measure a 95% de con�abilidade . . 44

5.6 Resultados de acurácia média para os testes com seleção de atributos . . . 47

5.7 Teste Tukey's HSD para os dados de acurácia a 95% de con�abilidade,

testes de seleção de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . 48

5.8 Resultados de F-measure média para os testes com seleção de atributos . . 48

5.9 Teste Tukey's HSD para os resultados de F-measure a 95% de con�abili-

dade, testes de seleção de atributos . . . . . . . . . . . . . . . . . . . . . . 49

5.10 ADTree gerada para a base CfsBD . . . . . . . . . . . . . . . . . . . . . . 50

Page 11: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

Lista de Tabelas

3.1 Drogas antirretrovirais aprovadas pelo FDA . . . . . . . . . . . . . . . . . 23

5.1 Características da base de dados após a extração de atributos. . . . . . . . 33

5.2 Características das bases de dados geradas. . . . . . . . . . . . . . . . . . . 34

5.3 Comparação das F-measures para o classi�cador Random Forests . . . . . 37

5.4 Comparação das F-measures para o classi�cador ADTree . . . . . . . . . . 38

5.5 Comparação das F-measures para o classi�cador SVM . . . . . . . . . . . 38

5.6 Comparação das F-measures para o classi�cador Redes Bayesianas . . . . 39

5.7 Testes ANOVA para os resultados de acurácia . . . . . . . . . . . . . . . . 41

5.8 Teste ANOVA os resultados de F-measure . . . . . . . . . . . . . . . . . . 44

5.9 Características da base CfsBD. . . . . . . . . . . . . . . . . . . . . . . . . 46

5.10 Características da base ConsBD. . . . . . . . . . . . . . . . . . . . . . . . . 46

5.11 ANOVA para o conjunto de resultados de acurácia nos testes de seleção de

atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

5.12 ANOVA para o conjunto de resultados de F-measure nos testes de seleção

de atributos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

Page 12: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

Capítulo 1

Introdução

Segundo o Programa da Organização das Nações Unidas para HIV/AIDS (UNAIDS), no

�nal de 2009, cerca de 33 milhões de pessoas estavam infectadas pelo vírus HIV. Esse

fato, associado à rápida mutação do vírus e à di�culdade de se combater a infecção,

torna a AIDS uma das piores doenças infecciosas presentes no mundo atual. Muitos

esforços têm sido empreendidos pelos pesquisadores para tentar compreender diversos

aspectos em relação à infecção pelo HIV [49, 29, 33], para desenvolver novas drogas [46, 13]

ou tornar as já existentes mais e�cazes. Desde 1985, quando foi demonstrado que a

droga Azidotimidina era capaz de inibir a replicação do HIV e ajudar no controle da

infecção, foram alcançados diversos progressos no tratamento e controle da infecção pelo

HIV através de drogas antirretrovirais.

Um dos principais avanços no tratamento da infecção foi o surgimento da Terapia

Antiretroviral Altamente Ativa (Highly Active Antiretroviral Therapy - HAART), que

consiste na combinação de diferentes tipos de antirretrovirais em um mesmo tratamento.

Tal terapia se mostrou e�ciente no controle da infecção pelo HIV a ponto de reduzir

o número de partículas virais em um indivíduo a níveis indetectáveis [41], diminuindo

consideravelmente a morbidade e mortalidade entre os pacientes infectados com HIV.

Apesar dos resultados positivos alcançados pelo HAART, o sucesso do tratamento com

antirretrovirais é frequentemente limitado pelo surgimento de fenótipos virais resistentes

às drogas que estão sendo utilizadas no tratamento. O surgimento de fenótipos virais

resistentes está relacionado com as altas taxas de mutação do HIV e a pressão evolutiva

exercida pelas drogas utilizadas no tratamento da infecção. Desse modo, é importante

que a escolha das drogas antirretrovirais que farão parte de uma terapia antirretroviral

seja realizada levando-se em consideração informações sobre as sequências genéticas do

vírus do paciente, dado que essas informações podem ser utilizadas para se inferir a

Page 13: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

1 Introdução 2

susceptibilidade do vírus às drogas e o tipo de resposta do paciente à terapia. Estudos

prospectivos têm demonstrado que os pacientes cujos médicos têm acesso aos seus dados

de resistência às drogas respondem melhor à terapia do que pacientes cujos médicos não

tem acesso a esses dados [43]. Como o processo de escolha de terapias antirretrovirais

e�cientes é um processo complexo, é desejável que existam ferramentas computacionais

que possam predizer a resposta de um paciente a um determinado tratamento com drogas

antirretrovirais ou que auxiliem no processo de escolha dos tratamentos.

A predição da resposta de pacientes ao tratamento com drogas antirretrovirais pode

ser vista como um problema de classi�cação onde o objetivo é predizer se um tratamento

antiretroviral administrado a um paciente terá um resultado positivo ou negativo. Essa

predição pode ser feita com base em um conjunto de informações relacionadas com o estado

clínico do paciente, com os tratamentos administrados, com as sequências de proteínas do

vírus HIV presente no organismo do paciente e outros.

Alguns trabalhos apresentados na literatura fazem uso de técnicas de mineração de da-

dos para resolver esse problema de classi�cação [37, 1]. Nesses trabalhos foram propostas

ferramentas computacionais que resolvem o problema de classi�cação descrito anterior-

mente para auxiliar na indicação de terapias antirretrovirais que tenham maior probabi-

lidade de sucesso para um determinado paciente.

Apesar de existirem propostas na literatura para solucionar o problema de predição da

resposta de pacientes ao tratamento com drogas antirretrovirais, há uma lacuna quando

se trata de trabalhos que avaliem qual é a importância de cada tipo de atributo utilizado

no processo de classi�cação. Esse fato motivou a proposta principal deste trabalho, cujo

objetivo é avaliar a relevância de diferentes tipos de atributos, que são extraídos das

sequências genéticas dos vírus adquiridos pelos pacientes, para o problema de classi�cação

descrito anteriormente.

Para alcançar esse objetivo, experimentos computacionais foram realizados com bases

de dados contendo diferentes tipos de atributos. Com essas bases de dados foi possí-

vel avaliar, para diferentes classi�cadores, qual(is) tipo(s) de atributos proporciona(m) o

melhor desempenho dos mesmos. Neste ponto, vale ressaltar que uma outra importante

contribuição deste trabalho foi a avaliação de alguns tipos de atributos que ainda não

haviam sido utilizados em outros trabalhos propostos na literatura. Parte dos resultados

desta avaliação foram publicados em [31].

Uma característica comumente encontrada nas bases de dados biológicas, que também

aparece nas bases de dados utilizadas neste trabalho, é o desbalanceamento entre as clas-

Page 14: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

1 Introdução 3

ses. No caso das bases aqui utilizadas, aproximadamente 33% das instâncias correspondem

a pacientes que responderam positivamente ao tratamento com as drogas antirretrovirais

e os outros 67% estão relacionados com pacientes que responderam negativamente ao

tratamento. Sendo assim, um segundo objetivo deste trabalho é avaliar o impacto desse

desbalanceamento entre as classes das bases de dados no desempenho dos classi�cadores.

O restante deste trabalho está organizado como especi�cado a seguir. O Capítulo

2 apresenta uma revisão bibliográ�ca sobre o processo de classi�cação e os algoritmos

utilizados neste trabalho. O Capítulo 3 contém conceitos básicos sobre o Vírus da Imu-

node�ciência Humana, assim como alguns aspectos do seu ciclo de replicação e as drogas

disponíveis para o tratamento da infecção. No Capítulo 4 é apresentada a de�nição do

problema abordado neste trabalho, bem como trabalhos relacionados. A descrição dos

experimentos realizados, bem como os resultados desses experimentos são apresentados

no Capítulo 5. Por �m, no Capítulo 6 são apresentadas as conclusões do trabalho, e

sugestões para trabalhos futuros.

Page 15: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

Capítulo 2

Classi�cação de Dados

2.1 Introdução

O processo de descoberta de conhecimento em bases de dados (Knowledge Discovery in

Databases � KDD) tradicionalmente apresentado na literatura é composto por diversas

etapas, que agregadas, podem ser resumidas em pré-processamento, mineração de dados

e visualização dos resultados.

A classi�cação (ou predição) é uma das tarefas mais importantes da mineração de

dados. A partir de um conjunto de instâncias com características e classes conhecidas, seu

objetivo é construir modelos que sejam capazes de predizer a classe de novas instâncias a

partir das suas características [22]. Diversas técnicas de classi�cação já foram propostas na

literatura por pesquisadores das áreas de estatística, aprendizado de máquina e mineração

de dados.

Dentre as várias áreas de aplicação das técnicas de classi�cação, a bioinformática vem

se destacando nos últimos tempos. Essa é uma área de estudo que trata do armazena-

mento, da análise, da interpretação e da utilização de informações obtidas a partir de

dados biológicos. Exemplos de aplicações incluem o problema de classi�cação de proteí-

nas, a predição da resposta de pacientes a tratamentos, a classi�cação de tumores em

pacientes, e outros.

Neste capítulo, uma breve descrição do processo de classi�cação é apresentada na

Seção 2.2. Em seguida, questões relacionadas com a avaliação de classi�cadores são dis-

cutidas na Seção 2.3. Por �m, a Seção 2.4 apresenta uma breve descrição sobre as técnicas

de classi�cação utilizadas neste trabalho.

Page 16: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

2.2 Tarefa de Classi�cação 5

2.2 Tarefa de Classi�cação

O processo de classi�cação pode ser dividido em duas etapas: a etapa de treinamento

e a etapa de teste. O objetivo da etapa de treinamento é construir um modelo de clas-

si�cação a partir de um conjunto de instâncias contidas em uma base de dados. Cada

instância dessa base de dados é caracterizada por um conjunto de atributos e pertence

a uma determinada classe, de�nida por um dos atributos, denominado atributo classe.

As instâncias utilizadas para construção do modelo de classi�cação formam uma base de

dados conhecida como base de dados de treinamento.

Na etapa de teste avalia-se o modelo gerado na etapa anterior quanto à sua capaci-

dade de predizer corretamente as classes de novas instâncias (instâncias cujas classes são

desconhecidas). A avaliação da capacidade preditiva do modelo é realizada a partir de

um conjunto de instâncias diferente daquele usado na etapa de treinamento do modelo.

Esse conjunto de instâncias constitui a base de dados de teste. Assim como as instâncias

do conjunto de treinamento, as instâncias de teste também possuem o valor do atributo

classe conhecido. Isso permite que o resultado obtido pelo modelo de classi�cação possa

ser comparado com os verdadeiros valores do atributo classe das instâncias de teste, per-

mitindo, dessa maneira, que a capacidade preditiva do classi�cador seja calculada.

Um método comumente utilizado na avaliação de classi�cadores é a k-validação cru-

zada. Neste método uma base de dados original de tamanho N é dividida aleatoriamente

em k partições, de forma que cada partição tem aproximadamente Nkelementos. A etapa

de teste é realizada em k iterações e, para cada iteração, uma das k partições é utilizada

como base de dados de teste, e as demais k− 1 partições são utilizadas como base de da-

dos de treinamento. Desse modo, os resultados das medidas de desempenho avaliadas são

calculados como a média aritmética dos resultados obtidos em cada uma das k iterações.

A avaliação da capacidade preditiva de um modelo de classi�cação pode ser feita por

meio de diversas medidas de desempenho, dentre elas, a acurácia, precisão, revocação, F-

measure, área sob a curva ROC e outras. Na próxima seção são apresentadas as medidas

de desempenho utilizadas neste trabalho.

2.3 Medidas de Desempenho

A análise da qualidade de um classi�cador é comumente realizada através de um conjunto

de dados reunidos em uma matriz chamada matriz de confusão. O tamanho de uma matriz

Page 17: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

2.3 Medidas de Desempenho 6

de confusão (MC) varia de acordo com o número de classes do problema em questão. Desse

modo, para um problema com m classes a MC gerada corresponde a uma tabela com m

linhas e m colunas, onde cada entrada MCi,j indica o número de instâncias da classe i

que foram rotuladas pelo classi�cador como pertencentes à classe j. Em uma matriz de

confusão de um classi�cador com 100% de acerto, todas as entradas diferentes de MCk,k

(diagonal principal) são preenchidas com o valor 0, ou seja, nenhuma instância de uma

classe i é rotulada como pertencendo a uma classe j.

A Figura 2.1 apresenta a matriz de confusão para um problema de classi�cação binário.

Os quatro resultados que formam essa matriz de confusão são:

• Verdadeiros Positivos: a quantidade de instâncias da classe positiva rotuladas cor-

retamente;

• Verdadeiros Negativos: a quantidade de instâncias da classe negativa rotuladas

corretamente;

• Falsos Positivos: a quantidade de instâncias da classe negativa rotulados com a

classe positiva;

• Falsos Negativos: a quantidade de instâncias da classe positiva rotuladas com a

classe negativa.

Classe Predita

Positiva Negativa

Classe realPositiva Verdadeiros Positivos(VP) Falsos Negativos(FN)Negativa Falsos Positivos(FP) Verdadeiros Negativos(VN)

Figura 2.1: Matriz de confusão para um problema de classi�cação binário.

Os dados de uma matriz de confusão permitem o cálculo de diversas medidas que

podem ser utilizadas na análise de desempenho de um classi�cador. Uma das medidas mais

utilizadas na avaliação de classi�cadores é a acurácia (acc), que representa a porcentagem

de instâncias do conjunto de testes que foram corretamente classi�cadas. A acurácia é

calculada através da razão entre o número de instâncias de teste corretamente classi�cadas

(V P +V N) e o número total de instâncias no conjunto de teste (V P +FP +V N +FN).

O cálculo da acurácia é mostrado na Equação 2.1.

acc =V P + V N

V P + FP + V N + FN(2.1)

Page 18: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

2.3 Medidas de Desempenho 7

Utilizar somente a medida de acurácia para avaliar o desempenho de um classi�cador

para bases de dados com desbalanceamento entre as classes pode ser insu�ciente para a

obtenção de conclusões corretas. Isso se deve ao fato de que essa medida tende a privilegiar

a classe majoritária. Por exemplo, um classi�cador que sempre atribui a classe majoritária

às instâncias de teste pode facilmente alcançar uma acurácia de 95% se a base de dados

possuir 95% das instâncias associadas à classe majoritária. Desse modo, algumas outras

medidas de desempenho são importantes na avaliação dos classi�cadores que lidam com

bases desbalanceadas por permitirem uma desassociação entre os erros ocorridos em cada

classe. Entre essas medidas estão a precisão, a revocação e a F-measure.

A medida de precisão indica a capacidade do classi�cador em reconhecer as instâncias

pertencentes a uma classe de interesse enquanto rejeita as demais. Algebricamente, essa

medida é de�nida para uma classe da seguinte forma:

precisão =V P

V P + FP(2.2)

A medida de revocação indica a habilidade do classi�cador para identi�car as instân-

cias de uma classe de interesse. Algebricamente, essa medida é de�nida para uma classe

da seguinte forma:

revocação =V P

V P + FN(2.3)

Apesar de as medidas de precisão e revocação serem su�cientes para de�nir com

exatidão o desempenho dos classi�cadores, a avaliação dos mesmos torna-se mais simples

quando se utiliza uma única medida de desempenho. Sendo assim, foi proposta a F-

measure, que corresponde a uma média harmônica ponderada entre os valores de precisão

e revocação. Essa medida é de�nida da seguinte forma:

F-measure =(1 + β)× precisão× revocaçãoβ2 × precisão+ revocação

(0 ≤ β ≤ +∞) (2.4)

O cálculo dessa medida envolve a de�nição do coe�ciente β, utilizado para de�nir a

importância da precisão em relação à revocação. Utilizando-se β > 1 atribui-se um peso

maior para a revocação no cálculo do valor �nal da F-measure. Caso contrário, ou seja,

para β < 1, atribui-se peso maior para a precisão. Neste trabalho, o valor de F-measure

foi calculado utilizando-se sempre β = 1.

Page 19: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

2.4 Técnicas de Classi�cação 8

2.4 Técnicas de Classi�cação

Nesta seção será apresentada uma breve descrição das diferentes técnicas de classi�cação

utilizadas no decorrer deste trabalho.

2.4.1 Árvores de Decisão Alternadas

As Árvores de Decisão Alternadas (Alternating Decision Trees - ADTree) [17] podem ser

vistas como uma generalização das técnicas de árvores de decisão, e de classi�cadores

baseados em regras. Ao propor o classi�cador ADTree o autor tinha como objetivo obter

resultados tão bons quanto aqueles apresentados por classi�cadores tradicionais como o

C5.0 e CART [5], mas que além disso pudessem gerar regras de classi�cação de fácil

compreensão e interpretação.

Para explicar o classi�cador ADTree de forma simples, será utilizado um exemplo que

relacione árvores de decisão convencionais às árvores de decisão alternadas. Para isto

considere a árvore de decisão da Figura 2.2.

Figura 2.2: Árvore de decisão clássica

Na Figura 2.2 pode-se observar uma árvore de decisão tradicional, que possui 3 nós de

decisão e 4 folhas de predição, Essa árvore mapeia as instâncias em duas classes diferentes,

+1 e -1. A classe de uma instância é atribuída pela folha de predição que está ao �nal do

caminho que os atributos a1 e a2 da instância em questão irão percorrer pela árvore. Por

exemplo, para um objeto cujos atributos sejam a1 = 4 e a2 = 3, a classe correspondente

é +1, que é a classe correspondente à folha que está ao �nal do caminho percorrido pelos

atributos a1 = 4 e a2 = 3.

Page 20: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

2.4 Técnicas de Classi�cação 9

Generalizando a árvore apresentada na Figura 2.2 para uma ADTree pode-se observar

a nova árvore na Figura 2.3. Para efetuar a generalização da árvore mantêm-se os nós de

decisão, e para cada um dos caminhos que sai de um nó de decisão é associado um nó de

predição contendo um valor real, que representa o peso desse caminho. Em seguida, as

folhas com os valores das classes são excluídas, e por �m a raiz da árvore é representada

por um nó de predição, que também contém um peso associado.

Figura 2.3: Árvore de decisão alternada

De maneira semelhante ao que acontece nas árvores de decisão convencionais, a classe

de uma instância é gerada através do caminho percorrido através da árvore. Contudo,

nas ADTrees, não se associa a classe de uma instância ao valor de uma folha, mas sim ao

sinal obtido pela soma de todos os valores dos nós de predição percorridos da raiz até uma

folha da árvore. Para o mesmo exemplo utilizado anteriormente, a1 = 4 e a2 = 3, a classe

associada a essa instância será o valor retornado pela função sinal. A função sinal retorna

o sinal da soma de todos os de valores presentes nos nós de predição percorridos por uma

instância. Logo, para o exemplo citado, sinal(0, 5 + 0, 3 + 0, 6) = sinal(1, 4) = +1, e

a classe da instância de exemplo é +1. Ou seja, se a soma dos pesos do caminho de�nido

pelos atributos de uma instância for positiva a classe associada à instância é a classe +1,

caso contrário, a classe associada é -1.

Note que a ADTree representada na Figura 2.3 produz os mesmos resultados de classi-

�cação que a árvore de decisão tradicional representada na Figura 2.2. Isso acontece pois

uma árvore de decisão tradicional pode ser representada por várias ADTrees diferentes

sem alterar as regras de classi�cação da árvore original.

Pode-se perceber que na árvore de decisão alternada representada na Figura 2.3 cada

nó preditor tem no máximo um nó de decisão associado a ele. Na Figura 2.4 é apresentada

Page 21: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

2.4 Técnicas de Classi�cação 10

uma generalização do conceito de ADTrees apresentada na Figura 2.3. Esta generalização

permite que um nó preditor possa estar associado a vários nós de decisão, o que permite

que, com os valores dos atributos de uma instância, seja possível percorrer múltiplos

caminhos na árvore.

Figura 2.4: Árvore de decisão alternada genérica

Dessa forma, a classi�cação de uma instância desconhecida é feita da maneira descrita

a seguir: o caminho percorrido pela instância começa pela raiz da árvore. Ao atingir um

nó de decisão o caminho continua de acordo com a resposta obtida no mesmo e, ao atingir

um nó de predição, o caminho continua por todas as alternativas possíveis, subdividindo-

se em múltiplos caminhos. A classe associada a uma instância será fornecida pelo sinal da

soma dos valores de todos os nós de predição do conjunto de caminhos percorridos pela

instância.

Por exemplo, suponha uma instância com os seguintes valores de atributos: a1 = 1, 3

e a2 = 3. Estes valores de atributos descrevem um conjunto formado por dois caminhos

na ADTree representada na Figura 2.4. A classe correspondente a essa instância será o

valor de sinal(0, 5 + 0, 3 + 0, 6− 1, 0) = sinal(0, 4), ou seja, a classe será +1.

O conjunto de caminhos percorridos pelos atributos de uma instância em uma ADTree

pode ser visto como um conjunto de regras simples. A soma dos valores dos nós de

predição presentes em cada um desses caminhos é considerado o peso associado a eles

e, dessa forma, o peso associado às regras. Desse modo, uma ADTree também pode ser

vista como um conjunto de regras simples reunidas para formar uma regra complexa com

maior poder de predição. Quanto maior o peso associado a uma regra simples maior será

a in�uência que essa regra exercerá na regra complexa e, consequentemente, na árvore de

decisão.

O processo de agrupar regras simples em uma regra complexa, com maior capacidade

Page 22: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

2.5 Random Forests 11

preditiva, chamado de boosting, é utilizado pelo classi�cador ADTree na construção da

árvore de decisão. Para a realização deste processo o ADTree utiliza o algoritmo AdaBo-

ost [40].

A construção de um classi�cador ADTree é um processo iterativo onde, a cada passo,

uma regra simples é adicionada ao conjunto de regras pré-existentes. Cada regra corres-

ponde a uma sub-árvore cuja raiz é um nó de decisão e as folhas são dois nós de predição.

Essa sub-árvore é adicionada como �lha de um nó de predição que pode ou não ser um

nó folha, ou seja, pode-se inserir um nó entre a raiz da árvore e as folhas. A raiz da

árvore é um nó de predição, cujo valor re�ete a distribuição de classes no conjunto de

treinamento. Ou seja, se a classe +1 for majoritária no conjunto de treinamento, o valor

da raiz da árvore será maior que zero, caso contrário, será menor que zero. Quanto maior

for o desbalanceamento entre as classes, maior será o valor absoluto do nó de predição

que representa a raiz da árvore.

2.5 Random Forests

O classi�cador Random Forests [6] consiste em um comitê de árvores de decisão ou árvores

de regressão, em que cada árvore é construída a partir de um conjunto de treinamento

diferente, obtido através de amostragem do conjunto de treinamento original. As predições

realizadas por este classi�cador são feitas através de uma votação entre as árvores do

comitê.

A geração de cada conjunto de treinamento utilizado na construção de cada uma das

árvores é realizada através de uma amostragem aleatória e com reposição do conjunto de

treinamento original. Além disso, o conjunto de treinamento utilizado na construção de

cada árvore tem tamanho igual ao tamanho do conjunto de treinamento original.

Esse tipo de amostragem é chamada de booststrap. Para cada conjunto de treinamento

formado através do booststrap cerca de 1/3 das instâncias do conjunto de treinamento

original não são utilizadas. Essas instâncias são chamadas de out-of-bag e são utilizadas

para se calcular a qualidade de cada árvore e contribuição de cada uma delas para o

comitê.

O Random Forests, segundo uma de�nição formal, é um classi�cador composto por

uma coleção de árvores de decisão {h(x, θ1), h(x, θ2), ..., h(x, θk)} onde, cada θi é um vetor

de números inteiros aleatórios que de�ne quais instâncias do conjunto de treinamento

original serão utilizadas no treinamento de cada árvore. Cada uma das árvores h(x, θi)

Page 23: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

2.6 Classi�cadores Bayesianos 12

vota unicamente para de�nir a classe da instância x. A classe atribuída a essa instância

será a classe mais votada pelo comitê de árvores [6].

Outra característica importante do classi�cador Random Forests é que, para a criação

de cada novo nó de uma árvore um subconjunto de atributos é selecionado aleatoriamente,

de forma que a escolha da melhor partição para o nó em questão é feita utilizando-se

somente este subconjunto de atributos escolhido.

O pseudo-código 1 apresentado a seguir descreve de forma simpli�cada como o modelo

de classi�cação é construído pelo Random Forests.

Entrada: T : Conjunto de treinamento original, N: Número de árvores

para cada arvorei ∈ N faça1

Gere um novo conjunto de treinamento ti utilizando amostragem por bootstrap2

do conjunto de treinamento original T ;

Construa a arvorei, sem poda, utilizando o conjunto de treinamento ti;3

Para cada nó da arvorei, escolha aleatoriamente F atributos e determine a4

melhor divisão do nó utilizando os F atributos e o conjunto de treinamento ti ;

�m5

Algoritmo 1: Pseudo-código da construção do classi�cador Random Forests

Para predizer a classe de uma nova instância x, o classi�cador Random Forests realiza

a votação majoritária entre as classes preditas por cada uma das árvores do comitê para

a instância x.

2.6 Classi�cadores Bayesianos

Os classi�cadores estatísticos conhecidos como classi�cadores Bayesianos utilizam o teo-

rema de Bayes para calcular a probabilidade de uma instância X pertencer a cada classe

de um conjunto C = {C1, C2, C3, ..., Cm} e a partir das probabilidades calculadas de�ni-

se a qual classe do conjunto C a instância X pertence. Serão abordados dois tipos

de classi�cadores Bayesianos: os classi�cadores Bayesianos simples e as redes Bayesia-

nas. Os classi�cadores Bayesianos simples consideram que dado um conjunto de valores

X = {x1, x2, ...xn}, o efeito do valor de um atributo xi em uma determinada classe é in-

dependente dos demais valores de atributos do conjunto X. Essa consideração, conhecida

como independência condicional, tem como principal objetivo diminuir a quantidade de

processamento necessário para o cálculo das probabilidades utilizadas para a tarefa de

Page 24: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

2.6 Classi�cadores Bayesianos 13

classi�cação.

Por outro lado, as Redes Bayesianas permitem modelar correlações e dependências

entre os atributos de uma instância para utilizá-las na tarefa de predição. A seguir, antes

da apresentação dos classi�cadores Bayesianos, uma breve revisão sobre Teorema de Bayes

é realizada.

2.6.1 Teorema de Bayes

Suponha uma instância X, representada por uma tupla de valores de atributos, que

representa uma instância qualquer. Em problemas de classi�cação, deseja-se saber a qual

classe de um conjunto C = {C1, C2, C3, ..., Ck} a instância X pertence. Seja H a hipótese

de que X pertence a uma classe Ci do conjunto C. Deseja-se saber qual é o valor de

P (H = Ci|X), ou seja, qual é a probabilidade de uma instância X pertencer a uma

determinada classe Ci, dada a tupla de valores de atributos de X.

A probabilidade P (H|X), chamada de probabilidade condicional, ou probabilidade à

posteriori, que é a probabilidade da variávelH assumir um determinado valor, dado o valor

da variável X. Já a probabilidade P (H), conhecida como probabilidade à priori, fornece

a probabilidade de uma hipótese H acontecer independentemente de outros eventos. O

Teorema de Bayes permite o cálculo da probabilidade condicional P (H|X) através da

seguinte equação.

P (H = Ci|X) =P (X|Ci)× P (Ci)

P (X)(2.5)

Na Equação 2.5, P (Ci), P (X), e P (X|Ci) representam, respectivamente, a probabi-

lidade da classe Ci ocorrer no conjunto de dados, a probabilidade de uma instância X

ocorrer no conjunto de dados e a probabilidade de uma instância X ocorrer no conjunto

de dados condicionada à classe Ci. Todas essas probabilidades podem ser estimadas a

partir de um conjunto de dados de treinamento.

2.6.2 Classi�cador Bayesiano Simples

Suponha um conjunto de treinamento formado por N instâncias com os rótulos de classe

conhecidos. Cada instância X é formada por um vetor n-dimensional de valores de atri-

butos X = (x1, x2, x3, ..., xn). O conjunto de classes é composto por C = {C1, C2, ..., Cm}.Dada uma nova instância J , cuja classe é desconhecida, a classe predita pelo classi�ca-

Page 25: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

2.6 Classi�cadores Bayesianos 14

dor Bayesiano simples para a instância J será aquela que obtiver a maior probabilidade

condicional P (Ci|J), essa formulação pode ser expressa pela equação.

P (Ci|J) > P (Ch|J) | ∀h, 1 ≤ h ≤ m, h 6= i (2.6)

Ou seja, a classe associada à instância J será aquela que maximizar a probabilidade

P (Ci|J). Para calcular P (Ci|J) o classi�cador Bayesiano simples utiliza o teorema de

Bayes, da forma como apresentado na Equação 2.5. Nessa equação a probabilidade à

priori P (X) é constante para todas as classes, uma vez que a probabilidade de uma

instância aparecer no conjunto de treinamento não depende das classes apresentadas no

mesmo. Dessa forma, pode-se desconsiderar P (X) e a Equação 2.5 pode ser reescrita da

sequinte maneira:

P (Ci|X) ∝ P (X|Ci)× P (Ci) (2.7)

A probabilidade de cada classe Ci no conjunto de treinamento pode ser calculada

através da fórmula P (Ci) =|Ci|N, onde |Ci| é o número de vezes que a classe Ci aparece

no conjunto de treinamento e N é a quantidade de instâncias presente nesse conjunto.

Uma vez que o classi�cador Bayesiano simples assume independência condicional entre os

atributos, a parcela P (X|Ci) pode ser calculada através do produtório da probabilidade

condicional de Ci dado o valor do atributo xk da instância. O calculo de P (X|Ci) é dado

por:

P (X|Ci) =n∏

k=1

P (xk|Ci) (2.8)

= P (x1|Ci)× P (x2|Ci)× P (x3|Ci)× ...P (xn|Ci)

Uma vez calculadas as probabilidades condicionais dos valores de atributos da instân-

cia X para todas as classes Ci do problema em questão, a classe atribuída à instância X

será aquela Ci que obtiver o maior valor de probabilidade P (Ci|X).

2.6.3 Redes Bayesianas

A suposição de independência condicional entre os atributos adotada pelo classi�cador

Bayesiano simples simpli�ca a construção do modelo de classi�cação e os cálculos das

Page 26: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

2.7 Máquinas de Vetor de Suporte 15

probabilidades condicionais utilizadas. Contudo, nem sempre essa suposição é verdadeira

e, nesses casos ela pode prejudicar os resultados da classi�cação. As redes Bayesianas

oferecem uma abordagem que permite agregar ao modelo de classi�cação informações

sobre dependências entre subconjuntos de atributos.

As Redes Bayesianas oferecem uma representação dos relacionamentos entre um con-

junto de variáveis através de dois elementos. O primeiro é um grafo acíclico direcionado,

que representa as relações de dependência entre conjuntos de variáveis. Nesse grafo cada

nó representa uma variável aleatória e cada aresta representa uma relação de dependência

probabilística entre os nós. Se existir uma aresta diretamente de um nó A para um nó

B, então A é pai de B, consequentemente B é �lho de A. Se existir um caminho no grafo

de A para C, então A é ancestral de C, e consequentemente, C é descendente de A. Uma

propriedade importante para as Redes Bayesianas é que cada variável é condicionalmente

independente de seus não descendentes, dados os seus nós pais. O outro elemento é a

tabela de probabilidades condicionais (TPC) associadas a cada variável da rede. A TPC

para uma variável X especi�ca a distribuição condicional P(X|Pais(X)), onde Pais(X) são

os pais da variável X. Essas variáveis correspondem aos atributos presentes nos dados.

Para o treinamento de uma Rede Bayesiana a estrutura da rede pode ser fornecida

como entrada ou gerada através dos dados de treinamento. Quando a estrutura da rede

é conhecida, o treinamento do modelo de classi�cação envolve somente o cálculo das pro-

babilidades condicionais para cada variável. Quando a estrutura da rede é desconhecida é

necessário encontrar o conjunto de arestas que interliguem as variáveis, ou seja, é necessá-

rio de�nir a topologia da rede. Esse é um problema de otimização discreta e os algoritmos

utilizados para a construção da Rede Bayesiana diferem principalmente pela forma como

este problema é resolvido.

2.7 Máquinas de Vetor de Suporte

A técnica de classi�cação conhecida como Máquinas de Vetor de Suporte [12] (Support

Vector Machines - SVM) surgiu da teoria de aprendizado estatístico. Classi�cadores que

utilizam esta técnica tentam encontrar um hiperplano que divida o espaço de dados en-

tre as diferentes classes de um problema. Pode-se dividir estes classi�cadores em SVMs

lineares e SVMs não lineares. O primeiro grupo resolve problemas cujas classes são line-

armente separáveis e, o segundo estende os SVMs lineares para resolver problemas cujas

classes não podem ser linearmente separadas.

Page 27: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

2.7 Máquinas de Vetor de Suporte 16

2.7.1 SVMs Lineares

Um conjunto de dados é de�nido como sendo linearmente separável se repeitar as seguintes

características. Seja o conjunto de dados D com n instâncias onde, cada instância de D

é associada a uma classe ci ∈ {−1,+1}. D é considerado linearmente separável se for

possível separar os dados das classes -1 e +1 através de um hiperplano.

Podem ser construídos diversos hiperplanos que separam as classes. Cada um desses

hiperplanos de�ne uma margem de separação entre as classes do problema. Hiperplanos

com margens de separação pequenas tendem a super ajustar o modelo aos dados de

treinamento e, com isso, a possibilidade de se classi�car erroneamente uma nova instância

aumenta.

O modelo de classi�cação de uma SVM linear é construído através da busca do hiper-

plano que separe as duas classes do problema obtendo a maior margem possível entre as

classes, ou seja, que a distância entre as instâncias das classes e o hiperplano seja a maior

possível. A esse hiperplano é dado o nome de hiperplano ótimo e o classi�cador SVM é

construído a partir da equação do hiperplano ótimo. A Figura 2.5 representa a separação

de duas classes (retângulo e círculo) através de um hiperplano ótimo.

Figura 2.5: Representação de um hiperplano ótimo separando duas classes

Na Figura 2.5 as instâncias das classes retângulo e círculo que estão cortadas pelas

linhas pontilhadas são as instâncias do conjunto de dados de treinamento que possuem

a menor distância até o Hiperplano ótimo. Essas instâncias, conhecidas como vetores

Page 28: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

2.7 Máquinas de Vetor de Suporte 17

de suporte, serão utilizadas para se determinar a equação do hiperplano que separa as

classes.

2.7.2 SVMs Não Lineares

Quando um conjunto de dados de interesse não é linearmente separável as SVMs lineares

não apresentam uma boa solução para o problema, uma vez que não conseguem separar

as classes satisfatoriamente através de um hiperplano.

Para os casos de conjuntos de dados não linearmente separáveis as SVMs não lineares

aplicam um processo de mapeamento não linear aos dados do conjunto de treinamento.

Este processo envolve a aplicação de uma função de transformação que mapeia os dados

do conjunto de treinamento do seu espaço original para um espaço de dimensão maior.

Este espaço de dimensão maior é chamado de espaço de características.

O mapeamento deve satisfazer duas condições: 1) A transformação aplicada deve ser

não linear; 2) A dimensão do espaço de características deve ser su�cientemente alta para

que seja seja possível separar as classes do problema através de um hiperplano

Após realizar o mapeamento dos dados de treinamento para o espaço de características

é realizado o mesmo procedimento de busca pelo hiperplano ótimo adotado pelos SVMs

lineares.

Page 29: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

Capítulo 3

Vírus da Imunode�ciência Humana

3.1 Introdução

O Vírus da Imunode�ciência Humana (Human Immunode�ciency Vírus - HIV) perten-

cente à família Retroviridae e sub-família Lentivirinae [27]. Os vírus pertencentes à família

Lentivirinae são caracterizados pela associação com doenças de imunode�ciência ou que

envolvem o sistema nervoso central, associadas a um longo período de incubação, antes

das manifestações clínicas tornarem-se aparentes [23].

O HIV pode infectar diversos órgãos do corpo humano, contudo o seu alvo principal é

sistema imunológico, infectando principalmente os linfócitos T CD4+ [24]. A infecção pelo

HIV reduz progressivamente a e�cácia do sistema imunológico, levando a um completo

colapso do sistema imune, culminando na Síndrome da Imunode�ciência Adquirida (SIDA)

ou �Acquired Immunode�ciency Syndrome� (AIDS) [49], que é caracterizada por sinais

e sintomas constitucionais, caquexia, demência, uma variedade de infecções oportunistas

e/ou neoplasias [42].

O HIV é classi�cado em dois tipos: HIV-1 e HIV-2, sendo o HIV-1 o mais frequente

mundialmente. As sequências de HIV-1 têm sido historicamente classi�cadas, com base

em suas relações �logenéticas, em grupos e subtipos [36] e desta forma o HIV-1 apresenta

três grupos distintos: o grupo M, do inglês �major �, o grupo O de �outlier� e o grupo N de

�new� ou �non� M - �non� O [45]. A classi�cação dos subtipos �logeneticamente equidis-

tantes é baseada em análises das sequências dos genes env e gag [47] e são identi�cados

por letras alfabéticas [36]. Existem 9 subtipos (A1, A2, B, C, D, F1, F2, G, H, J e K) e

51 formas recombinantes circulantes ou CRF, que correspondem a recombinantes virais

que apresentam um genoma mosaico com diferentes subtipos em diferentes regiões genô-

Page 30: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

3.2 HIV-1 e seu Ciclo de Multiplicação 19

micas1 [8, 32, 39]. Os grupos N e O estão restritos ao oeste africano. O HIV-2 é composto

por sete subtipos e, assim como os grupos N e O, é mais comum no oeste africano [18].

Neste estudo trabalharemos apenas com indivíduos infectados pelo HIV-1.

3.2 HIV-1 e seu Ciclo de Multiplicação

O HIV-1 possui um genoma constituído por duas moléculas idênticas de RNA �ta sim-

ples. Este genoma apresenta nove janelas abertas de leitura correspondentes a três genes

principais comuns a todos os retrovírus: gag, pol, env e a seis genes adicionais com função

regulatória na replicação viral: tat, rev, nef, vif, vpr, vpu [51]. A Figura 3.1 contém uma

representação esquemática do genoma do HIV e da partícula viral.

Figura 3.1: Representação do genoma e da partícula viral do HIV-1

O gene gag codi�ca as proteínas da matrix (MA), proteína do capsídeo (CA), nucleo-

capsídeo (NC) e a proteína p6. O gene env codi�ca as proteínas gp120 (SU ou superfície)

e gp41 (TM ou transmembrana). Por sua vez, o gene pol codi�ca as proteínas protease

(PR), transcriptase reversa (reverse transcriptase - RT) e integrase (IN). Os produtos dos

genes gag e env são componentes estruturais do núcleo e da membrana externa do vírion

(párticula viral fora da célula hospedeira). Já as proteínas codi�cadas pelo gene pol são

responsáveis por funções enzimáticas essenciais ao ciclo de replicação do vírus [15].

O ciclo de multiplicação do HIV-1 é constituído por uma sequência de etapas que

são reguladas vez por proteínas virais e celulares, que se inicia com a fusão da partícula

viral à célula hospedeira até o brotamento e a maturação de uma nova partícula viral. A

1http://www.hiv.lanl.gov/

Page 31: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

3.2 HIV-1 e seu Ciclo de Multiplicação 20

Figura 3.2 representa o ciclo de multiplicação do HIV-1 de forma simpli�cada e, a seguir,

o ciclo de multiplicação é explicado em detalhes.

Figura 3.2: Ciclo de multiplicação do HIV-1São demonstradas as etapas de adsorção, penetração, transcrição reversa do RNA, síntese,montagem e brotamento das partículas virais. Fonte: [34]

O processo de infecção se inicia quando o vírion se liga a uma célula hospedeira através

de interações com a proteína gp120 e o receptor celular CD4, em conjunto com um co-

receptor CCR5 ou CXCR4. Uma vez que essa ligação é realizada com sucesso, formando

o complexo CD4/gp120/co-receptor, promove uma alteração conformacional adicional na

gp120 que leva à exposição do domínio de fusão, presente na gp41, e consequentemente à

inserção na membrana da célula alvo, promovendo assim a fusão das membranas celulares

e viral. Posteriormente ocorre à liberação do conteúdo viral no citoplasma [50, 16, 3].

Uma vez no citoplasma, o capsídeo é dissolvido pelas enzimas do hospedeiro, liberando

o RNA viral e as proteínas MA, RT, IN e Vpr. Esse complexo de proteínas é levado para

o núcleo da célula hospedeira e neste momento a proteína RT faz a transcrição do RNA

viral em uma molécula de DNA viral, que será integrada ao genoma do hospedeiro, em

uma reação processada pela integrase. O DNA viral integrado, conhecido como provírus,

serve como molde para a síntese de RNAs virais, que são transportados para o citoplasma.

O provírus é geralmente quiescente e se replica coordenadamente com o DNA da célula

hospedeira.

Page 32: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

3.3 Tratamentos Contra a Infecção por HIV 21

Quando a célula infectada com HIV sofre ativação ou estimulação, o provírus é tran-

sativado resultando na produção e liberação de vírions infecciosos. Uma vez que o DNA

viral foi integrado ao genoma celular, o vírus pode se manter em estado latente por diver-

sos anos. Contudo, uma vez que o vírus se torna ativo ele utiliza a RNA polimerase para

criar cópias do genoma viral e mRNAs. O RNA e os mRNA são transportados para o cito-

plasma, onde os mRNAs utilizam o maquinário celular para produzir as proteínas virais.

As proteínas dos genes gag e gag-pol são geradas como poliproteínas e serão processadas

posteriormente. As proteínas, juntamente com o RNA viral, são transportados para a

membrana celular, onde juntamente com outras proteínas serão montados e brotarão do

hospedeiro como um novo vírion imaturo, que não é capaz de infectar outras células. O

processo de maturação envolve o processamento das poliproteínas Gag e Gag-Pol pela PR,

que realiza a clivagem dessas poliproteínas que então são remontadas para gerar um vírion

estruturado e maduro, capaz de infectar outras células e reiniciar o ciclo de multiplicação

do HIV-1.

3.3 Tratamentos Contra a Infecção por HIV

As drogas desenvolvidas para combater a infecção são chamadas de antirretrovirais e,

geralmente, têm como alvo determinadas fases do ciclo de multiplicação do vírus. Uma

vez que o HIV é um vírus da família Retroviridae, um dos primeiros esforços no desen-

volvimento de drogas antirretrovirais teve seu foco na busca de um composto capaz de

interromper o funcionamento da proteína Transcriptase Reversa e consequentemente o

ciclo de multiplicação do HIV-1. Em [30] foi demonstrado que a droga Azidotimidina

(AZT), também conhecida como Zidovudina, primeiramente utilizada como potencial

droga no combate ao câncer, era capaz de inibir a transcrição reversa e a replicação in

vitro.

Desde 1985, quando foi observado o potencial uso do AZT como antirretroviral, até

hoje, foram desenvolvidos antirretrovirais visando diferentes fases do ciclo de multiplicação

do HIV-1. Atualmente, existem 23 drogas antirretrovirais aprovadas pelo FDA (Food and

Drug Administration), que é o departamento de Controle de Drogas e Alimentos dos

Estados Unidos. Os antirretrovirais estão divididos em 6 grupos, de acordo com o alvo

molecular da droga e o mecanismo de ação da mesma. Os antirretrovirais atacam 5 alvos

moleculares que dizem respeito a estágios diferentes do ciclo de replicação do HIV-1.

No primeiro grupo encontram-se os agentes antivirais de maior sucesso e mais comu-

Page 33: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

3.3 Tratamentos Contra a Infecção por HIV 22

mente utilizados: análogos nucleosídios ou inibidores nucleosídios da transcriptase reversa

(NTRI, do inglês, Nucleoside Reverse Transcriptase Inhibitors), que são desoxinucleotí-

deos modi�cados que se ligam a uma molécula de DNA viral que está sendo sintetizada

causando uma terminação prematura da cadeia de DNA. Uma vez que a função de repli-

cação do ácido nucleico da célula normal pode também ser um alvo, esses fármacos via

de regra exibem algum grau de toxicidade ao hospedeiro. Com o tempo, muitos deles

perdem sua potência antiviral em virtude do surgimento de vírus resistentes a eles [28].

O segundo grupo, chamado de Inibidores não Nucleosídicos da Transcriptase Reversa

(Non Nucleoside Reverse Transcriptase Inhibitors - NNRTI), inclui drogas que se ligam

à transcriptase reversa e prejudicam a mobilidade de determinados domínios da proteína,

impedindo a síntese do DNA. O terceiro grupo de drogas, Inibidores de Protease (PIs),

impedem a replicação viral pela ligação ao sítio ativo da protease do HIV, inibindo o

processamento de grandes proteínas virais em seus componentes individuais, impedindo a

maturação do vírus. O quarto grupo de drogas, conhecidos como Inibidores de Fusão, se

ligam à proteína gp41 evitando que o vírus se ligue a células hospedeiras. O quinto grupo

de drogas são os Antagonistas CCR5, que se ligam à bolsa hidrofóbica formada pelas

hélices de transmembrana do co-receptor CCR5 bloqueando a superfície celular receptora

e impedindo que o vírus entre na célula [7]. Por �m, o sexto grupo são os Inibidores de

Integrase, uma classe de drogas projetada para impedir a ação da proteína integrase. A

Tabela 3.1 apresenta a lista do 23 antirretrovirais aprovados pelo FDA.

Apesar dos esforços no desenvolvimento de drogas antirretrovirais, a e�cácia dessas

drogas muitas vezes é comprometida pelo surgimento de fenótipos virais resistentes aos

medicamentos. O surgimento desses fenótipos é resultante da incapacidade de reparo

de leitura do genoma viral pela Transcriptase Reversa. Desta forma, há um surgimento

espontâneo de mutações que podem conferir ao vírus resistência as drogas antirretrovirais

[29]. A taxa elevada de replicação do HIV e sua inerente variabilidade genética são fatores

que levam à identi�cação de variantes virais que apresentam susceptibilidade alterada

às drogas. De acordo com os dados do Los Alamos National Laboratory, 2007, foram

listadas 947 mutações relacionadas à resistência a drogas, dos quais 37 ocorrem no Gag,

321 na protease, 9 na integrase, 374 na RT e 206 no Env. Estas mutações descritas são

predominantemente encontradas no subtipo B e não em outros genótipos do HIV-1 [10].

Estudos demonstram que quando apenas um antirretroviral é utilizado no tratamento

de um paciente podem surgir fenótipos virais resistentes ao antirretroviral utilizado [2].

Essa resistência implica na replicação e�ciente do vírus, mesmo na presença do antirre-

Page 34: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

3.3 Tratamentos Contra a Infecção por HIV 23

Tabela 3.1: Drogas antirretrovirais aprovadas pelo FDAClasse de Antirretroviral Nome Genérico Data de Aprovação

Inibidores Nucleosídicos daTranscriptase Reversa

Delavirdina (DLV) Abril, 1997Rilpivirina (RPV) Maio, 2011Saquinavir (SQV) Dezembro, 1995Efavirenz (EFV) Setembro, 1998Etravirinea(ETR) Janeiro, 2008Nevirapina(NVP) Junho, 1996

Inibidores Não Nucleosídicos daTranscriptase Reversa

Abacavir (ABC) Dezembro, 1998Didanosina (ddl) Outubro, 1991

Emtricitabina (FTC) Julho, 2003Lamivudina (3TC) Novembro, 1995Estavudina (d4T) Junho, 1994

Tenofovir DF (TDF) Outubro, 2001Zidovudina (ZDV, AZT) Março, 1987

inibidores de Protease

Atazanavir (ATV) Junho, 2003Darunavir (DRV) Junho, 2006

Fosamprenavir (FPV) Outubro, 2003Indinavir (IDV) Março, 1996Nel�navir (NFV) Março, 1997Ritonavir (RTV) Março, 1996Saquinavir (SQV) Dezembro, 1995Tipranavir (TPV) Junho, 2005

Inibidor de Fusão Enfuvirtida (T-20) Março, 2003

Antagonistas CCR5 Maraviroc (MVC) Agosto, 2007

Inibidores de Integrase Raltegravir (RAL) Outubro, 2007

Page 35: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

3.3 Tratamentos Contra a Infecção por HIV 24

troviral [44, 38]. Uma alternativa para solucionar este problema é a utilização da Terapia

Antirretroviral Altamente Ativa (Highly Active Antirretroviral Therapy - HAART), que

consiste na combinação de antirretrovirais de diferentes grupos no mesmo tratamento, de

forma a inibir mais de uma fase do ciclo de replicação do HIV. Em [41] demonstrou-se

que a utilização da HAART pode diminuir a quantidade de partículas virais de um indi-

víduo a níveis indetectáveis. Já em [14] os autores demonstraram que com este tipo de

tratamento o paciente leva um tempo muito maior para desenvolver resistência às várias

drogas utilizadas no tratamento.

O uso da Terapia Antirretroviral Altamente Ativa tem reduzido consideravelmente

a morbidade e mortalidade entre os pacientes infectados com HIV. Porém, o sucesso do

tratamento é frequentemente limitado pela emergência de HIV resistente a drogas durante

a terapia. Um fato importante é que vírus resistentes podem ser transmitidos a indiví-

duos recém-infectados. A transmissão destes vírus resistentes a drogas antirretrovirais é

uma das maiores preocupações em saúde pública, visto que pode levar à situação na qual

não haverá drogas efetivas disponíveis para o tratamento do HIV [48]. A utilização de

sequências de HIV-1 para inferir a susceptibilidade a drogas e a probabilidade de resposta

à terapia é idealmente realizada por sistemas computacionais especializados, auxiliando

os médicos na condução do tratamento. Estudos prospectivos têm demonstrado que os

pacientes cujos médicos têm acesso a dados de resistências às drogas, particularmente

dados de resistência genotípica, respondem melhor a terapia do que os pacientes controles

cujos médicos não tem acesso aos mesmos dados [44]. Esse tipo de informação pode ser

utilizado para auxiliar a escolha de drogas as quais o vírus de um determinado paciente

não possua resistência. Desta forma, a utilização da bioinformática com ferramentas que

tentem predizer a resposta de um paciente a um determinado tratamento com antirretro-

virais, ou mesmo que auxiliem no processo de escolha de tratamentos, poderá bene�ciar

os pacientes, médicos e pesquisadores, permitindo um melhor entendimento da correlação

entre genótipo e tratamento antiviral.

Page 36: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

Capítulo 4

Predição da Resposta de Pacientes ao Tra-

tamento com Drogas Antirretrovirais

4.1 Introdução

A infecção pelo HIV e, consequentemente, a AIDS, é um problema de saúde pública de

grande magnitude e oferece inúmeros desa�os cientí�cos em diversas áreas do conheci-

mento. Nas áreas de Biologia e Bioinformática muitos esforços têm sido realizados tanto

para compreender os diversos aspectos relacionados com a infecção pelo HIV [49, 29, 33]

como no desenvolvimento de novas drogas [46, 13] ou de mecanismos para torná-las mais

e�cazes.

Um problema frequente no tratamento da infecção pelo HIV é o surgimento de fenóti-

pos virais resistentes ao tratamento antirretroviral administrado a um paciente. Por esse

motivo, é importante saber a quais drogas um paciente possui resistência para utilizar es-

sas informações no processo de escolha de um tratamento antirretroviral que resulte num

controle satisfatório infecção e, consequentemente, retardar o surgimento de um fenótipo

viral resistente ao tratamento corrente. Desse modo, se torna desejável a utilização de

ferramentas computacionais que possam predizer a resposta de um paciente a um deter-

minado tratamento com antirretrovirais.

Alguns trabalhos apresentados na literatura já abordaram o problema da predição da

resposta de pacientes ao tratamento com drogas antirretrovirais [37, 1, 52]. Nesses tra-

balhos foram desenvolvidas ferramentas que utilizam técnicas de classi�cação e regressão

logística para predizer o resultado de um determinado tratamento antirretroviral. Em

[52], os autores formularam a hipótese de que o resultado de tratamento administrado a

um paciente é in�uenciado tanto pelo genoma do hospedeiro quanto do vírus que o infecta.

Page 37: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

4.2 Trabalhos Relacionados 26

Apesar de as soluções já apresentadas na literatura terem obtido resultados promis-

sores para o problema de predição, na maioria dos trabalhos em questão não são apre-

sentados detalhes sobre que in�uência diferentes tipos de atributos exercem no resultado

�nal da predição. Esse tipo de análise foi realizada apenas em [1], porém a base de dados

utilizada pelos autores e os atributos extraídos da mesma são diferentes da base de dados

e dos atributos utilizados neste trabalho.

No presente trabalho o problema da predição da resposta de pacientes ao tratamento

com antirretrovirais é abordado com enfoque na avaliação dos atributos utilizados para a

predição. A base de dados utilizada contém registros de pacientes recém infectados pelo

HIV-1 que não receberam nenhum tratamento prévio para essa doença. Além disso não

há na base de dados utilizada nenhuma informação sobre quais drogas são administradas

para cada paciente.

Na seção 4.2 serão apresentados os trabalhos relacionados ao problema de predição

da resposta de pacientes às drogas antirretrovirais. Em seguida uma descrição detalhada

sobre a base de dados utilizada na realização deste trabalho é apresentada na Seção 4.3.

4.2 Trabalhos Relacionados

Predizer a resposta de um tratamento antirretroviral administrado a um paciente é um

problema que tem sido abordado por uma série de trabalhos de bioinformática. Geral-

mente esses trabalhos têm como objetivo a criação de ferramentas computacionais que

auxiliem na escolha de um conjunto de drogas para compor um coquetel de tratamento.

A necessidade de pesquisas sobre o tema e o desenvolvimento de tais ferramentas surge

devido às di�culdades que os especialistas encontram para escolher o tratamento mais

adequado para cada paciente, uma vez que essa escolha envolve um número muito grande

de variáveis, tais como, as diferentes possibilidades de combinações de drogas, os fatores

clínicos de cada paciente, as mutações do vírus HIV presente no organismo do paciente,

as drogas às quais o paciente apresenta resistência, dentre outros.

A seguir são descritos alguns trabalhos que foram propostos para tratar do problema

da predição da resposta de um paciente à terapia antirretroviral e auxiliar na tomada de

decisão sobre a escolha de um tratamento.

Em [37] os autores utilizaram um conjunto de modelos de predição colaborando entre

si para otimizar a escolha de uma terapia antirretroviral para um paciente. Experimentos

foram conduzidos com dados extraídos do banco de dados integrado EuResist(EIDB), que

Page 38: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

4.2 Trabalhos Relacionados 27

contém genótipos HIV e dados clínicos de respostas a terapias antirretrovirais. Uma das

principais características desse trabalho é que os modelos de predição foram treinados com

dois tipos de bases de dados, a primeira contendo somente informações genotípicas dos

pacientes e os tratamentos administrados ao mesmo e, a segunda, formada por todos os

atributos da primeira base juntamente com outros dados como, o históricos de tratamentos

anteriores dos pacientes, idade, sexo, dados demográ�cos, contagem da carga viral e de

células T CD4+, dentre outros. Apesar de o modelo de predição utilizado ser treinado

com as duas bases de dados, ao utilizar o modelo gerado para se predizer a resposta de

um tratamento para um novo paciente não é necessário informar os dados que foram

adicionados à segunda base de dados.

O modelo �nal de predição consiste em um conjunto de três modelos diferentes. Cada

modelo é formado por uma camada de geração e seleção de atributos e uma camada de

regressão logística utilizada para predição. Os modelos utilizados são chamados de Evo-

lutivo, Gerador Discriminativo e um Modelo de Mistura de Efeitos. O modelo Evolutivo

utiliza atributos de mutação e históricos de tratamento juntamente com um tipo de atri-

buto que quanti�ca, para cada droga, qual é a possibilidade do surgimento de mutações

no vírus presente no organismo do paciente que o tornem resistente à droga em ques-

tão. O modelo Gerador utiliza redes Bayesianas para modelar a interação entre as drogas

presentes no histórico de tratamento de um paciente. Por �m, o Modelo de Mistura de

Efeitos utiliza como atributos as interações possíveis entre mutações e drogas antirretro-

virais em conjunto com atributos de mutações, fatores clínicos dos pacientes, informações

demográ�cas e o histórico de tratamento de cada paciente.

O modelo �nal de predição gerado pode ser utilizado para auxiliar na seleção de tra-

tamentos antirretrovirais para um paciente. Além disso, é possível observar mutações

presentes nas sequências de Protease, Transcriptase Reversa e Integrase, bem como uma

estimativa do nível de resistência de um paciente às drogas antirretrovirais. Os autores dis-

ponibilizam uma ferramenta online que pode ser acessada em http://engine.euresist.org/.

Em [1] foram utilizados diferentes grupos de atributos na resolução do problema da

predição da resposta de um paciente ao tratamento com drogas antirretrovirais. A ava-

liação da resposta dos pacientes foi realizada para cada episódio de troca de tratamento,

ou seja, o momento em que o paciente deixa de usar um conjunto de drogas para utili-

zar outro. Foram utilizados 5 grupos diferentes de dados extraídos a partir do genótipo

viral dos pacientes. O primeiro conjunto de dados, identi�cado como Indicador, contém

atributos relacionados à presença de mutações no HIV e às drogas utilizadas no trata-

Page 39: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

4.2 Trabalhos Relacionados 28

mento. Todos os demais conjuntos de dados incluem também os atributos presentes no

grupo Indicador. O segundo grupo de atributos, chamado Fenótipo, contém um indica-

dor fenotípico de resistência antirretroviral, este indicador é calculado para cada droga

em particular de acordo com o método apresentado em [4]. O terceiro grupo de atribu-

tos, chamado Atividade, contém atributos que fornecem uma estimativa do quanto um

coquetel antirretroviral será efetivo contra a infecção de um paciente. O quarto grupo

de atributos, chamado Barreira Genética, fornece a probabilidade do surgimento de um

fenótipo viral resistente a um medicamento. Por �m, o quinto grupo de atributos, deno-

minado Contagem de Progressão Genética (Genetic Progression Score - GPD), fornece o

tempo esperado para o surgimento de um determinado padrão de mutação.

Foram utilizados seis métodos de aprendizagem de máquina diferentes na avaliação

de cada um dos grupos. Os resultados da predição demonstraram que os grupos Fenótipo,

Atividade, Barreira Genética e GPD alcançaram melhores resultados de predição que o

primeiro grupo (Indicador). Os melhores resultados foram obtidos a partir dos grupos

Fenótipo e Barreira Genética. A diferença de resultados entre os diferentes classi�cadores

não foi signi�cativa, levando os autores à conclusão de que o principal fator para o sucesso

da predição é a escolha do conjunto de dados de entrada, e não do algoritmo a utilizado.

Ao �nal deste trabalho, os autores desenvolveram uma ferramenta computacional para

auxiliar na seleção de tratamentos antirretrovirais para um paciente. Essa ferramenta,

chamada THEO1 (THErapy Optimizer) pode ser acessada livremente para propósitos de

pesquisa.

No trabalho proposto em [52], os autores têm como objetivo veri�car a veracidade da

hipótese de que a resposta de um paciente ao tratamento com drogas antirretrovirais é

in�uenciada tanto pelo genoma do hospedeiro quanto do vírus HIV. Para isto os autores

supõem que, em seu processo de mutação, o HIV preserva pequenas sequências de pro-

teínas, chamadas motivos lineares. Os autores formularam a hipótese de que a presença

de motivos lineares no genoma do HIV que sejam comuns a motivos lineares do genoma

humano podem in�uenciar a resposta de um paciente ao tratamento administrado.

Os dados utilizados nos experimentos realizados nesse trabalho foram retirados do

Banco de Dados de HIV da Universidade de Stanford. A base utilizada é formada por

dados de 2019 pacientes. Para a tarefa de predição da resposta dos pacientes às drogas

antirretrovirais os autores utilizaram um método de regressão logística que efetua uma

etapa anterior de seleção de atributos.

1http://www.geno2pheno.org

Page 40: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

4.3 Base de Dados Original 29

Através dos resultados obtidos na predição da resposta dos pacientes às drogas antir-

retrovirais e da etapa de seleção de atributos os autores demonstraram que a utilização de

determinados motivos lineares presentes tanto na sequência da Transcriptase Reversa do

vírus quanto no genoma humano, contribuiu para aumentar o poder preditivo dos métodos

utilizados. Os autores identi�caram também duas posições de mutação na Transcriptase

Reversa que se mostraram bons indicadores de resposta negativa em pacientes que utili-

zam apenas um medicamento na composição do seu tratamento. Contudo, estes atributos

de mutação não se mostraram bons indicadores de resposta em pacientes que utilizam uma

terapia HAART.

4.3 Base de Dados Original

A base de dados original, que posteriormente foi processada para gerar as bases utilizadas

nos experimentos computacionais realizados neste trabalho, foi obtida no website Kaggle2,

que disponibilizou essa base para uma competição de bioinformática. Originalmente ela

foi montada a partir da base de dados de HIV da Universidade de Stanford3. Essa base

contém dados de 1692 pacientes que haviam contraído o vírus HIV-1 e no momento da

coleta dos dados ainda não haviam recebido qualquer tipo de tratamento. Um tratamento

é de�nido como a administração de uma ou mais drogas a um paciente com o objetivo de

diminuir a carga viral do mesmo. Os paciente passaram a receber o tratamento após a

coleta de dados.

Cada instância da base de dados contém os seguintes atributos para um paciente:

• A sequência de nucleotídeos da Transcriptase Reversa (Reverse Transcriptase�RT)

do vírus que ele contraiu;

• A sequência da nucleotídeos da Protease (PR) do vírus que ele contraiu;

• A contagem de células CD4+ em 1 mL de sangue;

• A carga viral (Viral Load -VL) no mesmo mL de sangue;

• A resposta ao tratamento com drogas antiretrovirais.

O atributo classe é o atributo de resposta ao tratamento, que indica se o paciente

obteve ou não progresso no tratamento admininstrado após a coleta dos dados. Para essa

2http://www.kaggle.com3http://hivdb.stanford.edu/

Page 41: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

4.3 Base de Dados Original 30

base de dados considera-se que houve um progresso se após de 16 semanas de tratamento

tiver ocorrido uma redução de 100 vezes na carga viral de um paciente com drogas anti-

retrovirais.

Das 1692 instâncias da base de dados, 552 correspondem a pacientes que responderam

positivamente ao tratamento administrado (atributo classe com valor igual a 1) e as outras

1140 estão relacionadas com pacientes que não responderam ao tratamento (atributo

classe com valor igual a 0). Desse modo, a base de dados contém 67,4% de instâncias cujo

atributo classe tem valor igual a 0 e 32,6% de instâncias cujo atributo classe tem valor

igual a 1.

Os atributos de protease (PR) e transcriptase reversa (RT) são formados por sequên-

cias de nucleotídeos que são representadas por cadeias formadas pelas letras A, C, G e

T, as quais representam os nucleotídeos Adenina, Citosina, Guanina e Timina, respec-

tivamente. Esses atributos têm uma grande probabilidade de conter diferenças de uma

instância para a outra, dado que o HIV possui uma alta taxa de mutação. Desse modo, em

instâncias diferentes, podemos ter sequências de tamanhos diferentes e formadas por com-

binações distintas de nucleotídeos. O formato dessa base de dados original é apresentado

na Figura 4.1.

PR RT CD4 VL(log10) RespostaCCTCAAATCACTTGTGCC... CCCGTTAGCCATGC... 256 6,4 1CCTCGGTTCACTCTTGCA... CCCATCAACTGCCA... 500 1,5 0CCTCAACTCTTTGGCACC... CCCATCAGTCCTGC... 1231 3,2 0

. . . . .

. . . . .

. . . . .CCTCGGTTCACTCTTGGC... CCCATCAAATGCCA... 120 4,5 0

Figura 4.1: Base de dados original.

Para a resolução do problema de classi�cação abordado neste trabalho foram ado-

tados os seguintes passos. Inicialmente foram extraídos, para cada paciente, uma série

de atributos das sequências de nucleotídeos da Protease e da Transcriptase Reversa do

vírus. Uma vez extraídos, esses atributos foram agrupados em diferentes bases de dados

de acordo com o seu signi�cado biológico. A qualidade de cada grupo de atributos foi

avaliada a partir dos resultados de classi�cação obtidos para cada uma das bases de dados

construídas. Em um segundo momento técnicas de seleção de atributos foram aplicadas

a uma base de dados que compreende todos os atributos utilizados no presente trabalho.

Outras duas bases foram geradas e avaliadas. O capítulo a seguir apresenta todos os

detalhes dos experimentos conduzidos neste trabalho.

Page 42: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

Capítulo 5

Experimentos Computacionais

5.1 Pré-processamento da Base Original

5.1.1 Extração de Atributos

A grande quantidade de nucleotídeos que representam a RT e a PR dos vírus e a variação

do tamanho das sequências em instâncias diferentes da base nos impõem a realização de

um pré-processamento dessas sequências para a obtenção de um conjunto uniforme de

atributos que possa ser utilizado na tarefa de classi�cação.

Sendo assim, um pré-processamento das sequências de RT e PR foi realizado para

extração dos atributos que foram utilizados na tarefa de classi�cação. O web service

Sierra1, da Universidade de Stanford, foi utilizado para a extração dos atributos. Esse

web service nos fornece acesso ao algoritmo HIVdb[26] e, por meio da sua interface, aceita a

submissão das sequências de RT e PR, retornando um XML com as seguintes informações:

• O subtipo do vírus;

• Mutações encontradas nas sequências submetidas;

• O tamanho das sequências;

• A similaridade destas com uma sequência de consenso2.

1http://sierra2.stanford.edu/sierra/html/webservices/index.shtml2As sequências de consenso utilizadas para cada subtipo são derivadas de um alinhamento com

as sequências do subtipo correspondente mantidas no Banco de Dados de Sequências de HIV de LosAlamos(hiv-web.lanl.gov). Sequências de consenso são referências comumente utilizadas para a compa-ração de sequências.

Page 43: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.1 Pré-processamento da Base Original 32

• Os valores de nível de resistência de um paciente a cada uma das 19 drogas (inibido-

ras de PR e RT) aprovadas pelo Food and Drug Administration (FDA) e registradas

no banco de dados utilizado.

A estrutura do XML retornado pelo web service Sierra pode ser observada no Anexo A.

A partir das informações contidas no XML gerou-se uma nova base de dados, substituindo-

se as sequências de PR e RT pelos atributos extraídos. A Figura 5.1 apresenta o formato

da base de dados gerada após o pré-processamento das sequências de RT e PR. Além

dos atributos CD4, VL e Resposta, contidos na base de dados original, essa base possui

os seguintes atributos extraídos da sequências de RT e PR: subtipo de vírus, o tama-

nho das sequências de Transcriptase Reversa (TRT ) e Protease (TPR), a similaridade das

sequências de Transcriptase Reversa (SRT ) e de Protease (SPR), as mutações (M1 atéMn)

presentes nas sequências e, por �m, os valores de nível de resistência de um paciente aos

medicamentos antirretrovirais (N1 até Nk). Para o atributo Resposta O VALOR 1 indica

que o paciente obteve resposta positiva ao tratamento e, o valor 0 indica que o paciente

não obteve resposta ao tratamento.

Subtipo TRT TPR SRT SPR M1 ... Mn N1 ... Nk CD4 VL RespostaB 270 99 98 95 0 ... 1 15 ... 60 234 2,3 0B 212 99 97,6 92 0 ... 0 15 ... 45 294 1,3 1. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .B 212 99 97,6 92 0 ... 0 15 ... 45 294 1,3 1

Figura 5.1: Base de dados após extração de atributos

As características da base de dados referentes aos grupos de atributos extraídos a

partir das sequências de RT e PR são apresentadas na Tabela 5.1. O atributo subtipo

indica qual é o subtipo do vírus presente no paciente. O tamanho das sequências indica

quantos aminoácidos cada uma das sequências (RT e PR) contém. Esse atributo for-

nece informação sobre qual tipo de mutação aconteceu em uma sequência. Por exemplo,

se uma sequência de RT é maior que a sequência de consenso utilizada, é provável que

essa sequência tenha sofrido mutações de inserção, ou seja, que nucleotídeos tenham sido

inseridos ao longo da sequência. O atributo de similaridade apresenta o percentual de

semelhança da sequência em relação a uma sequência de consenso, o que pode ser utili-

zado para determinar o seu grau de mutação. Os atributos de mutação são binários, de

forma que o valor 1 representa que o vírus presente no paciente possui uma determinada

mutação e o 0 indica que o vírus não possui aquela mutação. Por �m, os atributos de

Page 44: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.2 Organização dos Experimentos 33

nível de resistência informam o grau de resistência de um paciente a um determinado me-

dicamento. Os níveis de resistência às drogas antirretrovirais fornecidos pelo web service

Sierra são calculados através de informações de resistência à drogas antirretrovirais ob-

servadas clinicamente juntamente com informações de resistência relatadas na literatura,

mais detalhes sobre este procedimento podem ser observados em [35]. Para os atributos

de nível de resistência quanto maior o valor do atributo, maior o nível de resistência a

uma droga antirretroviral e, portanto, menor a e�cácia da mesma no tratamento.

Tabela 5.1: Características da base de dados após a extração de atributos.

Grupos de Atributos Quantidade TipoSubtipo 1 Discreto {B,C,F etc.}Mutação 386 BinárioNível de resistência 19 NuméricoTamanho 2 NuméricoSimilaridade 2 Numérico

A partir deste ponto, todas as referências à base de dados estarão considerando a base

obtida após o pré-processamento das sequências de RT e PR (ver Figura 5.1).

5.1.2 Valores Ausentes de Atributos

Como 80 das 1692 instâncias da base de dados não continham a sequência da PR do

vírus, com o pré-processamento das sequências de RT e PR para extração dos atributos,

não foi possível de�nir os valores de todos os atributos listados na Tabela 5.1 para essas

instâncias. Desse modo, após o pré-processamento, 80 instâncias �caram com valores

ausentes para alguns atributos.

Para resolver esse problema adotou-se uma abordagem supervisionada, onde o preen-

chimento dos valores ausentes foi realizado com a média dos valores existentes nas demais

instâncias da base. Para os atributos numéricos utilizou-se a média aritmética obtida e,

para os atributos binários, adotou-se o valor 0 sempre que a média aritmética foi menor

que 0,5 e o valor 1 sempre que a média foi maior ou igual a 0,5.

5.2 Organização dos Experimentos

Como um dos objetivos deste trabalho é investigar quais grupos de atributos extraídos das

sequências de RT e PR geram os melhores resultados na tarefa de predição da resposta

Page 45: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.2 Organização dos Experimentos 34

de um paciente ao tratamento com drogas antirretrovirais, experimentos com quatro téc-

nicas de classi�cação foram realizados com bases de dados contendo diferentes grupos de

atributos.

As bases de dados utilizadas nos experimentos foram geradas juntando-se os atributos

de contagem de células CD4+ (CD4) e carga viral (VL) dos pacientes aos grupos de

atributos extraídos a partir das sequências de RT e PR do vírus (ver Tabela 5.1). Desse

modo, foram criadas 5 bases de dados (uma para cada grupo de atributos listado na

Tabela 5.1 e uma contendo todos os grupos de atributos). Vale ressaltar que o atributo

subtipo do vírus não foi utilizado nas bases geradas pelo fato de quase todas as instâncias

(98,7%) estarem associadas ao subtipo B, o que torna esse atributo pouco relevante para

a tarefa de classi�cação. A Tabela 5.2 apresenta o nome das bases geradas e especi�ca o

conjunto de atributos utilizado em cada uma delas.

Tabela 5.2: Características das bases de dados geradas.

Base AtributosMutBD Mutações encontradas nas sequências de RT e PR + VL + CD4NivBD Níveis de resistência aos antirretrovirais + VL + CD4SimBD Similaridade das sequências de RT e PR + VL + CD4TamBD Tamanho das sequências de RT e PR + VL + CD4CompBD Mutações + Níveis de resistência + Similaridades + Tamanhos + CD4 + VL

Com essas cinco bases de dados geradas é possível avaliar para diferentes classi�cado-

res:

• Qual(is) grupo(s) de atributos proporciona(m) o melhor desempenho dos classi�ca-

dores.

• Se bases que utilizam um único grupo de atributos apresentam melhor desempenho

na classi�cação do que a base completa (CompBD).

A avaliação comparativa das bases de dados foi realizada com quatro técnicas de

classi�cação comumente utilizadas em trabalhos de bioinformática: ADTree [17], Random

Forests [6], Redes Bayesianas [11] e Support Vector Machines [12].

Os experimentos envolvendo as técnicas ADTree, Random Forests, Redes Bayesianass

e Support Vector Machines foram conduzidos utilizando-se os algoritmos ADTree, Ran-

domForest, BayesNet e LibSVM, respectivamente, implementados na ferramenta Weka

(versão 3.6) [20]. Os experimentos foram realizados em uma máquina Intel i5-M450

2.4GHz, 4Gb de memória RAM.

Page 46: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.2 Organização dos Experimentos 35

As execuções desses algoritmos foram realizadas com os seguintes parâmetros. No

caso do ADTree, o parâmetro numOfBoostingIteration, relacionado ao número de itera-

ções de boosting que o algoritmo utiliza na construção da árvore, foi con�gurado com

valores de 1 até 30 e, para o parâmetro searchPath, que diz respeito à estratégia de busca

utilizada na construção da árvore, utilizou-se as estratégias �Expandir todos os caminhos

possíveis na árvore� e �Expandir o melhor caminho utilizando a métrica Z-pure�. Para o

RandomForest, o parâmetro numTrees, que corresponde ao número de árvores utilizadas

na construção do modelo, foi variado de 10 até 500. Para o algoritmo BayesNet a opção

�Estimador Simples� foi escolhida para o parâmetro estimator, que é utilizado no cálculo

das tabelas de probabilidade condicional e, o algoritmo Busca Tabu foi adotado para o

parâmetro searchAlgorithm. Por �m, para o LibSVM, os parâmetros cost e gamma foram

obtidos a partir de uma busca em grid no espaço de possibilidades de valores que esses

dois parâmetros podem assumir. A partir dessa busca foi de�nido o valor 0,031 para o pa-

râmetro gamma e três valores para o parâmetro cost : 8, 16 e 32. Para cada classi�cador,

os resultados dos experimentos apresentados nas seções seguintes sempre são relativos

ao conjunto de parâmetros que obteve a melhor média de resultado. Por exemplo, se o

melhor resultado médio de acurácia para o classi�cador Random Forests foi obtido com

o parâmetro numTrees igual a 100, foram comparados os resultados obtidos por todas as

bases para essa mesma con�guração de parâmetro.

O desempenho dos classi�cadores foi obtido utilizando-se a k-validação cruzada (com

k=10), sendo as partições geradas de modo aleatório. Desse modo, para cada base de

dados, os valores das medidas de desempenho dos classi�cadores correspondem às médias

dos valores obtidos em cada uma das partições. Vale ressaltar que as instâncias que

compõem cada partição são exatamente as mesmas para todas as bases de dados utilizadas

nos experimentos deste trabalho, ou seja, o que muda numa partição de uma base de dados

para outra são apenas os atributos utilizados para caracterizar as instâncias.

Além de avaliar o desempenho dos classi�cadores para a base completa (CompBD) e

para as quatro bases que contêm um único grupo de atributos extraídos das sequências de

RT e PR (MutBD, NivBD, SimBD e TamBD), decidiu-se também realizar experimentos

com bases de dados que foram construídas a partir da aplicação de técnicas de seleção

de atributos na base completa (CompBD). Nesse caso, as bases de dados geradas contêm

atributos pertencentes aos diferentes grupos apresentados na Tabela 5.1.

Dado o desbalanceamento de classes das bases de dados adotadas para a realização

deste trabalho e o fato de a literatura da área já ter demonstrado que esse desbalan-

Page 47: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.3 Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados 36

ceamento pode in�uenciar negativamente o resultado da tarefa de classi�cação [21], foi

realizada uma avaliação do impacto do desbalanceamento de classes das bases no desem-

penho dos classi�cadores.

A apresentação dos resultados dos experimentos conduzidos neste trabalho será feita

da seguinte forma. A avaliação do impacto do desbalanceamento de classes das bases no

desempenho dos classi�cadores é apresentada na Seção 5.3. Em seguida, os resultados

da avaliação comparativa das bases de dados listadas na Tabela 5.2 são apresentados na

Seção 5.4. Por �m, a Seção 5.5 apresenta os resultados dos testes conduzidos com as

bases de dados construídas a partir da aplicação de técnicas de seleção de atributos à

base CompBD.

5.3 Avaliação do Impacto do Desbalanceamento de Clas-

ses das Bases de Dados

Nesta seção serão apresentados os resultados dos experimentos realizados para a ava-

liação do impacto do desbalanceamento das bases de dados no desempenho dos classi�-

cadores.

As bases de dados adotadas para a realização deste trabalho possuem 1140 instân-

cias da classe 0 e 552 instâncias da classe 1. Para a realização dos experimentos, essas

bases de dados foram balanceadas utilizando-se o algoritmo SMOTE (Synthetic Minority

Oversampling Technique)[9]. A avaliação do impacto do desbalanceamento foi realizada

comparando-se os resultados de desempenho dos classi�cadores para as bases de dados

existentes antes e depois do balanceamento.

O algoritmo SMOTE realiza um procedimento na base de dados denominado over-

sampling, que tem como objetivo aumentar o número de instâncias da classe minoritária.

O procedimento de oversampling adotado pelo SMOTE gera instâncias sintéticas a partir

das outras instâncias existentes na base. Para o balanceamento das bases de dados, o

parâmetro de taxa de incremento das instâncias da classe minoritária foi ajustado em

100% e o número de vizinhos utilizados para geração de cada instância foi igual a 5. O

incremento do número de instâncias da classe minoritária em 100% gerou bases de dados

com uma distribuição praticamente igualitária das classes. Essas bases de dados foram

consideradas balanceadas nos experimentos conduzidos neste trabalho.

Page 48: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.3 Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados 37

Vale ressaltar que o balanceamento das bases de dados só foi realizado após a criação

das partições de treinamento e teste. Adotou-se esta abordagem para garantir que apenas

a partição de treinamento seria balanceada e, assim, evitar a existência de instâncias

sintéticas nas partições de teste. Desse modo, as partições de teste continuaram com

a mesma distribuição de classes da base original, ou seja, aproximadamente 67% das

instâncias pertencem a classe 0 e 33% a classe 1.

Os experimentos foram realizados para cada uma das cinco bases descritas na Ta-

bela 5.2 utilizando-se os quatro classi�cadores citados na Seção 5.2. O desempenho dos

classi�cadores foi avaliado em relação ao F-measure obtido por cada uma das classes da

base e pelo F-measure média da mesma.

Os resultados de desempenho dos classi�cadores são apresentados para as bases de

dados desbalanceadas e balanceadas nas Tabelas 5.3, 5.4, 5.5 e 5.6. Essas tabelas estão

divididas em 5 blocos, cada um deles apresentando os resultados do algoritmo de classi-

�cação para a base de dados indicada na primeira coluna da tabela. A segunda coluna

indica a situação da base (balanceada ou desbalanceada). A F-measure para as classes

0 e 1 são apresentados na terceira e quarta colunas, respectivamente. A F-measure mé-

dia (média ponderada pelo número de instâncias pertencentes a cada uma das classes) é

apresentado na quinta coluna. Por �m, a última coluna contém o resultado da diferença

entre a F-measure das classes 0 e 1.

A Tabela 5.3 apresenta os resultados obtidos pelo classi�cador Random Forests. Como

pode ser observado na quinta coluna, as bases balanceadas obtiveram F-measure média

sempre maior ou igual ao das bases desbalanceadas. Outro impacto positivo do balance-

amento das bases foi a redução da diferença entre a F-measure obtida para as classe 0

e 1, o que signi�ca que, para esse classi�cador, o balanceamento ajudou a obtenção de

resultados mais equilibrados entre as duas classes do problema.

Tabela 5.3: Comparação das F-measures para o classi�cador Random Forests

Base Situação F-measure F-measure F-measure Diferença das

Classe 0 Classe 1 médio F-measures

CompBD Desbalanceada 0,82 0,54 0,73 0,28Balanceada 0,81 0,61 0,75 0,21

TamBD Desbalanceada 0,77 0,48 0,68 0,29Balanceada 0,76 0,54 0,69 0,21

NivBD Desbalanceada 0,81 0,53 0,72 0,28Balanceada 0,81 0,59 0,74 0,23

MutBD Desbalanceada 0,81 0,48 0,70 0,33Balanceada 0,78 0,54 0,70 0,24

SimBD Desbalanceada 0,77 0,48 0,68 0,30Balanceada 0,76 0,55 0,70 0,21

Page 49: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.3 Avaliação do Impacto do Desbalanceamento de Classes das Bases de Dados 38

Os resultados dos experimentos para o classi�cador ADTree são apresentados na Ta-

bela 5.4. No caso desse classi�cador, o balanceamento entre as classes resultou em aumento

do F-measure média apenas para a base NivBD. No entanto, assim como observado para

o classi�cador Random Forests, para todas as bases de dados o balanceamento propor-

cionou um aumento da F-measure da classe minoritária (classe 1) e, consequentemente,

contribuiu para uma redução na diferença entre a F-measure das classes 0 e 1.

Tabela 5.4: Comparação das F-measures para o classi�cador ADTree

Base Situação F-measure F-measure F-measure Diferença das

Classe 0 Classe 1 média F-measures

CompBD Desbalanceada 0,81 0,60 0,74 0,21Balanceada 0,77 0,62 0,72 0,15

TamBD Desbalanceada 0,80 0,54 0,72 0,26Balanceada 0,75 0,60 0,70 0,15

NivBD Desbalanceada 0,81 0,57 0,73 0,23Balanceada 0,79 0,63 0,74 0,15

MutBD Desbalanceada 0,79 0,57 0,71 0,22Balanceada 0,72 0,59 0,67 0,12

SimBD Desbalanceada 0,78 0,57 0,71 0,21Balanceada 0,73 0,58 0,68 0,15

A Tabela 5.5 contém os resultados dos experimentos com o classi�cador SVM. Para

esse classi�cador o balanceamento entre as classes resultou no aumento da F-measure

média para as bases CompBD, MutBD e SimBD. Além disso, assim como ocorreu com os

classi�cadores Random Forests e ADTree, o balanceamento das bases proporcionou para

todas elas uma redução na diferença entre a F-measure obtida para as classes 0 e 1.

Tabela 5.5: Comparação das F-measures para o classi�cador SVM

Base Situação F-measure F-measure F-measure Diferença da

Classe 0 Classe 1 média F-measures

CompBD Desbalanceada 0,81 0,48 0,70 0,33Balanceada 0,77 0,59 0,71 0,18

TamBD Desbalanceada 0,82 0,45 0,70 0,37Balanceada 0,73 0,59 0,69 0,14

NivBD Desbalanceada 0,82 0,58 0,74 0,24Balanceada 0,78 0,64 0,74 0,15

MutBD Desbalanceada 0,80 0,41 0,67 0,39Balanceada 0,76 0,58 0,70 0,18

SimBD Desbalanceada 0,74 0,37 0,62 0,37Balanceada 0,73 0,57 0,68 0,16

Os resultados dos experimentos para o classi�cador Redes Bayesianas são mostrados

na Tabela 5.6. Para esse classi�cador o comportamento dos resultados foi um pouco

diferente daqueles obtidos para os demais classi�cadores. O balanceamento das bases de

dados resultou em um aumento da F-measure para a classe minoritária (classe 1) apenas

para as bases TamBD e SimBD. Isso contribuiu para que a F-measure médio das bases

Page 50: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.4 Avaliação Comparativa das Bases 39

balanceadas �casse menor do que os obtidos para as bases desbalanceadas na maioria dos

casos. Ainda assim, para as bases TamBD, MutBD e SimBD, o balanceamento entre as

classes resultou numa redução da diferença entre a F-measure obtida para as classes 0 e

1.

Tabela 5.6: Comparação das F-measures para o classi�cador Redes Bayesianas

Base Situação F-measure F-measure F-measure Diferença das

Classe 0 Classe 1 média F-measures

CompBD Desbalanceada 0,75 0,62 0,71 0,13Balanceada 0,74 0,59 0,69 0,15

TamBD Desbalanceada 0,80 0,52 0,71 0,28Balanceada 0,74 0,56 0,68 0,18

NivBD Desbalanceada 0,74 0,62 0,70 0,12Balanceada 0,76 0,62 0,71 0,14

MutBD Desbalanceada 0,77 0,59 0,71 0,18Balanceada 0,74 0,58 0,69 0,16

SimBD Desbalanceada 0,77 0,47 0,67 0,30Balanceada 0,71 0,59 0,67 0,12

Sumarizando os resultados, num total de 20 execuções (cada uma das 5 bases foi

testada em 4 classi�cadores), o balanceamento das bases proporcionou um aumento na

F-measure média em 9 casos e uma redução em 8 casos. Segundo essa medida, os classi�-

cadores Random Forests e SVM foram os que mais se bene�ciaram com o balanceamento

das bases. Portanto, observou-se que a existência de uma in�uência positiva do balan-

ceamento de classes no resultado da F-measure média obtido para cada base depende

fortemente do classi�cador utilizado.

No entanto, para essas 20 execuções, o balanceamento das bases proporcionou a redu-

ção da diferença do F-measure entre as classes majoritária e minoritária em 18 casos. Isso

signi�ca que o balanceamento contribuiu para a obtenção de resultados mais equilibrados

entre as duas classes do problema. Por esse motivo, todos os experimentos descritos a

partir desta seção foram realizados com as bases de dados balanceadas.

5.4 Avaliação Comparativa das Bases

Nesta seção serão apresentados os resultados da avaliação comparativa das bases de dados

listadas na Tabela 5.2. Os experimentos foram realizados utilizando-se as quatro técnicas

de classi�cação mencionadas na Seção 5.2. As comparações de desempenho dos classi�-

cadores para as bases de dados avaliadas neste trabalho foram realizadas a partir de duas

medidas: acurácia e F-measure.

Page 51: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.4 Avaliação Comparativa das Bases 40

Os resultados da análise comparativa serão apresentados por medida de desempe-

nho. Desse modo, para cada medida de desempenho considerada, serão apresentados os

resultados obtidos pelos classi�cadores para as bases de dados avaliadas.

Como os resultados dos experimentos realizados com as diferentes bases de dados

correspondem a médias aritméticas calculadas a partir dos valores obtidos em cada uma

das dez partições geradas pelo procedimento de validação cruzada, visando identi�car se

existem médias signi�cativamente diferentes, utilizou-se um teste estatístico denominado

Análise de Variância (ANOVA). A partir do resultado desse teste, se con�rmado que pelo

menos uma média é diferente das demais, o método Tukey's Honestly Signi�cant Di�e-

rence (HSD) foi utilizado para determinar quais são as bases que apresentam resultados

signi�cativamente diferentes de outras.

5.4.1 Acurácia

Os resultados médios de acurácia obtidos por cada classi�cador para as diferentes bases

de dados são apresentados nos grá�cos da Figura 5.2.

Como pode ser observado na Figura 5.2, as duas melhores médias de acurácia para

cada classi�cador foram obtidas com as bases CompBD e NivBD, exceto para o classi�ca-

dor Redes Bayesianass, onde o melhor resultado foi obtido com a base NivBD e o segundo

melhor resultado com a base MutBD.

Contudo, uma vez que os resultados apresentados correspondem às médias das acu-

rácias obtidas para cada uma das 10 partições das bases, o teste estatístico ANOVA

foi aplicado para veri�car, para cada classi�cador, se existem médias signi�cativamente

diferentes.

A Tabela 5.7 apresenta o resultado do teste estatístico para cada um dos métodos

utilizados. A primeira coluna indica o classi�cador utilizado, a segunda contém o valor do

teste F, que é calculado como a razão entre as variâncias observadas entre as médias dos

resultado e a média das variâncias de cada teste. A última coluna indica o p-value obtido

e qual é o nível de con�ança obtido para a análise de variância. O nível de con�ança é

indicado pelos símbolos a) *** - indicando 99,9% de con�ança, b) ** 99% de con�ança,

c) * - 95% de con�ança e d) # - 90% de con�ança. A ausência de símbolos indica que

para aquele conjunto de resultados não há diferença estatisticamente signi�cativa entre

as médias dos resultados.

Os resultados do teste estatístico mostram que existem acurácias médias signi�cati-

Page 52: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.4 Avaliação Comparativa das Bases 41

Figura 5.2: Médias de acurácia para os classi�cadores

vamente diferentes entre pelo menos duas bases a um nível de con�ança de 99,9% para

os classi�cadores Random Forests e ADTree, a 95% para o SVM e a 90% para o Redes

Bayesianas.

Para veri�car entre quais bases existe diferença com signi�cância estatística o teste

Tukey's HSD foi utilizado. A Figura 5.3 contém os resultados obtidos para o teste Tukey's

HSD. Nessa �gura, um quadro é apresentado para cada classi�cador, onde a primeira

linha e a primeira coluna de cada quadro contêm os nomes das bases de dados. Desse

modo, o resultado contido em cada interseção de uma linha com uma coluna de um

quadro indica se as bases relacionadas com a respectivas linha e coluna dessa interseção

Tabela 5.7: Testes ANOVA para os resultados de acuráciaF value Pr(>F)

ADTree 13.218 3.361e-07 ***Random Forests 6.8859 0.0002058 ***Redes Bayesianas 2.2084 0.08317 #SVM 3.6198 0.01217 *

Page 53: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.4 Avaliação Comparativa das Bases 42

apresentam resultados signi�cativamente diferentes (codi�cado como V � verdadeiro) ou

não (codi�cado como F � falso).

ADTree RandomForest

TamBD NivBD MutBD SimBD TamBD NivBD MutBD SimBDCompBD V F V V CompBD V F V VTamBD V F F TamBD V F FNivBD V V NivBD F VMutBD F MutBD F

SVM

TamBD NivBD MutBD SimBDCompBD F F F FTamBD F F FNivBD F VMutBD F

Figura 5.3: Teste Tukey's HSD para os dados de acurácia a 95% de con�abilidade

Vale observar que o teste Tukey's HSD foi realizado apenas para os classi�cadores em

que a análise de variância indicou a existência de médias signi�cativamente diferentes com

um nível de con�ança maior ou igual a 95%. Como a análise de variância para o Redes

Bayesianass detectou diferença entre os resultados das bases com nível de con�ança de

90%, o teste Tukey's HSD não foi realizado para os resultados desse classi�cador.

Para o classi�cador ADTree, os resultados apresentados na Figura 5.3 mostram que,

com um nível de con�ança de 95%, os resultados obtidos para as bases CompBD e NivBD

são estatisticamente iguais entre si. Por outro lado, essas duas bases apresentam resultados

estatisticamente diferentes aos das demais bases de dados avaliadas. Para o classi�cador

Random Forests o resultado obtido com a base CompBD foi o mesmo observado para

o classi�cador ADTree, ou seja, ela apresenta resultado estatisticamente diferente aos

das demais bases de dados. Já para a base NivBD, o seu resultado foi estatisticamente

diferente ao das bases SimBD e TamBD. Por �m, para o classi�cador SVM, o teste Tukey's

HSD detectou diferença com signi�cância estatística somente entre os resultados obtidos

com as bases NivBD e SimBD.

Realizando-se uma análise conjunta dos resultados apresentados na Figura 5.3 e nos

grá�cos da Figura 5.2 observa-se que a base CompBD apresentou resultados de acurácia

preditiva iguais ao da base NivBD e superiores ao das bases MutBD, TamBD e SimBD

em metade dos classi�cadores. Já a base NivBD obteve resultados superiores ao das bases

MutBD, TamBD e SimBD para o classi�cador ADTree e superiores aos das bases TamBD

e SimBD para o classi�cador Random Forests. Além disso, para o classi�cador SVM, a

base NivBD obteve acurácia superior ao da base SimBD.

Page 54: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.4 Avaliação Comparativa das Bases 43

5.4.2 F-measure

Os resultados médios de F-measure obtidos por cada classi�cador para as diferentes bases

de dados são apresentados nos grá�cos da Figura 5.4. Esses resultados foram semelhantes

àqueles obtidos para a medida de acurácia, ou seja, as bases CompBD e NivBD sempre

obtiveram os dois maiores valores de F-measure em cada classi�cador, exceto para o Redes

Bayesianass, quando o segundo maior valor foi alcançado pela base MutBD.

Figura 5.4: Médias de F-Measure para os classi�cadores

Assim como na análise dos resultados de acurácia, o teste estatístico ANOVA foi

aplicado para veri�car, para cada classi�cador, se existem valores médios de F-measure

signi�cativamente diferentes entre as bases. A Tabela 5.8 apresenta o resultado do teste

estatístico para cada classi�cador utilizado. Relembrando os códigos de nível de con�ança

utilizados na tabela 5.8, o nível de con�ança é indicado pelos símbolos a) *** - 99,9% de

con�ança, b) ** 99% de con�ança, c) * - 95% de con�ança e d) # - 90% de signi�cância.

A ausência de símbolos indica que para aquele conjunto de resultados não há diferença

estatisticamente signi�cativa entre as médias dos resultados.

Os resultados da análise de variância mostram que existem valores de F-measure

Page 55: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.4 Avaliação Comparativa das Bases 44

Tabela 5.8: Teste ANOVA os resultados de F-measureF value Pr(>F)

ADTree 12.152 8.833e-07 ***Random Forests 5.2754 0.001430 **Redes Bayesianas 2.047 0.1038SVM 5.3941 0.001234 **

médios signi�cativamente diferentes entre pelo menos duas bases a um nível de con�ança

de 99,9% para o classi�cador ADTree e a 99% para o Random Forests e SVM. Já para

o classi�cador Redes Bayesianass, o teste de análise de variância não detectou nenhuma

diferença com signi�cância estatística entre os valores de F-measure média obtidos para

as bases testadas.

A Figura 5.5 apresenta os resultados do teste Tukey's HSD para todos os classi�cadores

em que o teste estatístico ANOVA detectou a existência de resultados signi�cativamente

diferentes com um nível de con�ança maior ou igual a 95%. O resultado contido em cada

interseção de uma linha com uma coluna indica se as bases relacionadas com as respec-

tivas linha e coluna dessa interseção apresentam resultados signi�cativamente diferentes

(codi�cado como V � verdadeiro) ou não (codi�cado como F � falso).

ADTree Random Forests

TamBD NivBD MutBD SimBD TamBD NivBD MutBD SimBDCompBD V F V V CompBD V F V VTamBD V F F TamBD F F FNivBD V V NivBD F FMutBD F MutBD F

SVM

TamBD NivBD MutBD SimBDCompBD F F F VTamBD F F FNivBD F VMutBD F

Figura 5.5: Teste Tukey's HSD para os dados de F-measure a 95% de con�abilidade

Para o classi�cador ADTree, os resultados do teste Tukey's HSD foram iguais àque-

les obtidos para a medida de acurácia neste mesmo classi�cador, ou seja, com um nível

de con�ança de 95%, pode-se a�rmar que os F-measures médios obtidos para as bases

CompBD e NivBD são estatisticamente iguais entre si, mas diferentes daqueles alcançados

pelas demais bases de dados. Para o classi�cador SVM, o teste Tukey's HSD detectou di-

ferença de resultados com signi�cância estatística somente entre a base SimBD e as bases

NivBD e CompBD. Por �m, para o Random Forests, somente a base CompBD apresen-

tou resultado estatisticamente diferente daqueles obtidos pelas bases MutBD, TamBD e

SimBD.

Page 56: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.5 Análise das Bases Após a Seleção de Atributos 45

Realizando-se uma análise conjunta dos resultados apresentados na Figura 5.5 e nos

grá�cos da Figura 5.4, observa-se que, para dois classi�cadores, a base CompBD apresen-

tou resultados de F-measure média superiores ao das bases MutBD, TamBD e SimBD.

A base NivBD por sua vez obteve resultados superiores ao das bases MutBD, TamBD e

SimBD para o classi�cador ADTree.

Analisando os resultados obtidos pode-se observar que as melhores médias de acurá-

cia e F-measure foram obtidas pelas bases CompBD e NivBD. A partir dos resultados

da médias e dos testes de signi�cância estatística é possível a�rmar, com um nível de

signi�cância maior ou igual a 95%, que para o classi�cador ADTree os resultados das

bases CompBD e NivBD são melhores que os demais resultados. Para o classi�cador

Random Forests este mesmo comportamento é observado para a base CompBD. Por �m,

para o classi�cador SVM somente foi detectada diferença com um nível de signi�cância

estatística maior ou igual a 95% entre os resultados da base NivBD e SimBD.

A partir desses resultados pode-se concluir que as bases CompBD e NivBD fornecem

os melhores desempenhos de classi�cação.

5.5 Análise das Bases Após a Seleção de Atributos

Na seção anterior experimentos foram realizados com o objetivo de se investigar para

qual(is) base(s) de dados os classi�cadores apresentariam o melhor desempenho. No

entanto, as cinco bases utilizadas até o momento (ver Tabela 5.2) contém apenas um

único grupo de atributos extraído das sequências de RT e PR (MutBD, NivBD, SimBD

e TamBD) ou são formadas por todos os grupos de atributos extraídos das sequências

(CompBD). Portanto, visando avaliar também bases de dados contendo subconjuntos de

atributos pertencentes aos diferentes grupos apresentados na Tabela 5.1, decidiu-se rea-

lizar experimentos com bases de dados que foram construídas a partir da aplicação de

técnicas de seleção de atributos na base completa (CompBD). Nesta seção serão apresen-

tados os resultados dos experimentos conduzidos com essas novas bases.

Para a geração das novas bases foram utilizadas as técnicas de seleção de atributos

Correlation-based Feature Selection [19] e Consistency-based Feature Selection [25], imple-

mentadas na ferramenta Weka pelos algoritmos ConsistencySubsetEval e CFSSubSetEval,

respectivamente. Ambos os algoritmos utilizaram os parâmetros padrões da ferramenta

Weka. A partir da técnica Correlation-based Feature Selection gerou-se a base CfsBD

e, a partir da técnica Consistency-based Feature Selection, gerou-se a base ConsBD. As

Page 57: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.5 Análise das Bases Após a Seleção de Atributos 46

características de cada base podem ser observadas nas Tabelas 5.9 e 5.10.

Tabela 5.9: Características da base CfsBD.Grupos de Atributos Quantidade % em relação

ao tamanho da baseAtributos de mutação 29 90,6%Atributos de Nível de resistência 1 3,1%Atributos de Tamanho 1 3,1%Atributos de similaridade 0 0%Outros (VL) 1 3,1%Total de Atributos Selecionados 32 -

Tabela 5.10: Características da base ConsBD.Grupos de Atributo Quantidade % em relação

ao tamanho da baseAtributos de mutação 36 75%Atributos de Nível de resistência 7 14,6%Atributos de Tamanho 1 2,08%Atributos de Similaridade 2 4,16%Outros (CD4, VL) 2 4,16%Total de Atributos Selecionados 48 -

Através das Tabelas 5.9 e 5.10 pode-se observar que, para as duas bases geradas, a

maioria dos atributos selecionados correspondem a atributos de mutação. Contudo, a base

gerada a partir do algoritmo ConsistencySubsetEval é mais heterogênea, com relação aos

tipos de atributos que a compõe, do que a base CfsBD.

Assim como na seção anterior, os resultados de desempenho dos classi�cadores para as

bases ConsBD e CfsBD foram avaliados utilizando-se a medida de acurácia e F-measure.

Para simpli�car a análise dos resultados os testes foram realizados apenas com os dois

classi�cadores que tiveram o melhor desempenho nos experimentos descritos na Seção 5.4,

a saber, ADTree e Random Forests. Além disso, a análise comparativa dos resultados

para as bases ConsBD e CfsBD foi realizada apenas com as duas bases que obtiveram os

melhores resultados nos demais testes realizados até o momento (CompBD e NivBD).

5.5.1 Acurácia

A Figura 5.6 apresenta os resultados de acurácia média obtidos pelas bases para cada um

dos classi�cadores.

A partir da Figura 5.6, que apresenta os resultados obtidos para o classi�cador AD-

Tree, pode-se observar que ambas as bases ConsBD e CfsBD apresentam acurácia média

Page 58: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.5 Análise das Bases Após a Seleção de Atributos 47

Figura 5.6: Resultados de acurácia média para os testes com seleção de atributos

superior àquelas obtidas pelas demais bases. Já os resultados obtidos com o classi�cador

Random Forests, mostram que apenas a base ConsBD apresentou resultados superiores

aos das bases CompBD e NivBD.

Como os resultados apresentados na Figura 5.6 correspondem a médias de acurácias

obtidas para 10 partições das bases, o teste estatístico ANOVA foi aplicado para veri�car,

para cada classi�cador, se existem médias signi�cativamente diferentes. Os resultados do

teste ANOVA podem ser vistos na Tabela 5.11. Esses resultados mostram que existem

acurácias médias signi�cativamente diferentes entre pelo menos duas bases, a um nível de

con�ança de 99,9%, entre os resultados do classi�cador Random Forests.

Tabela 5.11: ANOVA para o conjunto de resultados de acurácia nos testes de seleção deatributos

F value Pr(>F)ADTree 2.4332 0.08079 #Random Forests 7.7532 0.000404 ***

Para identi�car entre os resultados de quais bases se encontram as diferenças detecta-

das pelo teste ANOVA, foi aplicado o teste Tukey's HSD, cujos resultados são apresentados

na Figura 5.7.

Analisando os resultados do teste Tukey's HSD (a 95% de con�abilidade) apresenta-

dos na Figura 5.7 juntamente com as acurácias médias apresentadas nos grá�cos da Fi-

gura 5.6, pode-se concluir que, apesar de pelo menos uma dentre as bases CfsBD e ConsBD

apresentar acurácia média superior àquelas obtidas pelas bases CompBD e NivBD, esses

resultados não são signi�cativamente diferentes.

Page 59: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.5 Análise das Bases Após a Seleção de Atributos 48

Random Forests

NivBD ConsBD CfsBDCompBD F F VNivBD F FConsBD V

Figura 5.7: Teste Tukey's HSD para os dados de acurácia a 95% de con�abilidade, testesde seleção de atributos

5.5.2 F-measure

A Figura 5.8 apresenta os resultados médios de F-measure obtidos por cada classi�cador

para cada uma das bases avaliadas. Os resultados médios de F-measure foram semelhantes

aos resultados de acurácia, ou seja, para o classi�cador ADTree o melhor resultado foi

obtido para a base CfsBD e, para o Random Forests, o melhor resultado foi alcançado

pela base ConsBD.

Figura 5.8: Resultados de F-measure média para os testes com seleção de atributos

Novamente, para veri�car se existe diferença estatística entre os resultados obtidos

pelas bases, o teste estatístico ANOVA foi utilizado. Os resultados desse teste, mostrados

na Tabela 5.12, mostram que existem resultados de F-measure médios signi�cativamente

diferentes entre pelo menos duas bases, a um nível de con�ança de 99,9%, entre os resul-

tados do classi�cador Random Forests.

Visando identi�car para quais bases os resultados apresentam as diferenças detectadas

pelo teste ANOVA, utilizou-se o teste Tukey's HSD, cujos resultados encontram-se na

Figura 5.9.

Com os resultados obtidos no teste Tukey's HSD para um nível de con�ança de 95%,

Page 60: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.5 Análise das Bases Após a Seleção de Atributos 49

Tabela 5.12: ANOVA para o conjunto de resultados de F-measure nos testes de seleçãode atributos

F value Pr(>F)ADTree 2.6826 0.06123 #Random Forests 6.7624 0.0009828 ***

Random Forests

NivBD ConsBD CfsBDCompBD F F VNivBD F FConsBD V

Figura 5.9: Teste Tukey's HSD para os resultados de F-measure a 95% de con�abilidade,testes de seleção de atributos

chega-se à mesma conclusão obtida para os resultados de acurácia, ou seja, apesar de pelo

menos uma dentre as bases CfsBD e ConsBD apresentar F-measure média superior ao

das bases CompBD e NivBD para os classi�cadores utilizados, essa diferença não possui

signi�cância estatística.

5.5.3 Análise dos Resultados da Base CfsBD

Enquanto os resultados de acurácia e F-measure para a base ConsBD são semelhantes para

os dois classi�cadores utilizados nessa análise, o mesmo não ocorre para a base CfsBD.

Por isso, o objetivo desta seção é apresentar as razões para essa discrepância.

Apesar de obter as melhores médias de acurácia e F-measure para o algoritmo ADTree,

no algoritmo Random Forests, os resultados obtidos pela base CfsBD são os piores resul-

tados para esse classi�cador. Observando-se os atributos da base CfsBD, veri�ca-se que a

maior parte dessa base é formada por atributos de mutação. Desse modo, esperava-se que

os resultados obtidos para essa base com o classi�cador ADTree fossem semelhantes àque-

les alcançados pela base MutBD nesse mesmo classi�cador. No entanto, isso não ocorre.

Enquanto a base MutBD esteve sempre entre as bases com os piores desempenhos para o

ADTree, a base CfsBD alcançou os melhores resultados médios de acurácia e F-measure

obtidos até o momento. Esse fato levanta um questionamento sobre a in�uência dos atri-

butos de mutação da base CfsBD no resultado obtido pelo classi�cador ADTree. Para

responder a esse questionamento, uma análise será realizada na árvore de decisão gerada

pelo algoritmo ADTree para a base CfsBD. A Figura 5.10 apresenta a árvore gerada pelo

ADTree.

Page 61: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

5.5 Análise das Bases Após a Seleção de Atributos 50

Figura 5.10: ADTree gerada para a base CfsBD

Na árvore de decisão apresentada na Figura 5.10 pode-se notar que, apesar de a base

CfsBD conter 29 atributos de mutação, apenas um desses atributos (A98G) apareceu na

árvore de decisão gerada. Os outros atributos que aparecem no modelo construído são: a

carga viral (VL) do paciente, o tamanho da sequência de RT (TamRT) e o único atributo

de nível de resistência que existe nessa base (NFV � quanti�ca a resistência de um paciente

à droga Nefravir). Essa observação indica que o bom desempenho do classi�cador ADTree

para essa base não está relacionado com os atributos de mutação, mas sim com os demais

atributos presentes na mesma.

Já para o classi�cador Random Forests, assim como se esperava, a base CfsBD teve

um desempenho semelhante àquele obtido com a base MutBD. Isso se deve ao fato de

o classi�cador Random Forest realizar de modo aleatório a escolha dos atributos que

participam de cada um dos nós das árvores geradas para a composição do modelo de

classi�cação. Sendo assim, como mais de 90% da base CfsBD é formada por atributos

de mutação, certamente a maioria dos atributos selecionados para composição do modelo

de classi�cação serão de mutação, o que explica a semelhança entre os resultados obtidos

para essa base e aqueles alcançados pela base MutBD.

Page 62: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

Capítulo 6

Conclusões

Atualmente a pandemia de HIV é um dos maiores problemas de saúde pública no mundo.

Devido à sua gravidade e proporção, a busca por soluções para o tratamento dessa do-

ença tem envolvido pesquisadores de diferentes áreas conhecimento, tais como biologia,

medicina e bioinformática. Embora o último relatório da UNAIDS sugira que a porcenta-

gem global de pessoas infectadas permaneça estabilizada, é crescente a preocupação com

o surgimento de fenótipos virais resistentes às drogas antirretrovirais e, principalmente,

com a transmissão de linhagens de vírus resistentes a pacientes recém infectados. Teme-se

que esses problemas possam levar o tratamento dessa doença a uma situação onde não

haverá drogas efetivas no combate à infecção [48].

A Terapia Antirretroviral Altamente Ativa foi um grande avanço no combate à infec-

ção, amenizando o problema do surgimento de fenótipos virais resistentes ou, pelo menos,

retardando o surgimento de linhagens de vírus resistentes. A escolha de drogas adequadas

para compor o tratamento de um paciente exerce um papel chave no sucesso do mesmo

e, por isso, deve ser feita observando-se as características da infecção de cada paciente.

Em [43] foi demonstrado que os pacientes, cujos médicos têm acesso aos dados de resistên-

cia do seu vírus às drogas, respondem melhor à terapia do que os pacientes cujos médicos

não tem acesso a esses dados.

Uma das di�culdades no processo de escolha de tratamentos antirretrovirais está no

fato de não se saber como um paciente responderá ao tratamento escolhido. Portanto,

ter uma maneira de predizer essa resposta de modo automático e com precisão é de

fundamental importância para a obtenção de sucesso nesse tipo de tratamento. Por

isso, o problema de predizer a resposta de um paciente a um tratamento com drogas

antirretrovirais tem sido abordado por alguns trabalhos de bioinformática relatados na

literatura. De forma geral, estes trabalhos utilizam técnicas de mineração de dados para

Page 63: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

6 Conclusões 52

a construção de ferramentas computacionais para a predição da resposta de pacientes

ao tratamento com antirretrovirais. Essas ferramentas utilizam tais resultados como base

para indicar conjuntos de drogas antirretrovirais que tenham maior probabilidade de obter

sucesso no tratamento de um paciente.

Apesar da existência de trabalhos que abordam o problema de predição da resposta

de pacientes ao tratamento com drogas antirretrovirais, ainda existem poucas fontes na

literatura que abordem a questão da importância de cada tipo de atributo para o resultado

dessa predição.

Desse modo, este trabalho discutiu e analisou a importância de diferentes tipos de

atributos no problema de predição de resposta de pacientes ao tratamento com drogas

antirretrovirais. Como um primeiro passo para abordar essa questão, a partir de uma base

de dados utilizada numa competição de bioinformática, foram extraídos cinco tipos de

atributos diferentes das sequências de PR e RT do vírus contraído por cada paciente. Dos

cinco tipos de atributos extraídos das sequências de PR e RT, quatro foram selecionados

para compor as bases de dados utilizadas nos experimentos realizados neste trabalho (ver

Tabela 5.1). Os quatro tipos de atributos utilizados referem-se às mutações presentes

nas sequências de PR e RT do vírus de cada paciente, ao nível de resistências às drogas

antirretrovirais, ao tamanho das sequências de PR e RT e à similaridade das sequências

de PR e RT com uma sequência de consenso. Além dessas bases, foi gerada uma quinta

base reunindo todos os atributos das demais. Para cada uma das bases de dados gerada

foram avaliadas as medidas de acurácia e F-measure obtidas em cada um dos quatro

classi�cadores utilizados nos experimentos computacionais.

Uma vez que as bases de dados geradas eram desbalanceadas, os primeiros experimen-

tos realizados buscaram avaliar o impacto desse desbalanceamento de classes no resultado

�nal da predição. De acordo resultados apresentados na Seção 5.3 é possível concluir que

o balanceamento das bases de dados proporcionou resultados mais equilibrados entre as

duas classes do problema para a grande a maioria dos testes realizados. Por este mo-

tivo, todos os demais experimentos realizados neste trabalho utilizaram as bases de dados

balanceadas.

Os resultados advindos da avaliação comparativa entre as bases (Seção 5.4) mostra-

ram que as maiores médias de acurácia e F-measure foram obtidas pelas bases CompBD

e NivBD para todos os classi�cadores. No entanto, após a análise desses resultados

em conjunto com os testes de signi�cância estatística aplicados, é possível a�rmar que,

para o classi�cador Alternating Decicion Tree os resultados das bases CompBD e NivBD

Page 64: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

6 Conclusões 53

são superiores aos resultados obtidos pelas demais bases. Essa conclusão se repete para

os resultados obtidos pelo classi�cador Random Forests para a base CompBD. Para o

classi�cador SVM a base NivBD obteve as melhores médias tanto de acurácia quanto

de F-measure, contudo, apresentou diferença estatisticamente signi�cativa somente com

relação aos resultados da base SimBD.

Os resultados da avaliação comparativa entre as bases mostram que, quando avaliados

individualmente, os melhores atributos para a predição da resposta de pacientes às drogas

antirretrovirais são os atributos de nível de resistência (representados na base NivBD). A

base CompBD também apresentou bons resultados de acurácia e F-measure, indicando

que adicionar outros conjuntos de atributos também pode contribuir para melhorar o

poder preditivo dos classi�cadores utilizados na tarefa de predição em questão.

Além dos testes realizados com as bases de dados citadas na Figura 5.1, foram ge-

radas duas novas bases de dados através da aplicação das técnicas de seleção de atri-

butos Correlation-based Feature Selection e Consistency-based Feature Selection na base

CompBD. A aplicação dessas técnicas de seleção de atributos gerou, respectivamente, as

bases CfsBD e ConsBD. A partir dessas duas bases de dados foi possível avaliar: a) Quais

foram os atributos considerados relevantes e, dessa maneira, selecionados pelas diferentes

técnicas de seleção para compor as novas bases, b) Se os atributos de nível de resistência,

que já haviam demonstrado serem bons preditores quanto à resposta de um paciente ao

tratamento, foram selecionados e, c) Se após a seleção de atributos, as bases geradas

melhoraram os resultados de acurácia e F-measure obtidos antes da seleção.

Algumas respostas para as avaliações mencionadas anteriormente foram obtidas a

partir da observação das características das bases geradas por cada uma das técnicas de

seleção de atributos (Figuras 5.9 e 5.10), das quais vale destacar: i)As duas bases foram

formadas majoritariamente por atributos de mutação, ii) o atributo VL, que indica a

carga viral de um paciente no início do tratamento, e o atributo que fornece o tamanho

da sequência de RT, foram selecionados para compor as duas bases, iii) somente a técnica

Consistency-based Feature Selection selecionou um número considerável de atributos de

nível de resistência.

Nos testes realizados na Seção 5.5 foi possível veri�car que a base ConsBD (que

possui um conjunto mais diversi�cado de atributos em relação a base CfsBD) alcançou

bons resultados de predição para os dois classi�cadores utilizados. Ainda para estes

testes, veri�cou-se que os atributos de nível de resistência, tamanho da sequência da

RT e a carga viral, exercem grande in�uência nos resultados obtidos pelo classi�cador

Page 65: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

6 Conclusões 54

Alternating Decision Tree para a base CfsBD. Apesar de serem os maiores resultados

médios de acurácia e F-measure, os resultados obtidos pelas bases ConsBD e CfsBD

(para o classi�cador Alternating Decicion Tree) não foram signi�cativamente diferentes

dos resultados alcançados pelas bases CompBD e NivBD.

Por �m, analisando os resultados obtidos por todos os experimentos realizados, nota-

se que, dentre os grupos de atributos avaliados individualmente, o de nível de resistência

apresentou os melhores resultados na tarefa de predição de resposta de pacientes às drogas

antirretrovirais. As bases CompBD e ConsBD também apresentaram bons resultados de

classi�cação nos testes realizados, demonstrando que é interessante utilizar bases de dados

que possuam um conjunto diversi�cado de atributos. Além disso, apesar de não terem

sido realizados testes de signi�cância estatística que comprovem as diferenças entre os

resultados obtidos para os diferentes classi�cadores utilizados neste trabalho, na média,

os melhores valores de acurácia e F-measure foram obtidos pelos classi�cadores Random

Forests e Alternating Decision Tree. Vale ressaltar também que uma importante contri-

buição deste trabalho foi a avaliação dos atributos de similaridade das sequências de PR

e RT com uma sequência de consenso e dos atributos de tamanho dessas sequências, uma

vez que nenhum dos trabalhos encontrados na literatura utilizaram esses atributos.

Os resultados apresentados em [52] fornecem indícios de que motivos lineares exercem

uma in�uência positiva no desempenho da tarefa de predição de resposta de pacientes ao

tratamento com antirretrovirais. Desse modo, como trabalho futuro, sugere-se a avalia-

ção da importância desse tipo de atributo juntamente com todos aqueles avaliados neste

trabalho.

Ainda como trabalhos futuros, avaliações incluindo atributos advindos de outros tipos

de dados não utilizados neste trabalho, como por exemplo o histórico de tratamento de

um paciente, podem ser realizadas.

Page 66: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

55

APÊNDICE A -- Exemplo de XML Retornado pelo

Web Service Sierra

<?xml version=" 1 .0 " standalone="yes "?>

<?xml−s t y l e s h e e ttype=" text / x s l " h r e f=" ht tp : // hivdb6 . s t an fo rd . edu/ a s i / deployed / x s l /hivTransform . x s l "?>

<Stanford_Algor i thm_Interpretat ion>

<algor i thmVers ion>6 . 0 . 9F</ algor i thmVers ion>

<webServ iceVers ion>beta −1.0 .1</webServ iceVers ion>

<succ e s s>

<sequence md5sum="d91c88fdba198a56ae987d7a43833101">

CCCATTAGTCCTATTGAAACTGTAC. . .

</ sequence>

<summary>

<PR>

<present>true</ pre sent>

<consensus>PQITLWQRPLVTIKIGGQLK . . .</ consensus>

<alignedNASequence>CCTCAAATCACTCTT. . .</alignedNASequence>

<alignedAASequence>PQITLWQRPVVTVKV. . .</alignedAASequence>

<f i r s tAA>1</ f i r s tAA>

<lastAA>99</lastAA>

<subtype type="B" pe r c en tS im i l a r i t y=" 92 .6 "/>

</PR>

<RT>

<present>true</ pre sent>

<consensus>PISPIETVPVKLKPGMDGPKVKQW. . .</ consensus>

<alignedNASequence>CCCATTAGTCCTATTGAA. . .</alignedNASequence>

<alignedAASequence>PISPIETVPVKLKPGMDG . . .</alignedAASequence>

<f i r s tAA>1</ f i r s tAA>

<lastAA>301</lastAA>

<subtype type="B" pe r c en tS im i l a r i t y=" 95 .3 "/>

</RT>

<IN>

<present>f a l s e</ pre sent>

</IN>

</summary>

<PR_mutations>

<mutation c l a s s i f i c a t i o n="PI_MINOR">L10IV</mutation>

<mutation c l a s s i f i c a t i o n="OTHER">I13V</mutation>

<mutation c l a s s i f i c a t i o n="PI_MAJOR">V32I</mutation>

Page 67: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

Apêndice A -- Exemplo de XML Retornado pelo Web Service Sierra 56

</PR_mutations>

<RT_mutations>

<mutation c l a s s i f i c a t i o n="NRTI">M41L</mutation>

<mutation c l a s s i f i c a t i o n="NRTI">L74I</mutation>

<mutation c l a s s i f i c a t i o n="NNRTI">K103KN</mutation>

</RT_mutations>

<drugScores>

<drug code="3TC" genericName=" lamivudine " type="NRTI" s co r e=" 77 .0 "

l e v e l S t an f o r d="5" l eve lS IR="R" >

<pa r t i a l S c o r e mutation="M41L" s co r e=" 4 .0 "/>

<pa r t i a l S c o r e mutation="V118I" s co r e=" 5 .0 "/>

<pa r t i a l S c o r e mutation="M184V" sco r e=" 60 .0 "/>

<pa r t i a l S c o r e mutation="L210W" sco r e=" 4 .0 "/>

<pa r t i a l S c o r e mutation="T215Y" sco r e=" 4 .0 "/>

</drug>

<drug code="ABC" genericName=" abacav i r " type="NRTI" s co r e=" 98 .0 "

l e v e l S t an f o r d="5" l eve lS IR="R" >

<pa r t i a l S c o r e mutation="M41L" s co r e=" 12 .0 "/>

<pa r t i a l S c o r e mutation="L74I" s co r e=" 20 .0 "/>

<pa r t i a l S c o r e mutation="V118I" s co r e=" 2 .0 "/>

<pa r t i a l S c o r e mutation="M184V" sco r e=" 12 .0 "/>

<pa r t i a l S c o r e mutation="L210W" sco r e=" 12 .0 "/>

<pa r t i a l S c o r e mutation="T215Y" sco r e=" 20 .0 "/>

<pa r t i a l S c o r e mutation="L74I ,M184V" sco r e=" 20 .0 "/>

</drug>

. . .

</ drugScores>

<comments>

<comment id="RT_POS210W_NRTI">L210W cont r i bu t e s r e s i s t a n c e to each o f the

NRTIs except 3TC and FTC. I t u sua l l y occurs with the mutations M41L and

T215Y .</comment>

</comments>

</ suc c e s s>

</Stanford_Algor i thm_Interpretat ion>

Page 68: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

Referências Bibliográ�cas

[1] Altmann, A., Beerenwinkel, N., Sing, T., Savenkov, I., Däumer, M., Kaiser, R., Rhee, S., Fessel, W.,

Shafer, R., Lengauer, T. Improved prediction of response to antiretroviral combination therapy using the genetic

barrier to drug resistance. Antiviral therapy 12, 2 (2007), 169.

[2] Andrew, R., David, P., Crandall, K. A., Holmes, E. C. The causes and consequences of HIV evolution. Nature

Reviews Genetics 5, 1 (2004), 52�61.

[3] Basmaciogullari, S., Babcock, G., Van Ryk, D., Wojtowicz, W., Sodroski, J. Identi�cation of conserved

and variable structures in the human immunode�ciency virus gp120 glycoprotein of importance for cxcr4 binding.

Journal of virology 76, 21 (2002), 10791.

[4] Beerenwinkel, N., Daumer, M., Oette, M., Korn, K., Hoffmann, D., Kaiser, R., Lengauer, T., Selbig,

J., Walter, H. Geno2pheno: estimating phenotypic drug resistance from hiv-1 genotypes. Nucleic Acids Research

31, 13 (2003), 3850�3855.

[5] Breiman, L. Classi�cation and regression trees. Chapman & Hall/CRC, 1984.

[6] Breiman, L. Random forests. Machine Learning 45 (October 2001), 5�32.

[7] Briz, V., Poveda, E., Soriano, V. Hiv entry inhibitors: mechanisms of action and resistance pathways. Journal

of Antimicrobial Chemotherapy 57, 4 (2006), 619�627.

[8] Carr, J., Foley, B., Leitner, T., Salminen, M., Korber, B., McCutchan, F. Reference sequences representing

the principal genetic diversity of hiv-1 in the pandemic. Human retroviruses and AIDS (1998), 111�10.

[9] Chawla, N., Bowyer, K., Hall, L., Kegelmeyer, W. Smote: synthetic minority over-sampling technique.

Journal of Arti�cial Intelligence Research 16, 1 (2002), 321�357.

[10] Clark, S., Calef, C., Mellors, J. Mutations in retroviral genes associated with drug resistance. HIV Sequence

Compendium, Los Alamos National Laboratory, Los Alamos, NM (2007).

[11] Cooper, G., Herskovits, E. A bayesian method for the induction of probabilistic networks from data. Machine

learning 9, 4 (1992), 309�347.

[12] Cortes, C., Vapnik, V. Support-vector networks. Machine learning 20, 3 (1995), 273�297.

[13] Dau, B., Holodniy, M. Novel targets for antiretroviral therapy: clinical progress to date. Drugs 69, 1 (2009), 31�50.

[14] Deeks, S. Treatment of antiretroviral-drug-resistant HIV-1 infection. The Lancet 362, 9400 (2003), 2002�2011.

[15] Frankel, A. D., Young, J. A. T. HIV-1: Fifteen proteins and an rna. Annual Review of Biochemistry 67, 1 (1998),

1�25.

[16] Freed, E. Hiv-1 gag proteins: diverse functions in the virus life cycle. Virology 251, 1 (1998), 1�15.

[17] Freund, Y. The alternating decision tree learning algorithm. In In Machine Learning: Proceedings of the Sixteenth

International Conference (1999), Morgan Kaufmann, p. 124�133.

Page 69: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

REFERÊNCIAS BIBLIOGRÁFICAS 58

[18] Hahn, B., Shaw, G., De, K., others. Aids as a zoonosis: scienti�c and public health implications. Science 287,

5453 (2000), 607.

[19] Hall, M. Correlation-based feature selection for machine learning. PhD thesis, The University of Waikato, 1999.

[20] Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P., Witten, I. H. The weka data mining

software: an update. SIGKDD Explor. Newsl. 11 , 10�18.

[21] Japkowicz, N., Stephen, S. The class imbalance problem: A systematic study. Intell. Data Anal. 6 (October 2002),

429�449.

[22] Kamber, M., Pei, J. Data mining: Concepts and techniques. Morgan Kaufmann, 2011.

[23] Klatt, E. Pathology of AIDS. Florida State University College of Medicine, 2002.

[24] Levy, J. Pathogenesis of human immunode�ciency virus infection. Microbiological reviews 57, 1 (1993), 183�289.

[25] Liu, H., Setiono, R. A probabilistic approach to feature selection - a �lter solution. In Proc. of Int. Conf. on

Machine Learning (1996), Morgan Kaufmann, p. 319�327.

[26] Liu, T., Shafer, R. Web resources for hiv type 1 genotypic-resistance test interpretation. Clinical infectious diseases

42, 11 (2006), 1608.

[27] Luciw, P. Human immunode�ciency viruses and their replication. Virology, 3rd edn. Lippincott-Raven, Philadelphia

(1996), 1881�1952.

[28] Madigan, M. Brock biology of microorganisms, 11th edn. International Microbiology 8 (2005), 149�152.

[29] McMichael, A., Phillips, R. Escape of human immunode�ciency virus from immune control. Annual review of

immunology 15, 1 (1997), 271�296.

[30] Mitsuya, H., Weinhold, K., Furman, P., St Clair, M., Lehrman, S., Gallo, R., Bolognesi, D., Barry,

D., Broder, S. 3'-azido-3'-deoxythymidine (bw a509u): an antiviral agent that inhibits the infectivity and cytopathic

e�ect of human t-lymphotropic virus type iii/lymphadenopathy-associated virus in vitro. Proceedings of the National

Academy of Sciences 82, 20 (1985), 7096.

[31] Oliveira, S. E. L., Merschmann, L. H. C., Bouillet, L. E. M. Identifying signi�cant features in hiv sequence to

predict patients' response to therapies. In Proceedings of the 6th Brazilian conference on Advances in bioinformatics

and computational biology (Berlin, Heidelberg, 2011), BSB'11, Springer-Verlag, p. 18�25.

[32] Peeters, M. Recombinant hiv sequences: their role in the global epidemic. HIV sequence compendium (2000), 54�72.

[33] Perelson, A., Neumann, A., Markowitz, M., Leonard, J., Ho, D. Hiv-1 dynamics in vivo: virion clearance

rate, infected cell life-span, and viral generation time. Science 271, 5255 (1996), 1582.

[34] Rambaut, A., Posada, D., Crandall, K., Holmes, E. The causes and consequences of hiv evolution. Nature

Reviews Genetics 5, 1 (2004), 52�61.

[35] Rhee, S., Taylor, J., Wadhera, G., Ben-Hur, A., Brutlag, D., Shafer, R. Genotypic predictors of human

immunode�ciency virus type 1 drug resistance. Proceedings of the National Academy of Sciences 103, 46 (2006),

17355.

[36] Robertson, D., Anderson, J., Bradac, J., Carr, J., Foley, B., Funkhouser, R., Gao, F., Hahn, B.,

Kalish, M., Kuiken, C., others. Hiv-1 nomenclature proposal. Science 288, 5463 (2000), 55.

[37] Rosen-Zvi, M., Altmann, A., Prosperi, M., Aharoni, E., Neuvirth, H., Sönnerborg, A., Schülter, E.,

Struck, D., Peres, Y., Incardona, F., Kaiser, R., Zazzi, M., Lengauer, T. Selecting anti-HIV therapies

based on a variety of genomic and clinical factors. Bioinformatics 24 (July 2008), i399�i406.

Page 70: IDENTIFICAÇÃO DE ATRIBUTOS RELEVANTES EM …‡ÃO... · reversa do vírus HIV para a predição da resposta de pacientes ao tratamento com drogas ... E aos meus irmãos pelo carinho

REFERÊNCIAS BIBLIOGRÁFICAS 59

[38] Saag, M. The impact of highly active antiretroviral therapy on hiv-speci�c immune function. Aids 15 (2001), S4.

[39] Salminen, M. Hiv inter-subtype recombination-consequences for the epidemic. AIDS Reviews 2, 3 (2000), 178�189.

[40] Schapire, R., Singer, Y. Improved boosting algorithms using con�dence-rated predictions. Machine learning 37, 3

(1999), 297�336.

[41] Scheer, S., Chu, P., Klausner, J., Katz, M., Schwarcz, S. E�ect of highly active antiretroviral therapy on

diagnoses of sexually transmitted diseases in people with aids. The Lancet 357, 9254 (2001), 432�435.

[42] Schwartz, S., Nair, M. Current concepts in human immunode�ciency virus infection and aids. Clinical and Vaccine

Immunology 6, 3 (1999), 295.

[43] Shafer, R., K, D., M.A, W., SH, E. Hiv-1 reverse transcriptase and protease sequencing for drug resistance

studies. HIV Sequence Compendium (2001), 83�133.

[44] Shafer, R., Kantor, R., Gonzales, M. The genetic basis of hiv-1 resistance to reverse transcriptase and protease

inhibitors. AIDS reviews 2, 4 (2000), 211.

[45] Simon, F., Mauclère, P., Roques, P., Loussert-Ajaka, I., Müller-Trutwin, M., Saragosti, S., Georges-

Courbot, M., Barré-Sinoussi, F., Brun-Vézinet, F. Identi�cation of a new human immunode�ciency virus type

1 distinct from group m and group o. Nature medicine 4, 9 (1998), 1032�1037.

[46] Steigbigel, R., Cooper, D., Kumar, P., Eron, J., Schechter, M., Markowitz, M., Loutfy, M., Lennox,

J., Gatell, J., Rockstroh, J., others. Raltegravir with optimized background therapy for resistant hiv-1 infection.

New England Journal of Medicine 359, 4 (2008), 339�354.

[47] Subbarao, S., Schochetman, G. Genetic variability of hiv-1. Aids 10 (1996), S13.

[48] van de Vijver D, A, W., C, B. The epidemiology of transmission of drug resistant hiv-1. HIV Sequence Compendium

(2007), 17�36.

[49] Weiss, R. How does hiv cause aids? Science 260, 5112 (1993), 1273.

[50] Weiss, R., Weiss, R., MCCUNE, J., MCMICHAEL, A., ROWLAND-JONES, S., RICHMAN, D., NABEL,

G., RINGROSE, P. Gulliver's travels in hivland. AIDS 410, 6831 (2001).

[51] White, D., Fenner, F. Medical virology. Academic Pr, 1994.

[52] William Dampier, Perry Evans, L. U., Tozeren, A. Host sequence motifs shared by HIV predict response to

antiretroviral therapy. vol. 47. BMC Med Genomics, 2009.