Inteligência o

6
Inteligência Computacional II Rafael Silva Erthal Vieira Universidade Federal do Rio de Janeiro E-mail: [email protected] 1 INTRODUÇÃO A proposta deste trabalho consiste em analisar um banco de dados contendo informações de pacientes, tais como, colesterol, idade, glicemia com o objetivo de predizer se um paciente irá ou não enfartar. O desfecho será dado por -1 ou 1, onde -1 indica que o paciente não enfartou e 1 o paciente enfartou. Obviamente, o algoritmo não irá prever o resultado com 100% de certeza, ele irá resultar em um valor aproximado que diz se o paciente enfartou ou não de acordo com os dados fornecidos. Para isso, será utilizado a regressão logística que resulta na probabilidade da ocorrência do evento, ou seja, a resposta desse método resulta em uma probabilidade entre 0 e 1. 2 CONCEITOS BÁSICOS 2.1 Regressão Logística Regressão Logística é um modelo linear, ou seja, suas entradas são consideradas através do cálculo do sinal, que por sua vez, é uma combinação linear da entrada com o respectivo peso. É dada por: s= i=0 d w i x i Será considerado s e aplicado uma não-linearidade, chamada de θ, a função logística. O objetivo da regressão logística é gerar uma saída que possa ser interpretada como uma probabilidade. A função logística θ será dada por: θ ( s ) = e s 1 +e s

Transcript of Inteligência o

Page 1: Inteligência o

Inteligência Computacional II

Rafael Silva Erthal VieiraUniversidade Federal do Rio de Janeiro

E-mail: [email protected]

1 INTRODUÇÃO

A proposta deste trabalho consiste em analisar um banco de dados contendo informações de pacientes, tais como, colesterol, idade, glicemia com o objetivo de predizer se um paciente irá ou não enfartar. O desfecho será dado por -1 ou 1, onde -1 indica que o paciente não enfartou e 1 o paciente enfartou. Obviamente, o algoritmo não irá prever o resultado com 100% de certeza, ele irá resultar em um valor aproximado que diz se o paciente enfartou ou não de acordo com os dados fornecidos. Para isso, será utilizado a regressão logística que resulta na probabilidade da ocorrência do evento, ou seja, a resposta desse método resulta em uma probabilidade entre 0 e 1.

2 CONCEITOS BÁSICOS

2.1 Regressão Logística

Regressão Logística é um modelo linear, ou seja, suas entradas são consideradas através do cálculo do sinal, que por sua vez, é uma combinação linear da entrada com o respectivo peso. É dada por:

s=∑i=0

d

wi x i

Será considerado s e aplicado uma não-linearidade, chamada de θ, a função logística. O objetivo da regressão logística é gerar uma saída que possa ser interpretada como uma probabilidade. A função logística θ será dada por:

θ ( s)= es

1+es

Como mencionado anteriormente, a função logística θ resulta em probabilidade. O sinal sendo muito negativo possuirá probabilidade próxima de zero, e de maneira análoga, sendo muito positivo será próximo de um. Além disso, quando não há sinal a probabilidade se aproxima da metade. O sinal corresponde ao nível de certeza em relação a ocorrência de um determinado evento. Caso possua um sinal enorme, é possível dizer que o evento irá acontecer. Da mesma forma, um sinal muito negativo, o evento não ocorre. Este valor é chamado de limiar flexível, ou sigmoide, sua função é dizer a confiabilidade de uma decisão. Além disso, é utilizado para refletir a incerteza do problema.

2.2 Problema Proposto

O objetivo deste trabalho é de analisar, através da regressão logística, a probabilidade de um paciente ter ataque cardíaco. Diversos fatores contribuem para isso, sendo eles, colesterol, idade

Page 2: Inteligência o

e glicemia. Portanto, será feito a previsão para dizer se existe um pequeno ou grande risco dessa doença ocorrer.

A entrada utilizada, x, são os dados relevantes para a ocorrência do ataque cardíaco, colesterol, idade e glicemia. Já a saída, será a probabilidade do paciente ter ou não o ataque cardíaco, dado por θ(s).

2.3 Medida de Erro

O erro dentro-da-amostra na regressão logística é dado por:

E¿ (w )= 1N∑n=1

N

ln (1+e− ynwT xn )

Onde N é o número de pontos no conjunto de treino e ln (1+e− ynwT xn) é o Erro de Entropia

Cruzada.O treino da regressão logística será dado pela tentativa de tender o gradiente a zero, ou seja,

∇E¿ (w )=0. Para isso, será necessário utilizar iterativamente o método gradiente descendente, que será explicado a seguir.

2.4 Gradiente Descendente

A propriedade necessária para a utilização do gradiente descendente é que a função seja duas vezes diferenciável, assim como o E¿ (w) na regressão logística. Uma vantagem deste método, é que existe apenas um mínimo global. Isso ocorre, pois, E¿ (w) é uma função convexa de w que implica em apenas um vale como será mostrado a seguir:

Figura 1 – Representação do Gradiente Descendente

Fonte: Vídeo Aula 9 – The Linear Model II – ABU-MOSTAFA, Yaser S.

O gradiente não ficará preso em mínimos locais quando estiver minimizando o E¿ (w).

3 METODOLOGIA

Page 3: Inteligência o

3.1 Pseudocódigo

Inicialmente, será definido w (0 ) utilizado no cálculo da regressão logística. Ele é representado por um vetor aleatório com distribuição normal de média 0 e desvio padrão 0,01. Cada execução do método apresentará um resultado diferente, uma vez que, os valores iniciais dos pesos são aleatórios. A seguir será apresentado o pseudocódigo da regressão logística:

Figura 2 – Pseudocódigo da Regressão Logística

Fonte: Vídeo Aula 9 – The Linear Model II – ABU-MOSTAFA, Yaser S.

Onde η representa a taxa de aprendizado, neste trabalho foi utilizado 0,0001.

3.2 Definições

No problema proposto, tem-se um banco de dados com as informações de 100 0 pacientes, que representam a amostra. Será utilizado 8 0% dessa amostra para o cálculo do E¿ e 2 0% será reservado para o treino, que representa um estimador para o cálculo do Eout.

O cálculo da regressão logística possui como saída o peso w , que corresponde a um vetor, contendo a probabilidade de quatro valores: viés, colesterol, idade e glicemia . Esse valor será utilizado como entrada para o cálculo do E¿ (w) e do Eout (w). O objetivo do erro dentro-da-amostra é de refletir o que irá acontecer com o erro fora-da-amostra.

4 RESULTADOS E DISCUSSÕES

4.1 Experimentos Realizados

O critério de parada utilizado no cálculo da regressão logística é dado de duas formas: quando o número máximo de iterações é atingido e quando a diferença entre o E¿ anterior e E¿ atual é menor que 0,0001. A seguir serão apresentadas as figuras que exprimem essas ideias.

Figura 1 – Resultado da regressão logística

Page 4: Inteligência o

Nota: Número máximo de iterações atingido. Neste caso, 100.

Na figura 1, o resultado da regressão logística obtido foi: −0,01793151 ,−0,00451583 ,0,00482791e 0,00138128, resultando em um E¿=0,51474167 e um Eout=0,13090335. Fazendo uma análise desses resultados é possível dizer que o viés e o colesterol contribuem negativamente para o enfarto e a idade e a glicemia contribuem positivamente para o enfarto.

Figura 2 – Resultado da regressão logística

Nota: Diferença entre E¿ anterior e E¿ atual menor que 0,0001 .

De maneira análoga, na figura 2, o resultado da regressão logística obtido foi: 0,00123454 ,−0,00218509 ,0,00702908e−0,00395132. Isso resultou em um E¿=0,51237657 e um Eout=0,12982771. Fazendo uma análise desses resultados é possível dizer que o colesterol e a glicemia contribuem negativamente para o enfarto e o viés e a idade contribuem positivamente para o enfarto.

5 CONCLUSÕES

Page 5: Inteligência o

Através do método proposto, a regressão logística, foi possível analisar a prever a chance de um paciente sofrer de ataque cardíaco. O resultado obtido diz que o grande fator que contribui com o aumento da chance de enfarto é a evolução da idade do paciente.

6 REFERÊNCIAS

Notas de Aula – Inteligência Computacional.

Vídeo Aula 9 – The Linear Model II – ABU-MOSTAFA, Yaser S.

ABU-MOSTAFA, Yaser S.; MAGDON-ISMAIL, Malik; LIN, Hsuan-Tien. Learning From Data. AMLBook, 2012.