Árvores de Decisão

54
Introdu¸c˜ ao Tipos de Parti¸c˜oes de Atributos Indu¸ ao de ´ Arvores de Decis˜ ao Florestas Aleat´ orias Avalia¸c˜ ao de Classificadores ´ Arvores de Decis˜ ao Prof. Dr. Leandro Balby Marinho An´ alise de Dados I Prof. Leandro Balby Marinho 1 / 45 UFCG DSC

Transcript of Árvores de Decisão

Page 1: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Arvores de Decisao

Prof. Dr. Leandro Balby Marinho

Analise de Dados I

Prof. Leandro Balby Marinho 1 / 45 UFCG DSC

Page 2: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Roteiro

1. Introducao

2. Tipos de Particoes de Atributos

3. Inducao de Arvores de Decisao

4. Florestas Aleatorias

5. Avaliacao de Classificadores

Prof. Leandro Balby Marinho 2 / 45 UFCG DSC

Page 3: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Classificacao

I Classificacao Binaria:I Tweet: Positivo/Negativo.I Email: Spam/Nao Spam.I Emprestimo em Banco: Aprovado/Nao aprovado.I Tumor: Maligno/Benigno.

I Classificacao Multiclasse:I Deteccao de dıgitos manuscritos: {0, 1, 2, . . . , 9}.I Categorizacao de Paginas Web: {polıtica, esporte, . . .}.

Prof. Leandro Balby Marinho 2 / 45 UFCG DSC

Page 4: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Aprendizagem de Maquina para Classificacao

Exemplo: Aprovacao de Credito

Idade 23Sexo Masculino

Salario Anual R$60.000Poupanca R$10.000

Quantidade Pedida R$100.000... ...

Aprovar credito?

Prof. Leandro Balby Marinho 3 / 45 UFCG DSC

Page 5: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Componentes da Aprendizagem

I Entrada: x (Dados do requerente)

I Saıda: y (bom/mal cliente)

I Funcao alvo: f : X → Y (funcao ideal de aprovacao de credito)

I Dados de Treino: Dtrain := {(x1, y1), . . . , (xN , yN)} (registroshistoricos)

I Hipotese: g : X → Y

Prof. Leandro Balby Marinho 4 / 45 UFCG DSC

Page 6: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Componentes da Aprendizagem [Yaser, 2012]

Prof. Leandro Balby Marinho 5 / 45 UFCG DSC

Page 7: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Classificando com Arvores de Decisao

Considere o problema de classificar um vertebrado como mamıfero ou naomamıfero.

Nome Temperatura do Corpo Dar a Luz Mamıferohumano quente sim simbaleia quente sim sim

salamandra frio nao naopombo quente nao nao

morcego quente sim simsapo frio nao nao

tubarao-leopardo frio sim naosalmao frio nao nao

Prof. Leandro Balby Marinho 6 / 45 UFCG DSC

Page 8: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Classificando com Arvores de Decisao

Prof. Leandro Balby Marinho 7 / 45 UFCG DSC

Page 9: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

O que e uma Arvore de Decisao?

I Uma arvore de decisao e uma arvore que:

I Possui um no raiz.I Cada no interno tem uma regra que atribui instancias de

treino unicamente aos nos filhos.I Cada no folha tem um rotulo de classe.

I Tipos de Arvore

I Arvore de Regressao: nos folha contem valores numericos.I Arvores Probabilısticas: nos folha contem probabilidades.

Prof. Leandro Balby Marinho 8 / 45 UFCG DSC

Page 10: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Arvore de Decisao como Regras de Decisao

Temperatura do Corpo = fria→ classe = nao

(Temperatura do Corpo = quente) ∧ (Dar a Luz = sim)→ classe = sim

(Temperatura do Corpo = quente) ∧ (Dar a Luz = nao)→ classe = nao

Prof. Leandro Balby Marinho 9 / 45 UFCG DSC

Page 11: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Roteiro

1. Introducao

2. Tipos de Particoes de Atributos

3. Inducao de Arvores de Decisao

4. Florestas Aleatorias

5. Avaliacao de Classificadores

Prof. Leandro Balby Marinho 10 / 45 UFCG DSC

Page 12: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Atributos NominaisSe o atributo for binario, o teste gera duas saıdas possıveis.

Se o atributo for multinomial: (i) ha uma saıda para cada valor do atributo,ou os valores de atributos sao combinados para gerar uma saıda binaria.Nesse caso ha 2k−1 − 1 particoes possıveis para k valores de atributos.

Prof. Leandro Balby Marinho 10 / 45 UFCG DSC

Page 13: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Atributos Ordinais

A saıda pode ser binaria ou multinomial, mas a ordem dos valoresdeve ser preservada.

Prof. Leandro Balby Marinho 11 / 45 UFCG DSC

Page 14: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Atributos Numericos

A saıda pode ser binaria ou multinomial. Para saıdas multinomiaiscada valor corresponde a um intervalo do tipo vi ≤ X < vi+1 ondevi ∈ Dom(X ) para i = 1, . . . , k.

Prof. Leandro Balby Marinho 12 / 45 UFCG DSC

Page 15: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Roteiro

1. Introducao

2. Tipos de Particoes de Atributos

3. Inducao de Arvores de Decisao

4. Florestas Aleatorias

5. Avaliacao de Classificadores

Prof. Leandro Balby Marinho 13 / 45 UFCG DSC

Page 16: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Formalizacao do Problema

Dado um conjunto de treino Dtrain, encontre uma arvore

g : X → Y

tal que para um conjunto de teste Dtest ⊆ X × Y (desconhecidodurante o treino), o erro de classificacao no teste

err(g ;Dtest) :=1

|Dtest|∑

(x ,y)∈Dtest

δ(g(x), y)

seja mınimo. δ(g(x), y) = 0 se g(x) = y e 1 caso contrario.

Prof. Leandro Balby Marinho 13 / 45 UFCG DSC

Page 17: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Formalizacao do Problema

I Como Dtest e desconhecido, procuramos a arvore que minimize oerro de classificacao em Dtrain.

I Para isso, assume-se que a distribuicao de instancias nas classes dotreino ≈ a distribuicao de instancias nas classes do teste.

I Uma abordagem forca bruta e inviavel pois o numero de arvores noespaco de busca cresce exponencialmente com o numero deatributos.

Prof. Leandro Balby Marinho 14 / 45 UFCG DSC

Page 18: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Busca Gulosa

Sendo assim, uma busca gulosa e usada de forma que:

I Arvores sao construıdas a partir da raiz em uma sequencia depassos ate que a arvore final seja encontrada.

I Em cado passo a escolha deve ser

1. otima localmente.2. irrevogavel.

I Hipotese: uma sequencia de selecoes otimas localmentelevarao a uma solucao otima global no final.

Prof. Leandro Balby Marinho 15 / 45 UFCG DSC

Page 19: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Inducao de Arvores de Decisao

I Ideia: testar os atributos mais importantes primeiro.

I Atributos importantes tem maior poder de classificacao.

I Condicao de parada:

1. expandir um no ate que (quase) todas as instancias possuam amesma classe, ou

2. nenhum dos atributos apresentem “ganho de informacao”.3. nao existam mais atributos para discriminar as instancias.4. a arvore atingiu uma altura predefinida.

Prof. Leandro Balby Marinho 16 / 45 UFCG DSC

Page 20: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Exemplo 2

Considere os dados do Exemplo 1 novamente com a adicao do atributobinario Pernas.

Tid Nome Temperatura do Corpo Pernas Dar a Luz Mamıfero1 humano quente sim sim sim2 baleia quente nao sim sim3 salamandra frio sim nao nao4 pombo quente sim nao nao5 morcego quente sim sim sim6 sapo frio sim nao nao7 tubarao-leopardo frio nao sim nao8 salmao frio sim nao nao

Prof. Leandro Balby Marinho 17 / 45 UFCG DSC

Page 21: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Exemplo 2: Selecao de Atributos

Qual atributo tem maior poder de classificacao?

Para Temperatura do Corpo=fria e Dar a Luz=nao todas as instancias

sao classificadas como Nao.

Prof. Leandro Balby Marinho 18 / 45 UFCG DSC

Page 22: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Exemplo 2: Selecao de Atributos

Qual atributo tem maior poder de classificacao?

Para Temperatura do Corpo=fria e Dar a Luz=nao todas as instancias

sao classificadas como Nao.

Prof. Leandro Balby Marinho 18 / 45 UFCG DSC

Page 23: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Exemplo 2: Selecao de Atributos

Repetimos o processo para as instancias onde Temperatura do Cor-po=quente.

Prof. Leandro Balby Marinho 19 / 45 UFCG DSC

Page 24: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Exemplo 2: Selecao de AtributosO processo termina quando todos os nos folha possuem somente instanciasde uma mesma classe.

Prof. Leandro Balby Marinho 20 / 45 UFCG DSC

Page 25: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Tratando Casos Especiais

I Se algum dos nos filho estiver vazio (i.e., nenhuma instanciaassociada), o no e declarado folha com o rotulo da classemajoritaria.

I Se nao houverem mais atributos, mas ainda existiremexemplos positivos e negativos, o no e declarado folha com orotulo da classe majoritaria.

Prof. Leandro Balby Marinho 21 / 45 UFCG DSC

Page 26: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Fronteira de Decisao [Tan, 2007]

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

0.1

0.1

●●

As fronteiras de decisao sao retilıneas.

Prof. Leandro Balby Marinho 22 / 45 UFCG DSC

Page 27: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Medidas de Impureza de Atributos

As medidas mais usadas para a selecao de atributos sao entropia,coeficiente de Gini e erro de classificacao.

Seja p(y |t) a probabilidade condicional da classe y ∈ Y no no t. Asmedidas sao dadas abaixo:

Entropia(t) := −∑y∈Y

p(y |t) log2 p(y |t)

Gini(t) := 1−∑y∈Y

p(y |t)2

Erro Class(t) := 1−maxy∈Y

[p(y |t)]

Prof. Leandro Balby Marinho 23 / 45 UFCG DSC

Page 28: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Medidas de Impureza para Classificacao Binaria

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

p

med

ida

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

p

med

ida

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

p

med

ida

Entropia

Gini

Erro de Classificacao

Prof. Leandro Balby Marinho 24 / 45 UFCG DSC

Page 29: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Exemplo 3

No N1 # InstanciasClasse=0 0Classe=1 6

Gini = 1− (0/6)2 − (6/6)2 = 0

Entropia = − (0/6) log2(0/6)− (6/6) log2(6/6) = 0

Erro Class = 1−max[0/6, 6/6] = 0

Prof. Leandro Balby Marinho 25 / 45 UFCG DSC

Page 30: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Exemplo 3

No N2 # InstanciasClasse=0 1Classe=1 5

Gini = 1− (1/6)2 − (5/6)2 = 0.278

Entropia = − (1/6) log2(1/6)− (5/6) log2(5/6) = 0.650

Erro Class = 1−max[1/6, 5/6] = 0.167

Prof. Leandro Balby Marinho 25 / 45 UFCG DSC

Page 31: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Exemplo 3

No N3 # InstanciasClasse=0 3Classe=1 3

Gini = 1− (3/6)2 − (3/6)2 = 0.5

Entropia = − (3/6) log2(3/6)− (3/6) log2(3/6) = 1

Erro Class = 1−max[3/6, 3/6] = 0.5

Prof. Leandro Balby Marinho 25 / 45 UFCG DSC

Page 32: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Qualidade da Particao de Atributos

Para medir a qualidade da particao para um atributo x , comparamos osgraus de impureza da particao anterior a x com os das particoes geradaspelos valores de x . Quanto maior a diferenca melhor.

Chamamos isso de ganho de informacao que e calculado como segue:

∆(x) = I (P1)−k∑

j=1

N(Pj)

NI (Pj)

onde I (.) e a medida de impureza de um dado no, N e o numero de

registros da particao P1, k e o numero de valores do atributo e N(Pj) e o

numero de registros associados a particao Pj .

Prof. Leandro Balby Marinho 26 / 45 UFCG DSC

Page 33: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Exemplo 2 Revisitado

Seja Dar a Luz=t1 e Temperatura do Corpo=t2 e Pernas=t3. Antes daparticao, a distribuicao das classes e

p(y |t1) = p(y |t2) = p(y |t3) = (0.625, 0.375)

Gini(t1) = Gini(t2) = Gini(t3) = 1− (0.625)2 − (0.375)2 = 0.468

Prof. Leandro Balby Marinho 27 / 45 UFCG DSC

Page 34: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Exemplo 2 Revisitado

Seja Dar a Luz=t1 e Temperatura do Corpo=t2 e Pernas=t3. Antes daparticao, a distribuicao das classes e

p(y |t1) = p(y |t2) = p(y |t3) = (0.625, 0.375)

Gini(t1) = Gini(t2) = Gini(t3) = 1− (0.625)2 − (0.375)2 = 0.468

Prof. Leandro Balby Marinho 27 / 45 UFCG DSC

Page 35: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Exemplo 2: Calculo do Ganho (t1)

∆ = 0.468− (4

80.375 +

4

80) = 0.2805

Prof. Leandro Balby Marinho 28 / 45 UFCG DSC

Page 36: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Exemplo 2: Calculo do Ganho (t2)

∆ = 0.468− (4

80.375 +

4

80) = 0.2805

Prof. Leandro Balby Marinho 29 / 45 UFCG DSC

Page 37: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Exemplo 2: Calculo do Ganho (t3)

∆ = 0.468− (6

80.44 +

2

80.5) = 0.013

Prof. Leandro Balby Marinho 30 / 45 UFCG DSC

Page 38: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Exemplo 2: Chamada Recursiva no Atributo Escolhido

Antes da particao, a distribuicao das classes e P(c |t1) = P(c |t2) =(0.25, 0.75).

Gini(t1) = Gini(t3) = 1− (0.75)2 − (0.25)2 = 0.375

Prof. Leandro Balby Marinho 31 / 45 UFCG DSC

Page 39: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Exemplo 2: Calculo do Ganho (t2 → t1)

∆ = 0.375− (3

40 +

1

40) = 0.375

Prof. Leandro Balby Marinho 32 / 45 UFCG DSC

Page 40: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Exemplo 2: Calculo do Ganho (t2 → t3)

∆ = 0.375− (3

40.44 +

1

40) = 0.045

Prof. Leandro Balby Marinho 33 / 45 UFCG DSC

Page 41: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Regularizacao (Pre-Poda)

I Pare o algoritmo antes que a arvore esteja completa.

I Outras condicoes tıpicas de parada:I Pare se a expansao do no corrente nao melhora o ganho.I Pare quando o ganho nao satisfizer um limiar pre-definido.I Pare se o numero de instancias for menor que um limiar

pre-definido.I Pare se o numero de nos-folha for menor que um limiar

pre-definido.

Prof. Leandro Balby Marinho 34 / 45 UFCG DSC

Page 42: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Regularizacao (Pos-Poda)

I Arvore cresce ate o final.

I Nos sao podados de baixo para cima.

I Por exemplo, substituir uma subarvore por um no-folha cujaclassificacao e feita pelo voto majoritario.

Prof. Leandro Balby Marinho 35 / 45 UFCG DSC

Page 43: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Algoritmo DecisionTree [Lars, 2011]

DecisionTree(NodeT ,Dtrain)

1 if stop criterion(Dtrain)2 T .class = argmaxy∈Y p(y |t)3 return4 s = find best split(Dtrain)5 T .split = s6 for z ∈ Im(s)7 cria no T ′

8 T .child [z ] = T ′

9 DecisionTree(T ′, {(x , y) ∈ Dtrain | s(x) = z})

Prof. Leandro Balby Marinho 36 / 45 UFCG DSC

Page 44: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Sumario

I Modelo nao parametrico e de facil interpretacao.

I Encontrar uma arvore de decisao otima e um probemaNP-Completo, portanto as solucoes sao baseadas emheurısticas.

I Baixo custo de inducao predicao (O(w) onde w =altura daarvore).

I Arvores muito profundas tendem a sofrer overfitting.

I Sao robustas contra ruıdo e overfitting, quando tecnicas deregularizacao sao usadas.

Prof. Leandro Balby Marinho 37 / 45 UFCG DSC

Page 45: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Roteiro

1. Introducao

2. Tipos de Particoes de Atributos

3. Inducao de Arvores de Decisao

4. Florestas Aleatorias

5. Avaliacao de Classificadores

Prof. Leandro Balby Marinho 38 / 45 UFCG DSC

Page 46: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Florestas Aleatorias

I Modelo estado-da-arte para classificacao e regressao.

I Constroi uma floresta de arvores de decisao.

I Cada arvore usa uma amostra aleatoria dos dados de treino.

I A classificacao e feita por meio da agregacao dos resultadosde cada arvore.

I Florestas sao robustas a overfitting.

Prof. Leandro Balby Marinho 38 / 45 UFCG DSC

Page 47: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Tree Bagging [Wikipedia, 2013]

Existem muitos algoritmos de florestas aleatorias. Abaixodescrevemos um dos mais simples.

I Para b = 1, . . . ,B (B =nr. de arvores):

1. Amostre n instancias aleatorias de treino sem repeticao echame-as de Tb ∈ Dtrain.

2. Treine uma arvore de decisao gb para cada Tb.

I Agora a predicao para algum x′ cuja classe e desconhecida efeita por:

g(x′) = argmaxy∈Y

B∑b=1

δ(gb(x′, y)

)I Ou seja, use o voto majoritario entre as arvores da floresta.

Prof. Leandro Balby Marinho 39 / 45 UFCG DSC

Page 48: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Roteiro

1. Introducao

2. Tipos de Particoes de Atributos

3. Inducao de Arvores de Decisao

4. Florestas Aleatorias

5. Avaliacao de Classificadores

Prof. Leandro Balby Marinho 40 / 45 UFCG DSC

Page 49: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Matriz de Confusao

Avaliacao do desempenho de classificadores e baseada na proporcaode instancias corretamente classificadas.

Esses valores podem ser extraıdos de uma tabela de confusao.

PPPPPPPPPRealPrevista

Classe=1 Classe=0

Classe=1 TP FN

Classe=0 FP TN

Onde TP e TN denotam o numero de instancias das classes 1 e 0classificadas como 1 e 0 respectivamente, e FP e FN o contrario.

Prof. Leandro Balby Marinho 40 / 45 UFCG DSC

Page 50: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Metricas de Avaliacao

Acuracia:

acc =TP + TN

TN + FN + FP + TP

Taxa de erro:

err =FP + FN

TN + FN + FP + TP

Recall (sensitivity):

recall =TP

TP + FN

Precision:

precision =TP

TP + FP

Prof. Leandro Balby Marinho 41 / 45 UFCG DSC

Page 51: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Metodo Holdout

I Os dados sao particionados aleatoriamente em dois conjuntosdisjuntos chamados treino e teste (e.g. 2/3 para treino e 1/3 parateste).

I O classificador e induzido no treino e avaliado no teste.

I O metodo pode ser repetido varias vezes para melhorar aconfiabilidade das predicoes (random subsampling).

I Nesse caso, a acuracia e dada por:

acc =1

S

k∑i=1

acci

onde S e o numero de particoes treino-teste geradas e acci aacuracia na particao i .

Prof. Leandro Balby Marinho 42 / 45 UFCG DSC

Page 52: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Validacao Cruzada

I Cada instancia e usada exatamente uma vez para treino euma vez para teste.

I No caso de uma particao (1/2, 1/2) dos dados,

1. A primeira parte e usada para treino e a segunda para teste.2. A segunda parte e usada para treino e a segunda para teste.

I Essa ideia pode ser generalizada para k particoes de igualtamanho.

I Em cada execucao, k − 1 particoes sao usadas para treino euma para teste.

I O procedimento e repetido k vezes e a media da acuraciacalculada.

Prof. Leandro Balby Marinho 43 / 45 UFCG DSC

Page 53: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Validacao Cruzada 5-fold

Prof. Leandro Balby Marinho 44 / 45 UFCG DSC

Page 54: Árvores de Decisão

Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores

Referencias

Larry Wasserman. All of Statistics: A Concise Course in StatisticalInference. Springer, 2003.

Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction toData Minig. Primeira Edicao. Addison Wesley, 2006.

Lars Schmidt-Thieme. Notas de aula em aprendizagem de maquina.Disponıvel em: http://www.ismll.uni-hildesheim.de/lehre/ml-11w/index_en.html

Yaser S. Abu-Mostafa, Malik Magdon-Ismail, Hsuan-Tien Lin.Learning from Data. Primeira Edicao. AMLBook, 2012.

“Random Forests.” Wikipedia. Wikimedia Foundation Inc.. Jan, 1st,2015. 〈 http://en.wikipedia.org/wiki/Random_forest 〉.

Prof. Leandro Balby Marinho 45 / 45 UFCG DSC