FACENS – Engenharia da Computação Inteligência Artificial Árvores de Decisão.
Árvores de Decisão
-
Upload
leandro-marinho -
Category
Education
-
view
155 -
download
1
Transcript of Árvores de Decisão
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Arvores de Decisao
Prof. Dr. Leandro Balby Marinho
Analise de Dados I
Prof. Leandro Balby Marinho 1 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Roteiro
1. Introducao
2. Tipos de Particoes de Atributos
3. Inducao de Arvores de Decisao
4. Florestas Aleatorias
5. Avaliacao de Classificadores
Prof. Leandro Balby Marinho 2 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Classificacao
I Classificacao Binaria:I Tweet: Positivo/Negativo.I Email: Spam/Nao Spam.I Emprestimo em Banco: Aprovado/Nao aprovado.I Tumor: Maligno/Benigno.
I Classificacao Multiclasse:I Deteccao de dıgitos manuscritos: {0, 1, 2, . . . , 9}.I Categorizacao de Paginas Web: {polıtica, esporte, . . .}.
Prof. Leandro Balby Marinho 2 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Aprendizagem de Maquina para Classificacao
Exemplo: Aprovacao de Credito
Idade 23Sexo Masculino
Salario Anual R$60.000Poupanca R$10.000
Quantidade Pedida R$100.000... ...
Aprovar credito?
Prof. Leandro Balby Marinho 3 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Componentes da Aprendizagem
I Entrada: x (Dados do requerente)
I Saıda: y (bom/mal cliente)
I Funcao alvo: f : X → Y (funcao ideal de aprovacao de credito)
I Dados de Treino: Dtrain := {(x1, y1), . . . , (xN , yN)} (registroshistoricos)
I Hipotese: g : X → Y
Prof. Leandro Balby Marinho 4 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Componentes da Aprendizagem [Yaser, 2012]
Prof. Leandro Balby Marinho 5 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Classificando com Arvores de Decisao
Considere o problema de classificar um vertebrado como mamıfero ou naomamıfero.
Nome Temperatura do Corpo Dar a Luz Mamıferohumano quente sim simbaleia quente sim sim
salamandra frio nao naopombo quente nao nao
morcego quente sim simsapo frio nao nao
tubarao-leopardo frio sim naosalmao frio nao nao
Prof. Leandro Balby Marinho 6 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Classificando com Arvores de Decisao
Prof. Leandro Balby Marinho 7 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
O que e uma Arvore de Decisao?
I Uma arvore de decisao e uma arvore que:
I Possui um no raiz.I Cada no interno tem uma regra que atribui instancias de
treino unicamente aos nos filhos.I Cada no folha tem um rotulo de classe.
I Tipos de Arvore
I Arvore de Regressao: nos folha contem valores numericos.I Arvores Probabilısticas: nos folha contem probabilidades.
Prof. Leandro Balby Marinho 8 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Arvore de Decisao como Regras de Decisao
Temperatura do Corpo = fria→ classe = nao
(Temperatura do Corpo = quente) ∧ (Dar a Luz = sim)→ classe = sim
(Temperatura do Corpo = quente) ∧ (Dar a Luz = nao)→ classe = nao
Prof. Leandro Balby Marinho 9 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Roteiro
1. Introducao
2. Tipos de Particoes de Atributos
3. Inducao de Arvores de Decisao
4. Florestas Aleatorias
5. Avaliacao de Classificadores
Prof. Leandro Balby Marinho 10 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Atributos NominaisSe o atributo for binario, o teste gera duas saıdas possıveis.
Se o atributo for multinomial: (i) ha uma saıda para cada valor do atributo,ou os valores de atributos sao combinados para gerar uma saıda binaria.Nesse caso ha 2k−1 − 1 particoes possıveis para k valores de atributos.
Prof. Leandro Balby Marinho 10 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Atributos Ordinais
A saıda pode ser binaria ou multinomial, mas a ordem dos valoresdeve ser preservada.
Prof. Leandro Balby Marinho 11 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Atributos Numericos
A saıda pode ser binaria ou multinomial. Para saıdas multinomiaiscada valor corresponde a um intervalo do tipo vi ≤ X < vi+1 ondevi ∈ Dom(X ) para i = 1, . . . , k.
Prof. Leandro Balby Marinho 12 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Roteiro
1. Introducao
2. Tipos de Particoes de Atributos
3. Inducao de Arvores de Decisao
4. Florestas Aleatorias
5. Avaliacao de Classificadores
Prof. Leandro Balby Marinho 13 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Formalizacao do Problema
Dado um conjunto de treino Dtrain, encontre uma arvore
g : X → Y
tal que para um conjunto de teste Dtest ⊆ X × Y (desconhecidodurante o treino), o erro de classificacao no teste
err(g ;Dtest) :=1
|Dtest|∑
(x ,y)∈Dtest
δ(g(x), y)
seja mınimo. δ(g(x), y) = 0 se g(x) = y e 1 caso contrario.
Prof. Leandro Balby Marinho 13 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Formalizacao do Problema
I Como Dtest e desconhecido, procuramos a arvore que minimize oerro de classificacao em Dtrain.
I Para isso, assume-se que a distribuicao de instancias nas classes dotreino ≈ a distribuicao de instancias nas classes do teste.
I Uma abordagem forca bruta e inviavel pois o numero de arvores noespaco de busca cresce exponencialmente com o numero deatributos.
Prof. Leandro Balby Marinho 14 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Busca Gulosa
Sendo assim, uma busca gulosa e usada de forma que:
I Arvores sao construıdas a partir da raiz em uma sequencia depassos ate que a arvore final seja encontrada.
I Em cado passo a escolha deve ser
1. otima localmente.2. irrevogavel.
I Hipotese: uma sequencia de selecoes otimas localmentelevarao a uma solucao otima global no final.
Prof. Leandro Balby Marinho 15 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Inducao de Arvores de Decisao
I Ideia: testar os atributos mais importantes primeiro.
I Atributos importantes tem maior poder de classificacao.
I Condicao de parada:
1. expandir um no ate que (quase) todas as instancias possuam amesma classe, ou
2. nenhum dos atributos apresentem “ganho de informacao”.3. nao existam mais atributos para discriminar as instancias.4. a arvore atingiu uma altura predefinida.
Prof. Leandro Balby Marinho 16 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Exemplo 2
Considere os dados do Exemplo 1 novamente com a adicao do atributobinario Pernas.
Tid Nome Temperatura do Corpo Pernas Dar a Luz Mamıfero1 humano quente sim sim sim2 baleia quente nao sim sim3 salamandra frio sim nao nao4 pombo quente sim nao nao5 morcego quente sim sim sim6 sapo frio sim nao nao7 tubarao-leopardo frio nao sim nao8 salmao frio sim nao nao
Prof. Leandro Balby Marinho 17 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Exemplo 2: Selecao de Atributos
Qual atributo tem maior poder de classificacao?
Para Temperatura do Corpo=fria e Dar a Luz=nao todas as instancias
sao classificadas como Nao.
Prof. Leandro Balby Marinho 18 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Exemplo 2: Selecao de Atributos
Qual atributo tem maior poder de classificacao?
Para Temperatura do Corpo=fria e Dar a Luz=nao todas as instancias
sao classificadas como Nao.
Prof. Leandro Balby Marinho 18 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Exemplo 2: Selecao de Atributos
Repetimos o processo para as instancias onde Temperatura do Cor-po=quente.
Prof. Leandro Balby Marinho 19 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Exemplo 2: Selecao de AtributosO processo termina quando todos os nos folha possuem somente instanciasde uma mesma classe.
Prof. Leandro Balby Marinho 20 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Tratando Casos Especiais
I Se algum dos nos filho estiver vazio (i.e., nenhuma instanciaassociada), o no e declarado folha com o rotulo da classemajoritaria.
I Se nao houverem mais atributos, mas ainda existiremexemplos positivos e negativos, o no e declarado folha com orotulo da classe majoritaria.
Prof. Leandro Balby Marinho 21 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Fronteira de Decisao [Tan, 2007]
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
0.1
0.1
●
●
●
●
●
●●
As fronteiras de decisao sao retilıneas.
Prof. Leandro Balby Marinho 22 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Medidas de Impureza de Atributos
As medidas mais usadas para a selecao de atributos sao entropia,coeficiente de Gini e erro de classificacao.
Seja p(y |t) a probabilidade condicional da classe y ∈ Y no no t. Asmedidas sao dadas abaixo:
Entropia(t) := −∑y∈Y
p(y |t) log2 p(y |t)
Gini(t) := 1−∑y∈Y
p(y |t)2
Erro Class(t) := 1−maxy∈Y
[p(y |t)]
Prof. Leandro Balby Marinho 23 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Medidas de Impureza para Classificacao Binaria
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
p
med
ida
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
p
med
ida
0.0 0.2 0.4 0.6 0.8 1.0
0.0
0.2
0.4
0.6
0.8
1.0
p
med
ida
Entropia
Gini
Erro de Classificacao
Prof. Leandro Balby Marinho 24 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Exemplo 3
No N1 # InstanciasClasse=0 0Classe=1 6
Gini = 1− (0/6)2 − (6/6)2 = 0
Entropia = − (0/6) log2(0/6)− (6/6) log2(6/6) = 0
Erro Class = 1−max[0/6, 6/6] = 0
Prof. Leandro Balby Marinho 25 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Exemplo 3
No N2 # InstanciasClasse=0 1Classe=1 5
Gini = 1− (1/6)2 − (5/6)2 = 0.278
Entropia = − (1/6) log2(1/6)− (5/6) log2(5/6) = 0.650
Erro Class = 1−max[1/6, 5/6] = 0.167
Prof. Leandro Balby Marinho 25 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Exemplo 3
No N3 # InstanciasClasse=0 3Classe=1 3
Gini = 1− (3/6)2 − (3/6)2 = 0.5
Entropia = − (3/6) log2(3/6)− (3/6) log2(3/6) = 1
Erro Class = 1−max[3/6, 3/6] = 0.5
Prof. Leandro Balby Marinho 25 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Qualidade da Particao de Atributos
Para medir a qualidade da particao para um atributo x , comparamos osgraus de impureza da particao anterior a x com os das particoes geradaspelos valores de x . Quanto maior a diferenca melhor.
Chamamos isso de ganho de informacao que e calculado como segue:
∆(x) = I (P1)−k∑
j=1
N(Pj)
NI (Pj)
onde I (.) e a medida de impureza de um dado no, N e o numero de
registros da particao P1, k e o numero de valores do atributo e N(Pj) e o
numero de registros associados a particao Pj .
Prof. Leandro Balby Marinho 26 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Exemplo 2 Revisitado
Seja Dar a Luz=t1 e Temperatura do Corpo=t2 e Pernas=t3. Antes daparticao, a distribuicao das classes e
p(y |t1) = p(y |t2) = p(y |t3) = (0.625, 0.375)
Gini(t1) = Gini(t2) = Gini(t3) = 1− (0.625)2 − (0.375)2 = 0.468
Prof. Leandro Balby Marinho 27 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Exemplo 2 Revisitado
Seja Dar a Luz=t1 e Temperatura do Corpo=t2 e Pernas=t3. Antes daparticao, a distribuicao das classes e
p(y |t1) = p(y |t2) = p(y |t3) = (0.625, 0.375)
Gini(t1) = Gini(t2) = Gini(t3) = 1− (0.625)2 − (0.375)2 = 0.468
Prof. Leandro Balby Marinho 27 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Exemplo 2: Calculo do Ganho (t1)
∆ = 0.468− (4
80.375 +
4
80) = 0.2805
Prof. Leandro Balby Marinho 28 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Exemplo 2: Calculo do Ganho (t2)
∆ = 0.468− (4
80.375 +
4
80) = 0.2805
Prof. Leandro Balby Marinho 29 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Exemplo 2: Calculo do Ganho (t3)
∆ = 0.468− (6
80.44 +
2
80.5) = 0.013
Prof. Leandro Balby Marinho 30 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Exemplo 2: Chamada Recursiva no Atributo Escolhido
Antes da particao, a distribuicao das classes e P(c |t1) = P(c |t2) =(0.25, 0.75).
Gini(t1) = Gini(t3) = 1− (0.75)2 − (0.25)2 = 0.375
Prof. Leandro Balby Marinho 31 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Exemplo 2: Calculo do Ganho (t2 → t1)
∆ = 0.375− (3
40 +
1
40) = 0.375
Prof. Leandro Balby Marinho 32 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Exemplo 2: Calculo do Ganho (t2 → t3)
∆ = 0.375− (3
40.44 +
1
40) = 0.045
Prof. Leandro Balby Marinho 33 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Regularizacao (Pre-Poda)
I Pare o algoritmo antes que a arvore esteja completa.
I Outras condicoes tıpicas de parada:I Pare se a expansao do no corrente nao melhora o ganho.I Pare quando o ganho nao satisfizer um limiar pre-definido.I Pare se o numero de instancias for menor que um limiar
pre-definido.I Pare se o numero de nos-folha for menor que um limiar
pre-definido.
Prof. Leandro Balby Marinho 34 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Regularizacao (Pos-Poda)
I Arvore cresce ate o final.
I Nos sao podados de baixo para cima.
I Por exemplo, substituir uma subarvore por um no-folha cujaclassificacao e feita pelo voto majoritario.
Prof. Leandro Balby Marinho 35 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Algoritmo DecisionTree [Lars, 2011]
DecisionTree(NodeT ,Dtrain)
1 if stop criterion(Dtrain)2 T .class = argmaxy∈Y p(y |t)3 return4 s = find best split(Dtrain)5 T .split = s6 for z ∈ Im(s)7 cria no T ′
8 T .child [z ] = T ′
9 DecisionTree(T ′, {(x , y) ∈ Dtrain | s(x) = z})
Prof. Leandro Balby Marinho 36 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Sumario
I Modelo nao parametrico e de facil interpretacao.
I Encontrar uma arvore de decisao otima e um probemaNP-Completo, portanto as solucoes sao baseadas emheurısticas.
I Baixo custo de inducao predicao (O(w) onde w =altura daarvore).
I Arvores muito profundas tendem a sofrer overfitting.
I Sao robustas contra ruıdo e overfitting, quando tecnicas deregularizacao sao usadas.
Prof. Leandro Balby Marinho 37 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Roteiro
1. Introducao
2. Tipos de Particoes de Atributos
3. Inducao de Arvores de Decisao
4. Florestas Aleatorias
5. Avaliacao de Classificadores
Prof. Leandro Balby Marinho 38 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Florestas Aleatorias
I Modelo estado-da-arte para classificacao e regressao.
I Constroi uma floresta de arvores de decisao.
I Cada arvore usa uma amostra aleatoria dos dados de treino.
I A classificacao e feita por meio da agregacao dos resultadosde cada arvore.
I Florestas sao robustas a overfitting.
Prof. Leandro Balby Marinho 38 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Tree Bagging [Wikipedia, 2013]
Existem muitos algoritmos de florestas aleatorias. Abaixodescrevemos um dos mais simples.
I Para b = 1, . . . ,B (B =nr. de arvores):
1. Amostre n instancias aleatorias de treino sem repeticao echame-as de Tb ∈ Dtrain.
2. Treine uma arvore de decisao gb para cada Tb.
I Agora a predicao para algum x′ cuja classe e desconhecida efeita por:
g(x′) = argmaxy∈Y
B∑b=1
δ(gb(x′, y)
)I Ou seja, use o voto majoritario entre as arvores da floresta.
Prof. Leandro Balby Marinho 39 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Roteiro
1. Introducao
2. Tipos de Particoes de Atributos
3. Inducao de Arvores de Decisao
4. Florestas Aleatorias
5. Avaliacao de Classificadores
Prof. Leandro Balby Marinho 40 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Matriz de Confusao
Avaliacao do desempenho de classificadores e baseada na proporcaode instancias corretamente classificadas.
Esses valores podem ser extraıdos de uma tabela de confusao.
PPPPPPPPPRealPrevista
Classe=1 Classe=0
Classe=1 TP FN
Classe=0 FP TN
Onde TP e TN denotam o numero de instancias das classes 1 e 0classificadas como 1 e 0 respectivamente, e FP e FN o contrario.
Prof. Leandro Balby Marinho 40 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Metricas de Avaliacao
Acuracia:
acc =TP + TN
TN + FN + FP + TP
Taxa de erro:
err =FP + FN
TN + FN + FP + TP
Recall (sensitivity):
recall =TP
TP + FN
Precision:
precision =TP
TP + FP
Prof. Leandro Balby Marinho 41 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Metodo Holdout
I Os dados sao particionados aleatoriamente em dois conjuntosdisjuntos chamados treino e teste (e.g. 2/3 para treino e 1/3 parateste).
I O classificador e induzido no treino e avaliado no teste.
I O metodo pode ser repetido varias vezes para melhorar aconfiabilidade das predicoes (random subsampling).
I Nesse caso, a acuracia e dada por:
acc =1
S
k∑i=1
acci
onde S e o numero de particoes treino-teste geradas e acci aacuracia na particao i .
Prof. Leandro Balby Marinho 42 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Validacao Cruzada
I Cada instancia e usada exatamente uma vez para treino euma vez para teste.
I No caso de uma particao (1/2, 1/2) dos dados,
1. A primeira parte e usada para treino e a segunda para teste.2. A segunda parte e usada para treino e a segunda para teste.
I Essa ideia pode ser generalizada para k particoes de igualtamanho.
I Em cada execucao, k − 1 particoes sao usadas para treino euma para teste.
I O procedimento e repetido k vezes e a media da acuraciacalculada.
Prof. Leandro Balby Marinho 43 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Validacao Cruzada 5-fold
Prof. Leandro Balby Marinho 44 / 45 UFCG DSC
Introducao Tipos de Particoes de Atributos Inducao de Arvores de Decisao Florestas Aleatorias Avaliacao de Classificadores
Referencias
Larry Wasserman. All of Statistics: A Concise Course in StatisticalInference. Springer, 2003.
Pang-Ning Tan, Michael Steinbach, Vipin Kumar. Introduction toData Minig. Primeira Edicao. Addison Wesley, 2006.
Lars Schmidt-Thieme. Notas de aula em aprendizagem de maquina.Disponıvel em: http://www.ismll.uni-hildesheim.de/lehre/ml-11w/index_en.html
Yaser S. Abu-Mostafa, Malik Magdon-Ismail, Hsuan-Tien Lin.Learning from Data. Primeira Edicao. AMLBook, 2012.
“Random Forests.” Wikipedia. Wikimedia Foundation Inc.. Jan, 1st,2015. 〈 http://en.wikipedia.org/wiki/Random_forest 〉.
Prof. Leandro Balby Marinho 45 / 45 UFCG DSC