Fabr cio Olivetti de Fran˘ca...Construindo a Arvore de Decis~ao Vamos utilizar o erro de classi...

Arvores de Decisao

Fabrıcio Olivetti de Franca

Universidade Federal do ABC

Topicos

1. Arvores de Decisao

Arvores de Decisao

Base de Dados

Relembrando nossa base de dados utilizada na aula passada:

Pele Cor Tamanho Carne Classe

peludo marrom grande dura seguro

peludo verde grande dura seguro

liso vermelho grande macia perigoso

peludo verde grande macia seguro

peludo vermelho pequeno dura seguro

liso vermelho pequeno dura seguro

liso marrom pequeno dura seguro

peludo verde pequeno macia perigoso

liso verde pequeno dura perigoso

peludo vermelho grande dura seguro

liso marrom grande macia seguro

liso verde pequeno macia perigoso

peludo vermelho pequeno macia seguro

liso vermelho grande dura perigoso

liso vermelho pequeno dura

peludo verde pequeno dura2

Base de Dados

Uma outra forma de pensar na solucao para esse problema e atraves de

decisoes baseadas em uma sequencia de perguntas e respostas:

peludo?

Seguro Perigoso

Base de Dados

Cada nova pergunta aumenta nossa certeza em relacao a classificacao da

amostra.

peludo?

Verde?

Perigoso Seguro

Perigoso

Arvore de Decisao

Essa tecnica e conhecida como Arvore de Decisao.

peludo?

Verde?

Perigoso Seguro

Perigoso

Arvore de Decisao

Cada no da arvore divide os exemplos em dois grupos, cada divisao

subsequente formam novos grupos.

peludo?

Verde?

Perigoso Seguro

Perigoso

Arvore de Decisao

Para Regressao, basta fazer com que os nos folhas sejam a media dos

valores-alvo do grupo referente aquele no.

peludo?

Verde?

media media

Arvore de Decisao

A grande questao e como construir essa arvore partindo dos exemplos de

entrada.

peludo?

Verde?

Perigoso Seguro

Perigoso

Construindo a Arvore de Decisao

Assumindo duas classes, escolha um atributo-valor para ser o no inicial e

formule a questao para dividir os dados:

atributo-valor

60/40 30/70

Os valores nos nos e a proporcao de exemplos da classe1/classe2,

respectivamente.

Continue inserindo novos nos com os atributos restantes:

atributo-valor

90/10 5/95

Continue inserindo novos nos com os atributos restantes:

atributo-valor

90/10 5/95

atributo-valor

80/20 10/90

6= = 6= =

Ate onde devemos dividir?

atributo-valor

90/10 5/95

atributo-valor

80/20 atributo-valor

100/0 0/100

6= = 6=

Todos os nos folhas sao puros...

atributo-valor

100/0 0/100

atributo-valor

0/100 100/0

atributo-valor

100/0 0/100

6= = 6= =

...ou uma maxima altura e atingida...

atributo-valor

90/10 5/95

atributo-valor

100/0 0/100

6= = 6=

...ou um criterio de desempenho e atingido.

atributo-valor

90/10 5/95

atributo-valor

100/0 0/100

6= = 6=

Na pratica o primeiro criterio causa overfitting pois tende a criar questoes

especıficas ate que os nos folhas contenham apenas um exemplo da base.

Os dois outros criterios costumam serem utilizados em conjunto.

Como escolher o melhor atributo-valor para cada divisao?

Queremos que cada ramificacao nos traga o maximo de informacao!

Vamos utilizar o erro de classificacao: e = 1−max p(y)

O erro inicial e 1− 9/14 = 0.36

9/5 (0.36)

Escolhendo se ele tem pele dura ou nao, temos:

3/3 (0.5) 6/2 (0.25)

A diferenca do erro foi: 0.36− (6/14) · 0.5− (8/14) · 0.25 = 0.00. Nao

houve ganho, a busca para por aqui!

3/3 (0.5) 6/2 (0.25)

A divisao por erro de predicao nao leva em conta uma distribuicao

uniforme dos exemplos nas divisoes.

3/3 (0.5) 6/2 (0.25)

Vamos utilizar a entropia: H = −∑n

i=1 p(i) log2 p(i). Inicialmente temos:

−(9/14) log (9/14)− (5/14) log (5/14) = 0.94

9/5 (0.36)

Escolhendo se ele tem pele dura ou nao, temos:

3/3 (0.81) 6/2 (1.00)

A diferenca de entropia fica:

0.94− (8/14) · 0.81− (6/14) · 1.0 = 0.05

3/3 (0.81) 6/2 (1.00)

Agora temos um ganho!

3/3 (0.81) 6/2 (1.00)

Por que o erro de classificacao nos enganou?

3/3 (0.81) 6/2 (1.00)

Erro vs Entropia

A funcao de erro forma um triangulo com pico no centro, a entropia tem

uma curva mais suave com pico tambem no centro:

0.0 0.2 0.4 0.6 0.8 1.0x

ErroEntropia

Erro vs Entropia

Mas qual a diferenca?

0.0 0.2 0.4 0.6 0.8 1.0x

ErroEntropia

Erro vs Entropia

No erro de predicao, a media entre o erro do no da esquerda e no da

direita tem chances de coincidir com o erro do no central.

0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80x

ErroEntropia

Erro vs Entropia

Na entropia, isso nao ocorre:

0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80x

ErroEntropia

Erro vs Entropia

Na pratica a metrica utilizada e o Indice de Gini:

E = 1−∑i=1

np(i)2.

Overfitting

As Arvores de Decisao costumam causar overfitting, pois e capaz de se

especializar a nıvel de amostra unica.

Pequenas mudancas nos exemplos podem causar uma grande mudanca

na predicao, dependendo do que for alterado.

Solucao: poda de arvores

Poda de arvore

Para a poda das arvores utilizar o erro de predicao como criterio e

suficiente para generalizar a predicao.

A ideia e ”corte as folhas com erro de predicao menor do que x , para

evitar especializacao”.

Pontos fortes da Arvore de Decisao

E facil interpretar e converter para uma logica se-entao-senao.

Funciona para qualquer tipo de variavel sem necessidade de

transformacao.

Nao e necessario escalonar ou normalizar variaveis.

Arvore de Decisao - Scikit-Learn

from sklearn.tree import DecisionTreeClassifier

clf = DecisionTreeClassifier(criterion=’gini’,

max_features=10, max_depth=5)

clf = clf.fit(X_train, y_train)

yi = clf.predict(xi)

Alterar para DecisionTreeRegressor para regressao.

Proxima Aula

Na proxima aula aprenderemos sobre:

• Redes Neurais Artificiais.

Atividade 05

Complete os Laboratorios:

Decision Trees Exercises.ipynb

Fabr cio Olivetti de Fran˘ca...Construindo a Arvore de Decis~ao Vamos utilizar o erro de classi...

Documents

Transcript of Fabr cio Olivetti de Fran˘ca...Construindo a Arvore de Decis~ao Vamos utilizar o erro de classi...

2007 - fiocruz.br · PERIGOS DO ANIMAIS PEÇONHENTOS. Nesta edição, a Revista Brincando e Aprendendo e ... conhecimentos, resolva a cruzadinha. Horizontal 1.Animal pequeno, peludo

Locomotivas usadas importadas pelas ferrovias brasileiras · Locomotivas usadas importadas pelas ferrovias brasileiras ===== Inscr. Núm. Modelo Ferrovia Núm. Fabr. Modelo Núm.

E se de repente um monstro enorme, peludo, com garras ... · E se de repente um monstro enorme, peludo, com garras afiadíssimas e muita, ... Desde então, os cinco não mais se separaram.

Data Science, Machine Learning and Big Datafbarth.net.br/materiais/docs/am/aDataScience.pdf · Data Science, Machine Learning and Big Data Fabr cio Jailson Barth ... Data Science,

Colaboração Universidade Empresa em Redes de Pesquisa para … · CEFET - PR UFSCar Cranfield/USA Transformação (TRANS) EESC/DEP VirginiaTec/USA Fabricação (FABR ... Diagnóstico

Manual para Montagem de Estruturas com Sistema Construtivo ...para+Fabr+e+Montagem... · Para a realização da montagem, é necessária a disponibilização ... É expressamente

Conversores CC-CA e CA-CA - professorpetry.com.br · Inversor/Retificador de Corrente Trifásico. na ca ... • Controle de intensidade luminosa; • Controle de temperatura; •

2013-2 Proc Fabr - Aula 3 - Areia Verde

Emiss~ao espont^anea coerente: superradian˘ca subradian˘ca

Manual para Montagem de Estruturas com Sistema Construtivo ...para+Fabr+e... · exigências de utilização de madeira vinda de reflorestamentos ... Imunizante com poder de fixação

O Ursinho Peludo

CONVERSOR CA-CC-CA MONOFÁSICO EM PARALELO

cayennensis Belém, PA ex Benth.) Agosto, 2018ainfo.cnptia.embrapa.br/digital/bitstream/item/... · 2 Germinação de sementes de espécies amazônicas: ingá-peludo (Inga cayennensis

ASPECTOS MORFOQUANTITATIVOS DA …...Possuem quatro patas, um corpo peludo, nariz de bolinha, orelhas de atenção, Olhar de aflição e carência. Apesar dessa aparência, são tão

O monstro peludo monstro peludo He n r i e t t e Bi c H o n n i e r Não é exatamente o que acontece nesse conto às avessas: se há algum perigo aqui, é para o monstro, não para

CHEGOU A FEST A DA CA TEGORIA! DA CA

Fabr cio J. Barth - fbarth.net.brfbarth.net.br/materiais/docs/estruturas/aListaEncadeada.pdf · Disciplina de Estrutura de Dados e Armazenamento T opicos complementares Listas circulares

PROGRAMA EDUCA EM CASA SMI...a barata diz que tem um sapato de veludo É mentira da barata ela tem É pÉ peludo ah! ah! ah! oh! oh! oh! ela tem É pÉ peludo. programa educa em casa

Próxima Grande Exposição - JPN - JornalismoPortoNet Festa08.pdf · Peludo reencontra o gosto pela canção de tradição europeia, seja na forma de modas populares, valsas, serestas,

Fabr cio Jailson Barth