Exercício Árvore de Decisão

download Exercício Árvore de Decisão

of 7

Transcript of Exercício Árvore de Decisão

  • 7/25/2019 Exerccio rvore de Deciso

    1/7

    1

    Exerccios sobre rvores de Deciso

    1.

    Para cada uma das funes booleanas seguintes apresente uma rvore de decisoque as representem:

    a) A

    Bb) (A B) (C D)

    2.

    Construa o conjunto completo de rvores de deciso a partir dos dados seguintes:

    A1 A2 Y0 1 01 0 10 0 01 1 1

    3.

    Suponha que se pretende construir a rvore de deciso, atravs do algoritmo ID3,

    com base no conjunto de dados apresentados tabela seguinte

    A1 A2 A3 Y0 1 1 11 0 1 10 0 0 01 1 1 0

    a)

    Calcule a entropia mdia de cada um dos atributosb)

    Qual dos atributos seria escolhido para dividir os dados?c)

    Construa a rvore de deciso.

    4.

    Considere o seguinte conjunto de exemplos de treino:

    Exemplo A1 A2 Classe1 escuro alto -2 claro alto +3 claro baixo -4 escuro baixo +5 escuro alto -6 claro alto +

    a)

    Calcule a informao esperada ou entropia deste conjunto de exemplos e o

    ganho de informao relativo ao atributo A2. A2 poder ser raiz da rvore dedeciso obtida pelo algoritmo ID3?b)

    Apresente a rvore de deciso completa que seria produzida pelo algoritmoID3.

    c)

    Calcule a informao esperada ou entropia deste conjunto de exemplos e oganho de informao relativo ao atributo A2. A2 poder ser raiz da rvore dedeciso obtida pelo algoritmo ID3?

    d)

    Apresente a rvore de deciso completa que seria produzidapelo algoritmoID3.

  • 7/25/2019 Exerccio rvore de Deciso

    2/7

    Aprendizagem: Exerccios de rvores de deciso

    2

    5.

    Considere o conjunto de dados seguinte:

    A1 A2 Y0 0 10 0 00 0 10 1 00 1 00 1 11 0 11 0 01 0 11 1 11 1 11 1 1

    a) possvel obter uma hiptese sem nenhum erro a partir destes dados?

    b)

    Qual ser a entropia mdia se escolhermos o atributo A1?c) E se escolhermos A2?d)

    Qual a rvore obtida, tendo em conta que se as folhas no puderem seruniformes, se escolhe como valor a classe mais comum?

    e) Essa rvore poderia ainda ser simplificada?

    6. Imagine que quer utilizar o algoritmo ID3 para aprender uma funo e que lhe soapresentados um conjunto de exemplos e de contra-exemplos:

    A1 A2 A3 A4 A50 1 1 0 01 0 1 0 0

    1 1 1 0 10 0 0 1 11 0 0 1 00 1 0 1 0

    a)

    Construa a rvore de decisob)

    Como ficaria a rvore de deciso caso o processo de sub-diviso da rvorepare sempre que no se puder melhorar o ganho mdio e se escolher para valordas folhas a classe mais comum?

    7.

    Os candidatos a alunos de doutoramento na fictcia Universidade da Martinlndiabaseia-se em quatro critrios: a nota de fim de curso, o ranking da universidade

    onde realizou o curso, o registo de publicaes e as cartas de recomendao. Parasimplificar a nota pode tomar trs valores, que so 4.0, 3.7 e 3.5. A universidade

    pode ser classificada entre as 10 melhores (top-10), entre as 10 e as 20 melhores(top-20) e entre as 20 e 30 melhores (top-30). O registo de publicaes umatributo binrio o candidato publicou ou no; e as cartas de recomendao

    podem ser boas ou normais. Finalmente, os candidatos podem ser classificadoscomo aceites (A) ou rejeitados (R). A tabela seguinte mostra um conjunto deexemplos de candidatos a doutoramento e a respectiva classificao.

  • 7/25/2019 Exerccio rvore de Deciso

    3/7

    Aprendizagem: Exerccios de rvores de deciso

    3

    Nota Ranking Publicou Recomendao Classe4.0 top-10 sim boa A4.0 top-10 no boa A4.0 top-20 no normal A3.7 top-10 sim boa A3.7 top-20 no boa R3.7 top-30 sim boa A3.7 top-30 no boa R3.7 top-10 no boa R3.5 top-20 sim normal R3.5 top-10 no normal R3.5 top-30 sim normal R3.5 top-30 no boa R

    Apresente a rvore de deciso completa que seria produzida pelo algoritmo ID3.

    8.

    Considere o problema de esperar ou no esperar por uma mesa num restaurante. Oobjectivo aprender uma definio para o objectivoEsperar ,sendo essa definio

    expressa sob a forma de uma rvore de deciso. Existem os seguintes atributospara descrever as situaes exemplo:

    Alternativa: existe ou no um restaurante na vizinhana que seja uma alternativa.Bar: O restaurante tem ou no tem um bar.Sexta/Sbado: Se esse dia uma sexta ou um sbado.

    Fome: estamos ou no com fome.

    Clientes: Quantas pessoas esto no restaurante (nenhuma, algumas, cheio)Preo: Trs preos possveis: ($, $$, $$$)Chuva: Est a chover l fora ou no.

    Reserva: Foi feita uma reserva ou no.Tipo: O tipo de restaurante: (francs, italiano, tailands e hamburgueria

    Estimativa do tempo de espera: (0-10 minutos, 10-30, 30-60, >60).

    Alter Bar Sexta Fome Clientes Preo Chuva Reserva Tipo TmpEsp Esperar

    Sim No No Sim Alguns $$$ No Sim Francs 0-10 Sim

    Sim No No Sim Cheio $ No No Tailands 30-60 No

    No Sim No No Alguns $ No No Hamburg 0-10 Sim

    Sim No Sim Sim Cheio $ No No Tailands 10-30 Sim

    Sim No Sim No Cheio $$$ No Sim Francs >60 No

    No Sim No Sim Alguns $$ Sim Sim Italiano 0-10 Sim

    No Sim No No Nenhuns $ Sim No Hamburg 0-10 No

    No No No Sim Alguns $$ Sim Sim Tailands 0-10 Sim

    No Sim Sim No Cheio $ Sim No Hamburg >60 No

    Sim Sim Sim Sim Cheio $$$ No Sim Italiano 10-30 No

    No No No No Nenhuns $ No No Tailands 0-10 No

    Sim Sim Sim Sim Cheio $ No No Hamburg 30-60 Sim

  • 7/25/2019 Exerccio rvore de Deciso

    4/7

    Aprendizagem: Exerccios de rvores de deciso

    4

    a)

    Utilize a ferramenta Weka, atravs do algoritmo ID3, para construir a rvoreque representa estes a partir destes dados.

    b)

    Assumindo que D1 e D2 so rvores de deciso representando funesbooleanas, e que D2 considerada uma elaborao de D1 se o algoritmo ID3pode extender D1 em D2, indique se a frase seguinte verdadeira ou falsa: Sea rvore D2 uma elaborao de D1, ento D1 mais geral do que D2. Seconsiderar que verdadeira, prove-o; se considerer que falsa, apresente umcontra-exemplo.

    9. O algoritmo ID3 encontra apenas uma hiptese consistente enquanto o algoritmodo espao de verses (tambm chamado algoritmo de eliminao de candidatos)encontra todas as hipteses consistentes. Considere a correspondncia entre esses2 algoritmos:

    a)

    apresente os resultados obtidos por cada um destes dois algoritmos a partir dosexemplos de treino seguintes, para o conceito alvo fazDesporto:

    Exemplos de treino:Cu Temp. Hum. Prev fazDesporto0 sol quente normal igual sim1 sol quente alta igual sim2 chuva frio alta muda no3 sol quente alta muda sim

    b) Qual a relao entre a rvore de deciso aprendida e o espao de versesobtido? A rvore de deciso equivalente a algum dos membros do espao deverses?

    c)

    Suponha que quer definir um algoritmo de aprendizagem que, como o ID3,

    efectua uma procura no espao das rvores de deciso e, como o espao deverses, encontra todas as hipteses consistentes com os dados. Isto ,

    pretende-se aplicar o algoritmo do espao de verses procura num espao dehipteses em que as hipteses so rvores de deciso. Apresente os conjuntosS e G que resultam do 1 exemplo de treino dado. Mostre como que S e Gseriam refinados pelo segundo exemplo de treino (pode omitir rvoressintacticamente distintas que representem o mesmo conceito). Quedificuldades antev na aplicao do espao de verses a espaos de hiptesesde rvores de deciso?

    10.

    Use os dados da tabela 1 como conjunto de treino para aprender a classificar,segundo as 3 classes indicadas no atributo Queimadura.

    a.

    Calcule a entropia (ou informao esperada) do conjunto de treino. Calcule oganho de informao (gain) relativo a cada um dos atributos e indique oatributo que seria escolhido, de acordo com essa medida, para raiz da rvorede deciso pelo algoritmo ID3. Comente o resultado obtido.

    b.

    Eliminando agora o atributo Nome, e continuando a usar a medida deganho de informao, determine a rvore de deciso completa que seria

    produzida pelo ID3.

  • 7/25/2019 Exerccio rvore de Deciso

    5/7

    Aprendizagem: Exerccios de rvores de deciso

    5

    c.

    Usando como medida a razo de ganhos (gain ratio) e considerando todosos atributos (incluindo Nome), qual seria o atributo escolhido para raiz darvore de deciso?

    Tabela 1: Dados relativos a queimaduras solares

    11.

    Polbio, na sua apreciao das refeies em restaurantes, considera os seguintesatributos e respectivos valores possveis:

    Restaurante: {Coplia, Palma, Primavera}Qualidade: {boa, m}Preo: um inteiroRefeio: {almoo, jantar, pequeno_almoo}

    Polbio usa afirmaes em portugus para exprimir os seus processos declassificao das refeies como satisfatrias ou no satisfatrias, em lugar deusar rvores de deciso. Por exemplo, ele diria:

    Fico satisfeito com qualquer refeio de 10 ou menos, mas no existe

    nenhuma refeio do restaurante Palma por 7 ou menos que me agrade.Afirmaes como esta podem traduzir-se em diferentes rvores de deciso. Umadas rvores que poderamos indicar para a frase acima a seguinte, podendo haveroutras com diferente nmero de ns, possivelmente testando os atributos porordem diferente ou realizando diferentes testes:

    Indique rvores de deciso, com nmero mnimo de ns, correspondentes a cadauma das seguintes afirmaes:a) Fico satisfeito com qualquer refeio de boa qualidade que no custe mais do

    que 10 e satisfeito com refeies de m qualidade que no custem mais doque 5.

    Nome Cabelo Pele LooSolar Queimadura

    Emlia Castanho Morena No Sem

    Sara Louro Morena No ligeiraDiana Louro Morena Sim Sem

    Andreia Louro Branca Sim Sem

    Leonor Louro Branca No grave

    Emlia Ruivo Branca Sim grave

    Diana Castanho Branca No Sem

    Ferno Ruivo Morena No ligeira

    Carlos Ruivo Morena Sim ligeira

    Joana Castanho Branca Sim Sem

  • 7/25/2019 Exerccio rvore de Deciso

    6/7

    Aprendizagem: Exerccios de rvores de deciso

    6

    b)

    Fico satisfeito com um pequeno almoo de 8 ou menos ou com um jantar de15 ou menos. Nunca fico satisfeito com uma refeio de m qualidade nemse tenho de pagar por um almoo (j que almoo bem e de borla) .

    12.

    Imagine que temos o seguinte conjunto de dados, onde Y o atributo alvo daclassificao.

    A B C Y0 0 0 00 1 0 11 0 0 11 1 1 0

    Qual a rvore de deciso escolhida pelo algoritmo ID3? No existir outra rvoreque envolva testar menos atributos (e possivelmente com menor profundidade)capaz de representar correctamente os dados? Qual a justificao que encontra

    para que o ID3 no devolva essa rvore?

    13.

    Considere os dados apresentados na quadrcula abaixo, descritos por dois atributos(eixos x e y, com valores inteiros entre 0 e 8) e classificados em 3 classes,representadas por quadrados, cruzes ou crculos. Usando o algoritmo ID3estendido para fazer testes binrios sobre atributos numricos, construa a rvorede deciso de forma a classificar correctamente os dados.

    14.

    A tabela de dados seguinte baseia-se no livro do Tolkien O senhor dos anis. Atabela apresenta informao sobre um conjunto de pessoas/entidades queaparecem nesse livro.

    Nome Raa Peso Senhor-do-anel ClasseFrodo Hobbit Leve Sim BomRosie Hobbit Leve No Bom

    Bilbo Hobbit Leve Sim BomGollum Hobbit Leve Sim MauFaramir Humano Mdio No BomAragorn Humano Mdio No BomWormtongue Humano Mdio No MauCeleborn Elves Leve No BomGaladriel Elves Leve Sim BomSharku Orc Pesado No Mau

  • 7/25/2019 Exerccio rvore de Deciso

    7/7

    Aprendizagem: Exerccios de rvores de deciso

    7

    Cada entidade possui trs atributos (Raa, Peso, Senhor-anel) e classificado comosendo Bom ou Mau (i.e., se quer ou no quer matar o Frodo). O atributo "Senhor-anel" indica se a pessoa/entidade alguma vez possuiu o anel mgico. Aplique oalgoritmo ID3 aos dados na tabela, tendo em conta que os ns folhas so classificadoscom a classe maioritria. No entanto, introduza, uma pequena variao na qual seexpandem os ns apenas quando resultar numa melhoria do ganho.

    15.

    Considere o seguinte conjunto de dados, onde Y corresponde ao atributo classe.Vamosconsiderar formas de poda da rvore de deciso produzida pelo ID3 que noenvolvem o uso de um conjunto de teste.

    V W X Y0 0 0 00 1 0 11 0 0 11 1 0 01 1 1 0

    a) Apresente a rvore de deciso que seria construda pelo ID3, sem poda.b) Uma possvel forma de podar a rvore consiste em, comeando pelo n raiz da

    rvore, podar a subrvore com origem num n se o ganho de informao (ououtro critrio dado) associado a esse n for inferior a uma pequena quantidade .Este tipo de poda chamada poda descendente (top-down pruning). Qual arvore de deciso retornada aplicando este tipo de poda com =0.0001? Qual oerro produzido por essa rvore podada para o conjunto de treino dado (% deexemplos mal classificados)?

    c) Outra forma possvel de podar a rvore consiste em, comeando pelos ns pais defolhas da rvore, podar subrvores com origem num n se o ganho de informao(ou outro critrio dado) for inferior a uma pequena quantidade . Segundo estemtodo, nenhum antepassado de um n com alto ganho de informao podado.Este tipo de poda chamada poda ascendente (bottom-up pruning). Qual a

    rvore de deciso retornada aplicando este tipo de poda com =0.0001? Qual oerro produzido por essa rvore podada para o conjunto de treino dado (% deexemplos mal classificados)?

    d) iscuta as possveis vantagens e desvantagens destes dois tipos de poda, tendo emconta por exemplo a complexidade computacional envolvida e a preciso daclassificao.