Projeto de Aplicação - Passagens Federais
Click here to load reader
description
Transcript of Projeto de Aplicação - Passagens Federais
![Page 1: Projeto de Aplicação - Passagens Federais](https://reader037.fdocumentos.tips/reader037/viewer/2022100518/559b908b1a28abf85d8b476e/html5/thumbnails/1.jpg)
Projeto de Aplicação – Análise do uso de Passagens Aéreas
Federais
Rodrigo da Silva Soares
Rondon Pessoa de Mendonça Neto
![Page 2: Projeto de Aplicação - Passagens Federais](https://reader037.fdocumentos.tips/reader037/viewer/2022100518/559b908b1a28abf85d8b476e/html5/thumbnails/2.jpg)
ObjetivoVerificar o uso de passagens aéreas federais através de mineração de padrões frequentes.
Hipóteses:1 - Existem associações entre o Órgão Federal, Tipo do Passageiro, Tipo Viagem (Internacional) e o Custo da Passagem.
2 - Qual a relação entre o trajeto das viagens, tipo de passageiro, tipo de viagem e turno de partida.
3 - A relação entre a companhia utilizada, o custo da tarifa praticada, o tipo do passageiro, o tipo da viagem e o órgão federal correspondente ao passageiro.
![Page 3: Projeto de Aplicação - Passagens Federais](https://reader037.fdocumentos.tips/reader037/viewer/2022100518/559b908b1a28abf85d8b476e/html5/thumbnails/3.jpg)
Base de Dados
Passagens Aéreas Federais 2007
Atributos
•Código do órgão
•Nome do órgão
•Número PCDP
•Tipo de passageiro
•Data de partida
•Turno da partida
•Tipo de viagem
•Companhia
•V12
•Custo da tarifa
•Tarifa praticada
•Trecho
•Dia da semana
•Trajeto
•Data e hora de partida
![Page 4: Projeto de Aplicação - Passagens Federais](https://reader037.fdocumentos.tips/reader037/viewer/2022100518/559b908b1a28abf85d8b476e/html5/thumbnails/4.jpg)
Pré-ProcessamentoFiltros: Redução e Limpeza dos
dados
RemoveUseless - Remove atribs. nominais que variam muito (threshold definido pelo usuário, ex.: 95%) e atributos
constantes (nme/nml).
Discretize: Discretiza um intervalo de atributos numéricos utilizando a técnica MDL.
![Page 5: Projeto de Aplicação - Passagens Federais](https://reader037.fdocumentos.tips/reader037/viewer/2022100518/559b908b1a28abf85d8b476e/html5/thumbnails/5.jpg)
• 2 etapas:• Um método de avaliação
• Um método de busca
• Utilizamos dois métodos:• InfoGainAttributeEval - Ranker
• ChiSquare - Ranker
Pré-Processamento - Seleção de Atributos
![Page 6: Projeto de Aplicação - Passagens Federais](https://reader037.fdocumentos.tips/reader037/viewer/2022100518/559b908b1a28abf85d8b476e/html5/thumbnails/6.jpg)
InfoGainAttributeEval - Ranker
• === Attribute Selection on all input data ===
• Search Method:• Attribute ranking.
• Attribute Evaluator (supervised, Class (nominal): 4 tipo_proposto):• Information Gain Ranking Filter
• Ranked attributes:• 1.106828 3 Num_PCDP• 1.033605 8 Data_Hora_Partida• 0.670534 5 Data_Inicio• 0.379512 7 Trajeto• 0.379512 12 Trecho• 0.292108 2 Nome_Orgao• 0.26584 1 Cod_Orgao• 0.118241 10 Companhia• 0.097476 13 Dia_Semana• 0.013819 9 Turno_Partirda• 0.005139 11 Tarifa_Praticada• 0.005113 14 Custo_Tarifa• 0.000581 6 Internacional
• Selected attributes: 3,8,5,7,12,2,1,10,13,9,11,14,6 : 13
ChiSquaredAttributeEval - Ranker
• === Attribute Selection on all input data ===
• Search Method:• Attribute ranking.
• Attribute Evaluator (supervised, Class (nominal): 4 tipo_proposto):• Chi-squared Ranking Filter
• Ranked attributes:• 7780.123 3 Num_PCDP• 7182.115 8 Data_Hora_Partida• 2656.849 5 Data_Inicio• 1078.49 7 Trajeto• 1078.49 12 Trecho• 965.474 2 Nome_Orgao• 658.226 1 Cod_Orgao• 320.807 10 Companhia• 260.794 13 Dia_Semana• 36.345 9 Turno_Partirda• 16.905 14 Custo_Tarifa• 11.549 11 Tarifa_Praticada• 0.973 6 Internacional
• Selected attributes: 3,8,5,7,12,2,1,10,13,9,14,11,6 : 13
![Page 7: Projeto de Aplicação - Passagens Federais](https://reader037.fdocumentos.tips/reader037/viewer/2022100518/559b908b1a28abf85d8b476e/html5/thumbnails/7.jpg)
Algoritmos
• 3 algoritmos para aprender Associações:– Apriori;
– PredictiveApriori;
– Tertius;
• Trabalham somente com dados nominais;
• Computa regras que dêem um suporte mínimo e ultrapasse um nível de confiança.
• 2 algoritmos para Classificação:– BFTree;
– REPTree;
• Modelos para a previsão de classes (nominal ou númerica):
![Page 8: Projeto de Aplicação - Passagens Federais](https://reader037.fdocumentos.tips/reader037/viewer/2022100518/559b908b1a28abf85d8b476e/html5/thumbnails/8.jpg)
Resultados
Hipótese 1 - Associações entre o Órgão Federal, Tipo do Passageiro, Tipo Viagem (Internacional) e o Custo da Passagem.
=== Run information ===
Scheme: weka.classifiers.trees.REPTree -M 2 -V 0.0010 -N 3 -S 1 -L -1Relation: BasePassagensDiscretizada-weka.filters.unsupervised.attribute.RemoveUseless-M99.0-weka.filters.unsupervised.attribute.Remove-R1,3,5-13Instances: 74262Attributes: 3 Nome_Orgao tipo_proposto Custo_TarifaTest mode: split 99.0% train, remainder test
![Page 9: Projeto de Aplicação - Passagens Federais](https://reader037.fdocumentos.tips/reader037/viewer/2022100518/559b908b1a28abf85d8b476e/html5/thumbnails/9.jpg)
Resultados
Hipótese 1 - Associações entre o Órgão Federal, Tipo do Passageiro, Tipo Viagem (Internacional) e o Custo da Passagem.
PredictiveApriori===================
Best rules found:
1. Custo_Tarifa=BAIXO 156 ==> Internacional=NAO 156 acc:(0.99497) 2. tipo_proposto=Colaborador Eventual Internacional=SIM 7 ==> Nome_Orgao=Procuradoria-Geral da Fazenda Nacional Custo_Tarifa=ALTO 3 acc:(0.46999) 3. Custo_Tarifa=INCOMUM 12 ==> tipo_proposto=Servidor Internacional=SIM 9 acc:(0.72776) 4. Custo_Tarifa=ALTO 214 ==> tipo_proposto=Servidor 123 acc:(0.58724) 5. tipo_proposto=Colaborador Eventual 758 ==> Internacional=NAO 751 acc:(0.58268) 6. tipo_proposto=Colaborador Eventual Internacional=NAO Custo_Tarifa=ALTO 80 ==> Nome_Orgao=Gabinete do Ministro 45 acc:(0.58026) 7. Custo_Tarifa=NAO AVALIADO 14 ==> tipo_proposto=Colaborador Eventual Internacional=NAO 8 acc:(0.57539) 8. Internacional=SIM 21 ==> Nome_Orgao=Procuradoria-Geral da Fazenda Nacional Custo_Tarifa=INCOMUM 12 acc:(0.5747)
![Page 10: Projeto de Aplicação - Passagens Federais](https://reader037.fdocumentos.tips/reader037/viewer/2022100518/559b908b1a28abf85d8b476e/html5/thumbnails/10.jpg)
ResultadosHipótese 2 – Relações entre o trajeto das viagens, tipo de passageiro, tipo de viagem e turno de partida.
Apriori=======
Minimum support: 0.35 (700 instances)Minimum metric <confidence>: 0.9Number of cycles performed: 13
Best rules found:
1. Companhia=GOL Custo_Tarifa=NORMAL 752 ==> Internacional=NAO 752 conf:(1) 2. Companhia=TAM Custo_Tarifa=NORMAL 708 ==> Internacional=NAO 708 conf:(1) 3. Turno_Partirda=MANHA Custo_Tarifa=NORMAL 889 ==> Internacional=NAO 888 conf:(1) 4. Custo_Tarifa=NORMAL 1604 ==> Internacional=NAO 1602 conf:(1) 5. tipo_proposto=Servidor Custo_Tarifa=NORMAL 945 ==> Internacional=NAO 943 conf:(1) 6. Nome_Orgao=Procuradoria-Geral da Fazenda Nacional Custo_Tarifa=NORMAL 936 ==>
Internacional=NAO 934 conf:(1) 7. Companhia=TAM 898 ==> Internacional=NAO 895 conf:(1) 8. Companhia=GOL 888 ==> Internacional=NAO 882 conf:(0.99) 9. Turno_Partirda=MANHA 1076 ==> Internacional=NAO 1068 conf:(0.99)10. tipo_proposto=Colaborador Eventual 758 ==> Internacional=NAO 751 conf:(0.99)
![Page 11: Projeto de Aplicação - Passagens Federais](https://reader037.fdocumentos.tips/reader037/viewer/2022100518/559b908b1a28abf85d8b476e/html5/thumbnails/11.jpg)
ResultadosHipótese 2 – Relações entre o trajeto das viagens, tipo de passageiro, tipo de viagem e turno de partida.
PredictiveApriori===================
Best rules found:
1. tipo_proposto=Servidor Turno_Partirda=MANHA Companhia=GOL Custo_Tarifa=NORMAL 299 ==> Internacional=NAO 299 acc:(0.99484)
2. Nome_Orgao=Procuradoria-Geral da Fazenda Nacional Turno_Partirda=MANHA Dia_Semana=Segunda-Feira Custo_Tarifa=NORMAL 280 ==> Internacional=NAO 280 acc:(0.9948)
3. Companhia=TAM Dia_Semana=Segunda-Feira 275 ==> Internacional=NAO 275 acc:(0.99479) 4. Dia_Semana=Terca-Feira Custo_Tarifa=NORMAL 271 ==> Internacional=NAO 271 acc:(0.99478)
Tertius=======
1. /* 0,343644 0,082384 */ tipo_proposto = Colaborador Eventual ==> Nome_Orgao = Secretaria Nacional de Seguranca Publica
2. /* 0,338121 0,081495 */ tipo_proposto = Colaborador Eventual ==> Custo_Tarifa = NAO AVALIADO or Nome_Orgao = Secretaria Nacional de Seguranca Publica
3. /* 0,329954 0,082249 */ tipo_proposto = Colaborador Eventual ==> Custo_Tarifa = INCOMUM or Nome_Orgao = Secretaria Nacional de Seguranca Publica
4. /* 0,318858 0,073160 */ tipo_proposto = Colaborador Eventual ==> Custo_Tarifa = ALTO or Nome_Orgao = Secretaria Nacional de Seguranca Publica
![Page 12: Projeto de Aplicação - Passagens Federais](https://reader037.fdocumentos.tips/reader037/viewer/2022100518/559b908b1a28abf85d8b476e/html5/thumbnails/12.jpg)
Hipótese 3 –Relações entre a companhia utilizada, o custo da tarifa praticada, o tipo do passageiro, o tipo da viagem e o órgão federal correspondente ao passageiro
Resultados
2)Trajeto=(Recife-Brasilia)|(Florianopolis-Brasilia)| Turno_Partirda=(TARDE): Servidor(8.0/0.0)
1) Turno_Partirda=(NOITE)| Trajeto=(Brasilia-Belem)|(Brasilia-Fortaleza)| | Trajeto=(Brasilia-Fortaleza): Servidor(1.0/1.0)
Trajeto=(Brasilia-Goiania): Servidor(5.0/2.0)Trajeto=(Brasilia-Florianopolis): Servidor(10.0/7.0)Trajeto=(Brasilia-Belo Horizonte): Colaborador Eventual(30.0/12.0)Trajeto!=(Brasilia-Curitiba): Colaborador Eventual(24.0/16.0)
=== Classifier model (full training set) ===
Best-First Decision Tree=== Evaluation on training set ====== Summary ===
Correctly Classified Instances 1568 78.4 %Incorrectly Classified Instances 432 21.6 %
Exemplos da Árvore:
3)
![Page 13: Projeto de Aplicação - Passagens Federais](https://reader037.fdocumentos.tips/reader037/viewer/2022100518/559b908b1a28abf85d8b476e/html5/thumbnails/13.jpg)
Hipótese 3 –Relações entre a companhia utilizada, o custo da tarifa praticada, o tipo do passageiro, o tipo da viagem e o órgão federal correspondente ao passageiro
Resultados
Apriori=======Minimum support: 0.2 (400 instances)
Minimum metric <lift>: 1.1
Best rules found:
1. tipo_proposto=Colaborador Eventual Internacional=NAO 751 ==> Companhia=TAM 460 conf:(0.61) < lift:(1.36)> lev:(0.06) [122] conv:(1.42)
2. tipo_proposto=Servidor Internacional=NAO 1167 ==> Companhia=GOL 684 conf:(0.59) < lift:(1.32)> lev:(0.08) [165] conv:(1.34)
3. tipo_proposto=Servidor 1181 ==> Companhia=GOL 690 conf:(0.58) < lift:(1.32)> lev:(0.08) [165] conv:(1.33)
PredictiveApriori===================
Best rules found:
1. Turno_Partirda=NOITE Companhia=GOL 224 ==> Internacional=NAO 224 acc:(0.995)2. Turno_Partirda=TARDE Companhia=TAM 210 ==> Internacional=NAO 210 acc:(0.995)3. tipo_proposto=Servidor Turno_Partirda=MANHA Companhia=TAM 188 ==> Internacional=NAO 188 acc:(0.99499)4. Companhia=NHT 24 ==> Internacional=NAO 24 acc:(0.99466)5. tipo_proposto=Colaborador Eventual Trajeto=Porto Alegre-Brasilia 24 ==> Internacional=NAO Companhia=TAM 24 acc:(0.99466)6. Trajeto=Rio de Janeiro-Rio Branco 9 ==> tipo_proposto=Servidor Internacional=NAO 9 acc:(0.99129)7. Trajeto=Rio de Janeiro-Rio Branco 9 ==> tipo_proposto=Servidor Turno_Partirda=NOITE 9 acc:(0.99129)8. Internacional=NAO Trajeto=Brasilia-Rio de Janeiro Turno_Partirda=MANHA Companhia=GOL 23 ==> tipo_proposto=Servidor 22 acc:(0.98756)
![Page 14: Projeto de Aplicação - Passagens Federais](https://reader037.fdocumentos.tips/reader037/viewer/2022100518/559b908b1a28abf85d8b476e/html5/thumbnails/14.jpg)
Referências
• Agrawal R, Imielinski T, Swami AN. "Mining Association Rules between Sets of Items in Large Databases." SIGMOD. June 1993, 22(2):207-16.
• Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann, Ian H. Witten (2009); The WEKA Data Mining Software: An Update; SIGKDD Explorations, Volume 11, Issue 1.
• Peter A. Flach and Nicolas Lachiche. Confirmation-Guided Discovery of First-Order Rules with Tertius. Machine Learning,volume 42 (1/2): 61--95, January 2001.
• S. Kotsiantis, D. Kanellopoulos, Association Rules Mining: A Recent Overview, GESTS International Transactions on Computer Science and Engineering, Vol.32 (1), 2006, pp. 71–82
[email protected]@yahoo.com.br