UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri...

82
UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR CURSO DE CIÊNCIA DA COMPUTAÇÃO MINERAÇÃO DE DADOS NA INSTITUIÇÃO DE ENSINO SENAI TIJUCAS PARA IDENTIFICAR PADRÕES NA EVASÃO DE ALUNOS por Diego De Faveri Cristiano Itajaí (SC), maio de 2013

Transcript of UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri...

Page 1: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR

CURSO DE CIÊNCIA DA COMPUTAÇÃO

MINERAÇÃO DE DADOS NA INSTITUIÇÃO DE ENSINO SENAI TIJUCAS PARA IDENTIFICAR PADRÕES NA EVASÃO DE ALUNOS

por

Diego De Faveri Cristiano

Itajaí (SC), maio de 2013

Page 2: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS TECNOLÓGICAS DA TERRA E DO MAR

CURSO DE CIÊNCIA DA COMPUTAÇÃO

MINERAÇÃO DE DADOS NA INSTITUIÇÃO DE ENSINO SENAI TIJUCAS PARA IDENTIFICAR PADRÕES NA EVASÃO DE ALUNOS

Área de Sistemas de Informação

por

Diego De Faveri Cristiano Relatório apresentado à Banca Examinadora do Trabalho Técnico-científico de Conclusão do Curso de Ciência da Computação para análise e aprovação. Orientador: Benjamin Grando Moreira, M.Sc.

Itajaí (SC), maio de 2013

Page 3: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

Dedico este trabalho a minha esposa, Mariana Campos Cristiano, que soube incentivar e compreender a fase turbulenta da redação do TTC, que de mãos dadas a mim rezou para que

Deus desse sabedoria para me guiar neste projeto. Como o marcador de compasso dos velhos navios guiam os remadores no ritmo da remada, dedico esse trabalho a meu orientador M.Sc. Benjamin Grando Moreira, por ter marcado o

compasso para que eu encaminhasse esse projeto no ritmo e rumo certo.

Page 4: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

AGRADECIMENTOS

Agradeço a todos que de algum forma contribuíram para a realização deste trabalho,

em especial a minha esposa pela paciência, compreensão e companheirismo, aos meus pais e

amigos próximos, por entenderem a minha ausência, ao meu orientador pela confiança,

empenho, atenção e amizade, ao coordenador do Núcleo de Tecnologia da Informação do

SENAI de Tijucas, pelo apoio e incentivo dado no desenvolvimento deste projeto, a equipe de

Tecnologia da Informação do Departamento Regional do SENAI de Santa Catarina, pelo

apoio dado com a base de dados e a Deus pela saúde e sabedoria concedida.

Page 5: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

“Não pense em vencer, pense em não ser vencido.” Gichin Funakoshi

Page 6: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

RESUMO

CRISTIANO, Diego De Faveri. Mineração de Dados na Instituição de Ensino SENAI Tijucas para Identificar Padrões na Evasão de Alunos . Itajaí, 2013. 82 f. Trabalho Técnico-científico de Conclusão de Curso (Graduação em Ciência da Computação) – Centro de Ciências Tecnológicas da Terra e do Mar, Universidade do Vale do Itajaí, Itajaí, 2013. O presente projeto foi realizado com o objetivo de modelar um Data Warehouse com informações do SENAI Tijucas para aplicar o processo de mineração de dados no intuito de encontrar um padrão de aluno propício a evasão. Os objetivos específicos que se pretendeu atingir foram: estudar e descrever conceitos de descoberta de conhecimento com Mineração de Dados em uma base de dados; Estudar e entender as principais causas de evasão em instituições de ensino; Verificar existência de trabalhos similares e fazer a sua análise; Especificar e implantar o Data Warehouse; Validar os resultados com o sistema e coordenação pedagógica e, por fim, documentar os resultados obtidos. Constatou-se que os padrões retornados pela mineração de dados podem auxiliar no processo de ensino da instituição, pois será possível focar nas possíveis causas da evasão escolar. Foi utilizada a ferramenta WEKA, para facilitar o processo de mineração de dados e para a definição dos fatores de evasão. Acredita-se que este projeto irá contribuir para a instituição de ensino, no que diz respeito à melhora no acompanhamento do aluno. Os docentes, orientadores e coordenadores poderão trabalhar de modo focado em um aluno propício a evasão, ao invés de trabalhar de modo geral com todos os alunos de uma turma em um curso. Palavras-chave: Evasão Escolar. Mineração de Dados. Data Warehouse.

Page 7: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

ABSTRACT

This project was carried out in order to model a Data Warehouse with information from SENAI Tijucas to apply the process of data mining, in order to find a pattern conducive to abandonment of the student. The specific objectives that were intended to achieve: to study and describe concepts of knowledge discovery with data mining in a database, study and understand the main causes of dropout in educational institutions; Check for similar work and make your analyze, specify and deploy Data Warehouse; validate the results with the system of training and coordination and, finally, to document the results. It was found that the patterns returned by data mining can help in the teaching institution, you can focus on the possible causes of truancy. WEKA tool was used to facilitate the process of data mining and define the factors evasion. It is believed that this project will contribute to the educational institution, with regard to improvement in student monitoring. Teachers, counselors and coordinators can work so focused on a student prone to evasion, instead of working in general with all students in a class of a course. Keywords: School Dropout. Data Mining. Data Warehouse.

Page 8: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

LISTA DE FIGURAS

Figura 1. Etapas do Processo de KDD .................................................................................. 27 Figura 2. Representação de Data Warehouse e Data Mart em uma empresa......................... 39 Figura 3. Modelagem do Data Warehouse proposto pelo projeto.......................................... 47 Figura 4. Resultado da classificação do algoritmo JRIP ........................................................ 54 Figura 5. Resultado do JRip levando em consideração os dados do professor. ...................... 58

Page 9: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

LISTA DE QUADROS

Quadro 1. Definição de categorias com valores ............................................................................. 28 Quadro 2. Separação de intervalo e quantidade de ocorrências ...................................................... 31 Quadro 3. Representação binária padrão das categorias ................................................................. 32 Quadro 4. Representação binária 1 para N das categorias .............................................................. 32 Quadro 5. Representação binária por temperatura dos valores ....................................................... 33 Quadro 6. Exemplo de normalização linear em valores de um atributo .......................................... 34 Quadro 7. Exemplo de normalização por desvio padrão em valores de um atributo ....................... 34 Quadro 8. Exemplo de normalização pela soma de elementos em atributos ................................... 35 Quadro 9. Exemplo de normalização por valor máximo em atributos ............................................ 36 Quadro 10. Caractísticas da ferramenta WEKA ............................................................................. 49 Quadro 11. Atributos utilizados no WEKA para mineração de dados. ........................................... 54 Quadro 12. Regras e valores obtidos do algoritmo JRip. ................................................................ 55 Quadro 13. Dados utilizado no WEKA para mineração de dados agregados dados dos professores. 57 Quadro 14. Resultados do algoritmo JRip com as regras criadas com os atributos do professor. .... 58

Page 10: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

LISTA DE GRÁFICOS

Gráfico 1. Situação x quantidade de alunos nos anos de 2011 e 2012 ............................................ 51 Gráfico 2. Relação entre situação do aluno e a média das notas ..................................................... 52 Gráfico 3. Situação do aluno x cursos ofertados ............................................................................ 52 Gráfico 4. Relação entre situação do aluno e data da matrícula ...................................................... 53 Gráfico 5. Situação do aluno x faixa etária do professor ................................................................ 56 Gráfico 6. Situação do aluno x formação do professor ................................................................... 56 Gráfico 7. Relação entre situação do aluno e tipo de contrato do professor com a instituição ......... 57

Page 11: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

LISTA DE ABREVIATURAS E SIGLAS

DW Data Warehouse FIESC Federação das Indústrias do Estado de Santa Catarina INEP Instituto Nacional de Pesquisas Educacionais KDD Knowledge-Discovery in Databases MD Mineração de Dados MEC Ministério da Educação PDE Programa de Desenvolvimento Escolar SENAI Serviço Nacional de Aprendizagem Industrial SQL Structured Query Language TTC Trabalho Técnico-científico de Conclusão de Curso UNIVALI Universidade do Vale do Itajaí WEKA Waikato Environment for Knowledge Analysis

Page 12: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

SUMÁRIO

1 INTRODUÇÃO ................................................................................................. 15 1.1 PROBLEMATIZAÇÃO .................................................................................. 16 1.1.1 Formulação do Problema ............................................................................. 16 1.1.2 Solução Proposta .......................................................................................... 17 1.2 OBJETIVOS ..................................................................................................... 17 1.2.1 Objetivo Geral .............................................................................................. 17 1.2.2 Objetivos Específicos .................................................................................... 17 1.3 METODOLOGIA ............................................................................................ 18 1.4 ESTRUTURA DO TRABALHO ..................................................................... 18 2 FUNDAMENTAÇÃO TEÓRICA .................................................................... 20 2.1 O PROBLEMA DA EVASÃO NAS INSTITUIÇÕES DE ENSINO ............. 20 2.1.1 Fatores externos à escola para a evasão ...................................................... 21 2.1.2 Fatores internos à escola para a evasão ...................................................... 21 2.1.3 A causa do problema nas instituições .......................................................... 22 2.1.4 A visão de quem participa do processo de ensino ....................................... 23 2.2 INSTITUIÇÃO DE ENSINO SENAI TIJUCAS ............................................ 25 2.3 DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS .............. 26 2.3.1 Seleção dos Dados ......................................................................................... 27 2.3.2 Limpeza ........................................................................................................ 28 2.3.3 Codificação ................................................................................................... 30 2.3.4 Enriquecimento ............................................................................................ 33 2.3.5 Normalização de Dados ................................................................................ 33 2.3.6 Mineração de Dados ..................................................................................... 36 2.3.7 Simplificação de Conhecimento Gerado ..................................................... 37 2.3.8 Visualização dos Modelos de Conhecimento ............................................... 38 2.4 DATA WAREHOUSE ..................................................................................... 38 2.4.1 Armazenando os dados ................................................................................ 40 2.4.2 Construindo um Data Warehouse ................................................................ 40 2.5 ESTUDOS SIMILARES .................................................................................. 41 2.5.1 Projeto de Mineração De Dados Aplicada à Identificação de Alunos Propensos à Evasão do CEULJI/ULBRA de Ji-Paraná/RO ................................ 41 2.5.2 Aplicação de Técnicas de Mineração de Dados na Previsão de Propensão à Evasão Escolar .................................................................................. 42 2.5.3 Minerando Dados Educacionais com foco na evasão escolar: oportunidades, desafios e necessidades ................................................................. 43 2.5.4 Considerações dos trabalhos similares ........................................................ 43 3 DESENVOLVIMENTO ................................................................................... 45 3.1 BASE DE DADOS ............................................................................................ 45 3.2 DATA WAREHOUSE ....................................................................................... 46 3.3 MINERAÇÃO DE DADOS ............................................................................. 47

Page 13: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

3.3.1 A ferramenta WEKA ................................................................................... 48 3.3.2 Pré-processamento ....................................................................................... 49 3.3.3 Classificação ................................................................................................. 53 4 CONCLUSÕES ................................................................................................. 60 4.1 TRABALHOS FUTUROS ............................................................................... 61 APÊNDICE A. QUESTIONÁRIO APLICADO ................................ 65 APÊNDICE B. REGRAS DE CLASSIFICAÇÃO: DADOS ALUNOS ................................................................................................ 66 APÊNDICE C. REGRAS DE CLASSIFICAÇÃO: DADOS DO PROFESSOR. ........................................................................................ 71 APÊNDICE D. ESBOÇO DE TELA PARA VISUALIZAÇÃO DAS REGRAS CRIADAS PELO ALGORITMO JRIP NO WEKA. ................................................................................................... 74 ANEXO A. AUTORIZAÇÃO PARA UTILIZAÇÃO DA BASE DE DADOS COMO MODELAGEM E AVALIAÇÃO DAS TÉCNICAS FUNDAMENTADAS ....................................................... 75 ANEXO B. MODELAGEM DO BANCO DE DADOS ................... 76

Page 14: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

15

1 INTRODUÇÃO

Segundo a Constituição Federal (artigo 205) a educação, através de ações do Estado,

da família e da sociedade, é um direito que deve ser garantido a todos, visando o seu

desenvolvimento para o exercício de cidadão.

Órgãos e instituições de ensino são ditos como responsáveis pela educação, mas está

nas ações do Estado, família e da sociedade o dever de garantir a educação a todos. De acordo

com Rocha (2012, não paginada): “a educação deixou de ser um tema exclusivo dos

trabalhadores da área para ser uma questão de interesse de toda a sociedade”.

A assiduidade das crianças e jovens na escola, está nos programas do governo e no

incentivo da família. Os projetos executados pelo Estado tem o objetivo de manter o aluno em

sala de aula, oferecendo oportunidades e vivências com estudo técnicos, profissionalizantes e

de graduação. Cabe, então, à família e à sociedade a tarefa de incentivar o aluno na

permanência em um curso. Porém, a educação, em sua plenitude, não está ao alcance de todos

os cidadãos e também não tem sido eficiente no que se refere à conclusão de todos os níveis

escolares (ROCHA, 2012).

A evasão escolar é um dos temas que, há algum tempo, integram a pauta dos debates e

reflexões referentes ao panorama da educação brasileira e ainda possui um espaço relevante

no cenário das políticas públicas a da educação em particular (MENEZES, 2010).

Evasão escolar ocorre quando o aluno deixa de frequentar a aula e fica caracterizado o

abandono escolar. Segundo o Ministério da Educação (BRASIL / MEC, 1997 apud

MARTINS, 2007), evasão é: a saída definitiva do curso de origem sem conclusão ou a

diferença entre ingressantes e concluintes, após uma geração completa.

Segundo pesquisa desenvolvida pela Fundação Getúlio Vargas – Rio de Janeiro (FGV-

RJ, 2009), Motivos da Evasão Escolar, o desinteresse relacionou 40% dos jovens com idade

entre 15 e 17 anos no que se refere à evasão escolar, estes relataram achar a escola

desinteressante. Dentre outros motivos temos a repetência, horário de trabalho, desmotivação,

desprestígio da profissão (graduação e técnicos).

Muitos profissionais da área pensam que não adianta o governo criar programas

educacionais sendo que a escola e a própria aula não se tornam mais atrativas. Os mesmos

acreditam que para diminuir a evasão escolar é necessário a união de ambas ações. (FGV-RJ,

2009).

Page 15: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

16

Ter a possibilidade de prever que um aluno irá evadir de um curso ou escola é uma

tentativa desenvolvida pelas instituições de ensino para não aumentarem o seu índice de

evasão. Utilizar técnicas de inteligência artificial e estatística é a melhor forma dos

responsáveis encontrar o que estão procurando.

A mineração de dados é uma boa técnica para encontrar a possibilidade de evasão de

um aluno. As informações úteis em um banco de dados pode ser descoberta automaticamente.

Tan, Steinbach e Kumar (2009) dizem que as técnicas de mineração de dados são organizadas

para agir sobre grandes bancos de dados com o intuito de descobrir padrões úteis e recentes

que poderiam de outra forma, permanecer ignorados. Entre outras funções, elas também

fornecem capacidade de previsão do resultado de uma observação do futuro.

Mineração de dados não é comumente utilizada em sistemas para gerenciamento de

instituições, visto que a maioria dos softwares utilizam consultas tradicionais para

recuperação de uma informação na base de dados. Por mais que esta segunda opção utilize

algoritmos e estruturas de dados, servem somente como recuperação de dados. Já na

mineração de dados, é possível o retorno de padrões de dados com base na execução da tarefa.

(TAN; STEINBACH; KUMAR, 2009).

Para Braga (2005), há um processo maior na descoberta de dados, no qual a mineração

dados está inserida, chamada KDD (Knowledge Discovery in Database). A mineração de

dados é restrita para a obtenção de modelos, tornando-a instâncias para o KDD.

As instituições de ensino perdem com a evasão de seus alunos, seja ela particular ou

pública. Para as públicas, um investimento é feito sobre o aluno que interessa em um curso e

se esse evadir o dinheiro investido não terá retorno. Para as particulares, a situação se

complica ainda mais, pois além do investimento feito pela instituição, também perde-se a

mensalidade (TIGRINHO, 2008).

1.1 PROBLEMATIZAÇÃO

1.1.1 Formulação do Problema

Visto que as perdas das instituições são grandes, a descoberta de uma alta

probabilidade de um aluno evadir o curso possibilita os responsáveis pela instituição agir para

conter essa possível saída, interagindo melhor com o aluno. Com esse estudo, outras

descobertas podem ser feitas, considerando que o sistema terá uma base de conhecimento para

identificar novos padrões de dados e gerar informações.

Page 16: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

17

Em várias instituições existe um banco de interessados por um curso. É possível

utilizar do conhecimento gerado para descobrir se existe a probabilidade de o aluno se

inscrever no curso e acabar evadindo no decorrer do mesmo. Caso o candidato tenha uma

probabilidade grande de evadir o curso, a instituição pode se programar para não fazer um

investimento inicial alto para o mesmo.

1.1.2 Solução Proposta

O projeto proposto teve por objetivo aplicar técnicas de mineração dados na base de

dados do sistema de gerenciamento de negócio da instituição de ensino SENAI Tijucas, com

base nos dados dos alunos, para identificar padrões de dados que determinem os fatores de

evasão escolar. Tais informações reconhecidas pela mineração de dados irão auxiliar no

processo de ensino dos docentes, pois estes poderão focar diretamente nas possíveis causas de

evasão. Sabe-se, ainda, que na obtenção dos padrões de alunos propensos à evasão, pode-se

encontrar outros padrões que auxiliem a instituição de ensino no seu processo de

aprendizagem.

1.2 OBJETIVOS

1.2.1 Objetivo Geral

Modelar um Data Warehouse com informações do SENAI Tijucas para utilizar a

técnica de mineração de dados no intuito de encontrar um padrão de aluno propício a evasão.

1.2.2 Objetivos Específicos

Estudar e descrever conceitos de descoberta de conhecimento com Mineração de

Dados em uma base de dados;

Estudar e entender as principais causas de evasão em instituições de ensino;

Verificar existência de trabalhos similares e fazer a sua análise;

Especificação e implantação do Data Warehouse;

Validar os resultados com o sistema e coordenação pedagógica;

Documentar os resultados obtidos no relatório final do TTC.

Page 17: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

18

1.3 Metodologia

Para os objetivos propostos pelo projeto, foi realizada uma pesquisa direcionada sobre

o problema da evasão escolar nas escolas e na sociedade. Foi realizado também um

questionário aplicado para contextualizar a visão de evasão escolar por todos os atores do

processo de ensinamento em uma instituição de ensino. Entende-se que esse problema é um

assunto abordado por vários níveis, identificando um trabalho maior no nível macro, no qual

se encontra os governos e entidades maiores, com programas que tentam cada vez mais

manter os alunos dentro das salas de aula.

Para encontrar a solução proposta pelo projeto, foi feito um estudo com técnicas

computacionais para descoberta de conhecimento e padrões de alunos com o problema de

evasão. Realizou-se um levantamento bibliográfico sobre o assunto de técnicas e

característica específicas em mineração de dados e descoberta de conhecimento. A partir

deste, identificou-se a necessidade de utilizar a técnica de classificação de dados na mineração

dos mesmos e como visualização e análise dos resultados árvores e regras de decisão e a

matriz de confusão.

Uma pesquisa por projetos similares foi feita para que encontrasse algumas

características fundamentais para o início da pesquisa e análise de atributos necessários para

que a solução do problema fosse executada com confiabilidade.

Encontrou-se a necessidade de uma ferramenta que auxiliasse no estudo e análise dos

atributos da base de dados estudada. Foi feito então uma pesquisa direcionada sobre as

características do software WEKA e como se dá a utilização do mesmo, para que a ferramenta

auxiliasse a solução proposta pelo projeto.

1.4 Estrutura do trabalho

O projeto presente está dividido em quatro capítulos, citado como:

Capítulo 1: capítulo introdutório que sintetiza o que será apresentado pelo

projeto;

Capítulo 2: capítulo sobre a Fundamentação Teórica do assunto abordado pelo

projeto. Este capítulo está subdividido em quatro tópicos. No primeiro tópico

estão contidos os estudos feitos sobre a problemática do projeto (a evasão

Page 18: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

19

escolar). O segundo tópico está reservado para fundamentar sobre as técnicas

de descoberta de conhecimento, no qual apresenta as etapas e técnicas. No

terceiro tópico estão fundamentados os estudos feitos sobre Data Warehouse,

visto que para a solução proposta necessitou-se desta tecnologia. No quarto e

último tópico, está presente a pesquisa feita em projetos similares, projetos que

estudaram técnicas semelhantes acerca de resolver a problemática principal,

evasão escolar;

Capítulo 3: capítulo destinado ao desenvolvimento. Nesta seção estão presentes

as técnicas que foram utilizadas para solução do problema, as ferramentas

auxiliaram na busca da obtenção do conhecimento, a estruturação da base de

dados em estudo e a modelagem do datawarehouse e também modelagem do

processo para descoberta de conhecimento e visualização da informação

reportada pela mineração de dados;

Capítulo 4: quarto e último capítulo, destina-se para as conclusões e abertura

de possibilidades de trabalhos futuros.

Page 19: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

20

2 FUNDAMENTAÇÃO TEÓRICA

O projeto foi fundamentado teoricamente com base em algumas referências

específicas, citando elas, ten-se para a problemática como autor base Queiroz (2004) e

colaboradores da unidade escolar em estudo. O estudo baseou-se em identificar a evasão

escolar e suas causas, as consequências do problema para a sociedade e para auxiliar na

solução proposta. Para assessorar o desenvolvimento do projeto, aplicou-se um questionário

com intuito de verificar a visão dos atores do processo de ensino sobre o tema.

Para a fundamentação da técnica de mineração de dados, descoberta de conhecimento

e data warehouse, foi utilizado como base os autores Goldschmidt e Passos (2005), Tan,

Steinbach e Kumar (2009), Oliveira (2002) e projetos com temas de problemáticas e soluções

similares, na busca de uma iniciação para o projeto de desenvolvimento da solução proposta

por este projeto. Foi fundamentado como as técnicas que serão utilizadas funcionam e suas

características, como é criado um repositório de dados para que a mineração de dados possa

trabalhar e o que os outros autores de projetos semelhantes fizeram para resolver o problema e

os resultados obtidos.

2.1 O problema da evasão nas instituições de ensino

A evasão escolar é um dos temas que fazem parte de debates políticos referentes à

educação pública. O ponto central em debate é o papel que a família e o Estado têm na

orientação dos alunos quanto à vida escolar. A Lei de Diretrizes e Bases da Educação

(1997:2) é bem clara quanto ao papel do Estado e da família (QUEIROZ, 2004, não

paginada):

Art. 2°. A educação, dever da família e do Estado, inspirada nos princípios de liberdade e nos ideais de solidariedade humana, tem por finalidade o pleno desenvolvimento do educando, seu preparo para o exercício da cidadania e da qualificação para o trabalho.

Quanto ao alcance de todos os cidadãos à educação e na conclusão de todos os níveis

escolares, a educação não tem sido completa. Como fatores que causam a evasão escolar,

muitos estudos apontaram a desestruturação familiar, as políticas de governo, o desemprego, a

desnutrição e a própria criança, sem retirar a responsabilidade da escola no processo de

exclusão da criança no sistema educacional (QUEIROZ, 2004).

Page 20: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

21

A evasão escolar atinge do nível micro (a escola) até o nível macro (o país). Muitas

ações são criadas no âmbito nacional para a erradicação da evasão escolar, como exemplo a

Escola Ciclada, o programa bolsa-escola, o Plano de Desenvolvimento Escolar (PDE), entre

outros, porém somente estes programas não são suficientes para eliminar de fato o problema

da evasão (QUEIROZ, 2004).

O problema da evasão escolar não atinge somente as unidades de ensino públicas, esse

problema é uma questão nacional e reflete nas unidades de ensino privadas também. Queiroz

(2004) afirma que muitos estudos são feitos para analisar o fracasso escolar quanto à

permanência dos alunos no processo educacional. Esses estudos são feitos a partir de duas

abordagens: a primeira a partir dos fatores externo as escolas, como o trabalho, as

desigualdades sociais, o aluno e a família, a segunda os fatores internos, como a própria

escola, a metodologia de ensino e o professor.

2.1.1 Fatores externos à escola para a evasão

Segundo Rocha (2010), para os alunos que estudam no período noturno, dentre os

principais fatores que levam o aluno a evadir do ensino estão: cansaço devido ao trabalho

precoce, desinteresse e desestruturação familiar. Para a autora, os alunos deste período são na

sua maioria de classe social mais desfavorecida financeiramente, normalmente os alunos

passam por uma jornada de trabalho diária cansativa, o que leva o desinteresse aos estudos.

Queiroz (2004) defende que o fator externo que mais causa a evasão dos alunos no

período diurno está na família. As condições de vida do aluno, a má alimentação, o não

acompanhamento dos pais ou responsáveis no ensino são determinantes no fracasso escolar

do aluno.

2.1.2 Fatores internos à escola para a evasão

Dos fatores internos como causadores do fracasso escolar dos alunos, o professor é

apontado como o principal fator causador. O professor é apontado como principal causador

devido às expectativas negativas que este tem perante os alunos ditados por ele como

deficientes, nos quais representam as diferenças sociais e culturais existentes e que, às vezes,

não respondem com as expectativas do professor (QUEIROZ, 2004).

Page 21: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

22

Rocha (2010) aponta como principal fator interno no ensino noturno a estrutura

escolar, muitas vezes os alunos são esquecidos neste período devido as escolas não terem

responsáveis pelas áreas de coordenação e direção. A falta de estrutura como bibliotecas,

laboratórios, salas de vídeo tem um forte fator na causa do fracasso e desinteresse dos alunos.

2.1.3 A causa do problema nas instituições

O problema financeiro não atinge somente as instituições particulares, todos acham

que por um aluno evadir, a escola irá perder uma mensalidade, mais que isso, a escola perde

também todo investimento feito na estrutura para que o aluno possa concluir os estudos. Esse

investimento é feito tanto pela instituição privada quanto pelas instituições públicas, como

citado, o governo tenta manter os alunos em sala propiciando projetos que ajudem

financeiramente e socialmente o indivíduo (TIGRINHO, 2008).

As escolas particulares perdem mais, pois, além de perder o investimento feito,

perdem a mensalidade que dava o retorno ao investimento. Na instituição de ensino estudada

a taxa de evasão, contabilizada no ano de 2012, foi de 23%.

Triguinho (2008) mostra que a entrada do alunos nas instituições de ensino não

considera o êxito educacional do estudante, no caso em estudo os estudantes de ensino

superior. Os números de abandonos no decorrer de um curso são muito grande no que se

refere as perdas sociais e econômicas.

Em uma pesquisa aplicada pelo INEP (2005 apud TRIGUINHO, 2008), mostrou uma

evolução ao passar dos anos na inscrição de novos alunos no ensino superior. Como mostra a

Tabela 1, nem todos os alunos ingressantes concluem o curso. Os dados de ingressos dos anos

de 2001, 2002 e 2003 não foram informados pela referência.

Tabela 1. Percentual do número de alunos que ingressaram e não se titularam no período mínimo previsto - 1994 – 2003

Ingressos por processo seletivo % de não concluintes após 4 anos Ano Pública Privada Total Pública Privada Total 1994 159.786 303.454 463.240 38,5 44,3 42,4 1995 158.012 352.365 510.377 36,6 39,0 38,1 1996 166.494 347.348 513.842 35,1 43,9 40,8 1997 181.859 392.041 573.900 33,6 44,5 40,8 1998 196.365 454.988 651.353 33,3 44,5 41,1 1999 217.497 570.141 787.638 57,5 38,9 36,8 2000 233.083 664.474 897.557 35,9 39,9 38,6

Page 22: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

23

Tabela 1. Percentual do número de alunos que ingressaram e não se titularam no período mínimo previsto - 1994 – 2003 – Continuação

Ingressos por processo seletivo % de não concluintes após 4 anos Ano Pública Privada Total Pública Privada Total 2001 32,5 42,1 39,2 2002 30,5 44,7 40,8 2003 27,5 46,0 41,2

Fonte: MEC/INEP/CAPES apud TIGRINHO, 2008

Em 2011 o Brasil teve uma perda de R$ 9 bilhões com o problema da evasão escolar.

No início de 2012 o número de evasões chegava a 896.455 alunos (20,9% dos alunos

ingressantes). Deste total de alunos que abandonaram os estudos 10,5% representam as

instituições de ensino superior públicas e 24,5% em instituições privadas, que concentram um

custo de R$ 9 mil por ano para manter o aluno estudando (G1, 2011).

2.1.4 A visão de quem participa do processo de ensino

Para auxiliar a fundamentação teórica deste item, foi aplicado um questionário,

(Apêndice A), referente o tema evasão escolar para determinados atores do processo de

ensino (diretores, professores, alunos, coordenadores e pais), tanto em escolas particulares

como em escolas públicas. Foram disponibilizados cinquenta questionários, porém obteve-se

o retorno somente de vinte.

O principal objetivo do questionário foi entender a visão de quem está no processo de

educação do jovem (professor, coordenador, diretor, aluno) e servir como fonte do processo

de seleção dos atributos na base de dados da instituição.

2.1.4.1 Na ótica dos professores

Nos questionários respondidos pelos professores, viu-se bastante interesse e

entendimento no assunto. Identificou-se que os professores estão por dentro do assunto e que

entendem que uma busca diária para manter o aluno dentro de sala de aula faz parte de seu

papel.

Apontaram que o fator externo, principalmente a falta de acompanhamento da família,

tem grande peso na evasão escolar dos alunos, que a parte social, onde por muitas vezes os

alunos precisam trabalhar e esquecem os estudos contribui muito para a desistência do aluno,

mas outro grande fator é o próprio professor, a falta de preparo, a metodologia utilizada são

fatores que instigam o desinteresse dos alunos pelos estudos.

Page 23: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

24

Das propostas indicadas pelos professores, destacam-se: um suporte melhor da

estrutura da instituição de ensino, para diversificação na metodologia de ensino aplicada; a

preparação do professor para a aula; que os professores criem um diálogo com os alunos que

demonstre o interesse que o professor tem em fazer o aluno aprender e prepara-lo para o

mercado e a vida.

2.1.4.2 Na ótica do diretor e coordenadores

A ótica dos diferentes atores do processo mostra a diversidade no que se diz o

problema da evasão e os fatores causadores.

Para o diretor e coordenadores, o problema é muito preocupante, pois estão cientes

que não só a instituição perde, mas o aluno é o maior prejudicado. Para esses atores, o fator

predominante para a evasão está na escola. O problema está com a unidade de ensino. É dever

da unidade escolar despertar o interesse dos alunos para os estudos, mostrar aos alunos as

oportunidades que terão com estudo aprofundado de um assunto.

Dentre as soluções apontadas, destacam-se: um acompanhamento de perto dos alunos;

metodologia de ensino condizentes com a realidade; aulas práticas que mostrem ao aluno que

a teoria se põe na prática, assim, fazendo com que esse materialize as dúvidas do aprendizado

e fazendo com que ele crie uma expectativa futura profissional ou até mesmo educacional.

2.1.4.3 Na ótica dos pais ou responsáveis

Os pais entenderam de imediato o problema da evasão e ainda compreenderam o

esforço feito por todas as partes do processo para manter os alunos em sala de aula.

Os pais que responderam ao questionário não eximiram a culpa da família como fator

para o desinteresse do aluno, entendem que o desinteresse se dá por uma não participação da

família do processo. Mas apontaram também problemas com os docentes, que por muitas

vezes a não preparação do professor não cativa o interesse dos estudantes em prestar atenção

ao conteúdo, criando assim um desinteresse pelo estudo.

A solução predominante apontada pelos pais foi a de trazer a família para dentro da

instituição de ensino, que ela acompanhe o dia-a-dia do seu filho na escola e, assim, possa

cobrar da instituição uma preparação adequada do professor e fazendo com que o exemplo

deles passe aos alunos a vontade de aprender.

Page 24: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

25

2.1.4.4 Na ótica dos alunos

Todos os alunos que responderam ao questionário estavam cientes do problema e de

sua gravidade quanto ao futuro educacional.

Dentre as respostas sobre qual fator é predominante no fracasso escolar dos

estudantes, o predominante foram os fatores externos, mais especificamente a família e o

desinteresse do próprio aluno. Entendem que a falta dos pais no processo de aprendizagem e

os meios de desatenção existentes hoje, como internet, eletrônicos, são artifícios que cada dia

mais os alunos se desinteressem pela figura do professor explicando conceitos em frente a um

quadro. Compreende-se que os alunos precisam ser estimulados.

Das soluções apontadas predominou o acompanhamento da família durante o percurso

da educação e uma motivação dos professores para instigar a vontade de aprender dos alunos.

2.2 Instituição de Ensino SENAI Tijucas

O SENAI (Serviço Nacional de Aprendizagem Industrial) existe no país desde 1942 e

iniciou suas atividades no município de Tijucas no ano de 1989, mantendo o foco em

qualificação profissional para o mercado de trabalho e aliando-se às iniciativas da indústria

nacional.

Nesta cidade o SENAI atende as modalidades de ensino médio com o ensino técnico

articulado (ensino médio e técnico cursados juntos), além de disponibilizar as qualificações

profissionais com cursos técnicos e de aprendizagem industrial nos setores de cerâmica,

metalmecânica, elétrica e tecnologia da informação.

Tratando-se dos cursos profissionalizantes, o público alvo para os cursos de

aprendizagem são pessoas com idade entre 14 à 24 anos enquanto que nos cursos técnicos os

requisitos são estar cursando o segundo ano do ensino médio ou ter o mesmo concluído.

Com incentivo do governo para qualificação profissional, desde o ano de 2012, os

cursos técnicos são subsidiados (os alunos não pagam mensalidade). Os cursos de

aprendizagem são mantidos com investimentos da indústria local. Neste caso, além dos alunos

se beneficiarem pela gratuidade do curso os mesmo recebem uma bolsa auxílio das empresas.

Os cursos de ensino médio e técnico articulado, por sua vez, possuem mensalidades que são

de responsabilidade do próprio aluno.

Page 25: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

26

Para realização deste projeto, utilizou-se como base os dados dos cursos

profissionalizantes (técnicos e aprendizagens industriais). Buscou-se identificar os fatores que

indicam a evasão do aluno e, através destes, teve-se acesso a uma gestão da unidade (que não

era foco deste estudo), porém permitiu gerenciar a meta de 10% de evasão na instituição.

2.3 Descoberta de Conhecimento em Bases de Dados

A tecnologia evolui constantemente, o que permite que cada vez mais dados sejam

guardados. Empresas de grande porte têm um grande volume de dados armazenados com

informações comerciais, administrativas, governamentais. Humanamente é impossível fazer a

manipulação deste grande volume de dados sem a ajuda de um sistema computacional

(GOLDSCHMIDT; PASSOS, 2005).

Goldscmidt e Passos (2005) fazem as seguintes perguntas: “O que fazer como todos os

dados armazenados? Como utilizar o patrimônio digital em benefício das instituições? Como

analisar e utilizar de maneira útil todo o volume de dados disponível?”.

Existem tarefas de descoberta de informação que não estão dentro da descoberta de

conhecimento. A procura de uma informação em uma base de dados ou em um site é

simplesmente uma recuperação de dados para uma manipulação ou para mostrar ao usuário.

Embora essas informações sejam importantes, elas não utilizam de uma estrutura

computacional avançada, técnicas comuns de ciência da computação são utilizadas para essa

tarefa (TAN; STAINBACH; KUMAR, 2009).

O processo de descoberta de conhecimento (do inglês Knowledge Discovery in

Database – KDD) foi criado para indicar as etapas que geram o conhecimento sobre os dados

e declara a etapa da Mineração de dados (do inglês Data Mining) (FAYYAD, 1996 apud

GOUVEIA, 2009).

Segundo Fayaad (1996 apud MAMANI, 2011), o KDD é formado por 5 etapas

representadas na Figura 1: seleção de dados; pré-processamento e limpeza dos dados;

transformação dos dados; Mineração de Dados, interpretação e apreciação dos resultados.

Page 26: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

27

Figura 1. Etapas do Processo de KDD Fonte: Fayaad (1996 apud MAMANI, 2011).

Para Fayyad (1996 apud DINIZ, 2009) a descoberta de conhecimento através do KDD

em bancos de dados é um processo iterativo, que pode retornar a qualquer etapa sempre que

necessário, sempre buscando o aprimoramento dos resultados a cada repetição. A Mineração

de Dados é a etapa principal no processo da descoberta, é nela que acontecem as relações dos

dados na base de dados, permitindo que um analista possa inferir as regras e fundamentar

hipóteses (Diniz, 2009).

2.3.1 Seleção dos Dados

Para Goldschmidt e Passos (2005 p. 26) a etapa de seleção de dados compreende: “a

identificação de quais informações, dentre as bases de dados existentes, devem ser

efetivamente consideradas durante o processo de KDD”. Normalmente, as informações estão

guardadas em bases transacionais e que sofrem alteração com o passar do tempo.

Diniz (2009 p. 7) enfatiza o seguinte: ”ocorre a seleção dos dados que serão utilizados

em todo o processo. Os dados não necessariamente estão em um banco de dados, eles podem

ser extraídos de planilhas eletrônicas, de formulários de pesquisa, tabelas, mapas entre outras

fontes.”.

Deve-se nesta etapa definir a população, podendo classificar em três categorias:

demográfico; comportamentais; e psicológicos (valores). Usando o exemplo de um homem

com idade de 45 anos, estado civil viúvo, que consome semanalmente no supermercado o

Page 27: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

28

valor de R$ 200,00 em média e é contra o pagamento do estacionamento, temos representados

no Quadro 1 os tipos de dados (BRAGA, 2005).

Tipos de Dados

DEMOGRAFICAMENTE COMPORTAMENTAL PSICOLÓGICO Homem, 45 anos, viúvo Compras semanais em média

de R$ 200,00 Contra o pagamento de estacionamento

Quadro 1. Definição de categorias com valores Fonte: Braga (2005)

É recomentado que se utilize uma cópia desta base de dados ou, o mais indicado, criar

uma base de dados com a junção de todos os bancos necessários. Essa junção se da de duas

formas: Junção Direta é criada um banco de dados somente com a junção das bases que serão

utilizadas, sem análise crítica dos dados; e Junção Orientada, antes de se criar o banco de

dados com a junção das bases, é contatado um especialista de KDD e um especialista no

domínio da aplicação, retira-se dos bancos somente os atributos que serão úteis para o

processo da descoberta de dados (GOLDSCHMIDT; PASSOS, 2005).

2.3.2 Limpeza

É comum nas bases de dados aparecerem dados fora do padrão ou inconsistentes ou

ainda incompletos. Para tratar este problema, há rotinas com a especialidade de preencher

valores faltantes, padronizar os dados que se encontram fora do padrão e corrigir

inconsistências nos dados (HAN; KAMBER, 2001 apud CORTÊS; PORCARO; LIFSCHITZ,

2002). Essa limpeza de dados pode ser feita não necessariamente antes do processo de KDD,

pode ser iniciada assim que encontrar algum tipo de problema na mineração de dados ou

avaliação de padrões (ADRIAANS; ZANTINGE, 1996 apud CORTÊS; PORCARO;

LIFSCHITZ, 2002).

É imprescindível que os dados estejam organizados e sem inconsistência, isso irá

afetar positivamente no desempenho do processo de mineração. Esta fase tem como alvo

corrigir os dados, eliminando consultas inúteis que seriam feitas pela Mineração de Dados.

Como apoio a etapa de limpeza de dados, é o sistema de informação fazer um filtro melhor na

inserção dos dados evitando a poluição do banco de dados, mais nem sempre é encontrado

este tipo de rotina, para isso esta etapa do KDD utiliza de funções de limpeza de dados

(GOLDSCHMIDT; PASSOS, 2005).

Page 28: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

29

2.3.2.1 Informações Faltantes

Informações faltantes se dão por diversas vezes existirem registros na base de dados

atributos que não têm valores atribuídos, valores dos quais são importantes para o processo de

mineração. Fazem parte de algumas técnicas de limpeza de valores faltantes as funções

(HAN; KAMBER, 2001 apud CORTÊS; PORCARO; LIFSCHITZ, 2002):

Exclusão de Registros: É o método menos indicado, pois a sua tarefa é excluir

todos os registros que contenham valores ausentes. Essa técnica é uma boa

opção para quando há vários atributos sem valores no registro. Se for utilizado

com ao menos um atributo sem valor o risco de sobrarem poucos registros para

a mineração será grande (GOLDSCHMIDT; PASSOS, 2005);

Inserção Manual dos Valores: Consiste em pesquisas em banco de dados com

informações originais, que por sua vez quando encontradas, serão inseridas

manualmente nos atributos sem valores (Ibidem);

Inserção de Valores Globais Constantes: Este método também não é o mais

indicado, seu trabalho é atribuir valores padrões nos campos onde se tem a

ausência do dado. Isso é limitado por alguns algoritmos de Mineração de

Dados utilizam valores padrões como importante, o que prejudicará no

resultado da mineração (Ibidem);

Inserção com Medidas Estatísticas: Este método utiliza de medidas estatísticas

para encontrar um valor para esses atributos com dados ausentes. Essa é uma

ótima técnica para substituir a Inserção de Valores Globais Constantes, pois

podemos utilizar a média para atributos numéricos e a moda para atributos

nominais para encontrar um valor para os campos sem informações. Em

problemas de classificação, podemos também utilizar essa técnica. Só que na

classificação não é considerado todos os registros e sim os registros a que

classe ele pertence. (Ibidem); e

Inserção Utilizando Métodos de Mineração de Dados: O mais indicado a ser

utilizado, utiliza de algoritmos de Mineração de Dados como Redes Neurais,

Árvores de Decisão, Modelos Bayesianos para prever o possível dado para o

atributo com valor em branco de um registro. Nota-se que é livre a utilização

Page 29: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

30

de algoritmos de Mineração de Dados no processo de pré-processamento do

KDD (Ibidem).

2.3.2.2 Informações Inconsistentes

A inconsistência acontece quando um valor é divergente de outro no mesmo registro

ou em um conjunto de registros. Nesta fase é necessário de um especialista para a

identificação das inconsistências. Dois métodos são utilizados para resolver as inconsistências

(GOLDSCHMIDT; PASSOS, 2005):

Exclusão de Casos: Semelhante à exclusão de registros do de informações

faltantes, consiste em excluir as tuplas onde ocorrem os dados inconsistentes

(Ibidem); e.

Correção dos Erros: Neste método, é utilizado de técnicas manuais ou até

mesmo atualização em lote através de comandos em ambientes relacionais.

Esses dados podem ser valores predeterminados (Ibidem).

2.3.2.3 Informações que não pertencem ao problema

Essa situação ocorre devido aos dados dos atributos não pertencerem ao domínio do

problema. Para limpeza desta causa é necessário o conhecimento prévio do domínio de cada

atributo. Algumas técnicas são utilizadas para a limpeza desta causa (GOLDSCHMIDT;

PASSOS, 2005):

Remoção dos Casos: O melhor caso para esse problema, nada mais é de que

excluir os atributos que não pertencem ao problema (Ibidem);

Correção de Erros: Pode-se utilizar de métodos manuais ou comandos SQL

para trocar os valores inválidos (Ibidem).

2.3.3 Codificação

Na fase de pré-processamento do KDD, a codificação dos atributos é o responsável

por como os dados serão representados no processo de KDD. A codificação dos dados é feita

para atender as necessidades dos algoritmos de mineração, se um algoritmo necessita de

Page 30: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

31

valores numéricos e a base de dados é nominal, esta deve ser codificada para transformar os

atributos nominais em numéricos (GOLDSCHMIDT; PASSOS, 2005).

A codificação dos dados influencia diretamente no conhecimento encontrado. A

codificação pode ser de duas formas: Numérica – Categórica ou Categórica – Numérica

(Ibidem).

2.3.3.1 Codificação Numérica – Categórica

Dividem os valores contínuos em intervalos codificados, algumas técnicas são

utilizadas para isso:

Mapeamento Direto: essa técnica é a simples troca de valores numéricos por

categóricos (Ibidem). Por exemplo:

Sexo:

1 = M

0 = F

Mapeamento em intervalos: precisa-se de duas tarefas para transformar o valor

de numérico para categórico, são elas: ordenar os valore e depois dividir em

intervalos, como mostra o Quadro 2, a segunda tarefa é colocar todos os

valores em suas categorias (TAN; STEINBACH; KUMAR, 2009).

Intervalo Frequência (número de valores no intervalo) 1000 |- 1600 3

1600 |- 4400 5 4400 |- 5400 2

Quadro 2. Separação de intervalo e quantidade de ocorrências Fonte: Goldschmidt e Passos (2005).

2.3.3.2 Codificação Categórica – Numérica

Representação de valores numéricos para atributos categóricos, as técnicas utilizadas

para essa tarefa são:

Representação Binária Padrão: O valores das categorias são representados por

valores numéricos binários, identificado no Quadro 3, aonde vão de 1 até N

categorias mapeadas (GOLDSCHMIDT; PASSOS, 2005).

Page 31: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

32

Valores Originais Representação Binária Padrão Casado 001

Solteiro 010 Viúvo 100

Divorciado 011 Outro 110

Quadro 3. Representação binária padrão das categorias Fonte: Goldschmidt e Passos (2005).

Representação binária 1 de N: Nesta representação, como mostra o Quadro 4, a

cadeia de bits é igual o número de categorias, cada bit representa um item na

categoria e somente o bit que representa o valor categórico é 1, os demais

ficam com o valor 0 (Ibidem).

Valores Originais Representação Binária Padrão

Casado 00001 Solteiro 00010

Viúvo 00100 Divorciado 01000

Outro 10000 Quadro 4. Representação binária 1 para N das categorias Fonte: Goldschmidt e Passos (2005).

Representação binária por temperatura: Essa representação é utilizada quando

os valores representados têm uma relação de algum modo, indicado pelo

Quadro 5. Possíveis valores de um atributo podem ser: fraco, regular, bom e

ótimo, os valores têm uma relação e uma representação binária é aplicada aos

valores, onde fraco indica a pior situação, logo terá o menor valor e ótimo

indica a melhor situação. A representação dos valores deve ser proporcional a

diferença entre as duas categorias e os valores adjacentes devem ter sua

representação proporcional ao seu estado na categoria (Ibidem).

Valores Originais Representação Binária por Temperatura

Fraco 0001

Regular 0011

Bom 0111

Page 32: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

33

Ótimo 1111 Quadro 5. Representação binária por temperatura dos valores Fonte: Goldschmidt e Passos (2005).

2.3.4 Enriquecimento

O enriquecimento consiste em buscar valores que agreguem mais informação a base

de dados original. Diferente da limpeza de dados, essas informações não substituem e nem

corrigem as informações já existente, o enriquecimento serve para agregar valores a base de

dados a ser trabalhada. Não muito utilizado devido ao custo agregado de operação, pode ter

duas formas (GOLDSCHMIDT; PASSOS, 2005):

Pesquisas: na base de dados originais, captar novos valores a fim de enriquecer

os dados existentes, isso pode gerar novos atributos ou até mesmo novas

tabelas na base de dados.

Consulta em Base de Dados Externas: esta técnica engloba ter informações

agregadas a base de dados de fontes externas. Outras bases de dados

adicionando informação em novos atributos ou até mesmo novas tabelas. Na

sua maioria são informações para completar os registros com poucos dados.

2.3.5 Normalização de Dados

A técnica de normalização de dados é utilizando quando temos valores fora de escala

para um atributo, essa técnica permite que possa atribuir um valor permitindo ele estar em

uma mesma faixa que os demais onde pode ser de -1 a 1 ou 0 a 1 (CORTÊS; POORCARO;

LIFSCHITZ, 2002). Existem duas técnicas para trabalhar a normalização, são elas:

Normalização Linear: Para esta técnica utiliza-se do valor máximo e mínimo

possíveis e conhecidos, e com base nestes valores representados 1 e 0

respectivamente, Quadro 6, os valores existente são colocados em escala com

base nos valores máximo e mínimos propostos (GOLDSCHMIDT; PASSOS,

2005). O seguinte cálculo é utilizado:

A’ = (A – Min) / (Max – Min), onde:

A’ = valor normalizado;

A = valor original do atributo;

Page 33: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

34

Min = valor mínimo possível do valor original;

Max = valor máximo possível do valor original.

CPF Despesa_Normalizada

99999999999 0,14 11111111111 0,43

33333333333 0,71 55555555555 0,29

22222222222 0,29 Quadro 6. Exemplo de normalização linear em valores de um atributo Fonte: Goldschmidt e Passos (2005).

Normalização por Desvio Padrão: considerando a posição média dos valores do

atributo, essa técnica normaliza o valor através de um desvio padrão, Quadro 7.

Essa técnica é muito útil quando não se sabe o valor máximo nem o mínimo de

um atributo (Ibidem).

A’ = (A – X) / σ, onde:

A’ = valor normalizado;

A = valor original do atributo;

X = média entre os valores do atributo;

σ = desvio padrão.

CPF Despesa_Normalizada

99999999999 -0,75 11111111111 0,13

33333333333 1,02 55555555555 -0,31

22222222222 -0,31 Quadro 7. Exemplo de normalização por desvio padrão em valores de um atributo

Page 34: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

35

Fonte: Goldschmidt e Passos (2005).

Normalização pela Soma dos Elementos: O problema de se utilizar essa técnica

é que determinados valores podem ser mapeados em valores muito pequenos.

Ela consiste em dividir o valor de um atributo pela soma de todos os valores

deste atributo, Quadro 8. O cálculo é dado por:

A’ = A / X, onde:

A’ = valor normalizado;

A = valor original do atributo;

X = somatório dos valores do atributo.

CPF Despesa_Normalizada

99999999999 0,05 11111111111 0,11

33333333333 0,16 55555555555 0,08

22222222222 0,08 Quadro 8. Exemplo de normalização pela soma de elementos em atributos Fonte: Goldschmidt e Passos (2005).

Normalização pelo Valor Máximo dos Elementos: essa técnica consiste na

simples divisão do valor a ser normalizado pelo valor máximo conhecido do

atributo, Quadro 9.

A’ = A / Max, onde:

A’ = valor normalizado;

A = valor original do atributo;

Max = maior valor encontrado do atributo.

Page 35: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

36

CPF Despesa_Normalizada 99999999999 0,25

11111111111 0,50 33333333333 0,75

55555555555 0,38 22222222222 0,38

Quadro 9. Exemplo de normalização por valor máximo em atributos Fonte: Goldschmidt e Passos (2005).

2.3.6 Mineração de Dados

A técnica de Mineração de Dados (MD) é um processo para descoberta de

informações úteis em uma base de dados com um volume de dados grande. O intuito é retirar

padrões dos dados para gerar um conhecimento. Com essa técnica é possível prever um

resultado futuro. (TAN; STEINBACH; KUMAR, 2009).

Essa técnica é inserida dentro do processo da descoberta do conhecimento como uma

instância e não como um processo todo. Ela é restrita exclusivamente na obtenção dos padrões

(BRAGA, 2005).

Segundo Goldschmidt e Passos (2005 p. 52): “A execução da etapa de Mineração de

Dados compreende a aplicação de algoritmos sobre os dados procurando abstrair

conhecimento”.

O algoritmo utilizado é quem irá representar o conhecimento, então o processo é

dependente do algoritmo utilizado na mineração dos dados. Esses algoritmos procuram

sempre, através de paradigmas, a exploração dos dados para a produção do conhecimento

(GOLDSCHMIDT; PASSOS, 2005).

O conhecimento obtido pela mineração de dados pode ser classificado como dedutivo

ou indutivo. O conhecimento dedutivo compreende em deduzir novas informações através das

informações já existentes aplicando regras lógicas de dedução nos dados. O conhecimento

indutivo é o apoiado pela mineração de dados, que retira os padrões de dados existentes. O

conhecimento gerado pode ser através de regras, árvore de decisão, redes neurais ou redes

semânticas (ELMASRI; NAVATHE, 2005).

Para a etapa de MD no processo de descoberta de conhecimento, Elmasri e Navathe

(2005) diz que existem cinco modos para a obtenção do conhecimento:

Page 36: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

37

Regras de associação: é o relacionamento dos valores conhecidos com uma

faixa de valores determinadas;

Hierarquias de classificação: trabalha em transações ou em um conjunto de

eventos para criar uma hierarquia de classes;

Padrões sequenciais: é feita uma investigação em uma séria de eventos ou

ações;

Padrões com séries temporais: uma série de dados temporais é analisada as

suas similaridades;

Clustering (Agrupando): é segmentado os dados obtidos entre dados similares.

2.3.6.1 Tarefas da Mineração de Dados

A mineração de dados tem duas tarefas básicas, uma responsável por, baseados em

outros atributos, prever novos valores de um atributo, é denominada de Tarefas de Previsão.

Essa denomina o atributo a ser previsto como atributo alvo, os atributos utilizados para fazer a

previsão são chamados de atributos explicativos. A outra tarefa é a de Descrição que é a

derivação dos padrões, resumindo o relacionamento dos dados subjacentes. Esses padrões

podem ser grupos, trajetórias, correlações, anomalias e tendências (TAN; STEINBACH;

KUMAR, 2009).

2.3.7 Simplificação de Conhecimento Gerado

Segundo Goldschmidt e Passos (2005), essa etapa requer o trabalho do analista e o

especialista da área, pois trata da classificação dos conhecimentos gerados pela mineração de

dados. Remove os detalhes complexos e simplifica o modelo de conhecimento gerado.

Para esta etapa, é comum encontrar limites mínimos de acurácia e abrangência nas

regras, a fim de eliminar as regras que não atendem ao modelo projetado (GOLDSCHMIDT;

PASSOS, 2005).

Goldschmidt e Passos (2005) dizem que esta etapa tem relação com a técnica de poda

de árvore de decisão, que as regras têm uma relação com a árvore de decisão, por isso é

possível a simplificação por meio da poda.

Page 37: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

38

2.3.8 Visualização dos Modelos de Conhecimento

Nesta etapa está a visualização dos dados gerados pela mineração de dados. A tarefa é

basicamente dispor os dados de uma forma que possa ser visualizada e interpretada por uma

pessoa e formar mentalmente o modelo das informações (TAN; STEINBACH; KUMAR,

2009).

Para Goldschmidt e Passos (2005), as informações podem ser visualizadas de qualquer

forma, mas o tipo comum utilizado é a árvore de decisão. Através dela a visualização do

modelo de conhecimento e os dados ficam mais bem distribuídos, pois pela árvore ser

montada nas condições de SE <condição> ENTÃO <conclusão> é possível de forma mais

rápida visualizar a regra criada.

2.4 Data Warehouse

Oliveira (2002 p. 7) diz que DW é “um ambiente especializado que filtra, integra e

disponibiliza informações gerenciais a partir de sistemas operacionais e fontes externas”.

Teorey (2007 apud PERING, 2010) define o Data Warehouse (DW) como um

repositório de dados com intuito de auxiliar nas tomadas de decisão com um tamanho

significativo permitindo o usuário tomar decisões rápidas, seguras e com precisão.

Para Trepper (2000 apud PEROTTONI et. al., 2001 p. 6) DW “é um grande banco de

dados históricos resumidos em diversos níveis de detalhamento”.

Os registros do DW são obtidos através de processamento de informações em base de

dados operacionais de empresas ou companhias. O tamanho do DW é definido pelo tamanho

da organização e o número de setores que compõem a mesma (SARTORI, 2012).

Em certos momentos é necessário ter uma base de dados menor, contendo informações

que englobem um setor ou área de atuação da corporação relevante a um período de tempo

mais enxuto, os Data Marts (Ibidem).

Basicamente, os Data Marts são repositórios de dados de uma grande empresa

divididos em diferentes locais, separando os setores da empresa conforme representa a Figura

2. (OLIVEIRA, 2002 apud PERING, 2011).

Page 38: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

39

Figura 2. Representação de Data Warehouse e Data Mart em uma empresa Fonte: Oliveira (2002 apud PERING, 2011).

Não há diferenças entre Data Marts e Data Warehouse em questão de problemas a

resolver e requisitos a atender, o que difere os dois são o tamanho e o escopo que eles

atendem. Enquanto o Data Warehouse atende a corporação como num todo, onde todos os

setores devem se envolver para tratar um problema, o Data Mart envolve somente um setor

ou grupo de pessoas para a tomada de decisões. Como o escopo e tamanho do Data

Warehouse são maiores, necessitam de um esforço maior quanto a tempo, dados e

investimentos maiores (SELEGATTO et. al., 2005).

Os DW devem atender a dois requisitos que são:

Ser temático: atender as necessidades específicas de negócio, onde os dados

particulares para tomada de decisão estão dispostos em um ambiente único e

específico. Nesse requisito entra o conceito de Data Mart (OLIVEIRA, 2002).

Prover Suporte à Multidimensionalidade: O DW deve permitir uma perspectiva

dos dados multidimensional, criando assim uma flexibilidade grande na análise

das informações. Geralmente é utilizada a forma de cubo para associar a

multidimensionalidade, onde se tem a visualização dos dados nas dimensões de

comprimento, largura e altura (OLIVEIRA, 2002).

Page 39: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

40

2.4.1 Armazenando os dados

As bases de dados relacionais das companhias apresentam muitas tabelas com

relacionamentos complexos e múltiplas uniões entre elas. Uma base de dados mais simples

significa a utilização mais fácil dos usuários para consultas e acessos as informações. As

necessidades dos usuários devem ser compreendidas pelo projetista do Data Warehouse (DW)

para facilitar a atualização do DW e indicar facilmente os termos do negócio (OLIVEIRA,

2002).

O principal modelo de dados é o modelo estrela. Neste, tem-se uma tabela central

(denominada Tabela de Fatos) com junções a outras tabelas e ligadas a essa existem as

Tabelas de Dimensões. Cada tabela de dimensão tem somente uma junção a tabela de fatos

(OLIVEIRA, 2002).

A tabela de fatos é composta por valores e medidas do negócio do problema ou da

empresa. Esses valores ou medidas são conhecidos através da interseção de todas as

dimensões. Os valores para os fatos melhores e mais úteis são valores numéricos, facilitando a

geração das respostas (OLIVEIRA, 2002).

A função das tabelas de dimensões é de armazenar as descrições das dimensões do

negócio. O tipo de dados utilizados para essa tabela é o de caracteres. Outra função da tabela

de dimensão é servir como fonte de restrição para consultas ou como cabeçalho para resposta

para usuário (OLIVEIRA, 2002).

2.4.2 Construindo um Data Warehouse

Singh (2001) define a etapa de construção do Data Warehouse (DW) como um

processo cuidadoso. “O planejamento do negócio define todos os elementos da organização”.

Define ainda que as empresas devem considerar alguns critérios para que obtenha uma

solução tecnicamente correta, são eles:

Identificar e analisar atividades essenciais para a missão do negócio;

Consultar o planejamento do negócio para orientação;

Criar ferramentas de acesso que conectem o processo aos dados;

Construir modelos de dados que suportem o processo.

Page 40: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

41

Os processos das funções do negócio devem ser estudados para a criação de um DW

global de uma companhia (SINGH, 2001). Elmasri e Navathe (2005) dizem que para formar o

DW é necessário seguir os seguintes passos:

Os dados devem ser extraídos de fontes múltiplas e heterogêneas;

Os dados devem ser formatados visando a consistência dentro do DW;

Os dados precisam ser limpos para assegurar a validade;

Os dados precisam ser ajustados ao modelo de dados do DW;

Os dados precisam ser carregados e atualizados no DW. Para a atualização é

necessário responder algumas perguntas:

o Quão atualizado os dados devem estar?

o Pode o DW ficar fora de serviço, e por quanto tempo?

o Quais são as interdependências dos dados?

o Qual é a disponibilidade de armazenamento?

o Quais são os requisitos de distribuição?

o Qual é o tempo de carga?

2.5 Estudos Similares

2.5.1 Projeto de Mineração De Dados Aplicada à Identificação de Alunos Propensos à Evasão do CEULJI/ULBRA de Ji-Paraná/RO

Em um projeto para desenvolvimento de um software para identificar alunos

propensos a evasão, Cestaro (2006), utilizou das técnicas de mineração de dados para

obtenção de padrões de alunos com probabilidade de evasão na base de dados do curso de

Sistemas de Informação do CEULJI/ULBRA de Ji-Paraná.

Baseado em uma aplicação de uma instituição, conseguiu resultados significantes,

chegando a marca de 80% para os estudos de caso real e 100% na aplicação simulada.

Page 41: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

42

Obtendo a regra relevante para evasão como alunos entre a faixa etária de 18 a 21 anos, de

ambos os sexos, moradores ou não da região (CESTARO, 2006).

Romeu utilizou do software WEKA como ferramenta de auxílio para a obtenção das

regras e padrões de alunos evadidos. Utilizou os algoritmos IB1, IBK, KSTAR no WEKA

para a descoberta dos padrões. Como o autor teve problemas com a obtenção da modelagem

de dados, a base de dados teve poucos atributos, os que ele utilizou foram: sexo, idade,

totalRep (total de reprovações), medTotal (soma das médias gerais de todas as disciplinas

cursadas), viveJP (morador de Jí-Paraná) e situação (evadido) (CESTARO, 2006).

2.5.2 Aplicação de Técnicas de Mineração de Dados na Previsão de Propensão à Evasão Escolar

Milani e Camargo (2010) estudaram modos de obter e manipular informações

automaticamente para identificar a probabilidade de um aluno evadir de um curso, criando

assim um trabalho dirigido sobre o aluno propenso a sair do curso. Além de identificar a

possibilidade de o aluno evadir, identificar os fatores que contribuem para a evasão.

Após a mineração de dados realizada diversos resultados foram obtidos. Em relação

aos resultados obtidos que levam em consideração a idade dos alunos, foram obtidas as

seguintes regras (MILANI; CAMARGO, 2010):

Alunos com idade maior que 37 anos têm um percentual crítico de evasão, em

um patamar entre 40 e 50%, o que representa em torno do dobro da média de

evasão do instituto;

Alunos entre Alunos com idade menor que 22 anos têm baixo percentual de

evasão, inferior a 10%, o que representa metade da média de evasão do

Instituto;

Alunos entre 22 e 27 anos tem percentual de evasão acima de 20%, valor que

está alinhado com a média de evasão do instituto.

Em relação aos resultados obtidos que levam em consideração o curso do aluno, foram

obtidas as seguintes regras (MILANI; CAMARGO, 2010):

Page 42: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

43

Alunos do curso técnico em mecânica têm alta probabilidade de evasão,

próxima a 30%;

Alunos do curso técnico em informática têm probabilidade de evasão em torno

de 20%, o que está levemente abaixo da média geral;

Alunos do curso superior em tecnologia para internet têm baixa probabilidade

de evasão, em torno de 10%.

Os autores do estudo apontado por este tópico utilizaram de algoritmos da mineração

de dados que geraram regras ou padrões de informação e árvores de decisão para estudo dos

resultados (MILANI; CAMARGO, 2010).

2.5.3 Minerando Dados Educacionais com foco na evasão escolar: oportunidades, desafios e necessidades

Rigo, Cazella e Cambruzzi (2012) fizeram um estudo sobre melhorias em aplicações

de mineração de dados educacionais, com o foco na evasão escolar e para que o conhecimento

gerado pela técnica pudesse apoiar no processo de detecção de alunos propensos a evasão. Os

autores pretendiam definir um perfil desses alunos através de padrões e regras obtidas pela

mineração de dados.

Em alguns experimentos feitos, foi identificado com cerca de 90% de acerto, perfis

relacionados à evasão. Os dados utilizados foram de poucas semanas (RIGO; CAZELLA;

CAMBRUZZI, 2012).

Para o processo de mineração de dados foi utilizado redes neurais. Os dados que os

autores utilizaram foram exclusivos de aulas, dados históricos e socioeconômicos seriam

inseridos em uma segunda versão dos estudos (RIGO; CAZELLA; CAMBRUZZI, 2012).

2.5.4 Considerações dos trabalhos similares

Os trabalhos similares mostraram onde será o início dos estudos para a criação do

Data Warehouse (DW), que tipos de atributos devem ser considerados como responsáveis

pela obtenção de um conhecimento. Ajudaram também a identificar as melhores técnicas para

serem utilizadas como conhecimento encontrado pelo processo de descoberta de

Page 43: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

44

conhecimento. Através dos trabalhos similares, identificou-se que a melhor resposta do

processo de descoberta de conhecimento seria por regras ou árvore de decisão.

Os projetos estudados mostraram que, pela base de dados utilizada, foi possível

encontrar um conhecimento e de forma visual ou por regras, é possível indicar a probabilidade

de evasão de um aluno.

Page 44: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

45

3 DESENVOLVIMENTO

Fundamentado os conceitos da técnica de descoberta de conhecimento e mineração de

dados e diagnosticado o problema e referenciado, serão apresentados neste tópico o que se

espera do projeto:

a base de dados a ser estudada;

a ferramenta WEKA; e

a modelagem dos dados a serem trabalhados.

O foco central do projeto será a obtenção de padrões e regras que possibilitem um

sistema auxiliar trabalhar com as informações a partir de um Data Warehouse (DW)

mensagens e alertas aos docentes e coordenadores da possibilidade de um aluno evadir do

curso, passando a trabalhar esse aluno não mais de modo reativo, quando o aluno necessita,

para modo proativo.

Caberá ao sistema identificar os padrões dos alunos propensos a evasão e avisar o

professor de uma possível evasão do aluno consultado. Após o resultado apresentado, caberá

ao professor tomar as atitudes pedagógicas para ajudar no processo de aprendizagem do

aluno.

3.1 Base de dados

O banco de dados é gerenciado por um sistema único de gestão de negócio na unidade

de ensino, este sistema contempla todos os setores da instituição, possibilitando, assim, que no

projeto sejam trabalhados vários atributos.

Um trabalho manual foi feito para criação do DW e a manipulação dos dados foi feita

a partir desta base de dados. Aproveitando que o banco de dados foi dividido em esquemas,

foram priorizados os esquemas que manipulam:

Acompanhamento pedagógico;

Cliente;

Colaborador;

Educação;

Matrícula;

Page 45: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

46

Processo Seletivo;

Produto Padronizado;

Senai;

Turma.

Após selecionar os atributos das entidades a serem trabalhados, foram importados para

a ferramenta WEKA, apresentada no próximo tópico, a obtenção das regras. Foram então

utilizado dados históricos da instituição de ensino estudada.

No (ANEXO B) encontra-se a modelagem do banco de dados da instituição, separadas

por esquemas.

Da base de dados foram retirados 4811 instâncias com os dados dos alunos. Os dados

consultados no banco de dados representam os anos de 2011 e 2012, nos quais os índices de

evasão foram 42% e 23% respectivamente.

3.2 Data Warehouse

A partir da pré-seleção dos dados, foi modelado um Data Warehouse (DW), e

conforme a Figura 3. Para o projeto desenvolvido houve a necessidade de criação pois a base

de dados era grande e com muitos dados desnecessários, então após o filtro dos dados, eles

foram retirados da base de dados original e inseridos na base de dados do data warehouse, o

que permitiu que a ferramenta WEKA fizesse as consultas necessárias direto na base de

dados.

Page 46: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

47

Figura 3. Modelagem do Data Warehouse proposto pelo projeto.

Na modelagem do DW, para a definição das dimensões, foi levado em consideração os

estudos feitos e conforme alinhado nos fatores relevantes a evasão do alunos as dimensões

foram separadas por categorias de causas. Na dimensão aluno os atributos selecionas são

dados relevantes ao aluno, como por exemplo, sexo, faixa de idade, se mora na cidade. A

dimensão desempenho tem como atributos dados relevantes ao desempenho do aluno no

curso, como exemplo temos: advertências, nota e frequência.

3.3 Mineração de dados

Após ter identificado os atributos a serem trabalhados pela mineração de dados, foram

aplicadas as tarefas de seleção dos dados e limpeza, apresentadas na fundamentação teórica, o

que tornou possível que o resultado fosse alcançado.

Foram aplicados algoritmos encontrados na ferramenta WEKA para obtenção de um

conhecimento útil. Os algoritmos para classificação dos dados que tiveram maior relevância

foram o JRip e J48.

Foi utilizado a tarefa de classificação pois percebeu-se a necessidade de categorizar os

atributos com relação a evasão. Como já existia o atributo que determina se o aluno evadiu ou

não a classificação pode ser aplicada.

Page 47: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

48

3.3.1 A ferramenta WEKA

A WEKA (Waikato Environment for Knowledge Analysis), é uma ferramenta

desenvolvida pela Universidade de Waikato, Nova Zelândia (FRANKLIM; FILHO, 2007).

A ferramenta é de uso livre, distribuída sob a licença de GPL (GNU General Public

License), construída na linguagem de desenvolvimento Java. Um software completo que não

se limita somente a mineração de dados, mas ao processo completo de descoberta de

conhecimento (SARTORI, 2012).

Do funcionamento para a mineração de dados e descoberta de conhecimento, a

ferramenta é constituída por um conjunto de algoritmos para implementar diversas técnicas de

mineração de dados que resolvem problemas reais (FRANKIM; FILHO, 2007).

É possível pela ferramenta o analista manipular os dados que estão sendo trabalhados,

podendo incluir e excluir métodos, por exemplo. Outra característica da ferramenta é os

diversos métodos de associação, classificação e clusterização existentes. Os formatos de

arquivos para leituras são ARFF, CSV e C45. A visualização dos dados pode ser feita por

histogramas ou apresentação em árvores de decisão. O Quadro 10 mostra uma tabela de

características da ferramenta (JACOMINI, 2008).

Page 48: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

49

Características Valores Acesso a Fonte de Dados Heterogêneas Sim Integração de Conjunto de Dados Não Facilidade para Inclusão de Novas Operações Sim Facilidade para a Inclusão de Novos Métodos Sim Recursos para Planejamento de Ações Sim Processamento Paralelo/Distribuído Não

Operações / Métodos Disponíveis

Visualização de Dados Distribuição de Frequências; Medidas de Disperção; Histogramas

Redução de Dados Amostragem Limpeza de Dados Substituição Codificação dos Dados Discretização automática e

manual Classificação Árvores de Decisão; Bayes;

Redes Neurais Clusterização Simple-Kmenas; Cobweb;

FarthesFirst Simplificação dos Resultados N/D Organização dos Dados Agrupamento de Padrões;

Ordenação de Padrões Apresentação dos Resultados Conjunto de Regras; Árvores

de Decisão Estruturas para Armazenamento de Modeos de Conhecimento Sim Estruturas para Acompanhamento de História de Ações Sim Quadro 10. Caractísticas da ferramenta WEKA Fonte: Passos (2005 apud JACOMINI, 2008).

Nesta pesquisa foi utilizada a versão 3.6.9, executando em plataforma Mac OS

Montain Lion e a inserção dos dados na ferramenta foi feita utilizando comandos SQL em

uma base de dados PostgreSQL.

Encontrou-se alguns problemas com a ferramenta devido ao número de dados ser

muito grande, o que acarretava em paradas e falhas na mineração. Houve a necessidade de

aumentar o espaço de memória para a ferramenta para que os resultados fossem alcançados.

3.3.2 Pré-processamento

No processo de seleção de dados houve a necessidade de criar alguns atributos para

que esses auxiliassem na obtenção de um conhecimento preciso.

Percebeu-se que um atributo que se destacou o conhecimento dos fatores da evasão foi

a nota do aluno em uma unidade curricular e sua frequência na mesma. Com os atributos

Page 49: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

50

originais, o conhecimento gerado não teve um valor significativo. Após este teste estes

atributos foram transformados para notas maiores que 7,0 (sete) e o valor do atributo era “s”

para se a nota fosse maior ou igual a 7,0 (sete) ou “n” se a nota fosse menor que 7,0 (sete), no

qual 7,0 (sete) é a diretriz da unidade de ensino para aprovação. Após a transformação do

atributo, o conhecimento gerado tornou-se muito mais interessante.

Outros atributos também foram transformados, como por exemplo a idade do

professor (distribuiu-se estes por faixa etária), a idade do aluno (também distribuída em faixa

de idades) e o endereço do aluno (para verificar se ele mora na cidade onde a instituição tem

sede).

Como a base de dados utilizada engloba todos os setores da instituição, alguns dados

estavam incompletos ou faltantes. Assim, foi trabalhado somente com instâncias que

continham todos os atributos preenchidos. Teve-se um cuidado especial para que na obtenção

dos dados para criação do Data Warehouse, não viessem dados faltantes e inconsistentes.

Nesta etapa foi realizado um trabalho manual junto a base de dados da instituição, no

processo de captação das informação para o Data Warehouse.

Com o auxílio da ferramenta, foi possível ter uma pré-visualização dos atributos

utilizados e sua distribuição. Nessa pré-visualização, foi possível fazer uma análise mais

profunda notando algumas relações, antes mesmo da ferramenta aplicar um algoritmo de

mineração.

Para análise dos dados obtidos no pré-processamento foram determinadas algumas

situações (atributo) para identificar os alunos. Estas, que seguem abaixo, devem ser

consideradas para um melhor entendimento dos gráficos:

Evadido/Eliminado: quando o aluno abandonou o curso sem regularização na

secretaria da unidade;

Evadido/Transf. Curso: quando o aluno solicita saída do curso para

transferência de escola;

Evadido/Desistente: quando o aluno formaliza o abandono do curso na

secretaria da unidade;

Page 50: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

51

Finalizado/Concluinte: quando o aluno completa o curso e é aprovado; e

Finalizado/Não Concluinte: quando o aluno completa o curso, porém não

alcança a aprovação.

Sobre a situação dos alunos nos anos de 2011 e 2012, percebe-se no Grafico 1 que a

taxa de evasão neste período foi muito alta, aproximadamente 42% do total.

Gráfico 1. Situação x quantidade de alunos nos anos de 2011 e 2012 Fonte: Base de dados do SENAI Tijucas gerados pela ferramenta WEKA (2013)

Com relação a influência das notas do aluno como um fator para a evasão, observa-se

no Gráfico 2 que a porcentagem dos alunos evadidos é maior para a média da nota menor que

7,0 (sete). Ou seja, este atributo realmente pode ser considerado como significante para

obtenção do conhecimento.

Page 51: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

52

Gráfico 2. Relação entre situação do aluno e a média das notas Fonte: Base de dados do SENAI Tijucas gerados pela ferramenta WEKA (2013)

Quanto a situação do aluno em relação ao curso que o mesmo se matriculou tem-se o

Gráfico 3:

Gráfico 3. Situação do aluno x cursos ofertados Fonte: Base de dados do SENAI Tijucas gerados pela ferramenta WEKA (2013)

Page 52: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

53

Nota-se por meio deste que alunos matriculados nos cursos técnicos tendem a evadir

mais que alunos matriculados em aprendizagens industriais.

No que se refere a data da matrícula no curso, ou seja, se o aluno matriculou-se antes

ou após o início do curso, percebe-se no Gráfico 4 que o percentual de aluno que abandonam

o curso é maior nos casos em que o aluno faz a matrícula após o inicio do curso.

Gráfico 4. Relação entre situação do aluno e data da matrícula

Fonte: Base de dados do SENAI Tijucas gerados pela ferramenta WEKA (2013)

3.3.3 Classificação

Na primeira etapa realizada da classificação, utilizando o algoritmo JRip, o resultado

esperado era uma regra que classificasse o aluno como evadido ou não utilizando dados que

envolviam o seu desempenho, disciplinas e dados pessoais. No Quadro 11 mostra as

informações utilizadas para a primeira análise dos dados.

Page 53: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

54

Banco datawarehouse

Query

SELECT pessoa_genero, formacao_situacao,formacao_curso, raca_descricao, matricula_situacao, mora_tijucas, mes_nascimento_aluno, faixa_idade_aluno, faixa_mes_matricula, regime_disciplinar_tipo, maior_sete, maior_frequencia, periodo_unidade_curricular_codigo, produto_apelido, turno_nome FROM fatos_alunos AS ft JOIN dimensao_aluno AS dmal ON ft.id_aluno = dmal.id_aluno JOIN dimensao_desempenho AS dmde ON ft.id_desempenho = dmde.id_desempenho JOIN dimensao_disciplina AS dmdi ON ft.id_disciplina = dmdi.id_disciplina

Objetivo Classificar os alunos dos cursos técnicos e de aprendizagem industrial matriculados no sistema.

Algoritmo weka.classifiers.rules.JRip -F 3 -N 2.0 -O 2 -S 1 Quadro 11. Atributos utilizados no WEKA para mineração de dados.

Após a realização do algoritmo, foi apresentado o resultado da Figura 4, na qual

percebe-se que na Matriz de Confusão a classificação foi bem sucedida, mesmo contento

poucas classificações incorretas das situações do aluno. Nota-se também que as instancias

classificadas corretamente correspondem à 98% dos registros do Data Warehouse.

Figura 4. Resultado da classificação do algoritmo JRIP

Percebe-se na Matriz de Confusão, que na sua maioria, os erros gerados pela

classificação está entre situações da mesma espécie, como exemplo tem-se a classificação da

situação Evadido/Eliminado que é confundida com a situação Evadido/Desistente em 22

instâncias, isso torna o erro desprezível por as situações indicarem a evasão do aluno.

No Quadro 12 apresentam-se algumas regras consideradas mais relevantes.

Page 54: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

55

Regra Encontradas Erros (maior_frequencia = n) and (maior_sete = n) => matricula_situacao=Evadido / Eliminado

1009 33

(faixa_mes_matricula = n) and (mora_tijucas = n) and (produto_apelido = TELM) => matricula_situacao=Evadido / Eliminado

142 0

(maior_sete = n) and (produto_apelido = AIEM) and (formacao_curso = Médio) => matricula_situacao=Evadido / Eliminado

72 5

(produto_apelido = TSEG) and (formacao_situacao = Incompleto) => matricula_situacao=Evadido / Eliminado

120 0

(produto_apelido = ASMR) and (faixa_idade_aluno = -15) and (regime_disciplinar_tipo = Advertência) and (mes_nascimento_aluno = 9) => matricula_situacao=Finalizado / Não Concluinte

95 0

(faixa_idade_aluno = +20) and (maior_sete = n) and (mes_nascimento_aluno = 4) and (pessoa_genero = M) => matricula_situacao=Evadido / Desistente

42 0

=> matricula_situacao=Finalizado / Concluinte 2364 9 Quadro 12. Regras e valores obtidos do algoritmo JRip.

Analisando o resultado obtido, percebe-se que o algoritmo classificou, na sua maioria,

instâncias com a situação do aluno finalizado (completou o curso). Entretanto algumas regras

geradas foram relevantes para determinar a evasão do aluno, identificando atributos das

dimensões aluno, desempenho e disciplina. Notou-se também que foram geradas regras que

determinaram a desistência do aluno, conforme a sua dimensão, o que permitiu verificar a

influência dos fatores internos e/ou externos.

Ao validar estes resultados, a coordenação pedagógica da instituição de ensino

afirmou que considera como fator predominante para a evasão do aluno o próprio docente

(formação do professor, área de atuação, prática pedagógica, entre outras).

Aproveitando o parecer da coordenação uma nova análise inicou-se, porém, com foco

no professor. Buscou-se com uma nova mineração de dados, levantar atributos que

relacionem o docente com a evasão do aluno. Nesta foi utilizado novamente o algoritmo JRip.

Observa-se no Gráfico 5, que no que diz respeito a relação existente entre a idade do

professor e probabilidade do aluno evadir, não deve-se considerar este atributo como fator

importante.

Page 55: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

56

Gráfico 5. Situação do aluno x faixa etária do professor Fonte: Base de dados do SENAI Tijucas gerados pela ferramenta WEKA (2013)

No Gráfico 6, que relaciona a situação do aluno com a formação do professor, também

não indica grandes relevâncias para evasão do aluno.

Gráfico 6. Situação do aluno x formação do professor Fonte: Base de dados do SENAI Tijucas gerados pela ferramenta WEKA (2013)

Page 56: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

57

Outro atributo analisado no pré-processamento foi o tipo de contrato do docente com a

instituição de ensino, demonstrado no Gráfico 7, mostra que este atributo não é relevante para

constatar se existe a possibilidade de o aluno evadir.

Gráfico 7. Relação entre situação do aluno e tipo de contrato do professor com a instituição Fonte: Base de dados do SENAI Tijucas gerados pela ferramenta WEKA (2013)

No pré-processamento não foi possível para definir um perfil de professor que fosse

significativo para a desistência do aluno. Uma nova classificação foi feita com o algoritmo

JRip, para encontrar uma regra que justificasse o argumento da coordenação pedagógica. Os

dados utilizados para essa classificação estão representados no Quadro 13.

Banco datawarehouse

Query

SELECT pessoa_genero, formacao_situacao,formacao_curso, raca_descricao, matricula_situacao, mora_tijucas, mes_nascimento_aluno, faixa_idade_aluno, faixa_mes_matricula, regime_disciplinar_tipo, maior_sete, maior_frequencia, periodo_unidade_curricular_codigo, produto_apelido, turno_nome, area_atuacao_nome, professor, colaborador_funcao, tipo_contrato_nome, nivel_educacao_nome, faixa_idade_professor FROM fatos_alunos AS ft JOIN dimensao_aluno AS dmal ON ft.id_aluno = dmal.id_aluno JOIN dimensao_desempenho AS dmde ON ft.id_desempenho = dmde.id_desempenho JOIN dimensao_disciplina AS dmdi ON ft.id_disciplina = dmdi.id_disciplina JOIN dimensao_colaborador AS dmco ON ft.id_colaborador = dmco.id_colaborador

Objetivo Classificar os alunos dos cursos técnicos e de aprendizagem industrial matriculados no sistema agregando informações do professor.

Algoritmo weka.classifiers.rules.JRip -F 3 -N 2.0 -O 2 -S 1 Quadro 13. Dados utilizado no WEKA para mineração de dados agregados dados dos professores.

Page 57: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

58

Após a execução do algoritmo, foi apresentado o resultado que segue abaixo,

representado na Figura 5.

Figura 5. Resultado do JRip levando em consideração os dados do professor.

O Quadro 14 apresenta as regras com mais relevâncias ou que tenham o professor

como parte da regra.

Regra Encontradas Erros (maior_frequencia = n) and (professor = Lauren Schultz Gadotti) and (formacao_situacao = Completo) => matricula_situacao=Evadido / Eliminado

4 0

(professor = Fabio Moreira de Oliveira) and (periodo_unidade_curricular_codigo = MAEL) => matricula_situacao=Evadido / Eliminado

2 0

(faixa_mes_matricula = n) and (mora_tijucas = n) and (area_atuacao_nome = Metalmecânica) => matricula_situacao=Evadido / Eliminado (142.0/0.0)

142 0

produto_apelido = ASMR) and (faixa_idade_aluno = -15) and (regime_disciplinar_tipo = Advertência) and (mes_nascimento_aluno = 9) => matricula_situacao=Finalizado / Não Concluinte

95 0

=> matricula_situacao=Finalizado / Concluinte 2367 13 Quadro 14. Resultados do algoritmo JRip com as regras criadas com os atributos do professor.

Com o resultado da mineração da segunda etapa, identificou-se que o professor não

tem fator direto na evasão de um aluno. Os dados retirados do sistema, que vinculavam o

professor ao aluno, não criaram nenhum conhecimento novo.

Page 58: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

59

Após o retorno da coordenação pedagógica, passou-se o resultado do KDD e o mesmo

informou que o papel do professor na desistência do aluno é indireto, mas que as regras

permitem ajudar o professor no que diz respeito a gestão educacional de um aluno.

Page 59: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

60

4 CONCLUSÕES

A Evasão escolar ocorre quando um aluno deixa de frequentar a escola e fica

caracterizado o abandono escolar. Este é um tema que normalmente integra a pauta dos

debates referentes a educação e se constitui como um problema que cresce cada dia mais.

Levando-se em conta que estes fatores são de interesse do acadêmico, por ser docente

da instituição em questão, o mesmo elaborou o presente projeto, com o objetivo geral de

modelar um Data Warehouse com informações do SENAI Tijucas para utilizar a técnica de

mineração de dados, no intuito de encontrar um padrão de aluno propício a evasão. Os

objetivos definidos foram alcançados a partir da técnica de mineração de dados, que de

maneira eficiente, contribuiu para a solução da problemática.

Muitas ações são criadas para tentar resolver o problema da evasão escolar, na sua

maioria de modo macro (programas do governo federal). Neste projeto pensou-se em focar

no modo micro, no qual o docente ou orientador poderá acompanhar diariamente a

probabilidade de um aluno evadir. Notou-se que algumas instituições fazem este

acompanhamento, porém, na maioria dos casos, é feita uma análise manual das informações,

fazendo com que o objetivo do processo seja encontrado de forma mais demorada. Ao

contrário, a técnica definida para ser utilizada neste projeto, permite que a resposta desejada

seja obtida/analisada de forma mais ágil.

Além da problemática apontada, evasão escolar, o número de atributos existentes na

base de dados contribuiu para a confiabilidade do resultado, considerando que um possível

resultado negativo poderia ser encontrado, pois, por ter muitas particularidades no processo de

descoberta de conhecimento, a técnica aplicada poderia não retornar os resultados esperados.

Aprofundando as técnicas de mineração de dados, identificou-se a necessidade de uma

ferramenta para auxiliar no processo e, por questões de utilização, documentação e processos,

foi escolhida a ferramenta WEKA.

Afim de melhorar o processo de consulta, foi estabelecida como forma de resposta da

mineração de dados as regras de classificação, nas quais pode-se identificar os fatores que

propiciam a evasão do aluno.

Page 60: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

61

Identificou-se que o processo de montagem do Data Warehouse foi muito específico,

para que os atributos certos fossem escolhidos e o processo de mineração de dados

apresentasse as regras de decisão, que permitem a credibilidade ao indicador de o aluno evadir

ou não do curso.

Com a escolha dos atributos corretos, foi possível encontrar alguns fatores que

propiciam a evasão e com o auxílio da ferramenta WEKA, criar uma regra que mostre estes

fatores.

Muitas dificuldades quanto a obtenção dos dados foram encontrados, pois a

modelagem do sistema da instituição era muito grande e complexa, tornando uma consulta de

dados na maioria das vezes lenta e falha. Identificou-se que é possível retirar da base de dados

mais informações para auxiliar no gerenciamento da unidade. Entretanto, deve-se agir com

cautela em relação a falta de dados e não padronização de alguns, pois um dos fatores de

retardo no projeto foi a limpeza e seleção dos dados.

Como sugestão para a instituição e para uma melhor visualização dos fatores

relevantes para evasão de um aluno (objetivo deste projeto), pensou-se em um esboço de uma

interface de sistema (APÊNDICE D).

4.1 Trabalhos Futuros

Ao concluir este trabalho acadêmico, foi possível constatar que o processo de

mineração de dados contribui muito nas atividade de gestão da unidade de ensino,

principalmente na gestão do aluno, agregando agilidade nas tomadas de decisão e redução da

perda financeira.

Esse estudo mostrou que outros conhecimentos e descobertas podem ser encontrados,

somando valor ao resultado do aluno evadir ou não do curso. Algumas sugestões são:

descobrir se o aluno será aprovado ao final do curso ou mostrar o perfil ideal do professor

para uma disciplina. Para tanto há necessidade da unidade de ensino trabalhar os dados e

preencher devidamente os cadastros e informações institucionais no sistema, permitindo que

os resultados obtidos não sejam manipulados.

Page 61: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

62

REFERÊNCIAS

BRAGA, Luis Paulo Vieira. Introdução à mineração de dados. E-Papers, Rio de Janeiro. 2005

CARVALHO, Luís A Vidal de. A mineração de sados no marketing, medicina, economia, engenharia e administração. São Paulo: Érica, 2001

CESTARO, Romeu; PIVETTA, Letícia Carvalho. Mineração De Dados Aplicada À Identificação De Alunos propensos À Evasão Do CEULJI/ULBRA De Ji-Paraná/RO. 2006. Disponível em: <https://docs.google.com/viewer?a=v&q=cache:xpJu5BNp9tIJ:www.revista.ulbrajp.edu.br/seer/inicia/ojs/include/getdoc.php%3Fid%3D691%26article%3D249%26mode%3Dpdf+&hl=pt-BR&gl=br&pid=bl&srcid=ADGEESgS3ZQpmEf_GyLJrl52D8LRKs48awwDbkGwuzPoWvmOsSB_erqCDHp0YySMAqbSk92AYc6xlNlfse0_Yd2wjRbtTOEQBRBm3d4KP6X_MLDCnQQz09xbjzenNTXNEwdCCQT_SOiy&sig=AHIEtbSPYJdL9tDDde2_S7zl8gwFnGBZig>. Acesso em: 01 nov. 2012.

CORTÊS, Sergio da Costa; PORCARO, Rosa Maria; LIFSCHTZ, Sérgio. Mineração de Dados – Funcionalidades, Técnicas e Abordagens. 2002. Disponível em: < ftp://ftp.inf.puc-rio.br/pub/docs/techreports/02_10_cortes.pdf>. Acesso em: 27 out. 2012.

DINIZ, Roberta B. Nunes. Uso de Técnicas de Mineração de Dados na Identificação de Áreas Hidrologicamente Homogêneas. 2009. Disponível em: <http://www.ppgi.di.ufpb.br/wp-content/uploads/2009robertabrito.pdf> Acesso em: 27 out. 2012.

ELMASRI, Ramez; NAVATHE, Shamkant B. Sistemas de banco de dados. São Paulo: Pearson, 2005.

FGV-RJ. Desinteresse é o principal motivo da evasão escolar dos jovens, afirma pesquisa da FGV-RJ. 2009. Disponível em: <http://www.anj.org.br/jornaleeducacao/noticias/pesquisa-da-fgv-mostra-causas-da-evasao-escolar-no-pais/>. Acesso em: 19 ago. 2012.

FRANKLIN, Harrison M. dos Santos; FILHO, Luis A. da Silva. Utilização De Sistemas De Informação Para Apoiar A Tomada De Decisão Na Segurança Pública Do Estado Do Pará. UFPA, Belém. 2007

G1, País perde R$ 9 bilhões com evasão no ensino superior, diz pesquisador. 2011. Disponível em: <http://g1.globo.com/educacao/noticia/2011/02/pais-perde-r-9-bilhoes-com-evasao-no-ensino-superior-diz-pesquisador.html>. Acesso em: 18 ago. 2012.

GOLDSCMIDT, Ronaldo; PASSOS, Emmanuel. Data mining: um guia prático. Rio de Janeiro: Elsevier, 2005.

GOUVEIA Roberta M. M. Mineração de Dados em Data Warehouse para Sistema de Abastecimento de Água. João Pessoa. 2009. Dissertação (Mestrado em Informática) –

Page 62: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

63

Centro de Ciências Exatas e da Natureza, Universidade Federal da Paraíba, João Pessoa, 2009.

JACOMINI, Diego. Análise Da Base De Dados Dos Ingressantes Na Unidavi Em 2008 Com A Ferramenta WEKA. 2008. Disponível em: <http://www.unidavi.edu.br/?pagina=FILE&id=56962>. Acesso em: 06 nov. 2012.

MAMANI, Alexander V. Ocsa. Soluções aproximadas para algoritmos escaláveis de mineração de dados em domínios de dados complexos usando GPGPU. 2011. Disponível em: < http://www.teses.usp.br/teses/disponiveis/55/55134/tde-22112011-132339/pt-br.php >. Acesso em: 27 out. 2012

MARTINS, Cleidis B. N. Evasão de Alunos nos Cursos de Graduação em uma Instituição de Ensino Superior. Pedro Leopoldo. 2007. Dissertação (Mestrado Profissional de Administração) – Fundação Cultural Dr. Pedro Leopoldo, Pedro Leopoldo, 2007.

MENEZES, José Dércio. A problemática da evasão escolar e as dificuldades da escolarização. 2010. Disponível em: < http://www.artigonal.com/ensino-superior-artigos/a-problematica-da-evasao-escolar-e-as-dificuldades-da-escolarizacao-2761092.html >. Acesso em: 18 ago. 2012.

MILANI, Fernanda; CAMARGO, Sandro da Silva. Aplicação de Técnicas de Mineração de Dados na Previsão de Propensão à Evasão Escolar. 2010. Disponível em: <http://periodicos.unesc.net/index.php/sulcomp/article/viewArticle/363>. Acesso em: 01 nov. 2012.

OLIVEIRA, Wilson José de. Data warehouse. Florianópolis: Visual Books, 2002.

PERING, Elton Adriano. Um Data Mart para previsão de vendas anual da empresa Quimisa S/A. Itajaí, 2010. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação)– Centro de Ciências Tecnológicas da Terra e do Mar, Universidade do Vale do Itajaí, Itajaí, 2010.

QUEIROZ, Lucileide Domingos. Um estudo sobre evasão escolar: para se pensar na inclusão escolar. Mato Grosso: UFMT, 2004.

RIGO, Sandro J; CAZELLA, Silvio C; CAMBRUZZI, Wagner. Minerando Dados Educacionais com foco na evasão escolar: oportunidades, desafios e necessidades. 2012. Disponível em: <http://www.lbd.dcc.ufmg.br/colecoes/desafie!/2012/0022.pdf>. Acesso em: 27 out. 2012.

ROCHA, Luciane da. Evasão escolar no ensino médio noturno. Porto Alegre: UFRGS, 2010.

ROCHA, Simone Mariano. Compromisso com a inclusão escolar. 2012. Disponível em: <http://www.mp.rs.gov.br/infancia/doutrina/id156.html>. Acesso em: 18 ago. 2012.

SANTOS, Franklin Harrison M. dos; FILHO, Luis A. da Silva. Utilização De Sistemas De Informação Para Apoiar A Tomada De Decisão Na Segurança Pública Do Estado Do Pará. 2007. Disponível em: <https://docs.google.com/viewer?a=v&q=cache:BWijfhlqg2cJ:www.portaltcc.icen.ufpa.br/portaltcc/principal/Tcc/action.do%3Bjsessionid%3D4CBC6232210722A5E8649996C2243819

Page 63: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

64

%3Fact%3Ddownload%26id%3D90+&hl=pt-BR&gl=br&pid=bl&srcid=ADGEESgsixv7_uHO5XZb2S8ieuQYoGYxsOqSOUCDmxFalyKX_7zI3kycXmxyCv47f-ol3G2YKjdGxYEgG-rL0nsSmLC9MhqNsAzbxFcZgWmfdAC2M37xh-r7f2JSkXirjDMf-TNTIoJO&sig=AHIEtbQe4I7quV_MvDkc0YH46zQIN2pvJw>. Acesso em: 06 nov. 2012.

SARTORI, Ricardo. Mineração dos dados da Polícia Militar de Santa Catarina no município de Balneário Camboriú para geração de informação e conhecimento na área de Segurança Pública. Itajaí. 2012. Trabalho Técnico-científico de Conclusão de Curso (Graduação em Ciência da Computação) – Centro de Ciências Tecnológicas da Terra e do Mar, Universidade do Vale do Itajaí, Itajaí, 2012.

SELEGATTO, Denis Augusto; GENEROSO, Fábio Henrique; ZENERATTO, Luis Antonio; SILVA, Renato Demarco C. Business Intelligence. Campinas. 2005. Trabalho Acadêmico (Graduação em Engenharia da Computação) – Pontifícia Universidade Católica de Campinas, 2005.

SINGH, Harry; ROSEMBERG, Monica. Data warehouse. São Paulo: Makron, 2001

TAN, Pang-Ning; STEINBACH, Michael; KUMAR, Vipin. Introdução ao data mining: mineração de dados. Rio de Janeiro: Ciência Moderna, 2009.

TIGRINHO, Luiz Maurício V. Evasão escolar nas instituições de ensino superior. 2008. Disponível em: <http://www.gestaouniversitaria.com.br/index.php?option=com_content&view=article&id=649:evasao-escolar-nas-instituicoes-de-ensino-superior&catid=135:173&Itemid=21 >. Acesso em: 19 ago. 2012.

Page 64: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

65

APÊNDICE A. QUESTIONÁRIO APLICADO

Prezado Senhor (a), solicitamos sua colaboração para o preenchimento deste

questionário, que será analisado e aplicado no Trabalho Técnico-científico, da Universidade

do Vale do Itajaí (UNIVALI), intitulado: Mineração de Dados de Instituições de Ensino para

Controle de Evasão e Oferta de Curso. Não é necessária a identificação do respondente e as

respostas são de opinião própria.

Em casos de dúvidas, favor entrar em contato pelo telefone (048) 9129-9820 ou

através do e-mail [email protected]. Desde já agradecemos.

1 – Qual o seu entendimento referente ao tema Evasão Escolar?

2 – Muitos estudos apontam duas abordagens diferentes como principais causas da

evasão escolar: fatores internos (infraestrutura, metodologia, professor) e fatores externos

(desigualdade social, família, desinteresse do aluno). Na sua opinião, qual desses fatores é

mais influente na causa da evasão escolar e por quê?

3 – Levando em conta a complexidade da questão evasão escolar (causas e

consequências) conclui-se que não há uma rápida solução para o tema, porém algumas ações

podem amenizar o problema. Qual a sua sugestão?

Page 65: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

66

APÊNDICE B. REGRAS DE CLASSIFICAÇÃO: DADOS ALUNOS

Abaixo segue as regras geradas pela ferramenta para compreensão dos fatores que levam à

evasão. Para melhor interpretar as regras é necessária conhecer os atributos, o que eles

significam e valores podem ser atribuidos à eles.

Dicionário de Dados – Dimensão Aluno Atributo Descrição Valor Observações id_aluno Identificador do aluno Numérico pessoa_genero Sexo do aluno M ou F Valor M para sexo

masculino ou F para sexo feminino

formacao_situacao Situação do aluno na escola regular ao entrar no SENAI.

Trancado, Incompleto ou Completo

formacao_curso Formação do aluno ao entrar no SENAI

Técnico, Ensino Médio, Ensino Fundamental

raca_descricao Raça do aluno Branca, negro, parda

mora_tijucas Indica se o aluno mora em Tijucas, cidade sede da instituição

S ou N Valor S se o aluno mora em Tijucas ou N se ele não mora em Tijucas.

mes_nascimento_aluno Mês de nascimento do aluno

Numérico Valor numérico do mês de nascimento do aluno.

faixa_idade_aluno Faixa de idade dos alunos

-15, 16, 17, 18-19, +20

faixa_mes_matricula Atributo que identifica se o aluno fez sua matrícula antes de iniciar o curso ou depois

S ou N Valor S se ele fez a matrícula antes de iniciar o curso ou N para se ele não fez a matrícula antes

Page 66: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

67

Dicionário de Dados – Dimensão Desempenho Atributo Descrição Valor Observações id_desempenho Identificador do

desempenho Numérico

regime_disciplinar_tipo Atributo que identifica se o aluno tem algum tipo de advertência

Advertência Escrita e Verbal, Suspenção ou Expulsão

maior_sete Atributo que identifica se a nota média do aluno é maior que 7,0

S ou N Valor S se a nota for maior ou igual a 7,0 ou N se a nota for abaixo da diretriz

maior_frequencia Atributo que identifica se o aluno tem o mínimo de 75% de presença na disciplina

S ou N Se o valor for S identifica que o aluno tem a frequência maior ou igual a 75%

Dicionário de Dados – Dimensão Disciplina Atributo Descrição Valor Observações id_disciplina Identificador da

disciplina Numérico

período_unidade_curricular_codigo

Código da unidade curricular em estudo

Código alfanumérico

produto_apelido Código do curso de estudo do aluno

Código alfanumérico

turno_nome Período de estudo do aluno

Matutino, Vespertino e Noturno

Dicionário de Dados – Dimensão Colaborador Atributo Descrição Valor Observações id_colaborador Identificador do

colaborador Numérico

area_atuacao_nome Área de atuação do professor

Nome da área técnica

professor Nome do professor da unidade curricular

Nome próprio

colaborador_funcao Função do colaborador na unidade de ensino

Técnico, analista, especialista, assistente, instrutor

tipo_contrato_nome Tipo de contrato do docente com a unidade de ensino

Mensalista ou Horista

Page 67: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

68

nivel_educacao_nome Nível de escolaridade do professor

Ensino médio, superior, especialista e mestrado.

faixa_idade_professor Faixa de idade do professor

20-24, 25-28, 29-30, 31-34, 35-37, 38-40 e +41

Dicionário de Dados –Fatos Alunos Atributo Descrição Valor matricula_situacao Situação da matricula

do aluno na unidade de ensino

Evadido/Eliminado, Evadido/Transf. Curso, Evadido/Desistente, Finalizado/Concluinte e Finalizado/Não Concluinte

Para a leitura da regra, deve-se interpretar da seguinte forma:

Regra JRIP do WEKA: (maior_frequencia = n) and (produto_apelido = AICE) and

(faixa_idade_aluno = 17) and (maior_sete = n) and (mes_nascimento_aluno = 6) =>

matricula_situacao=Evadido / Transferido de Curso (21.0/0.0)

Regra interpretada: Se a frequência do aluno não for maior ou igual à 75% e o nome

do curso for AICE (Aprendizagem Industrial em Ceramista) e a idade do aluno for

igual a 17 (dezessete) anos e a nota média não for maior ou igual a 7,0 (sete) e o mês

do seu nascimento for 6 (junho) então a situação da matricula do aluno é Evadido /

Transferência de Curso. (21 (vinte e uma) instâncias classificadas corretas e 0 (zero)

instâncias classificadas erradas)

JRIP rules: (maior_frequencia = n) and (produto_apelido = AICE) and (faixa_idade_aluno = 17) and (maior_sete = n) and (mes_nascimento_aluno = 6) => matricula_situacao=Evadido / Transferido de Curso (21.0/0.0) (maior_frequencia = n) and (mes_nascimento_aluno = 9) and (turno_nome = Noite) and (maior_sete = n) => matricula_situacao=Evadido / Transferido de Curso (24.0/0.0) (maior_frequencia = n) and (produto_apelido = AICE) and (mes_nascimento_aluno = 7) => matricula_situacao=Evadido / Transferido de Curso (21.0/0.0) (maior_frequencia = n) and (faixa_idade_aluno = 16) and (produto_apelido = AICE) => matricula_situacao=Evadido / Transferido de Curso (21.0/1.0) (maior_frequencia = n) and (mes_nascimento_aluno = 5) and (faixa_mes_matricula = n) and (turno_nome = Noite) => matricula_situacao=Evadido / Transferido de Curso (18.0/0.0) (maior_frequencia = n) and (mora_tijucas = s) and (faixa_idade_aluno = 17) and (mes_nascimento_aluno = 8) and (pessoa_genero = F) => matricula_situacao=Evadido / Transferido de Curso (19.0/0.0)

Page 68: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

69

(maior_frequencia = n) and (faixa_idade_aluno = 16) and (mes_nascimento_aluno = 6) => matricula_situacao=Evadido / Transferido de Curso (17.0/0.0) (formacao_situacao = Completo) and (mes_nascimento_aluno = 5) and (produto_apelido = ASMR) => matricula_situacao=Evadido / Transferido de Curso (18.0/0.0) (turno_nome = Noite) and (pessoa_genero = F) and (maior_sete = s) and (raca_descricao = Parda) => matricula_situacao=Evadido / Transferido de Curso (18.0/0.0) (mes_nascimento_aluno = 10) and (produto_apelido = AICE) => matricula_situacao=Evadido / Transferido de Curso (21.0/0.0) (turno_nome = Noite) and (mora_tijucas = s) and (mes_nascimento_aluno = 2) and (pessoa_genero = F) => matricula_situacao=Evadido / Transferido de Curso (18.0/0.0) (produto_apelido = TMSI) and (mes_nascimento_aluno = 3) => matricula_situacao=Evadido / Transferido de Curso (16.0/0.0) (produto_apelido = TELT) and (faixa_idade_aluno = 18-19) and (mes_nascimento_aluno = 5) => matricula_situacao=Evadido / Transferido de Curso (8.0/0.0) (mes_nascimento_aluno = 10) and (pessoa_genero = F) and (faixa_idade_aluno = 16) and (turno_nome = Tarde) and (produto_apelido = ASMR) => matricula_situacao=Evadido / Transferido de Curso (19.0/0.0) (faixa_idade_aluno = +20) and (maior_sete = n) and (produto_apelido = TELM) and (mes_nascimento_aluno = 10) => matricula_situacao=Evadido / Desistente (36.0/0.0) (faixa_idade_aluno = +20) and (maior_sete = n) and (mes_nascimento_aluno = 4) and (pessoa_genero = M) => matricula_situacao=Evadido / Desistente (42.0/0.0) (faixa_idade_aluno = +20) and (maior_sete = n) and (mes_nascimento_aluno = 2) and (produto_apelido = AICE) => matricula_situacao=Evadido / Desistente (19.0/0.0) (faixa_idade_aluno = +20) and (maior_sete = n) and (mes_nascimento_aluno = 1) and (pessoa_genero = F) => matricula_situacao=Evadido / Desistente (19.0/0.0) (turno_nome = Noite) and (faixa_mes_matricula = n) and (formacao_situacao = Completo) => matricula_situacao=Evadido / Desistente (16.0/0.0) (turno_nome = Noite) and (mes_nascimento_aluno = 9) and (produto_apelido = TSEG) => matricula_situacao=Evadido / Desistente (18.0/0.0) (faixa_idade_aluno = +20) and (mes_nascimento_aluno = 11) and (formacao_curso = Médio) => matricula_situacao=Evadido / Desistente (38.0/4.0) (turno_nome = Noite) and (mora_tijucas = s) and (mes_nascimento_aluno = 5) => matricula_situacao=Evadido / Desistente (18.0/0.0) (produto_apelido = CTRC) and (faixa_idade_aluno = 17) and (maior_sete = s) => matricula_situacao=Evadido / Desistente (23.0/0.0) (turno_nome = Noite) and (formacao_situacao = Incompleto) and (mes_nascimento_aluno = 2) and (formacao_curso = Médio) => matricula_situacao=Evadido / Desistente (20.0/0.0) (turno_nome = Noite) and (mes_nascimento_aluno = 12) and (maior_sete = s) => matricula_situacao=Evadido / Desistente (24.0/2.0) (mes_nascimento_aluno = 3) and (maior_sete = n) and (produto_apelido = AICE) and (maior_frequencia = n) and (faixa_idade_aluno = 17) => matricula_situacao=Evadido / Desistente (21.0/0.0) (produto_apelido = TELT) and (mora_tijucas = s) => matricula_situacao=Evadido / Desistente (16.0/4.0) (periodo_unidade_curricular_codigo = ARE1) and (regime_disciplinar_tipo = Advertência) => matricula_situacao=Evadido / Desistente (8.0/0.0) (produto_apelido = ASMR) and (faixa_idade_aluno = -15) and (regime_disciplinar_tipo = Advertência) and (mes_nascimento_aluno = 9) => matricula_situacao=Finalizado / Não Concluinte (95.0/0.0) (turno_nome = Manhã) and (faixa_idade_aluno = -15) and (faixa_mes_matricula = n) => matricula_situacao=Finalizado / Não Concluinte (54.0/0.0) (turno_nome = Manhã) and (regime_disciplinar_tipo = Advertência) and (faixa_idade_aluno = 16) => matricula_situacao=Finalizado / Não Concluinte (72.0/0.0) (produto_apelido = ASMR) and (pessoa_genero = M) and (faixa_idade_aluno = 16) and (mes_nascimento_aluno = 9) => matricula_situacao=Finalizado / Não Concluinte (38.0/0.0) (turno_nome = Manhã) and (faixa_idade_aluno = -15) and (pessoa_genero = F) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0) (turno_nome = Manhã) and (pessoa_genero = M) and (formacao_situacao = Completo) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0) (turno_nome = Manhã) and (mes_nascimento_aluno = 7) and (formacao_curso = Médio) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0)

Page 69: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

70

(produto_apelido = AICE) and (mora_tijucas = n) and (pessoa_genero = M) => matricula_situacao=Finalizado / Não Concluinte (21.0/0.0) (turno_nome = Manhã) and (raca_descricao = Negra) and (formacao_curso = Médio) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0) (faixa_idade_aluno = -15) and (mes_nascimento_aluno = 10) and (turno_nome = Manhã) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0) (mes_nascimento_aluno = 2) and (faixa_idade_aluno = 16) and (maior_frequencia = n) and (produto_apelido = ASMR) => matricula_situacao=Finalizado / Não Concluinte (19.0/0.0) (mes_nascimento_aluno = 12) and (faixa_idade_aluno = -15) and (produto_apelido = AICE) and (formacao_situacao = Incompleto) => matricula_situacao=Finalizado / Não Concluinte (21.0/0.0) (maior_frequencia = n) and (maior_sete = n) => matricula_situacao=Evadido / Eliminado (1009.0/33.0) (faixa_mes_matricula = n) and (mora_tijucas = n) and (produto_apelido = TELM) => matricula_situacao=Evadido / Eliminado (142.0/0.0) (produto_apelido = TSEG) and (formacao_situacao = Incompleto) => matricula_situacao=Evadido / Eliminado (120.0/0.0) (maior_sete = n) and (produto_apelido = AIEM) and (formacao_curso = Médio) => matricula_situacao=Evadido / Eliminado (72.0/5.0) (maior_sete = n) and (produto_apelido = TELM) and (periodo_unidade_curricular_codigo = METR) => matricula_situacao=Evadido / Eliminado (4.0/0.0) (produto_apelido = TMSI) => matricula_situacao=Evadido / Eliminado (22.0/0.0) (maior_sete = n) and (turno_nome = Manhã) and (formacao_curso = Fundamental) => matricula_situacao=Evadido / Eliminado (17.0/1.0) (produto_apelido = AIEM) and (raca_descricao = Parda) => matricula_situacao=Evadido / Eliminado (19.0/0.0) (maior_frequencia = n) and (faixa_mes_matricula = n) => matricula_situacao=Evadido / Eliminado (13.0/0.0) (produto_apelido = AIEM) and (formacao_curso = Médio) and (mes_nascimento_aluno = 4) => matricula_situacao=Evadido / Eliminado (10.0/0.0) (produto_apelido = TELT) => matricula_situacao=Evadido / Eliminado (6.0/0.0) (maior_frequencia = n) and (mes_nascimento_aluno = 4) and (produto_apelido = ASMR) => matricula_situacao=Evadido / Eliminado (3.0/0.0) (produto_apelido = CTRC) and (formacao_situacao = Incompleto) => matricula_situacao=Evadido / Eliminado (12.0/1.0) (mes_nascimento_aluno = 7) and (maior_frequencia = n) and (produto_apelido = ASMR) => matricula_situacao=Evadido / Eliminado (3.0/0.0) (mes_nascimento_aluno = 10) and (produto_apelido = AIEM) and (regime_disciplinar_tipo = Advertência) => matricula_situacao=Evadido / Eliminado (6.0/0.0) (periodo_unidade_curricular_codigo = COOE) => matricula_situacao=Evadido / Eliminado (2.0/0.0) => matricula_situacao=Finalizado / Concluinte (2364.0/9.0) Number of Rules : 57

Time taken to build model: 1.21 seconds

Page 70: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

71

APÊNDICE C. REGRAS DE CLASSIFICAÇÃO: DADOS DO PROFESSOR.

Para interpretação das regras do APÊNDICE C, considerar as especificações do

APÊNDICE B.

JRIP rules: =========== (maior_frequencia = n) and (area_atuacao_nome = Minerais não Metálicos) and (faixa_idade_aluno = 17) and (mes_nascimento_aluno = 6) => matricula_situacao=Evadido / Transferido de Curso (21.0/0.0) (maior_frequencia = n) and (area_atuacao_nome = Minerais não Metálicos) and (pessoa_genero = M) and (mes_nascimento_aluno = 10) => matricula_situacao=Evadido / Transferido de Curso (21.0/0.0) (maior_frequencia = n) and (mes_nascimento_aluno = 9) and (area_atuacao_nome = Minerais não Metálicos) => matricula_situacao=Evadido / Transferido de Curso (21.0/1.0) (maior_frequencia = n) and (formacao_curso = Médio) and (produto_apelido = ASMR) and (mes_nascimento_aluno = 8) => matricula_situacao=Evadido / Transferido de Curso (19.0/0.0) (maior_frequencia = n) and (mes_nascimento_aluno = 5) and (pessoa_genero = M) and (faixa_idade_aluno = 16) => matricula_situacao=Evadido / Transferido de Curso (18.0/0.0) (turno_nome = Noite) and (mes_nascimento_aluno = 9) and (maior_sete = n) => matricula_situacao=Evadido / Transferido de Curso (26.0/0.0) (maior_frequencia = n) and (mes_nascimento_aluno = 7) and (area_atuacao_nome = Minerais não Metálicos) => matricula_situacao=Evadido / Transferido de Curso (21.0/0.0) (turno_nome = Noite) and (faixa_mes_matricula = n) and (area_atuacao_nome = Tecnologia da Informação) => matricula_situacao=Evadido / Transferido de Curso (16.0/0.0) (turno_nome = Noite) and (pessoa_genero = F) and (maior_sete = s) and (raca_descricao = Parda) => matricula_situacao=Evadido / Transferido de Curso (18.0/0.0) (turno_nome = Noite) and (mes_nascimento_aluno = 5) and (faixa_mes_matricula = n) => matricula_situacao=Evadido / Transferido de Curso (18.0/0.0) (faixa_idade_aluno = 16) and (mes_nascimento_aluno = 6) and (area_atuacao_nome = Eletroeletrônica) => matricula_situacao=Evadido / Transferido de Curso (17.0/0.0) (turno_nome = Noite) and (mes_nascimento_aluno = 2) and (pessoa_genero = F) => matricula_situacao=Evadido / Transferido de Curso (18.0/0.0) (mes_nascimento_aluno = 10) and (pessoa_genero = F) and (faixa_idade_aluno = 16) and (turno_nome = Tarde) and (produto_apelido = ASMR) => matricula_situacao=Evadido / Transferido de Curso (19.0/0.0) (produto_apelido = TELT) and (faixa_idade_aluno = 18-19) and (mes_nascimento_aluno = 5) => matricula_situacao=Evadido / Transferido de Curso (8.0/0.0) (faixa_idade_aluno = +20) and (maior_sete = n) and (area_atuacao_nome = Metalmecânica) and (mes_nascimento_aluno = 10) => matricula_situacao=Evadido / Desistente (36.0/0.0) (faixa_idade_aluno = +20) and (maior_sete = n) and (mes_nascimento_aluno = 4) and (pessoa_genero = M) => matricula_situacao=Evadido / Desistente (42.0/0.0) (faixa_idade_aluno = +20) and (maior_sete = n) and (mes_nascimento_aluno = 2) and (formacao_situacao = Incompleto) => matricula_situacao=Evadido / Desistente (18.0/0.0) (faixa_idade_aluno = +20) and (mes_nascimento_aluno = 11) and (formacao_curso = Médio) and (raca_descricao = Branca) => matricula_situacao=Evadido / Desistente (34.0/0.0) (faixa_idade_aluno = +20) and (turno_nome = Tarde) and (mes_nascimento_aluno = 2) => matricula_situacao=Evadido / Desistente (21.0/0.0) (turno_nome = Noite) and (faixa_mes_matricula = n) and (formacao_situacao = Completo) => matricula_situacao=Evadido / Desistente (16.0/0.0) (turno_nome = Noite) and (mes_nascimento_aluno = 9) => matricula_situacao=Evadido / Desistente (18.0/0.0) (faixa_idade_aluno = +20) and (produto_apelido = ASMR) and (pessoa_genero = F) => matricula_situacao=Evadido / Desistente (19.0/0.0) (produto_apelido = CTRC) and (faixa_idade_aluno = 17) => matricula_situacao=Evadido / Desistente

Page 71: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

72

(38.0/6.0) (turno_nome = Noite) and (mora_tijucas = s) and (mes_nascimento_aluno = 5) => matricula_situacao=Evadido / Desistente (18.0/0.0) (turno_nome = Noite) and (mes_nascimento_aluno = 12) and (maior_sete = s) and (formacao_situacao = Completo) => matricula_situacao=Evadido / Desistente (22.0/0.0) (mes_nascimento_aluno = 3) and (area_atuacao_nome = Minerais não Metálicos) and (maior_frequencia = n) and (faixa_idade_aluno = 17) => matricula_situacao=Evadido / Desistente (21.0/0.0) (produto_apelido = ASMR) and (faixa_idade_aluno = -15) and (regime_disciplinar_tipo = Advertência) and (mes_nascimento_aluno = 9) => matricula_situacao=Finalizado / Não Concluinte (95.0/0.0) (turno_nome = Manhã) and (faixa_mes_matricula = n) and (mora_tijucas = n) and (maior_frequencia = s) => matricula_situacao=Finalizado / Não Concluinte (54.0/0.0) (turno_nome = Manhã) and (mes_nascimento_aluno = 4) and (regime_disciplinar_tipo = Advertência) => matricula_situacao=Finalizado / Não Concluinte (36.0/0.0) (turno_nome = Manhã) and (faixa_idade_aluno = -15) and (pessoa_genero = F) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0) (turno_nome = Manhã) and (pessoa_genero = M) and (formacao_situacao = Completo) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0) (produto_apelido = ASMR) and (pessoa_genero = M) and (faixa_idade_aluno = 16) and (mes_nascimento_aluno = 9) => matricula_situacao=Finalizado / Não Concluinte (38.0/0.0) (turno_nome = Manhã) and (pessoa_genero = M) and (faixa_idade_aluno = 16) and (maior_sete = s) => matricula_situacao=Finalizado / Não Concluinte (24.0/1.0) (turno_nome = Manhã) and (mes_nascimento_aluno = 1) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0) (turno_nome = Manhã) and (raca_descricao = Negra) and (formacao_curso = Médio) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0) (turno_nome = Manhã) and (faixa_idade_aluno = -15) and (mes_nascimento_aluno = 10) => matricula_situacao=Finalizado / Não Concluinte (18.0/0.0) (area_atuacao_nome = Minerais não Metálicos) and (mes_nascimento_aluno = 12) and (faixa_idade_aluno = -15) and (formacao_situacao = Incompleto) => matricula_situacao=Finalizado / Não Concluinte (21.0/0.0) (mes_nascimento_aluno = 5) and (faixa_idade_aluno = 18-19) and (formacao_curso = Fundamental) => matricula_situacao=Finalizado / Não Concluinte (21.0/0.0) (faixa_idade_aluno = 16) and (mes_nascimento_aluno = 2) and (maior_frequencia = n) and (area_atuacao_nome = Tecnologia da Informação) => matricula_situacao=Finalizado / Não Concluinte (19.0/0.0) (mes_nascimento_aluno = 7) and (turno_nome = Manhã) and (formacao_curso = Médio) => matricula_situacao=Finalizado / Não Concluinte (12.0/0.0) (maior_frequencia = n) and (maior_sete = n) => matricula_situacao=Evadido / Eliminado (1015.0/39.0) (faixa_mes_matricula = n) and (mora_tijucas = n) and (area_atuacao_nome = Metalmecânica) => matricula_situacao=Evadido / Eliminado (142.0/0.0) (maior_sete = n) and (area_atuacao_nome = Eletroeletrônica) and (formacao_curso = Médio) => matricula_situacao=Evadido / Eliminado (74.0/5.0) (area_atuacao_nome = Segurança no Trabalho) and (formacao_situacao = Incompleto) => matricula_situacao=Evadido / Eliminado (120.0/0.0) (maior_sete = n) and (area_atuacao_nome = Metalmecânica) and (turno_nome = Tarde) => matricula_situacao=Evadido / Eliminado (4.0/0.0) (maior_frequencia = n) and (faixa_mes_matricula = n) => matricula_situacao=Evadido / Eliminado (13.0/0.0) (produto_apelido = TMSI) => matricula_situacao=Evadido / Eliminado (22.0/0.0) (maior_sete = n) and (area_atuacao_nome = Tecnologia da Informação) and (mes_nascimento_aluno = 5) => matricula_situacao=Evadido / Eliminado (25.0/2.0) (area_atuacao_nome = Eletroeletrônica) and (raca_descricao = Parda) => matricula_situacao=Evadido / Eliminado (23.0/0.0) (area_atuacao_nome = Eletroeletrônica) and (mes_nascimento_aluno = 4) and (faixa_idade_aluno = 17) => matricula_situacao=Evadido / Eliminado (10.0/0.0) (area_atuacao_nome = Eletroeletrônica) and (mes_nascimento_aluno = 10) and (regime_disciplinar_tipo = Advertência) => matricula_situacao=Evadido / Eliminado (6.0/0.0) (maior_frequencia = n) and (professor = Lauren Schultz Gadotti) and (formacao_situacao = Completo) => matricula_situacao=Evadido / Eliminado (4.0/0.0)

Page 72: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

73

(periodo_unidade_curricular_codigo = QSMS) and (mora_tijucas = n) => matricula_situacao=Evadido / Eliminado (4.0/0.0) (produto_apelido = CTRC) and (formacao_situacao = Incompleto) => matricula_situacao=Evadido / Eliminado (3.0/0.0) (professor = Fabio Moreira de Oliveira) and (periodo_unidade_curricular_codigo = MAEL) => matricula_situacao=Evadido / Eliminado (2.0/0.0) (maior_frequencia = n) and (mes_nascimento_aluno = 4) and (area_atuacao_nome = Tecnologia da Informação) => matricula_situacao=Evadido / Eliminado (3.0/0.0) => matricula_situacao=Finalizado / Concluinte (2367.0/13.0) Number of Rules : 57 Time taken to build model: 1.35 seconds

Page 73: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

74

APÊNDICE D. ESBOÇO DE TELA PARA VISUALIZAÇÃO DAS REGRAS CRIADAS PELO ALGORITMO JRIP NO WEKA.

Page 74: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

75

ANEXO A. AUTORIZAÇÃO PARA UTILIZAÇÃO DA BASE DE DADOS COMO MODELAGEM E AVALIAÇÃO DAS TÉCNICAS FUNDAMENTADAS

Page 75: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

76

ANEXO B. MODELAGEM DO BANCO DE DADOS

Page 76: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

77

Page 77: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

78

Page 78: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

79

Page 79: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

80

Page 80: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

81

Page 81: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

82

Page 82: UNIVERSIDADE DO VALE DO ITAJAÍ CENTRO DE CIÊNCIAS …siaibib01.univali.br/pdf/Diego De Faveri Cristiano.pdf · Dados utilizado no WEKA para mineração de dados agregados dados

83