Mineração de Dados Educacionais

Post on 20-Jan-2017

50 views 3 download

Transcript of Mineração de Dados Educacionais

Uma introdução à

Mineração de Dados Educacionais

Leandro Augusto da Silva

prof.leandro.augusto@mackenzie.br

Laboratório de Big Data e Métodos Analíticos - BigMAAp

Programa de Pós-Graduação em Engenharia Elétrica e Computação - PPGEEC

Faculdade de Computação e Informática – FCI

Universidade Presbiteriana Mackenzie - UPM

Universidade Presbiteriana Mackenzie

Introdução

• Mineração de Dados (MD) é uma área de pesquisa multidisciplinar, envolvendo basicamente Banco de Dados, Estatística e Aprendizagem de Máquina.

• A MD é parte principal de um processo que tem como entrada uma Base de Dados e como saída um Conhecimento

• Ela é divida em tarefas como predição, clusterização e associação que devem ser escolhidas de acordo com analises exploratórias inicialmente feitas sobre os dados

2

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Introdução

“Educational datamining (EDM) is an emerging interdisciplinary research area that deals with the development of methods to explore data originating in an educational context.”

Romero, C., & Ventura, S. (2010). Educational data mining: areview of the state of the art. Systems, Man, andCybernetics, Part C: Applications and Reviews, IEEETransactions on, 40(6), 601-618.

Romero, C., & Ventura, S. (2007). Educational data mining: Asurvey from 1995 to 2005. Expert Systems with Applications,33(1), 135-146.

3

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Tipos de Estudos

• Basicamente classificados pela origem dos dados:

– Histórico educacional do aluno

– Provenientes de ambientes de sala de aula comonotas, curriculos e etc;

– Deixados em registros de log de sistemascomputadorizados como Learning Management System (LMS), Intelligent Tutoring System (ITS) e Adaptive Educational Sypermedia System (AEHS).

4

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Processo de KDD

5

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Bases de Dados

• Importante envolver neste processo um especialista que conhece o problema e que possa auxiliar na escolha de bases de dados.

• Isto significa que podem ocorrer situações onde será necessário utilizar mais de uma base de dados.

• E ainda, esta base poderá representar dados organizados em uma tabela, os quais são chamados de estruturados ou podem estar em documentos descritos na forma de texto ou multimídia (imagem, vídeo e som) os quais são chamados de não estruturados.

6

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Pré-processamento

• Etapas:– Preparação

• ruídos (noise data) ou outliers,

• inconsistências ou • valores faltantes

(missing values).

– Seleção• redundância (de

dados e de atributos)

– Transformação• transformação de

tipos de atributos• normalização de

dados

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Tarefas da Mineração de Dados

• Tarefas da Mineração de dados:

– Análise Preditiva• Numérica: classificação de dados

• Categórica: regressão

– Análise de Agrupamento (Clustering)

– Análise de Regras de Associação

8

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Análise preditiva

Conjunto de treinamento

valor previsto

(Conjunto) Teste

9

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Análise preditiva categórica

• Classificação de dados:– Considere as imagens abaixo como sendo uma

amostra de um conjunto de treinamento

Carro Moto Caminhão

10

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Análise preditiva categórica

• Agora considere que é preciso decidir pela categoria de CNH para dirigir este novo meio de transporte

Tipo B

Tipo A

Tipo C11

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Análise preditiva categórica

Tipo B

Tipo A

Tipo C

Qual tipo de CNH???

12

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Análise Preditiva

Processo de inferir um valor para uma situação nunca antes vista. Exemplos:• Classificar potenciais estudantes em um determinados curso;• Estimar o número de egressos, a partir de uma determinada

campanha;• Classificar o sentimento de alunos em fóruns de discussão (Moodle)

ou redes sociais;• Classificar estudantes com dificuldade de aprenndiado;• Classificar estudantes com potencial de evasão;• Estimar o uso de recursos de ferramentas de LMS ( Moodle);• Outros.

13

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Análise de Agrupamento

Não temos o atributo c

Exemplar do CT

14

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Análise de Agrupamento

Quantos grupos temos nestabase?

15

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Análise de Agrupamento

Não temos o atributo c no CT,

mas o resultado do agrupamento podegerar esseconhecimento

16

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Análise de Agrupamento

Processo de partição de um conjunto de dados heterogêneos em grupos homogêneos. Exemplos:

• Agrupar pessoas com habilidades semelhantes;• Agrupar perfil de pessoas com características de consumo

semelhantes;• Agrupar alunos com desempenhos semelhantes em um conjunto

de disciplinas;• Identificar as variáveis relevantes de cada agrupamento;• Agrupar publicações de fóruns de discussão (Moodle) em conteúdo

semelhante;

• Outros.

17

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Regras de Associação

X Y

X ∧ Y

SE X ENTAO Y

X Y

18

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Regras de Associação

Usada para determinar quais itens tendem a ocorrer juntamente com outros itens. Exemplos:• Quem opta por um curso X tem a chance de fazer

uma atividade de extensão Y• O desejo pelo curso X implica no desejo do curso

Y• O interesse pelo conteúdo X implica o desejo pelo

conteúdo Y• Outros exemplos como conhecemos da Amazon,

Submarino e etc.

19

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Discussão Final

• Nesta área há um conflito de interesse pelo tema dividindo a audiência entre:

– Learning Analytics

– Educational Data Mining

• Mas nesse esentido, ainda outros nomes poderiam surgir como:

– Academic Analytics

– Educational Analytics

20

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Conferências e Revistas

• Internacionais:– EDM - International Conference on Educational Data

Mining (9a. edicão em 2016)

– JEDM – Journal of Educational Data Mining

– LAK - Learning Analytics and Knowledge (6a. edição em 2016)

– Journal of Learning Analytics

• Nacional:– WMDE - Workshop de Mineração de Dados

Educacionais (3a. Edição em 2016)

21

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Ambientes (Gratuitos) de Desenvolvimento

• Weka

• Orange

• Rattle

• Ou usando pacotes

– R

– Python

22

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

Por onde começar....

23

Prof. Leandro Augusto – prof.leandro.augusto@mackenzie.br – FCI/PPGEEC/Mackenzie

Min

eraç

ão d

e D

ado

s Ed

uca

cio

nai

s

24

Leandro Augusto da Silva

prof.leandro.augusto@mackenzie.br

Laboratório de Big Data e

Métodos Analíticos Aplicados - BigMAAp

Programa de Pós-Graduação em Engenharia Elétrica e Computação - PPGEEC

Faculdade de Computação e Informática – FCI

Universidade Presbiteriana Mackenzie – UPM

http://www.bigmaap.mackenzie.br