Análise de Classificadores para Avaliação automática em ... · crescem, este trabalho objetiva...

12
Análise de Classificadores para Avaliação automática em Fóruns Educacionais Máverick André D. Ferreira 1 , Débora da Conceição Araújo 2 , Rafael Ferreira 1 , André do Nascimento 1 , Anderson Pinheiro Cavalcanti 1 , Anderson Silva 1 1 Departamento de Estatística e Informática - Universidade Federal Rural de Pernambuco (UFRPE) – Recife – PE – Brazil 2 Universidade de Pernambuco (UPE) – Garanhuns – PE - Brazil {amaverick70, deeboraaraaujo, rafaelflmello, andrecamara, a.mateuslol}@gmail.com, [email protected] Abstract. With the growth of distance learning (ODL), the online discussion forums are presented as an important tool in the teaching-learning process. However, when the discussion in the forums grow it becomes difficult for teachers/tutors follow the discussions and consequently assessing the contributions of students. Thus, this paper evaluates an automatic evaluation model of posts in an educational forum conducted in Portuguese by 4 classifiers. The results demonstrate the good performance of the multilayer perceptron (MLP) for the classification of posts and suggests the possibility of the evaluated model be used for educational purposes. Resumo. Com o crescimento da Educação a distância (EAD), os fóruns de discussão online se apresentam como um importante instrumento no processo de ensino-aprendizagem. No entanto, à medida que as discussões em fóruns crescem torna-se difícil para professores/tutores acompanhar as discussões e consequentemente avaliar as contribuições dos estudantes. Diante disso, este artigo avalia um modelo de avaliação automática de postagens em um fórum educacional conduzido em língua portuguesa por meio de 4 classificadores. Os resultados obtidos demonstram o bom desempenho do multilayer perceptron (MLP) para classificação das postagens e evidencia a possibilidade do modelo avaliado ser utilizado para fins educacionais. 1. Introdução Junto aos avanços tecnológicos, mudanças no âmbito educacional passam a se tornar recorrentes, a exemplo, o crescimento contínuo da educação a distância (EAD). No Brasil, segundo os sensos divulgados pela Associação Brasileira de Educação a Distância [ABED 2014], ao somar as matrículas de cursos totalmente a distância às de cursos semipresenciais é possível alcançar um total de 3.868.706 registros. Nesse sentido, muitas são as ferramentas que visam promover a interação no cenário da EAD, dentre as quais é possível destacar os fóruns de discussão que se apresentam como espaços de debates e troca de conhecimentos entre estudantes localizados em lugares geograficamente distintos. Nesse contexto, o papel do professor nos fóruns está em incentivar a interação entre os alunos, bem como promover o alinhamento das discussões no que se refere ao XIII Encontro Nacional de Inteligˆ encia Artificial e Computacional SBC ENIAC-2016 Recife - PE 649

Transcript of Análise de Classificadores para Avaliação automática em ... · crescem, este trabalho objetiva...

Page 1: Análise de Classificadores para Avaliação automática em ... · crescem, este trabalho objetiva analisar o desempenho do modelo de avaliação automática de posta gens em fóruns

Análise de Classificadores para Avaliação automática em

Fóruns Educacionais

Máverick André D. Ferreira1, Débora da Conceição Araújo

2, Rafael Ferreira

1,

André do Nascimento1, Anderson Pinheiro Cavalcanti

1, Anderson Silva

1

1Departamento de Estatística e Informática - Universidade Federal Rural de

Pernambuco (UFRPE) – Recife – PE – Brazil

2Universidade de Pernambuco (UPE) – Garanhuns – PE - Brazil

{amaverick70, deeboraaraaujo, rafaelflmello, andrecamara, a.mateuslol}@gmail.com, [email protected]

Abstract. With the growth of distance learning (ODL), the online discussion

forums are presented as an important tool in the teaching-learning process.

However, when the discussion in the forums grow it becomes difficult for

teachers/tutors follow the discussions and consequently assessing the

contributions of students. Thus, this paper evaluates an automatic evaluation

model of posts in an educational forum conducted in Portuguese by 4

classifiers. The results demonstrate the good performance of the multilayer

perceptron (MLP) for the classification of posts and suggests the possibility of

the evaluated model be used for educational purposes.

Resumo. Com o crescimento da Educação a distância (EAD), os fóruns de

discussão online se apresentam como um importante instrumento no processo

de ensino-aprendizagem. No entanto, à medida que as discussões em fóruns

crescem torna-se difícil para professores/tutores acompanhar as discussões e

consequentemente avaliar as contribuições dos estudantes. Diante disso, este

artigo avalia um modelo de avaliação automática de postagens em um fórum

educacional conduzido em língua portuguesa por meio de 4 classificadores.

Os resultados obtidos demonstram o bom desempenho do multilayer

perceptron (MLP) para classificação das postagens e evidencia a

possibilidade do modelo avaliado ser utilizado para fins educacionais.

1. Introdução

Junto aos avanços tecnológicos, mudanças no âmbito educacional passam a se tornar

recorrentes, a exemplo, o crescimento contínuo da educação a distância (EAD). No

Brasil, segundo os sensos divulgados pela Associação Brasileira de Educação a

Distância [ABED 2014], ao somar as matrículas de cursos totalmente a distância às de

cursos semipresenciais é possível alcançar um total de 3.868.706 registros. Nesse

sentido, muitas são as ferramentas que visam promover a interação no cenário da EAD,

dentre as quais é possível destacar os fóruns de discussão que se apresentam como

espaços de debates e troca de conhecimentos entre estudantes localizados em lugares

geograficamente distintos.

Nesse contexto, o papel do professor nos fóruns está em incentivar a interação

entre os alunos, bem como promover o alinhamento das discussões no que se refere ao

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 649

Page 2: Análise de Classificadores para Avaliação automática em ... · crescem, este trabalho objetiva analisar o desempenho do modelo de avaliação automática de posta gens em fóruns

tema proposto. Nesse aspecto, ao analisar o papel do professor no processo de ensino e

aprendizagem, especificamente em fóruns de discussão, os seguintes questionamentos

são relevantes: Como deverá ser o processo avaliativo? Deve ser uma avaliação

somativa, onde os alunos discutem no fórum e ao final o professor/mediador propõe

uma prova de caráter classificatório? Ou deve ser uma avaliação formativa onde todo o

processo de ensino e aprendizagem é levado em consideração, ou seja, todo o contexto

da discussão no fórum? Com base em Bloom e Madaus (1983) e Perrenoud (2003) o

processo avaliativo, de modo geral, deve ser formativo, tendo o professor a função de

informar ao estudante sobre seu desempenho ao longo do processo e, assim, possibilitar

ao aluno a melhoria de suas ações a fim de obter melhores resultados.

No entanto, a profundidade do debate e a quantidade de participantes em um

fórum podem dificultar o acompanhamento da discussão, por necessitar de demasiado

esforço por parte do professor, além de caracterizar uma atividade bastante demorada

[DRINGUS e ELLIS 2005]. Nesse sentido, como alternativa a dificuldade de se

promover avaliação formativa em fóruns educacionais à medida que as discussões

crescem, este trabalho objetiva analisar o desempenho do modelo de avaliação

automática de postagens em fóruns, proposto em Wanas et al. (2008), sendo este

escolhido devido aos bons resultados relatados pelos autores supracitados a partir da

aplicação em fóruns genéricos e em língua inglesa.

O método em estudo foi aplicado em um fórum educacional referente à uma

disciplina de empreendedorismo com discussões realizadas em língua portuguesa. A fim

de avaliar o desempenho do método, as postagens do referido fórum foram classificadas

manualmente, pelo tutor da disciplina, segundo uma escala de 1 a 3 que representa o

nível de contribuição da postagem para a discussão corrente. Em seguida, um

experimento foi conduzido com os classificadores: support vector machine (SVM),

multilayer perceptron (MLP), naive bayes e árvore de decisão. Para, por fim, analisar o

desempenho obtido por cada classificador em relação à avaliação do tutor.

Além desta seção introdutória, o presente trabalho encontra-se organizado da

seguinte forma: a Seção 2 apresenta alguns trabalhos relacionados ao tema deste artigo,

a Seção 3 detalha os classificadores adotados no experimento, a Seção 4 apresenta a

estrutura do método proposto, a Seção 5 relata os resultados obtidos, a Seção 6

apresenta um exemplo de Sistema utilizando o modelo avaliado e, por fim, na Seção 7

são apresentadas as considerações finais e trabalhos futuros.

2. Trabalhos Relacionados

Na literatura é possível identificar trabalhos que evidenciam tanto o potencial dos fóruns

de discussão online quanto o potencial das técnicas de mineração de texto para extrair

informações destes, de modo a possibilitar aos interessados (professores/tutores)

identificar informações relevantes como, por exemplo, o sentimento dos usuários acerca

de determinados conteúdos, o gênero das postagens e o nível individual de contribuição

dos participantes para com o fórum.

Em Azevedo et al. (2011) é apresentado um modelo de avaliação qualitativa

para fóruns de discussões online. O modelo baseia-se em técnicas de mineração de texto

que permitem, por meio de grafos, analisar o nível de contribuição de cada estudante

com relação ao tema discutido no fórum. Os resultados da mineração indicam aos

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 650

Page 3: Análise de Classificadores para Avaliação automática em ... · crescem, este trabalho objetiva analisar o desempenho do modelo de avaliação automática de posta gens em fóruns

professores quais alunos estão inserindo postagens condizentes com o propósito central

do fórum.

Lin et al. (2009) propõem um sistema de classificação de gêneros para postagens

que agrupa os posts como: anúncio, pergunta, interpretação, conflito, afirmação e outros.

Espera-se que a partir dos resultados o professor/tutor possa direcionar esforços ao

acompanhamento de estudantes com maior dificuldade no contexto da discussão.

No mesmo sentido, Rolim et al. (2014) apresentam uma proposta para

classificação de postagens que leva em consideração três grupos: dúvida, resposta e

neutra. Os autores defendem a importância desse tipo classificação como forma de

facilitar o acompanhamento de fóruns de discussões. Com o objetivo de avaliar a

proposta, conduziram um experimento com os seguintes classificadores: redes

bayesianas, árvore de decisão e um MLP.

Como diferencial este artigo descreve um experimento que objetiva analisar um

método de avaliação de postagens de fóruns online em um contexto específico, em um

fórum educacional reproduzido em língua portuguesa. E, como forma de verificar o

desempenho do método estudado, as postagens são classificadas manualmente por um

tutor de EAD para em seguida ser comparado ao resultado de 4 classificadores: SVM,

MLP, naive bayes e árvore de decisão.

3. Classificadores utilizados

Nesta seção são apresentados de forma sucinta os classificadores adotados para

realização dos experimentos.

3.1 Rede Neural

Rede neural é uma técnica de aprendizagem de máquina que simula o funcionamento de

um sistema nervoso. Para isso, conta com a presença de neurônios artificiais

interligados entre si por meio de sinapses (na computação pesos) como exemplifica a

Figura 1.

Figura 1. Rede Neural

Cada neurônio recebe entradas e, associados a estas, pesos que representam a

força do sinal sináptico. A partir das entradas e de seus respectivos pesos, um somatório

ponderado é realizado no núcleo do neurônio e com base em um limiar de ativação é

verificado se a entrada será ou não propagada para neurônios das camadas adjacentes a

camada atual. Nesta pesquisa foi utilizado um MLP que consiste em um modelo

clássico de rede neural [WANKHEDE 2014]. Neste estudo a distribuição das camadas

se deu da seguinte maneira: 6 neurônios na camada de entrada para receber as features

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 651

Page 4: Análise de Classificadores para Avaliação automática em ... · crescem, este trabalho objetiva analisar o desempenho do modelo de avaliação automática de posta gens em fóruns

extraídas das postagens e 3 neurônios na camada de saída representando as classes

ruim, média e alta.

3.2 Árvore de Decisão

De acordo com Sharma et al. (2013) a árvore de decisão é amplamente utilizada em

aprendizagem de máquina pelos bons resultados obtidos com sua aplicação, além da

fácil compreensão do processo seguido até a classificação. Na árvore de decisão cada nó

interno representa um teste a ser realizado para uma das características passadas como

entrada. Nesse contexto, os nós filhos do nó atual são os possíveis resultados dos testes

a serem realizados e os nós folhas o resultado final. Existem diversos algoritmos

disponíveis para se trabalhar com árvores de decisão, tais como: J48, ID3, C 4.5 entre

outros. O algoritmo utilizado nesse estudo foi o CART [Hand et al. 2001].

3.3 Naive Bayes

O Naive Bayes é baseado no teorema de bayes e tem como principal característica a

análise dos atributos de uma classe de forma que um atributo ignora possíveis

influências/dependências sobre outro atributo no processo de inferência [Rish 2001].

Por isso, o Naive Bayes é conhecido como um classificador ingênuo, mas com vários

relatos na literatura sobre sua competitividade para com outros classificadores

considerados sofisticados. Diante disso, o Naive Bayes calcula a probabilidade de um

dado elemento (nesse caso postagens) pertencer a uma classe por meio da equação (1).

(1)

Vale ressaltar que é a probabilidade a posteriori de um elemento

pertencer a uma dada classe, P( ) é a probabilidade de cada atributo, sem levar em

consideração dependência, a probabilidade de um elemento pertencer a uma

dada classe e probabilidade original da classe.

3.4 Máquina de Vetor de Suporte (SVM)

A máquina de vetor de suporte (SVM) é um classificador baseado na teoria de

aprendizado estatístico de Vapnik (1995). Segundo Burgues (1998), para efetuar

classificações/reconhecimento de padrões o SVM constrói hiperplanos em um espaço

multidimensional objetivando separar casos de diferentes classes.

É importante mencionar que o hiperplano é considerado como separação ótima

se separa os vetores das classes sem erro e com distância máxima para com os vetores

mais próximos [Vapnik 1999], como mostra a Figura 2.

Figura 2. Exemplo de classificação utilizando um SVM

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 652

Page 5: Análise de Classificadores para Avaliação automática em ... · crescem, este trabalho objetiva analisar o desempenho do modelo de avaliação automática de posta gens em fóruns

No entanto, alguns problemas podem não ser separáveis linearmente, nesses

casos o SVM utiliza funções kernels que, por sua vez, possibilitam o mapeamento dos

dados para um espaço dimensional maior, para com isso viabilizar a separação linear.

Neste estudo foi utilizada a função kernel rbf.

4. Estrutura da proposta

Esta seção descreve os procedimentos utilizados para realização dos experimentos

conforme exibido na Figura 3.

Figura 3. Estrutura do Experimento

Na etapa de Coleta de Dados foram extraídas 96 postagens em português de um

fórum de discussão educacional online, promovido durante uma disciplina de

empreendedorismo em um curso de Licenciatura em Computação, com a participação

de 22 estudantes. Estas foram avaliadas pelo tutor do respectivo fórum seguindo a

escala de pontuação de: 1 - contribuição ruim, ou seja, não corresponde ao que foi

proposto no fórum; 2 - contribuição média, postagens ligadas à proposta do fórum, mas

com algumas incoerências; e 3 - contribuição alta, postagens bem alinhadas ao tema

proposto. A Figura 4 exibe a distribuição das postagens após a classificação do tutor.

Figura 4. Distribuição das amostras

Em seguida iniciou-se a Preparação dos dados, esta etapa foi subdividida em

duas fases: (1) na primeira foram retirados os stopwords, ou seja, palavras que devem

ser removidas durante a indexação, pois não agregam para o contexto dos documentos

[Lo, He e Ounis 2005]; (2) nesta fase as palavras contidas nas postagens foram

reduzidas ao radical, tal técnica em mineração de texto é conhecida como lemmatization

[Plisson et al. 2004].

Na etapa de Seleção de palavras-chave o objetivo foi identificar palavras com

maior representatividade sobre os assuntos discutidos no fórum. Para isso, fez-se uso do

esquema TF-IDF que, de acordo com Salton e Yang (1973), combina a frequência dos

termos (TF1) e a relevância do termo para uma coleção (IDF

2). Nesse sentido, calcula-se

1 TF: consiste na suposição de que o peso de um termo ki em um documento dj é proporcional a

frequência do termo fij.

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 653

Page 6: Análise de Classificadores para Avaliação automática em ... · crescem, este trabalho objetiva analisar o desempenho do modelo de avaliação automática de posta gens em fóruns

o esquema TF-IDF a partir da multiplicação entre TF e IDF, como mostra as equações

(2), (3) e (4).

TF = (

) (2)

IDF = 1+loge (

) (3)

TF-IDF = TF * IDF (4)

Após esse processo, as palavras foram ranqueadas com base no resultado obtido

para o TF-IDF, sendo consideradas 10% das palavras com melhor colocação no ranking

(Fn).

Para Análise das postagens foram consideradas 3 das 5 categorias propostas em

Wanas et al. (2008), são elas: características relevantes, características originais e

características específicas do fórum. A categoria “características relevantes” avalia a

relevância de uma dada postagem (Pj) para com a discussão corrente no tópico por meio

das equações (5), (6) e (7).

OnSubForumTopic (Pj) =

n (5)

OnThreadTopic (Pj) =

(6)

OnThreadTopic (P1) =

(7)

A equação (5) calcula a relevância de uma postagem em relação ao fórum em

questão, sendo a quantidade de palavras da postagem (Pj) pertencentes

aos 10% de palavras melhores ranqueadas em relação a toda a discussão (Fn) e |Pj|

quantidade de palavras da postagem atual. A equação (6) calcula a relevância de uma

dada postagem para com a primeira postagem da discussão a qual se encontra inserida.

Para tanto consiste da quantidade de palavras da postagem atual que

pertencem aos 10% de palavras melhores colocadas da primeira postagem (F1). Tendo

em vista que a primeira postagem deverá estimular o início da discussão, a equação (7)

verifica a ligação entre conteúdo da postagem inicial e o título proposto. Nesse sentido,

é a quantidade de palavras da postagem que coincidem com

as palavras contidas no título e |P1| a quantidade de palavras da postagem em questão.

A categoria “características originais” verifica a originalidade da (Pj) em relação

a outras postagens do fórum, por meio da medida OverLapPrevious que identifica o

post com maior sobreposição em termos de palavras com (Pj). A OverlapDistance é

responsável por verificar a distância entre o post com maior sobreposição segundo a

medida OverLapPrevious e o post atual (P1).

A categoria “características específicas” analisa as características específicas do

fórum, são elas: pontuação, símbolos e letras maiúsculas, por meio das equações (8), (9)

e (10).

2 IDF: atribui pesos a um termo de acordo com a sua frequência em uma coleção de postagens.

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 654

Page 7: Análise de Classificadores para Avaliação automática em ... · crescem, este trabalho objetiva analisar o desempenho do modelo de avaliação automática de posta gens em fóruns

FormatPunctuation (Pj) =

(8)

FormatEmoticons (Pj) =

(9)

FormatCapitals (Pj) =

(10)

É importante ressaltar que as etapas de Seleção de palavras-chave e Análise

das postagens foram executadas para as 96 postagens. O treinamento e a validação dos

classificadores durante o Experimento se deu pelo método cross-validation com fold

igual a 5. E, por fim, a avaliação dos resultados por meio das métricas precision e f-

measure.

5. Experimento

Esta seção apresenta os resultados obtidos com o experimento que consistiu em

classificar postagens extraídas de um fórum educacional (base de dados), para as classes

1 (contribuição ruim), 2 (contribuição média) e 3 (contribuição alta), utilizando os

algoritmos: SVM, MLP, naives bayes e árvore de decisão. Visando facilitar a leitura dos

resultados, para cada classificador são dispostas duas tabelas, a saber: a primeira exibe

uma matriz de confusão contendo as classificações corretas nas células de cor cinza

(diagonal) e as erradas distribuídas nas demais células e; na segunda os resultados para

as métricas precision3, recall

4 e f-measure

5.

A partir da Tabela 1 é possível observar a quantidade de acertos/erros em termos

de classificações obtidos com a aplicação do SVM. Ao analisar as células de cor cinza

(classificações corretas), é possível perceber que as postagens ditas com contribuição

Baixa foram classificadas em sua maioria corretamente. O mesmo acontece para a

classe Alta, tendo 20 postagens, de um total de 24, distribuídas de maneira correta. Em

contrapartida, a classe Média foi a que obteve o maior número de erros levando em

consideração o universo de postagens médias.

Tabela 1. Matriz de confusão da classificação do SVM

Baixa Média Alta Classificada como

39 7 - Baixa

5 13 8 Média

- 4 20 Alta

A Tabela 2 mostra que o SVM obteve uma precision 89% e f-measure 87% na

classificação das postagens para a classe Baixa. E, para as classes Média e Alta

respectivamente, precision 54%, f-measure 52%, precision 71% e f-measure 77%. Esses

3 Precision: uma pontuação perfeita de precisão, representada por 1.0, significa que cada resultado obtido

por uma pesquisa foi relevante, mas não diz nada acerca da relevância de todos os outros elementos

recuperados [MATOS et al., 2009]. 4 Recall: a pontuação perfeita (1.0) da Recall demonstra que todos os elementos relevantes foram

recuperados pela pesquisa, mas não diz nada sobre os elementos irrelevantes que também foram

recuperados [MATOS et al., 2009]. 5 F-measure: A medida de desempenho f-measure pondera as características tanto da Precision quanto da

Recall [MATOS et al., 2009].

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 655

Page 8: Análise de Classificadores para Avaliação automática em ... · crescem, este trabalho objetiva analisar o desempenho do modelo de avaliação automática de posta gens em fóruns

resultados mostram que o SVM conseguiu atribuir a maioria das postagens às classes

corretas.

Tabela 2. Resultado da classificação do SVM

Baixa Média Alta

Precision 89% 54% 71% Recall 85% 50% 83%

F-Measure 87% 52% 77%

Ao observar a matriz de confusão sintetizada na Tabela 3, é possível identificar a

partir da classificação das classes Baixa, Média e Alta, com 45, 18 e 16 acertos

respectivamente, que o MLP obteve no geral um melhor resultado em comparação ao

SVM.

Tabela 3. Matriz de confusão da classificação do MLP

Baixa Média Alta Classificada como

45 - 1 Baixa

8 18 - Média

- 8 16 Alta

Corraborando com os dados da Tabela 3, a Tabela 4 exibe a avaliação do MLP

sob o olhar das métricas consideradas neste estudo. Com isso, nota-se que o MLP

atingiu melhores resultados nas classes Baixa com precision 85% e f-measure 91% e

Alta com precision 94% e f-measure 78%.

Tabela 4. Resultado da classificação do MLP

Baixa Média Alta

Precision 85% 69% 94% Recall 98% 69% 67%

F-Measure 91% 69% 78%

Mostrando-se bastante competitiva em relação ao MLP e ao SVM, a árvore de

decisão obteve bons números em termos de classificação, sendo atribuída a categoria

Baixa 40 acertos, Média 20 acertos e Alta 17 acertos, como mostra a Tabela 5.

Tabela 5. Matriz de confusão da classificação da Árvore de decisão

Baixa Média Alta Classificada como

40 6 - Baixa

3 20 3 Média

- 7 17 Alta

Nesse aspecto, a árvore de decisão teve precision 93% e f-measure 90% para a

classe Baixa, precision 61% e f-measure 68% para a classe Média e precision 85% e f-

measure 77% para a classe Alta, obtendo com isso um desempenho superior ao SVM e

levemente inferior ao MLP.

Tabela 6. Resultado da classificação da Árvore de decisão

Baixa Média Alta

Precision 93% 61% 85% Recall 87% 77% 71%

F-Measure 90% 68% 77%

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 656

Page 9: Análise de Classificadores para Avaliação automática em ... · crescem, este trabalho objetiva analisar o desempenho do modelo de avaliação automática de posta gens em fóruns

Na Tabela 7 pode ser visualizada a classificação das postagens efetuadas pelo

classificador naive bayes. Logo, ao analisar a distribuição é possível perceber que o

naive bayes teve maior número de erros de classificação em comparação aos demais

classificadores adotados. Por exemplo, na classe Alta de 24 postagens apenas 5 foram

classificadas corretamente.

Tabela 7. Matriz de confusão da classificação do Naive Bayes

Baixa Média Alta Classificada como

25 7 14 Baixa

10 10 6 Média

3 16 5 Alta

Desse modo, a Tabela 8 exibe o resultado das métricas precision, recall, e f-

measure obtido pelo naive bayes. E, com isso, visualiza-se o desempenho inferior do

referido classificador quando comparado aos demais utilizados.

Tabela 8. Resultado da classificação do Naives Bayes

Baixa Média Alta

Precision 66% 30% 20%

Recall 54% 38% 21%

F-Measure 60% 34% 20%

Por fim, na Tabela 9 é exibido o resultado geral dos classificadores para as

métricas adotadas.

Tabela 9. Resultado geral dos classificadores para as métricas adotadas

SVM MLP naive bayes árvore de decisão

Precision 75% 83% 45% 82%

Recall 75% 82% 42% 80%

F-Measure 75% 82% 43% 81%

Os resultados da Tabela 9 confirmam que o MLP, com precision 83% e f-

measure 82%, em conjunto com a árvore de decisão, precision 82% e f-measure 81%,

obtiveram, no geral, melhores resultados na tarefa de classificar as postagens. Em

terceiro lugar aparece o SVM com precision 75% e f-measure 75% e por último o naive

bayes com precision 45% e f-measure 43%.

Como resultado do experimento identificou-se que o modelo de

avaliação/pontuação de postagens, proposto por Wanas et al. (2008), pode ser também

aplicado em fóruns educacionais conduzidos em língua portuguesa. E, nesse contexto, o

MLP seguido pela árvore de decisão apresentaram os melhores desempenhos na tarefa

de classificar as postagens para as classes 1 (contribuição ruim), 2 (contribuição média)

e 3 (contribuição alta). No entanto, vale ressaltar que todos os classificadores tiverem

maior dificuldade em classificar postagens com contribuição Média.

Atribui-se os erros de classificação da classe Média ao fato das técnicas

utilizadas não possibilitarem a identificação de incoerências no texto. Por exemplo, ao

identificar que uma postagem possui um grande número palavras ligadas aos 10% de

palavras representativas da discussão não garante que a postagem tem contribuição alta,

pois as ideias dispostas podem se apresentarem desorganizadas.

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 657

Page 10: Análise de Classificadores para Avaliação automática em ... · crescem, este trabalho objetiva analisar o desempenho do modelo de avaliação automática de posta gens em fóruns

6. Exemplo de Sistema utilizando o modelo avaliado

Diante do potencial dos fóruns de discussão online para o processo de ensino e

aprendizagem à distância se faz importante destacar o papel do professor/tutor durante a

mediação das discussões entre estudante-estudante, de modo a evitar o desvio do

objetivo da discussão e principalmente obter subsídios que o possibilitem avaliar os

estudantes numa perspectiva formativa.

A partir dos resultados obtidos com o experimento, duas perguntas se

apresentam como relevantes: como esse modelo avaliado pode ser utilizado por

professores/tutores? e; Quais os benefícios para os professores/tutores em utilizá-lo

durante a mediação de fóruns educacionais?. Para responder a estas perguntas é dado, a

seguir, um exemplo de sistema que pode utilizar o modelo adotado para facilitar a

mediação por parte do professor/tutor:

Um sistema que contenha 4 módulos: fórum de discussão – módulo que

possibilita ao estudante inserir suas postagens; avaliador – módulo com o modelo

proposto por Wanas et al. (2008) implementado e com, por exemplo, um MPL treinado

para classificar as postagens como 1 (contribuição ruim), 2 (contribuição média) e 3

(contribuição alta); feedback - módulo responsável por exibir para o estudante a

avaliação dada pelo módulo avaliador para sua postagem e; ranking – módulo

responsável por disponibilizar um relatório visível, tanto para estudantes quanto para

professores/tutores, a lista de estudantes participantes do fórum, sendo esta, ordenada de

acordo com a contribuição de cada estudante para a discussão do fórum. A Figura 5

exemplifica o exemplo de sistema descrito.

Figura 5. Exemplo de sistema

Diante dos resultados obtidos, acredita-se que um sistema desse tipo pode

facilitar a prática docente em EAD no que se refere ao acompanhamento de discussões

extensas, pois ao avaliar a postagem do estudante automaticamente, fornecer feedback

automático e disponibilizar um ranking com informações sobre o desempenho dos

estudantes na discussão, o sistema permite que o professor/tutor possa deter esforços em

estudantes com baixo rendimento nas discussões (com base no ranking). Além disso, os

feedbacks podem contribuir para manter o alinhamento das discussões para com a

proposta inicial do fórum.

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 658

Page 11: Análise de Classificadores para Avaliação automática em ... · crescem, este trabalho objetiva analisar o desempenho do modelo de avaliação automática de posta gens em fóruns

7. Considerações Finais

Este trabalho avaliou o modelo de avaliação automática de postagens de fóruns online,

apresentado em Wanas et al. (2008), em um cenário educacional e em língua

portuguesa, tendo em vista que este é um dos recursos mais utilizados na educação a

distância no Brasil.

Para avaliar o modelo, o mesmo foi aplicado em 96 postagens extraídas de um

fórum educacional voltado ao ensino-aprendizagem de conteúdos relacionados à

disciplina de empreendedorismo de um curso de Licenciatura em Computação. Para tal,

as postagens foram avaliadas por um tutor de EAD, para em seguida ser conduzido um

experimento utilizando 4 classificadores, sendo eles: SVM, MLP, naive bayes e árvore

de decisão. Ao final do experimento as avaliações foram comparadas às realizadas pelo

tutor.

Mesmo com alguns fatores limitantes, como uma pequena base de dados, os

resultados da pesquisa apontam que o modelo apresentado tem potencial para ser

utilizado com fins educacionais. Nesse sentido, vale destacar o desempenho do MLP

que apresentou os melhores resultados para classificação das postagens.

Para seguimento do projeto, pretende-se ampliar a capacidade de mineração de

texto de modo a fornecer feedbacks coerentes em relação às contribuições dos

estudantes e a implementação dos demais métodos propostos por Wanas et al. (2008).

Projeta-se, ainda, a validação do experimento contando com outras bases de dados, além

de estudar outros modelos, para em seguida propor uma aplicação inteligente para

avaliação de postagens de fóruns educacionais online.

Referências

ABED. (2014) Relatório analítico da aprendizagem a distância no Brasil. Disponível

em: <http://www.abed.org.br/censoead2014/CensoEAD2014_portugues.pdf>.

Acesso em: Junho de 2016.

Azevedo, B. F. T. et al. (2011) Qualitative Analysis of Discussion Forums. In:

International Journal of Computer Information Systems and Industrial Management

Applications. v. 3, pág. 671-678.

Baeza- Yates, R.; Ribeiro-Neto, B. (2011) Modern Information Retrieval: The Concepts

and Technology Behind Search. 2nd Edition. Pearson Education.

Bloom, B. S.; Hastings, J. T.; Madaus, G. F. (1983) Manual de Avaliação Formativa e

Somativa do Aprendizado Escolar. S. Paulo: Livraria Pioneira Editora.

Burges, C. J. C. (1998) A tutorial on support vector machines for pattern recognition.

Knowledge Discovery and Data Mining, v. (2), n.2. pág. 1-43.

Dringus, L. P.; Ellis, T. (2005) Using data mining as a strategy for assessing

asynchronous discussion forums. In: Computers & Education, v.45, n.1, pág. 141 –

160.

Hand, D.; Mannila, H.; Smyth, P. (2001) Principles of Data Mining. The MIT Press,

Massachusetts.

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 659

Page 12: Análise de Classificadores para Avaliação automática em ... · crescem, este trabalho objetiva analisar o desempenho do modelo de avaliação automática de posta gens em fóruns

Lo, T. R.; He, B.; Ounis, I. (2005) Automatically Building a Stopword List for an

Information Retrieval System. In: Proceedings of the Fifth Dutch-Belgian Workshop

on Information Retrieval, pág. 17-24.

Matos, P. F.; Lombardi, L. O.; Ciferri, R. R.; Pardo, T. A. S. Ciferri, C. D. A.; Vieira,

M. T. P. Relatório Técnico “Métricas de Avaliação. Disponível em:

<http://www.icmc.usp.br/~taspardo/TechReportUFSCar2009a-MatosEtAl.pdf>

Acesso em jun., 2016.

Perrenoud, P. (2003) Os Ciclos de Aprendizagem: Um Caminho para Combater o

Fracasso Escolar. Porto Alegre: Artmed.

Plisson, J.; Lavrac, N.; Mladenic, D. (2004) A Rule based Approach to Word

Lemmatization. In: Conference on Data Mining and Warehouses.

Rish, I. (2001) An empirical study of the naive bayes classifier. In: Workshop on

empirical methods in artificial intelligence.

Rolim, V. B.; Cordeiro, F. R.; Ferreira, R. (2014) Reconhecimento de Padrões

Aplicados a Comentários de Fóruns Educacionais. In: Anais do XI Encontro

Nacional de Inteligência Artificial e Computacional.

Salton, G.; Yang, C. S. (1973) On the specification of term values in automatic

indexing. In: Journal of Documentation, v.29, n.4, pág. 351-372.

Sharma, G. N. B.; Bhargava, R.; Mathuria, M. (2013) Decision Tree Analysis on J48

Algorithm for Data Mining. In: Internacional Journal of Advanced Research in

Computer Science and Software Engineering. v.3, n.6. pág. 1114-1119.

Vapnik, V. N. (1995) The nature of Statistical learning theory. Springer-verlag, New

York.

Vapnik, V. N. (1999) The nature of Statistical learning theory. Springer-verlag, New

York, 2nd edition.

Wanas, N.; El-Saban, M.; Ashour, H.; Ammar, W. (2008) Automatic Scoring Of Online

Discussion Posts. In: 2nd ACM Workshop on Information credibility on the web,

pág. 19-26.

Wankhede, S. B. (2014) Analytical study of neural network techniques: SOM, MLP and

Classifier-A survey. In: Journal of Computer Engineering. v. 16, n.3. pág. 86-92.

Lin, F.; Hsieh, L.; Chuang, F. (2009) Discovering genres of online discussion threads

via text mining. In: Computers & Education, v.52, n.2, pág. 481–4959.

XIII Encontro Nacional de Inteligencia Artificial e Computacional

SBC ENIAC-2016 Recife - PE 660