Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

27
Análise Comparativa de Ferramentas de Extração de Metadados em Artigos Científicos José Alberto Grossi Júnior Maio/2015

Transcript of Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Page 1: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Análise Comparativa de Ferramentas de Extração de

Metadados em Artigos Científicos José Alberto Grossi Júnior

Maio/2015

Page 2: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Introdução

Page 3: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Introdução• Necessidade de catalogação automatizada de

artigos científicos.

• Extração automática de informações, como títulos, autores e referências.

• Representação na forma de metadados.

• Ferramentas para extração de metadados.

Page 4: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Problema• Ferramentas focadas em artigos de Ciência da

Computação.

• Layouts pré-definidos, como é o caso do IEEE.

• Poucos estudos do comportamento destas ferramentas em outras áreas do conhecimento.

Page 5: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Layouts padrões dos artigos IEEE.

Page 6: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Objetivos• Identificar as melhores ferramentas de extração de

metadados;

• Utilização de um corpus diversificado, contemplando diversas áreas do conhecimento (variação dos layouts).

• Identificação do comportamento de ferramentas:

• para cada área do conhecimento analisada;

• para cada metadado.

Page 7: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Justificativa• Permitir um conhecimento maior do

comportamento de cada ferramenta; seus pontos fortes e fracos.

• Avaliar a diferenciação dos padrões para cada área do conhecimento e suas características.

Page 8: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Referencial Teórico

Page 9: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Metadados• Definição de Metadado:

• [...] an element of metadata describes an information resource, or helps provide access to an information resource.”

• Padrão Dublin Core

• Definição de 15 elementos padronizados.

Page 10: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Técnicas de Extração de Metadados

Page 11: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Técnicas• Support Vector Machines (SVM)

• Reconhecimento de padrões através de análises matemáticas (análise espacial).

• Hidden Markov Models (HMM)

• Divisão do processamento em estados e símbolos durante um dado período de tempo.

• Observação e aprendizado.

Page 12: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Técnicas de Extração• Word Clustering (Clusters de palavras)

• Identificação de padrões e comparação com dicionários pré-determinados.

• Conditional Random Fields (CRFs)

• Construção de modelos probabilísticos;

• Evolução do HMM (não vicioso).

Page 13: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Ferramentas

Page 14: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Ferramenta Linguagens Técnicas Command Line

Cermine Java SVM, CRF, Word Clustering Sim

TeamBeam Java Maximun Entropy, HMM Não

Mendeley Qt SVM, Word Clustering Não

CiteULike Perl, Python, Ruby, Tcl, Java

Expressões Regulares Não

CiteSeer Python, Perl, Java

SVM, CRF (ParsCit), Word Clustering Sim

ParsCit Perl, Ruby CRF Sim

CrossRef Ruby, PythonExpressões Regulares

+ Posicionamento Visual

Sim

Page 15: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Ferramenta Linguagens Técnicas Command Line

Cermine Java SVM, CRF, Word Clustering Sim

TeamBeam Java Maximun Entropy, HMM Não

Mendeley Qt SVM, Word Clustering Não

CiteULike Perl, Python, Ruby, Tcl, Java

Expressões Regulares Não

CiteSeer Python, Perl, Java

SVM, CRF (ParsCit), Word Clustering Sim

ParsCit Perl, Ruby CRF Sim

CrossRef Ruby, PythonExpressões Regulares

+ Posicionamento Visual

Sim

Page 16: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Metodologia

Page 17: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação
Page 18: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

CorpusÁrea do Conhecimento Total de ArtigosArquitetura e Urbanismo 7

Música 7Ciência da Computação 8Ciência da Informação 9

Ciências Biológicas 7Direito 7

Engenharia Civil 8Letras 7

Matemática Computacional 7Medicina 9

Odontologia 8Psicologia 9Sociologia 7

Total 100

Page 19: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Realização do Experimento

Page 20: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Extração dos Metadados• Extração individual de cada artigo, coletando

resultados para cada uma das ferramentas;

• Análise dos resultados de cada ferramenta para cada área do conhecimento analisada, com base em médias aritméticas dos resultados individuais;

• Análise dos resultados de cada ferramenta para cada metadado, tomando um resultado geral para todas as áreas do conhecimento;

• Cálculo do Índice de Confiabilidade.

Page 21: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

• Média ponderada com base nos resultados obtidos para cada metadado, juntamente com seu respectivo peso.

• Classificação:

• A partir de 90: Precisa • Entre 80 e 90: Satisfatória • Abaixo de 80: Insatisfatória

Índice de Confiabilidade

Metadado Peso

Título 5

Autores 4

E-mails 1

Resumo 3

Referências 4

Page 22: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Ambiente de TestesMetadata Extraction Tool

Dados aleatórios. Ferramenta em desenvolvimento.

Page 23: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Extrações Realizadas

Page 24: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Resultados de Extração

Page 25: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Resultados Individuais por Ferramenta

Page 26: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação
Page 27: Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Obrigado!