Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Post on 22-Jul-2015

33 views 1 download

Transcript of Apresentação da Qualificação - Mestrado UFMG Ciência da Informação

Análise Comparativa de Ferramentas de Extração de

Metadados em Artigos Científicos José Alberto Grossi Júnior

Maio/2015

Introdução

Introdução• Necessidade de catalogação automatizada de

artigos científicos.

• Extração automática de informações, como títulos, autores e referências.

• Representação na forma de metadados.

• Ferramentas para extração de metadados.

Problema• Ferramentas focadas em artigos de Ciência da

Computação.

• Layouts pré-definidos, como é o caso do IEEE.

• Poucos estudos do comportamento destas ferramentas em outras áreas do conhecimento.

Layouts padrões dos artigos IEEE.

Objetivos• Identificar as melhores ferramentas de extração de

metadados;

• Utilização de um corpus diversificado, contemplando diversas áreas do conhecimento (variação dos layouts).

• Identificação do comportamento de ferramentas:

• para cada área do conhecimento analisada;

• para cada metadado.

Justificativa• Permitir um conhecimento maior do

comportamento de cada ferramenta; seus pontos fortes e fracos.

• Avaliar a diferenciação dos padrões para cada área do conhecimento e suas características.

Referencial Teórico

Metadados• Definição de Metadado:

• [...] an element of metadata describes an information resource, or helps provide access to an information resource.”

• Padrão Dublin Core

• Definição de 15 elementos padronizados.

Técnicas de Extração de Metadados

Técnicas• Support Vector Machines (SVM)

• Reconhecimento de padrões através de análises matemáticas (análise espacial).

• Hidden Markov Models (HMM)

• Divisão do processamento em estados e símbolos durante um dado período de tempo.

• Observação e aprendizado.

Técnicas de Extração• Word Clustering (Clusters de palavras)

• Identificação de padrões e comparação com dicionários pré-determinados.

• Conditional Random Fields (CRFs)

• Construção de modelos probabilísticos;

• Evolução do HMM (não vicioso).

Ferramentas

Ferramenta Linguagens Técnicas Command Line

Cermine Java SVM, CRF, Word Clustering Sim

TeamBeam Java Maximun Entropy, HMM Não

Mendeley Qt SVM, Word Clustering Não

CiteULike Perl, Python, Ruby, Tcl, Java

Expressões Regulares Não

CiteSeer Python, Perl, Java

SVM, CRF (ParsCit), Word Clustering Sim

ParsCit Perl, Ruby CRF Sim

CrossRef Ruby, PythonExpressões Regulares

+ Posicionamento Visual

Sim

Ferramenta Linguagens Técnicas Command Line

Cermine Java SVM, CRF, Word Clustering Sim

TeamBeam Java Maximun Entropy, HMM Não

Mendeley Qt SVM, Word Clustering Não

CiteULike Perl, Python, Ruby, Tcl, Java

Expressões Regulares Não

CiteSeer Python, Perl, Java

SVM, CRF (ParsCit), Word Clustering Sim

ParsCit Perl, Ruby CRF Sim

CrossRef Ruby, PythonExpressões Regulares

+ Posicionamento Visual

Sim

Metodologia

CorpusÁrea do Conhecimento Total de ArtigosArquitetura e Urbanismo 7

Música 7Ciência da Computação 8Ciência da Informação 9

Ciências Biológicas 7Direito 7

Engenharia Civil 8Letras 7

Matemática Computacional 7Medicina 9

Odontologia 8Psicologia 9Sociologia 7

Total 100

Realização do Experimento

Extração dos Metadados• Extração individual de cada artigo, coletando

resultados para cada uma das ferramentas;

• Análise dos resultados de cada ferramenta para cada área do conhecimento analisada, com base em médias aritméticas dos resultados individuais;

• Análise dos resultados de cada ferramenta para cada metadado, tomando um resultado geral para todas as áreas do conhecimento;

• Cálculo do Índice de Confiabilidade.

• Média ponderada com base nos resultados obtidos para cada metadado, juntamente com seu respectivo peso.

• Classificação:

• A partir de 90: Precisa • Entre 80 e 90: Satisfatória • Abaixo de 80: Insatisfatória

Índice de Confiabilidade

Metadado Peso

Título 5

Autores 4

E-mails 1

Resumo 3

Referências 4

Ambiente de TestesMetadata Extraction Tool

Dados aleatórios. Ferramenta em desenvolvimento.

Extrações Realizadas

Resultados de Extração

Resultados Individuais por Ferramenta

Obrigado!