Apresentação da Qualificação - Mestrado UFMG Ciência da Informação
-
Upload
junior-grossi -
Category
Technology
-
view
33 -
download
1
Transcript of Apresentação da Qualificação - Mestrado UFMG Ciência da Informação
Análise Comparativa de Ferramentas de Extração de
Metadados em Artigos Científicos José Alberto Grossi Júnior
Maio/2015
Introdução
Introdução• Necessidade de catalogação automatizada de
artigos científicos.
• Extração automática de informações, como títulos, autores e referências.
• Representação na forma de metadados.
• Ferramentas para extração de metadados.
Problema• Ferramentas focadas em artigos de Ciência da
Computação.
• Layouts pré-definidos, como é o caso do IEEE.
• Poucos estudos do comportamento destas ferramentas em outras áreas do conhecimento.
Layouts padrões dos artigos IEEE.
Objetivos• Identificar as melhores ferramentas de extração de
metadados;
• Utilização de um corpus diversificado, contemplando diversas áreas do conhecimento (variação dos layouts).
• Identificação do comportamento de ferramentas:
• para cada área do conhecimento analisada;
• para cada metadado.
Justificativa• Permitir um conhecimento maior do
comportamento de cada ferramenta; seus pontos fortes e fracos.
• Avaliar a diferenciação dos padrões para cada área do conhecimento e suas características.
Referencial Teórico
Metadados• Definição de Metadado:
• [...] an element of metadata describes an information resource, or helps provide access to an information resource.”
• Padrão Dublin Core
• Definição de 15 elementos padronizados.
Técnicas de Extração de Metadados
Técnicas• Support Vector Machines (SVM)
• Reconhecimento de padrões através de análises matemáticas (análise espacial).
• Hidden Markov Models (HMM)
• Divisão do processamento em estados e símbolos durante um dado período de tempo.
• Observação e aprendizado.
Técnicas de Extração• Word Clustering (Clusters de palavras)
• Identificação de padrões e comparação com dicionários pré-determinados.
• Conditional Random Fields (CRFs)
• Construção de modelos probabilísticos;
• Evolução do HMM (não vicioso).
Ferramentas
Ferramenta Linguagens Técnicas Command Line
Cermine Java SVM, CRF, Word Clustering Sim
TeamBeam Java Maximun Entropy, HMM Não
Mendeley Qt SVM, Word Clustering Não
CiteULike Perl, Python, Ruby, Tcl, Java
Expressões Regulares Não
CiteSeer Python, Perl, Java
SVM, CRF (ParsCit), Word Clustering Sim
ParsCit Perl, Ruby CRF Sim
CrossRef Ruby, PythonExpressões Regulares
+ Posicionamento Visual
Sim
Ferramenta Linguagens Técnicas Command Line
Cermine Java SVM, CRF, Word Clustering Sim
TeamBeam Java Maximun Entropy, HMM Não
Mendeley Qt SVM, Word Clustering Não
CiteULike Perl, Python, Ruby, Tcl, Java
Expressões Regulares Não
CiteSeer Python, Perl, Java
SVM, CRF (ParsCit), Word Clustering Sim
ParsCit Perl, Ruby CRF Sim
CrossRef Ruby, PythonExpressões Regulares
+ Posicionamento Visual
Sim
Metodologia
CorpusÁrea do Conhecimento Total de ArtigosArquitetura e Urbanismo 7
Música 7Ciência da Computação 8Ciência da Informação 9
Ciências Biológicas 7Direito 7
Engenharia Civil 8Letras 7
Matemática Computacional 7Medicina 9
Odontologia 8Psicologia 9Sociologia 7
Total 100
Realização do Experimento
Extração dos Metadados• Extração individual de cada artigo, coletando
resultados para cada uma das ferramentas;
• Análise dos resultados de cada ferramenta para cada área do conhecimento analisada, com base em médias aritméticas dos resultados individuais;
• Análise dos resultados de cada ferramenta para cada metadado, tomando um resultado geral para todas as áreas do conhecimento;
• Cálculo do Índice de Confiabilidade.
• Média ponderada com base nos resultados obtidos para cada metadado, juntamente com seu respectivo peso.
• Classificação:
• A partir de 90: Precisa • Entre 80 e 90: Satisfatória • Abaixo de 80: Insatisfatória
Índice de Confiabilidade
Metadado Peso
Título 5
Autores 4
E-mails 1
Resumo 3
Referências 4
Ambiente de TestesMetadata Extraction Tool
Dados aleatórios. Ferramenta em desenvolvimento.
Extrações Realizadas
Resultados de Extração
Resultados Individuais por Ferramenta
Obrigado!