paper:71 Ranking de Pesquisadores em Cenários Ambíguos ... · Além de ser um modelo ... Dene-se...

10
Ranking de Pesquisadores em Cenários Ambíguos: uma Abordagem Probabilística Luciana B. Maroun 1 , Mirella M. Moro 1 1 Departamento de Ciência da Computação, Universidade Federal de Minas Gerais {lubm,mirella}@dcc.ufmg.br Resumo. Diversas situações acadêmicas necessitam obter um ranking de pes- quisadores, em geral manualmente com grande investimento de tempo e di- nheiro. Automatizar tal tarefa requer associar autores a artigos, o que por sua vez adiciona incerteza aos dados devido à ocorrência de ambiguidade. Neste trabalho, propõe-se empregar uma abordagem probabilística, vinculando uma métrica de incerteza a cada posição. O uso de um desambiguador probabilístico permite explorar alguns dos casos possíveis e aplicar o desvio padrão das po- sições de dado autor como indicador de incerteza. Os resultados experimentais mostram que o método alcança uma boa estabilidade, em torno de 80%, com poucas iterações em comparação ao tamanho do conjunto de situações viáveis. Abstract. Different academic scenarios require ranking researchers, which is usually done manually with high investment of time and money. Automating such task requires associating authors to articles, which in turn adds uncertainty to the data due to ambiguity. In this work, we propose using a probabilistic appro- ach, attaching an uncertainty measure to each position. Using a probabilistic disambiguation method enables to explore some of the possible cases and to use the standard deviation of the positions of a given author as an uncertainty in- dex. Experimental results show that the method reaches a good stability, around 80%, with few iterations compared to the size of the set of viable situations. 1. Introdução Instituições envolvidas na produção científica frequentemente requerem a definição de um ranking de pesquisadores para concessão de bolsas, de prêmios, análise evolutiva, entre outros motivos. Geralmente, um comitê especializado produz tal ranking, como ocorre, por exemplo, na distribuição de bolsas de produtividade em pesquisa pelo CNPq 1 . Essa tarefa, além de possuir alto custo, torna-se impraticável com o aumento do número de pesquisadores envolvidos. Com isso, técnicas automizadas são necessárias. Para gerar um ranking de pesquisadores utilizam-se indicadores como volume de artigos, total de citações e h-index [Lima et al. 2013]. Para calculá-los, em geral, é preciso identificar os artigos de cada pesquisador. Técnicas de casamento de cadeias de caracteres não são suficientes nesse caso, pois pode haver diversas representações para o nome de um mesmo indivíduo, isto é, sinônimos. Além disso, acadêmicos distintos podem possuir uma nomenclatura em comum, situação de homônimos. A dificuldade em determinar precisamente a qual pesquisador o autor de um artigo se refere pode levar a situações falhas. Exemplos de tais situações podem ser encontrados 1 CNPq: http://www.cnpq.br/ 29 th SBBD – SBBD Proceedings – ISSN 2316-5170 October 6-9, 2014 – Curitiba, PR, Brazil paper:71 157

Transcript of paper:71 Ranking de Pesquisadores em Cenários Ambíguos ... · Além de ser um modelo ... Dene-se...

Ranking de Pesquisadores em Cenários Ambíguos:uma Abordagem ProbabilísticaLuciana B. Maroun1, Mirella M. Moro1

1Departamento de Ciência da Computação, Universidade Federal de Minas Gerais

{lubm,mirella}@dcc.ufmg.br

Resumo. Diversas situações acadêmicas necessitam obter um ranking de pes-quisadores, em geral manualmente com grande investimento de tempo e di-nheiro. Automatizar tal tarefa requer associar autores a artigos, o que por suavez adiciona incerteza aos dados devido à ocorrência de ambiguidade. Nestetrabalho, propõe-se empregar uma abordagem probabilística, vinculando umamétrica de incerteza a cada posição. O uso de um desambiguador probabilísticopermite explorar alguns dos casos possíveis e aplicar o desvio padrão das po-sições de dado autor como indicador de incerteza. Os resultados experimentaismostram que o método alcança uma boa estabilidade, em torno de 80%, compoucas iterações em comparação ao tamanho do conjunto de situações viáveis.

Abstract. Different academic scenarios require ranking researchers, which isusually done manually with high investment of time and money. Automating suchtask requires associating authors to articles, which in turn adds uncertainty tothe data due to ambiguity. In this work, we propose using a probabilistic appro-ach, attaching an uncertainty measure to each position. Using a probabilisticdisambiguation method enables to explore some of the possible cases and to usethe standard deviation of the positions of a given author as an uncertainty in-dex. Experimental results show that the method reaches a good stability, around80%, with few iterations compared to the size of the set of viable situations.

1. IntroduçãoInstituições envolvidas na produção científica frequentemente requerem a definição de umranking de pesquisadores para concessão de bolsas, de prêmios, análise evolutiva, entreoutros motivos. Geralmente, um comitê especializado produz tal ranking, como ocorre,por exemplo, na distribuição de bolsas de produtividade em pesquisa pelo CNPq1. Essatarefa, além de possuir alto custo, torna-se impraticável com o aumento do número depesquisadores envolvidos. Com isso, técnicas automizadas são necessárias.

Para gerar um ranking de pesquisadores utilizam-se indicadores como volume deartigos, total de citações e h-index [Lima et al. 2013]. Para calculá-los, em geral, é precisoidentificar os artigos de cada pesquisador. Técnicas de casamento de cadeias de caracteresnão são suficientes nesse caso, pois pode haver diversas representações para o nome deum mesmo indivíduo, isto é, sinônimos. Além disso, acadêmicos distintos podem possuiruma nomenclatura em comum, situação de homônimos.

A dificuldade em determinar precisamente a qual pesquisador o autor de um artigose refere pode levar a situações falhas. Exemplos de tais situações podem ser encontrados

1CNPq: http://www.cnpq.br/

29th SBBD – SBBD Proceedings – ISSN 2316-5170 October 6-9, 2014 – Curitiba, PR, Brazil

paper:71

157

em bibliotecas digitais, como na DBLP2. Pesquisando-se por Ana Vasconcelos, por exem-plo, uma autora denominada Ana Vasconcelos possui majoritariamente artigos de umaprofessora da Universidade de Sheffield no Reino Unido na área de gerência de informa-ção, porém um dos artigos3 é de uma outra pesquisadora vinculada à Fraunhofer Portugalna área de IHC para jogos. Este é um exemplo de homônimos, pois duas pessoas diferen-tes usaram a mesma assinatura em artigos e, por isso, foram consideradas como sendo amesma entidade. Além disso, duas autoras da lista, Ana T. R. de Vasconcelos e Ana TerezaRibeiro de Vasconcelos, dividem os artigos de uma única pesquisadora, configurando umasituação de sinônimos. Em um ranking, a autora com publicações particionadas tende aser prejudicada, enquanto aquela com artigos agregados, a ser favorecida.

Este trabalho propõe a modelagem probabilística da incerteza inerente à tarefa deassociação de pesquisadores a artigos em cenários ambíguos. Em tais situações há poucainformação, em geral apenas o nome do autor é indicador direto de sua identidade, edemanda-se a integração dos dados de diferentes publicações. Além de ser um modelogenérico para representar imprecisão dos dados, tratando tanto casos de sinônimos quantode homônimos, a utilização de probabilidades é amplamente defendida pela literaturaquando existe incerteza [Dong et al. 2009, Magnani and Montesi 2010].

As contribuições deste artigo podem ser resumidas em: (1) definição de um mé-todo probabilístico de desambiguação de autores; (2) elaboração de uma métrica, de-nominada simcoaut, relevante para a tarefa de desambiguação; (3) composição de umamétodo de amostragem e de mapeamento entre mundos possíveis; e (4) determinação deum ranking probabilístico, que contém as incertezas das posições.

2. Definição do Problema

Define-se referência como o nome de um autor em uma publicação mais os dados bi-bliográficos como título e veículo. Seja {p1, p2, ..., pm} um conjunto de publicações. Apartir das publicações, extrai-se um conjunto de referências a autoresR = {r1, r2, ..., rn}.Além disso, suponha que existam k autores, identificados por inteiros de 1 a k. O objetivode um método de desambiguação consiste em obter um particionamento das referênciasW = {a1, a2, ..., ak}, tal que ai = {r ∈ R|r refere ao autor i} [Ferreira et al. 2012b].

No contexto probabilístico, a divisão em autores é flexível, isto é, obtém-se umconjunto de particionamentos {W1,W2, ...,Wp}. Um exemplo de diferentes partições doconjunto de referências pode ser visto na Figura 1. Seja S = [b1, b2, ..., bk] um ranking emque o autor bj esteja na posição j e corresponda a algum ai ∈ W . Cada particionamentoimplica em um ranking distinto, isto é, há um conjunto de resultados {S1, S2, ..., Sp}.A partir desse conjunto, é possível calcular incertezas e obter um ranking probabilísticoSp = [(b1, u1), (b2, u2), ..., (bk, uk)], em que ui é a incerteza para a posição i, desde que sedefina uma métrica de incerteza a partir do conjunto de rankings.

A semântica dessa modelagem pode ser descrita por meio de mundos possíveis(possible worlds). Um mundo possível consiste em um dos estados em que um banco

2DBLP: http://www.informatik.uni-trier.de/~ley/db/3O artigo é entitulado Using the Smartphone Accelerometer to Monitor Fall Risk while Playing a Game:

The Design and Usability Evaluation of Dance! Don’t Fall. A ambiguidade foi verificada analisando-se apágina pessoal da primeira pesquisadora e a página no Linked-in da segunda.

29th SBBD – SBBD Proceedings – ISSN 2316-5170 October 6-9, 2014 – Curitiba, PR, Brazil

158

A

B

C

(a)

C

A

B

(b)

A

C

B

(c)

Figura 1. Exemplos de mundos possíveis para um conjunto de referências.

de dados probabilístico pode estar [Suciu et al. 2011]. No caso de um banco de da-dos de referências a pesquisadores, o mesmo consiste em cada um dos elementos de{W1,W2, ...,Wp}. A Figura 1 apresenta exemplos de diferentes mundos possíveis.

3. Arcabouço Probabilístico

A geração do ranking probabilístico é composta por três partes: uma etapa de desambi-guação probabilística; outra de amostragem dos mundos possíveis; e uma última etapa deobtenção do ranking com cálculo de incertezas. A descrição da sequência procedimentaldesse arcabouço é apresentada no Algoritmo 1 e detalhada nas próximas seções.

Algoritmo 1: Arcabouço Probabilístico.Data: conjunto_treino, conjunto_teste, iteraçõesResult: um ranking probabilísticovetores← [ ];foreach bloco ∈ conjunto_treino do

vetores_b← obter_vetores_sim(bloco, rotulado=true);vetores← vetores + vetores_b;

endpreditor← ajustar_regressao_logistica(vetores);matrizes_prob← [ ];foreach bloco ∈ conjunto_teste do

vetores← obter_vetores_sim(bloco, rotulado=false);probabilidades← predizer(preditor, vetores);matriz_prob← obter_matriz_prob(probabilidades);matrizes_prob← matrizes_prob + [matriz_prob];

endmundo_base← obter_mundo_base(matrizes_prob);ranking_base← obter_ranking(mundo_base);rankings_alt← [ ];foreach i ∈ [1, ..., iterações] do

mundo_alt← obter_mundo_alt(matrizes_prob);ranking_alt← obter_ranking(mundo_alt);rankings_alt← rankings_alt + [ranking_alt];

endemparelhamentos← emparelhar_rankings(ranking_base, rankings_alt);ranking_prob← criar_ranking_prob(ranking_base, rankings_alt, emparelhamentos);return ranking_prob;

29th SBBD – SBBD Proceedings – ISSN 2316-5170 October 6-9, 2014 – Curitiba, PR, Brazil

159

3.1. Desambiguação Probabilística

O processo de desambiguação probabilística aplica um algoritmo de aprendizadode máquina supervisionado para calcular a probabilidade de duas referências a au-tores corresponderem ao mesmo pesquisador. Cada par de referências é mode-lado como um vetor chamado vetor de similaridade, que reflete aspectos com-parativos relevantes para a determinação de correferência, sendo definido como(stfidf, simcoaut, intcoaut, simtitle, eqvenue) em que:

• stfidf corresponde à métrica soft-TFIDF, uma flexibilização do TFIDF que con-sidera casamentos aproximados entre as palavras [Moreau et al. 2008].• simcoaut é uma métrica de coautoria proposta aqui que utiliza regras de as-

sociação calculadas em toda a base de dados usando o algoritmo Apriori[Agrawal and Srikant 1994]. O cálculo é feito somando-se as confianças das re-gras de associação do tipo A → Dj e B → Ci, em que A e B são os nomesde autor em questão, Ci o i-ésimo coautor de A e Dj o j-ésimo coautor de B,i = 1, ...,m e j = 1, ..., n, havendo m coautores de A e n de B. Em suma, sãosomadas as confianças das coautorias de A com os coautores de B e vice versa.• intcoaut contabiliza a interseção de coautores no par de referências em questão,

sendo utilizado também em [Gurney et al. 2012, Treeratpituk and Giles 2009].• simtitle corresponde ao coeficiente de similaridade de Jaccard entre os títulos (já

processados para conter somente radicais) dos artigos.• eqvenue é um valor booleano que indica se os veículos são iguais ou não, sendo

também aplicado em [Torvik et al. 2005].

As referências são inicialmente particionadas em blocos ambíguos, que agrupamaquelas que potencialmente correspondem à mesma entidade. Somente entre pares de re-ferências que estão dentro do mesmo bloco são criados vetores de similaridade, com issoreduz-se o custo de comparação ao desconsiderar os pares claramente distintos. O agru-pamento de pesquisadores com inicial e último nome em comum foi o critério adotado,similarmente a desambiguadores do estado-da-arte [Ferreira et al. 2012b].

Um modelo de regressão logística é empregado para calcular as probabilidadesde correferência. Esse modelo corresponde à função y = 1

1+e−xβ , em que x é o vetor desimilaridade (acrescido de uma dimensão cujo valor é 1 para considerar o intercepto), β éum vetor estimado durante o treino que define os pesos de cada parâmetro, e y é a variávelque se deseja estimar, no caso a probabilidade de correferência. A vantagem da regressãologística consiste em fornecer saídas no intervalo [0, 1], o que permite a interpretaçãocomo probabilidade. Além disso, é simples e apresenta bons resultados em trabalhosprévios de desambiguação (acurácia acima de 90% em [Treeratpituk and Giles 2009]).

Para o treino, um conjunto de vetores de similaridade rotulados é necessário. Osrótulos podem ser 1, indicando que os pares de referência correspondem ao mesmo autor,ou 0, caso contrário. Após o treino, que obtém β, dado um vetor de similaridade, omodelo provê um valor p ∈ (0, 1), que reflete a confiança de duas referências pertenceremao mesmo indivíduo e serve como uma estimativa para a probabilidade de correferência.Apesar de esse algoritmo ter sido usado em outras abordagens da literatura, neste trabalhoé proposta a interpretação dos valores estimados como probabilidades.

29th SBBD – SBBD Proceedings – ISSN 2316-5170 October 6-9, 2014 – Curitiba, PR, Brazil

160

3.2. Amostragem de Mundos PossíveisInvestigar todos os particionamentos de referências possíveis é uma tarefa inviável,pois cada bloco ambíguo possui uma quantidade expressiva de particionamentos. Essaquantidade é denominada Número de Bell (Bell Number) e é definida pela fórmulade recorrência Bn+1 =

∑nk=0

(nk

)Bn, em que n é o número de elementos do bloco

[Becker and Riordani 1948]. Esse valor possui um crescimento considerável. Com isso,torna-se imperativo formular um método que aproxime a distribuição de mundos possí-veis, evitando sua completa inspeção.

Uma vez calculadas as probabilidades, é obtida uma matriz de probabilidades M ,tal queM [ri][rj] contém a probabilidade da referência ri pertencer ao mesmo autor que rj .Em seguida, é utilizado o algoritmo DBScan [Theodoridis and Koutroumbas 2008] paraparticionar as referências em autores. Esse método agrupa os elementos atendendo crité-rios de tamanho mínimo para um grupo e de distância mínima entre aqueles agrupados. Onúmero de grupos não precisa ser definido como parâmetro, e o problema de ausência detransitividade é resolvido razoavelmente bem, como descrito em [Huang et al. 2006]. Atransitividade é uma propriedade desejável para a relação de correferência, uma vez que,supondo que sejam correferentes os pares (a, b) e (b, c), consequentemente a e c devemtambém corresponder à mesma pessoa por definição. O particionamento obtido nesta fasecorresponde ao base e é somente a partir desse que a versão determinística do ranking fi-nal, (isto é, excluída a informação de incerteza) é construído. É neste processo, portanto,que se define o número de pesquisadores a serem considerados.

Como a regressão logística produz uma probabilidade de correferência entrecada par de autores do mesmo bloco ambíguo, é praticável simular possíveis situaçõesexecutando-se um experimento de Bernoulli para cada par. Um experimento dessa formarecebe como entrada a probabilidade p e retorna 1 com probabilidade p ou 0 com probabi-lidade 1−p. Repetindo essa execução estocástica em uma série de iterações, aproxima-seda distribuição dos mundos possíveis — a taxa de ocorrência de 1 para cada par é pró-xima da probabilidade p. Para cada iteração estocástica, é aplicado o algoritmo k-medoids[Theodoridis and Koutroumbas 2008] a fim de agrupar as referências. Esse algoritmopossibilita a utilização das métricas pré-computadas pela regressão logística. O seu com-portamento é de minimizar as distâncias intra-cluster a um elemento central, o medoid,que é escolhido dentre as referências existentes. Com isso, na etapa de particionamento,obtém-se um que serve como base para o ranking, por meio do DBScan, e outros quederivam rankings alternativos, por meio do k-medoids.

3.3. Obtenção do Ranking ProbabilísticoA partir do particionamento base, é possível gerar um ranking determinístico. Posteri-ormente, deve-se calcular um valor de incerteza para cada posição desse ranking. Parafazê-lo é necessário, primeiramente, obter relacionamentos biunívocos entre os autoresdo particionamento base e dos alternativos a fim de observar a variação das posições.Cria-se, para isso, um grafo bipartido completo para cada particionamento alternativo,em que os vértices de um conjunto correspondem aos autores do particionamento base eos do outro são os autores do alternativo em questão. O peso entre cada par de autores dediferentes mundos possíveis corresponde ao número de referências em comum. Com isso,aplica-se o algoritmo Hungariano [Kuhn 1955] que obtém o emparelhamento máximo e,portanto, retorna o melhor mapeamento entre o par de mundos possíveis considerado.

29th SBBD – SBBD Proceedings – ISSN 2316-5170 October 6-9, 2014 – Curitiba, PR, Brazil

161

Como última etapa do método, é calculado o desvio padrão das posições de umautor ao longo de diferentes rankings, que são associados por meio do mapeamento obtidopor emparelhamento máximo. Para o cálculo do desvio padrão, considera-se a posição noranking base como a posição média, já que o objetivo é identificar a variação em tornodesse valor. A apresentação das incertezas em uma escala fixa torna sua informação maiscompreensível; por isso, optou-se por utilizar números inteiros de 0 a 10. A normalizaçãoutiliza m− 1 como valor máximo de desvio padrão em um ranking de tamanho m.

Pode-se ilustrar o funcionamento desta etapa utilizando os mundos possíveis daFigura 1. Nesse caso, obtém-se os rankings [A,B,C] (considerado o ranking base),[A,B,C] e [B,A,C], utilizando o volume de artigos como função de ordenação do ran-king, a ordem lexicográfica como critério de desempate e nomeando de acordo com oemparelhamento máximo. Supondo que, além desses, existam ainda os rankings alterna-tivos [B,A,C] e [B,C,A]. Calculando-se o desvio padrão de cada pesquisador obtém-se1, 095 para o A, 0, 774 para o B e 0, 447 para o C. Normalizando em relação ao desviopadrão máximo, m − 1 = 2, e projetando em uma escala de 0 a 10, obtém-se o rankingprobabilístico [(A, 5), (B, 4), (C, 2)], conforme definido na Seção 2.

4. Avaliação Experimental

Os dados utilizados foram retirados de [Ferreira et al. 2012a] e consistem em um conjuntode 4287 referências rotuladas a 220 pesquisadores distintos. Cada referência contém osnomes dos autores, o título, o veículo e um identificador do pesquisador na base. Após amodelagem, obtiveram-se 1.175.609 vetores de similaridade. Finalmente, 25% das refe-rências foram aleatoriamente selecionadas para constituir o conjunto de treino.

A avaliação experimental é dividida em três partes. A primeira apresenta trêsanálises do desambiguador probabilístico: (i) acurácia – permite a comparação do de-sambiguador proposto com outros métodos e indica seu potencial para modelar correfe-rências; (ii) qualidade de estimação – denota o poder preditivo do modelo em sua versãoprobabilística; e (iii) importância dos parâmetros – as covariáveis definidas para o ve-tor de similaridade são analisadas a fim de verificar se são realmente importantes para aestimação de probabilidades ou se adicionam um viés indesejado. Na segunda parte, aamostragem de mundos possíveis e o ranking probabilístico são avaliados por meio docálculo da estabilidade das incertezas. Esse experimento analisa a consistência do mé-todo, representada pela variação dos resultados entre diferentes execuções. Investigar aestabilidade é importante devido à aproximação da distribuição de mundos possíveis serefetuada por meio de um procedimento estocástico. Na terceira parte, mede-se o tempode execução variando o tamanho da entrada e o número de iterações estocásticas.

Acurácia do Desambiguador Determinístico. A acurácia do modelo de regressão lo-gística foi calculada considerando sua versão determinística, em que se classifica como 0se a probabilidade for menor do que 0, 5 e como 1, caso contrário. Obteve-se 90, 3% emum esquema de validação cruzada com 5 partições. Esse resultado é muito próximo deabordagens da literatura [Ferreira et al. 2012b], porém a acurácia varia muito de acordocom os dados, o que dificulta a comparação. Em [Ferreira et al. 2012a], a mesma base dedados é utilizada e a acurácia máxima alcançada dentre diferentes abordagens exploradasfoi de 92, 0%. O desambiguador proposto neste trabalho, além disso, possui flexibilidadedevido ao formato probabilístico da saída.

29th SBBD – SBBD Proceedings – ISSN 2316-5170 October 6-9, 2014 – Curitiba, PR, Brazil

162

Tabela 1. Dados da estimação de parâmetros para o modelo de desambiguação.Parâmetro Valor estimado Desvio Padrão Valor Zstfidf 1, 9960 0, 0103 166, 75simcoaut 7, 7544 0, 0120 223, 92intcoaut 3, 4642 0, 0346 98, 39simtitle 15, 4557 0, 0818 188, 85eqvenue 2, 4636 0, 0352 70, 05

Qualidade da Estimação de Probabilidades. As probabilidades também foram avali-adas em um processo de validação cruzada com 5 partições aplicando-se a métrica Brierscore [Brier 1950], obtendo-se 0, 077. Essa medida calcula a qualidade das probabilida-des estimadas por meio da expressão BS = 1

n

∑ni=1(pi − ci)2, em que n é o número de

vetores de similaridades, pi é a probabilidade prevista do i-ésimo vetor, ci é a informaçãoverdadeira de presença ou não de correferência do i-ésimo vetor e i = 1, 2, ..., n. Quantomenor esse valor, menor o erro das predições e melhor a qualidade.

Importância dos Parâmetros do Vetor de Similaridade. Para cada parâmetro do vetorde similaridade foi aplicado o Teste de Wald (Wald Test) [Wasserman 2010], que consisteem um teste de hipótese no formato H0 : θi = θ0 vs. H1 : θi 6= θ0, em que H0 é ahipótese nula; H1, a hipótese alternativa; e θi o i-ésima covariável do modelo. Esse testefoi feito usando θ0 = 0 e, portanto, verifica se determinado parâmetro é importante para omodelo. Obtiveram-se p-valores (que correspondem à probabilidade de rejeitar a hipótesenula quando a mesma é verdadeira) abaixo de 2 · 10−16, levando à rejeição da hipótesenula e à conclusão de que todas as covariáveis são relevantes para a desambiguação. Asestimativas dos parâmetros, os desvios padrões e os valores Z, que são as estatísticas doTeste de Wald, são apresentados na Tabela 1. Tais estatísticas do teste seguem uma normalpadrão e, portanto, quanto maior o seu módulo, maior a distância do valor obtido à médiae maior a indicação de rejeição da hipótese nula. Com isso, o ranking de importância dosparâmetros é: simcoaut, simtitle, stfidf , intcoaut, eqvenue. Logo, a covariável maisdiscriminativa é a métrica simcoaut proposta neste trabalho.

Estabilidade das Incertezas. Uma qualidade desejável das incertezas calculadas con-siste na presença de estabilidade, isto é, não deve haver uma variação considerável emseus valores para diferentes execuções. Esse problema pode acontecer devido à utilizaçãode um procedimento estocástico de amostragem de mundos possíveis. A métrica de esta-bilidade utilizada foi o coeficiente de correlação de ranking de Spearman [Kendall 1948]sobre os autores dos rankings ordenados pela incerteza, já que a comparação relativa éa informação mais importante. Essa métrica foi escolhida por, além de observar as mu-danças de posições, também considerar o quanto variam. O valor final consiste na médiadessa métrica calculada para 10 pares de rankings (obtidos em 20 execuções), para dadonúmero de iterações estocásticas. A Figura 2 mostra a variação da estabilidade com o nú-mero de iterações com intervalos de confiança de 95%. Nota-se que, com o aumento donúmero de iterações, a estabilidade tende a crescer e o intervalo de confiança a diminuir,apesar de haver certa oscilação devido à natureza estocástica do processo. Isso é uma evi-dência de que a solução do método gradativamente aproxima do resultado do verdadeiro(que considera todos os mundos possíveis) com o aumento do número de iterações. Apartir de aproximadamente 500 iterações, a estabilidade obtida foi acima de 80%, sendoo valor máximo em torno de 85%. O alto custo em relação ao tempo de execução para

29th SBBD – SBBD Proceedings – ISSN 2316-5170 October 6-9, 2014 – Curitiba, PR, Brazil

163

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

100 101 102 103# Iterações Estocásticas

Estabilidade

Figura 2. Estabilidade em função do número de iterações estocásticas.

essa etapa, conforme discutido a seguir, limita o estudo de mais iterações. O tamanho doespaço de mundos possíveis, calculado aplicando a fórmula do número de Bell para cadabloco de referências, é da ordem de 10122867; portanto, alcançou-se uma alta estabilidadeconsiderando apenas uma fração muito pequena das situações possíveis.

Tempo de Execução. O tempo de execução foi avaliado considerando a variação dotamanho da entrada na fase de teste e do número de interações estocásticas, como é apre-sentado na Figura 3 juntamente com intervalos de confiança (IC) de 95%. Na Figura3(a), alguns ICs são muito pequenos e difíceis de serem visualizados. As medições foramrealizadas em um computador com processador Intel Xeon 2.40 GHz e 16GB de memó-ria RAM. Nota-se que a etapa de desambiguação é a mais custosa em relação a ambosos recursos. Quanto à variação do tamanho da entrada, observa-se que o tempo de de-sambiguação cresce, uma vez que mais pares de referências existem para o cálculo deprobabilidades; na fase de amostragem de mundos possíveis, mais elementos pertencem acada um desse, o que aumenta igualmente o custo; já na etapa de composição do ranking,apesar de haver mais elementos a serem ordenados, a taxa de crescimento é muito baixa.

Analisando o tempo de execução em função do número de iterações (apresentadoem escala log-log no gráfico), observa-se que não há efeito observável sobre o tempo dedesambiguação, o que é esperado já que esse parâmetro não é utilizado nesse momento.No processo de desambiguação, por sua vez, existe um crescimento aproximadamentelinear: cada nova iteração implica em um novo mundo possível a ser investigado. Naobtenção do ranking probabilístico também há um crescimento linear, pois o número deposições a serem consideradas para o cálculo de incerteza cresce proporcionalmente.

5. Trabalhos Relacionados

Diversas soluções da literatura existem para desambiguação de nomes de autores, con-forme trabalho de revisão recente [Ferreira et al. 2012b], sendo divididas em duas abor-dagens principais: métodos de agrupamento de autores, que particionam as referênciasusando alguma métrica de similaridade; e métodos de atribuição de autores, que classifi-cam as referências como pertencentes a determinado autor. Como exemplo do primeirométodo, em [Huang et al. 2006] é utilizado o algoritmo DBScan para agrupar o conjuntode referências em que a distância é calculada por um algoritmo SVM ativo e online. Já

29th SBBD – SBBD Proceedings – ISSN 2316-5170 October 6-9, 2014 – Curitiba, PR, Brazil

164

0.00

0.05

0.10

0.15

1000 2000 3000 4000# Referências

Tem

po (h

)

EtapaDesambiguaçãoAmostragem de Mundos PossíveisObtenção do Ranking

(a) Tamanho da entrada

10-3

10-2

10-1

100

101

100 101 102 103# Iterações Estocásticas

Tem

po (h

)

EtapaDesambiguaçãoAmostragem de Mundos PossíveisObtenção do Ranking

(b) Número de iterações estocásticas

Figura 3. Tempo em função de diferentes variáveis.

a abordagem descrita em [Han et al. 2004] é um exemplo do segundo caso, em que sãoaplicados dois métodos de aprendizado supervisionado — Naive Bayes e SVM — paraclassificar o autor correspondente a uma referência. Porém, nenhuma das propostas apre-sentadas na revisão realiza a desambiguação no formato probabilístico.

Um ranking probabilístico pode ser interpretado sob diferentes perspectivas[Ilyas et al. 2008]: resultados aproximados para dados certos; resultados probabilísticospara dados incertos; e ordenação de dados incertos. No primeiro caso, não existe incertezanos dados, mas na satisfabilidade de um registro a uma consulta. No segundo, retornam-semúltiplos resultados a uma consulta ordenados pela probabilidade. O ranking probabilís-tico considerado neste trabalho trata do último, isto é, os objetos de um banco de dadosincertos são ordenados segundo alguma função. Entretanto, não foi encontrado outrotrabalho na literatura que propagasse a informação de incerteza para o ranking.

6. Conclusões e Trabalhos FuturosEm situações em que os dados possuem algum tipo de incerteza envolvida, a represen-tação dessa informação na saída é bastante válida, agregando informação que pode serútil. Em um ranking probabilístico, é possível identificar os elementos cujas posiçõessão menos confiáveis. A novidade deste trabalho consiste em utilizar probabilidades paraderivar incertezas associadas às posições do ranking, apresentando uma boa estabilidadecom poucas iterações em relação ao número de mundos possíveis existentes. Melhoriaspodem ser exploradas como a utilização de um método de agrupamento que melhor es-time o número de pesquisadores; a aplicação de outras métricas no cálculo de incertezas;e a definição de uma nova semântica de mapeamento dos particionamentos, mesmo entreaqueles com diferentes quantidades de partições.

Agradecimentos. Trabalho parcialmente financiado pelo CNPq e InWeb, Brasil.

Referências[Agrawal and Srikant 1994] Agrawal, R. and Srikant, R. (1994). Fast algorithms for mining

association rules in large databases. In Procs. of VLDB, San Francisco, CA, USA.

29th SBBD – SBBD Proceedings – ISSN 2316-5170 October 6-9, 2014 – Curitiba, PR, Brazil

165

[Becker and Riordani 1948] Becker, H. W. and Riordani, J. (1948). The arithmetic of belland stirling numbers. Amer. J. Math., 70:385–394.

[Brier 1950] Brier, G. W. (1950). Verification of forecasts expressed in terms of probability.Monthly Weather Review, 78(1):1–3.

[Dong et al. 2009] Dong, X. L., Halevy, A., and Yu, C. (2009). Data integration with uncer-tainty. The VLDB Journal, 18(2):469–500.

[Ferreira et al. 2012a] Ferreira, A. A. et al. (2012a). Active associative sampling for authorname disambiguation. In Procs. of JCDL, Washington, DC, USA.

[Ferreira et al. 2012b] Ferreira, A. A. et al. (2012b). A brief survey of automatic methodsfor author name disambiguation. SIGMOD Rec., 41(2):15–26.

[Gurney et al. 2012] Gurney, T. et al. (2012). Author disambiguation using multi-aspectsimilarity indicators. Scientometrics, 91(2):435–449.

[Han et al. 2004] Han, H. et al. (2004). Two supervised learning approaches for name di-sambiguation in author citations. In Procs. of JCDL, Tucson, USA.

[Huang et al. 2006] Huang, J., Ertekin, S., and Giles, C. L. (2006). Efficient name disambi-guation for large-scale databases. In Procs. of PKDD, Berlin, Germany.

[Ilyas et al. 2008] Ilyas, I. F. et al. (2008). A survey of top-k query processing techniques inrelational database systems. ACM Comput. Surv., 40(4):11:1–11:58.

[Kendall 1948] Kendall, M. (1948). Rank correlation methods. C. Griffin.

[Kuhn 1955] Kuhn, H. W. (1955). The hungarian method for the assignment problem. NavalResearch Logistics Quartely, 2:83–97.

[Lima et al. 2013] Lima, H. et al. (2013). Aggregating productivity indices for ranking re-searchers across multiple areas. In Procs. of JCDL, Indianapolis, USA.

[Magnani and Montesi 2010] Magnani, M. and Montesi, D. (2010). A survey on uncertaintymanagement in data integration. J. Data and Information Quality, 2(1):5:1–5:33.

[Moreau et al. 2008] Moreau, E., Yvon, F., and Cappé, O. (2008). Robust similarity measu-res for named entities matching. In Procs. of COLING, Manchester, UK.

[Suciu et al. 2011] Suciu, D. et al. (2011). Probabilistic Databases. Synthesis Lectures onData Management. Morgan & Claypool Publishers.

[Theodoridis and Koutroumbas 2008] Theodoridis, S. and Koutroumbas, K. (2008). PatternRecognition. Synthesis Lectures on Data Management. Academic Press, 4 edition.

[Torvik et al. 2005] Torvik, V. I. et al. (2005). A probabilistic similarity metric for me-dline records: A model for author name disambiguation: Research articles. JASIST,56(2):140–158.

[Treeratpituk and Giles 2009] Treeratpituk, P. and Giles, C. L. (2009). Disambiguatingauthors in academic publications using random forests. In Procs. of JCDL, Austin,USA.

[Wasserman 2010] Wasserman, L. (2010). All of Statistics: A Concise Course in StatisticalInference. Springer Publishing Company, Incorporated.

29th SBBD – SBBD Proceedings – ISSN 2316-5170 October 6-9, 2014 – Curitiba, PR, Brazil

166