Predição de Links em Redes Complexas utilizando Informações...

Predição de Links em Redes Complexas utilizando Informações

de Estruturas de Comunidades

Jorge Carlos Valverde RebazaOrientador: Prof. Dr. Alneu de Andrade Lopes

Instituto de Ciências Matemáticas e de Computação

Universidade de São Paulo

27 de Março de 2013

Roteiro

1. Introdução

2. Predição de Links

3. Proposta

4. Avaliação Experimental

5. Considerações Finais

2

INTRODUÇÃO

Motivação

• Diferentes sistemas dinâmicos naturais são representados mediante redes

• As redes que modelam esses sistemas são chamadas de redes complexas e são divididas em 4 categorias: redes tecnológicas, redes de informação, redes biológicas e redes sociais

• Nos últimos anos, o estudo das redes complexas tem recebido um grande interesse pela comunidade cientifica, especialmente das áreas de Ciência da Computação e da Física

4

5

Motivação

• Áreas de estudo focadas na análise de redes constataram que:

1. Vértices e links tendem a aparecer e desaparecer de forma não determinística

2. Vértices tendem a formar grupos fortemente ligados entre si e esparsamente ligados com vértices de outros grupos

Problema Abordado

• Dada a dinâmica das redes complexas, é de extrema importância entender os processos pelos quais a rede passa durante sua evolução

• O entendimento desses processos permite determinar, com maior exatidão, como será a estrutura futura de uma rede

• O problema da predição de links insere-se nesse contexto

6

7

Problema Abordado

Predição de links procuraestimar a probabilidade(pontuação) da existênciafutura de um link entre doisvértices não ligados,

8

Problema Abordado

Predição de links procuraestimar a probabilidade(pontuação) da existênciafutura de um link entre doisvértices não ligados, combase nas informações doslinks e vértices presentes narede

Objetivo Geral

• Propor um método que faça uso das informações das comunidades detectadas em uma rede na predição de novos relacionamentos em redes complexas

9

PREDIÇÃO DE LINKS

Descrição do Problema

11

G [Ti] G [Ti+1]

Predição de linksAvaliação

Abordagens

• As diferentes propostas existentes na literatura para resolver o problema da predição de links podem ser divididas em quatro categorias:

1. Índices baseados na similaridade estrutural (Liben-

Nowell e Kleinberg, 2007; Zhou et al., 2009)

2. Métodos baseados na máxima verossimilhança (Sales-

Pardo et al., 2007, Redner, 2008)

3. Modelos probabilísticos (Koller e Pfeffer, 1998; Heckerman

et al., 2004)

4. Métodos híbridos (Gong et al.. 2012, Zheleva et al., 2008)

12

Abordagens

Índices baseados na similaridade estrutural

• Para cada par de vértices (não ligados) é atribuída uma pontuação, a qual é definida como a similaridade (ou proximidade) entre o par de vértices analisados

• Os pares de vértices com maior pontuação atribuída por um índice são tidos como links com alta probabilidade de existência

13

Abordagens

14

Índices baseados na similaridade estrutural

Índices de Similaridade Local

Utilizam as informações da vizinhança local de um par de vértices analisados

Menor desempenho comparado com os índices globais

Baixo custo computacional

Índices de Similaridade Global

Utilizam informações topológicas de quase toda a rede

Alto desempenho

Computacionalmente custosos

Abordagens

15

Índices de similaridade local

• Índice Common Neighbors (CN)

• Índice de Salton (Sal)

• Índice de Jaccard (Jac)

• Índice de Adamic-Adar (AA)

• Índice Resource Allocation (RA)

Abordagens

16

Índices de similaridade local

• Índice de Sørensen (Sor)

• Índice Hub Promoted (HPI)

• Índice Hub Depressed (HDI)

• Índice Leicht-Holme-Newman (LHN)

• Índice Preferential Attachment (PA)

Abordagens

17

Índices de similaridade global

• Índice de Katz (Katz)

• Índice Rooted PageRank (RPR)

• Índice SimRank (SR)

Abordagens

Métodos híbridos

• Caracterizados pelo uso de mais de uma técnica ou tipo de informação

• Podem ser divididos em dois grupos:

1. Os que combinam diferentes métodos de predição de links em um ensemble

2. Os que utilizam informações externas às comumente usadas, mas que estão presentes na rede:

a. Informações dos atributos de vértices e links

b. Informações das comunidades18

Abordagens

Métodos Híbridos baseados nas informações das comunidades

1. Relações de Amizade e Círculos Familiares: baseados nas relações entre membros de diferentes árvores genealógicas.Dois índices são definidos:

• Número de amigos no grupo (NAG)

• Porção de amigos no grupo (PAG)

19

Abordagens

Métodos Híbridos baseados nas informações das comunidades

2. Índices estruturais melhorados: propostas de melhorias nos índices baseados na similaridade estrutural local

• Enhanced Common

Neighbors (ECN)

• Enhanced Resource

Allocation (ERA)

20

PROPOSTA

Fundamentos da proposta

• O índice dos vizinhos comuns considera que os vizinhos comuns de um par de vértices fornecem a mesma contribuição na tarefa de predição

• Porém, nas redes reais, cada vizinho pode ter um papel diferente, e assim, contribuir de maneira diferente na predição

• As comunidades são grupos de vértices com muitos relacionamentos entre eles, mas pouco relacionados com membros de outros grupos

• Vértices pertencendo a diferentes comunidades podem indicar que têm papeis diferentes e, assim, contribuir de maneira diferente na predição

22

Índice WIC

• Determina a probabilidade posterior que um par de vértices possa ligar-se no futuro conhecendo as comunidades às quais pertencem tanto os vértices analisados quanto os vértices de sua vizinhança local

• Assim, o conjunto total de vizinhos comuns é dividido em 2 conjuntos:

1. Vizinhos Comuns intra-comunidades (Within-communitycommon neighbors - W): Vizinhos comuns que pertencem à mesma comunidade dos vértices analisados

2. Vizinhos Comuns inter-comunidade (Inter-community common neighbors - I): Vizinhos comuns que pertencem à mesma comunidade de um dos vértices analisados ou a uma outra

23

Índice WIC

24

Vizinhos comuns intra-comunidade (W)

Vizinhos comuns inter-comunidade (I)

Conjunto de índices da forma W

• Considerando que os índices de similaridade local, exceto o índice PA, têm como sua base o conjunto de vizinhos comuns, então é possível melhorar o desempenho desses índices se é aproveitada a informação específica dos papeis que esses vizinhos comuns têm

• Dessa maneira, assume-se que os vizinhos comuns intra-comunidade(W) podem contribuir melhor na probabilidade de conexão de um par de vértices que os vizinhos comuns inter-comunidades (I)

• Assim, os índices de similaridade local são reformulados utilizando o conjunto de vizinhos comuns intra-comunidade (W) ao invés do conjunto total de vizinhos comuns

25

Conjunto de índices da forma W

26

Vizinhos comuns intra-comunidade (W)

Vizinhos comuns inter-comunidade (I)

Índice local: Índice da forma W:

AVALIAÇÃOEXPERIMENTAL

Metodologia

28

Propriedades estruturais básicas das dez redes adotadas

Metodologia

• Para cada rede adotada, foram executados dois algoritmos de detecção de comunidades : o Fast Modularity (FM) e o WalkTrap (WT)

• Cada algoritmo de detecção de comunidades foi executado 7 vezes, com configurações diferentes em cada execução a fim de obter estruturas de comunidades diferentes

• 7 estruturas de comunidades do FM + 7 estruturas de comunidades do WT = 14 estruturas de comunidade diferentes para cada rede

• Uso da modularidade (Q) para quantificar a qualidade de uma estrutura de comunidade

29

Metodologia

30Informações das estruturas de comunidades detectadas com FM

Metodologia

31Informações das estruturas de comunidades detectadas com WT

Metodologia• Uso da subamostragem aleatória para seleção de links que serão

parte do conjunto de treino e do conjunto de teste

• Considerando a proporção de links por vértice, r = |𝐸|

|𝑉|, tem-se:

• Links formados pelos pares de vértices com grau menor de r/3 são totalmente desconsiderados

• Dos links que são considerados, os formados por pares de vértices que tenham:

• Grau menor de 2r: formam parte do conjunto de treino

• Grau maior ou igual de 2r: 1/3 deles formam parte do conjunto de treino, os 2/3 restantes formam parte do conjunto de teste

• Esse processo é realizado 10 vezes, obtendo-se 140 conjuntos de dados para cada rede 32

Metodologia

• Uso de duas métricas de avaliação: AUC e Precisão

• AUC (Area under the ROC curve) : Da lista de links preditos, serão feitas n comparações das pontuações, n’ é a quantidade de comparações onde os links faltantes têm maior pontuação, e n’’ é a quantidade de comparações onde um link faltante e um link não existente têm a mesma pontuação

• Precisão: Da lista de links preditos, ordenada descendentemente em relação às pontuações, a precisão é a proporção de links relevantes que foram selecionados

33

Resultados

Avaliação do índice WIC e dos índices da Forma W usando AUC

34

Resultados da AUC obtidos na rede Airline com FM (esquerda) e WT (direita)

Resultados


35

Resultados da AUC obtidos na rede Industry-pr com FM (esquerda) e WT (direita)

Resultados


36

Resultados da AUC obtidos na rede Yeast com FM (esquerda) e WT (direita)

Resultados


37

Resultados da AUC obtidos na rede NetScience com FM (esquerda) e WT (direita)

Resultados

Avaliação do índice WIC e dos índices da Forma W usando Precisão

38

Resultados da Precisão (L = 10% do número de links existente) obtidos na redeAirline com FM (esquerda) e WT (direita)

Resultados


39

Resultados da Precisão (L = 10% do número de links existente) obtidos na redeIndustry-pr com FM (esquerda) e WT (direita)

Resultados


40

Resultados da Precisão (L = 10% do número de links existente) obtidos na redeYeast com FM (esquerda) e WT (direita)

Resultados


41

Resultados da Precisão (L = 10% do número de links existente) obtidos na redeNetScience com FM (esquerda) e WT (direita)

ResultadosAvaliação dos índices locais e baseados nas informações das comunidades

42Resultados da predição correspondentes à AUC


43Distribuição estatística do desempenho em relação à AUC


44

Diferença estatística das dez primeiras posições no ranking em relação à AUC


45Resultados da predição correspondentes à Precisão


46Distribuição estatística do desempenho em relação à Precisão


47

Diferença estatística das dez primeiras posições no ranking em relação à Precisão

CONSIDERAÇÕESFINAIS

Conclusões

• Em relação aos índices de similaridade local, destacam-se CN, AA e RA. Em redes com um alto coeficiente de agrupamento global, esses índices têm desempenho comparável ao do Katz

• Nas redes com alto coeficiente de agrupamento (> 0,3) global e alto grau de heterogeneidade (> 1,8), os índices baseados nas informações de comunidades alcançam seu melhor desempenho nas estruturas mais ricas. Nos outros casos, o melhor desempenho foi alcançado nas estruturas de comunidades com uma alta densidade

• Os índices WIC, RA-W, AA-W e CN-W destacaram-se entre todos os índices avaliados, tanto dos índices locais como dos globais. Além disso, cada índice da forma W apresentou um melhor desempenho que seu respectivo índice base

49

Contribuições

• Estudo do uso das informações das comunidades na predição de novos relacionamentos em redes complexas de categorias diferentes

• Avaliação experimental considerando a existência de diferentes configurações de estruturas de comunidades para uma mesma rede, as quais foram caracterizadas por terem diferentes valores de modularidade e média de densidade

• Determinação da justificativa do melhor desempenho dos índices baseados nas informações das comunidades

50

Contribuições

• Análise do desempenho atingido por duas métricas sobre dez redes seguindo uma estratégia não supervisionada

• Produção de dois artigos publicados em duas conferências internacionais:

• Link prediction in complex networks based on cluster information. Em Advances in Artificial Intelligence, SBIA 2012, 21th Brazilian Symposiumon Artificial Intelligence, vol. 7589 de Lecture Notes in Computer Science, pp. 92-101, Springer.

• Structural Link Prediction Using Community Information on Twitter. Em Proceedings of the 2012 Fourth International Conference onComputational Aspects of Social Networks, CASON 2012, pp. 132-137, IEEE.

51

Limitações

• Foram utilizadas apenas informações estruturais

• Não foram considerados os pesos dos links

• Não foram consideradas questões temporais

52

Trabalhos Futuros

• Comparar a eficácia dos índices propostos com outros métodos híbridos

• Testar o desempenho da proposta seguindo uma estratégia supervisionada

• Avaliar o desempenho da proposta considerando a dinâmica temporal das redes

• Estender a proposta para casos nos quais existe interseção entre comunidades

• Aplicar os índices propostos em redes sociais de diferentes domínios

53

Referências

Adamic, L. e Adar, E. (2003), Friends and neighbors on the Web. Social Networks, 25(3): 211-230.

Demsar, J. (2006), Statistical comparisons of classifiers over multiple data sets. JMLR, 7:1-30.

Feng, X. Zhao, J. e Xu, K. (2012). Link Prediction in complex networks: a clustering perspective. EPJB, 85(1):3.

Hasan, M.A., Chaoji, V., Salem, S., e Zaki, M. (2006). Link prediction usingsupervised learning. In Proc. of SDM’06.

Liben-Nowell, D. e Kleinberg, J. (2007). The link prediction problem for social networks. JASIST, 58(7): 1019-1031.

Lü, L. e Zhou, T. (2011). Link prediction in complex networks: A survey. Physica A: Statistical Mechanics and its Applications, 390(6):1150-1170.

54

Referências

Newman, M.E.J. (2003). The structure and function of complex networks. SIAM review, (45): 167-256

Newman, M.E.J. e Girvan, M. (2004). Finding and evaluating communitystructure in networks. Phys. Rev. E., 69(2):026113.

Soundarajan, S. e Hopcroft, J. (2012). Using community information to improve the precision of link prediction methods. WWW’12, pp. 607-608.

Valverde-Rebaza, J. e de Andrade Lopes, A. (2012). Link prediction in complexnetworks based on cluster information. In Advances in Artificial Intelligence, SBIA 2012, 21th Brazilian Symposium on Artificial Intelligence, vol. 7589 ofLecture Notes in Computer Science, pp. 92-101, Springer.

Valverde-Rebaza, J. e de Andrade Lopes, A. (2012). Structural link predictionusing community information on Twitter. In Proceedings of the 2012 fourthinternational Conference on Computational Aspects of Social Networks, CASON 2012, pp. 132-137. 55

Referências

Yin, D., Hong, L., e Davison, B.D. (2011). Structural link analysis and prediction in microblogs. In Proc. of the 20th ACM International Conference on Informationand Knowledge Management, CIKM’11, pp. 1163-1168.

Yu, P.S., Han, J. , e Faloutsos, C. (2010). Link mining: models, algorithms andaplications. Springer, 1ª edição.

Zheleva, E., Getoor, L., Golbeck, J. e Kuter, U. (2008). Using friendship ties andfamily circles for link prediction. In Proc. of the SNAKDD’08, pp. 97-113.

Zhou, T., Lü, L., e Zhang, Y.-C. (2009). Predicting missing links via local information. The European Physical Journal B, 71:623.

56

OBRIGADO

Predição de Links em Redes Complexas utilizando Informações...

Documents

Transcript of Predição de Links em Redes Complexas utilizando Informações...