Predição de Links em Redes Complexas utilizando Informações...
Transcript of Predição de Links em Redes Complexas utilizando Informações...
Predição de Links em Redes Complexas utilizando Informações
de Estruturas de Comunidades
Jorge Carlos Valverde RebazaOrientador: Prof. Dr. Alneu de Andrade Lopes
Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo
27 de Março de 2013
Roteiro
1. Introdução
2. Predição de Links
3. Proposta
4. Avaliação Experimental
5. Considerações Finais
2
INTRODUÇÃO
Motivação
• Diferentes sistemas dinâmicos naturais são representados mediante redes
• As redes que modelam esses sistemas são chamadas de redes complexas e são divididas em 4 categorias: redes tecnológicas, redes de informação, redes biológicas e redes sociais
• Nos últimos anos, o estudo das redes complexas tem recebido um grande interesse pela comunidade cientifica, especialmente das áreas de Ciência da Computação e da Física
4
5
Motivação
• Áreas de estudo focadas na análise de redes constataram que:
1. Vértices e links tendem a aparecer e desaparecer de forma não determinística
2. Vértices tendem a formar grupos fortemente ligados entre si e esparsamente ligados com vértices de outros grupos
Problema Abordado
• Dada a dinâmica das redes complexas, é de extrema importância entender os processos pelos quais a rede passa durante sua evolução
• O entendimento desses processos permite determinar, com maior exatidão, como será a estrutura futura de uma rede
• O problema da predição de links insere-se nesse contexto
6
7
Problema Abordado
Predição de links procuraestimar a probabilidade(pontuação) da existênciafutura de um link entre doisvértices não ligados,
8
Problema Abordado
Predição de links procuraestimar a probabilidade(pontuação) da existênciafutura de um link entre doisvértices não ligados, combase nas informações doslinks e vértices presentes narede
Objetivo Geral
• Propor um método que faça uso das informações das comunidades detectadas em uma rede na predição de novos relacionamentos em redes complexas
9
PREDIÇÃO DE LINKS
Descrição do Problema
11
G [Ti] G [Ti+1]
Predição de linksAvaliação
Abordagens
• As diferentes propostas existentes na literatura para resolver o problema da predição de links podem ser divididas em quatro categorias:
1. Índices baseados na similaridade estrutural (Liben-
Nowell e Kleinberg, 2007; Zhou et al., 2009)
2. Métodos baseados na máxima verossimilhança (Sales-
Pardo et al., 2007, Redner, 2008)
3. Modelos probabilísticos (Koller e Pfeffer, 1998; Heckerman
et al., 2004)
4. Métodos híbridos (Gong et al.. 2012, Zheleva et al., 2008)
12
Abordagens
Índices baseados na similaridade estrutural
• Para cada par de vértices (não ligados) é atribuída uma pontuação, a qual é definida como a similaridade (ou proximidade) entre o par de vértices analisados
• Os pares de vértices com maior pontuação atribuída por um índice são tidos como links com alta probabilidade de existência
13
Abordagens
14
Índices baseados na similaridade estrutural
Índices de Similaridade Local
Utilizam as informações da vizinhança local de um par de vértices analisados
Menor desempenho comparado com os índices globais
Baixo custo computacional
Índices de Similaridade Global
Utilizam informações topológicas de quase toda a rede
Alto desempenho
Computacionalmente custosos
Abordagens
15
Índices de similaridade local
• Índice Common Neighbors (CN)
• Índice de Salton (Sal)
• Índice de Jaccard (Jac)
• Índice de Adamic-Adar (AA)
• Índice Resource Allocation (RA)
Abordagens
16
Índices de similaridade local
• Índice de Sørensen (Sor)
• Índice Hub Promoted (HPI)
• Índice Hub Depressed (HDI)
• Índice Leicht-Holme-Newman (LHN)
• Índice Preferential Attachment (PA)
Abordagens
17
Índices de similaridade global
• Índice de Katz (Katz)
• Índice Rooted PageRank (RPR)
• Índice SimRank (SR)
Abordagens
Métodos híbridos
• Caracterizados pelo uso de mais de uma técnica ou tipo de informação
• Podem ser divididos em dois grupos:
1. Os que combinam diferentes métodos de predição de links em um ensemble
2. Os que utilizam informações externas às comumente usadas, mas que estão presentes na rede:
a. Informações dos atributos de vértices e links
b. Informações das comunidades18
Abordagens
Métodos Híbridos baseados nas informações das comunidades
1. Relações de Amizade e Círculos Familiares: baseados nas relações entre membros de diferentes árvores genealógicas.Dois índices são definidos:
• Número de amigos no grupo (NAG)
• Porção de amigos no grupo (PAG)
19
Abordagens
Métodos Híbridos baseados nas informações das comunidades
2. Índices estruturais melhorados: propostas de melhorias nos índices baseados na similaridade estrutural local
• Enhanced Common
Neighbors (ECN)
• Enhanced Resource
Allocation (ERA)
20
PROPOSTA
Fundamentos da proposta
• O índice dos vizinhos comuns considera que os vizinhos comuns de um par de vértices fornecem a mesma contribuição na tarefa de predição
• Porém, nas redes reais, cada vizinho pode ter um papel diferente, e assim, contribuir de maneira diferente na predição
• As comunidades são grupos de vértices com muitos relacionamentos entre eles, mas pouco relacionados com membros de outros grupos
• Vértices pertencendo a diferentes comunidades podem indicar que têm papeis diferentes e, assim, contribuir de maneira diferente na predição
22
Índice WIC
• Determina a probabilidade posterior que um par de vértices possa ligar-se no futuro conhecendo as comunidades às quais pertencem tanto os vértices analisados quanto os vértices de sua vizinhança local
• Assim, o conjunto total de vizinhos comuns é dividido em 2 conjuntos:
1. Vizinhos Comuns intra-comunidades (Within-communitycommon neighbors - W): Vizinhos comuns que pertencem à mesma comunidade dos vértices analisados
2. Vizinhos Comuns inter-comunidade (Inter-community common neighbors - I): Vizinhos comuns que pertencem à mesma comunidade de um dos vértices analisados ou a uma outra
23
Índice WIC
24
Vizinhos comuns intra-comunidade (W)
Vizinhos comuns inter-comunidade (I)
Conjunto de índices da forma W
• Considerando que os índices de similaridade local, exceto o índice PA, têm como sua base o conjunto de vizinhos comuns, então é possível melhorar o desempenho desses índices se é aproveitada a informação específica dos papeis que esses vizinhos comuns têm
• Dessa maneira, assume-se que os vizinhos comuns intra-comunidade(W) podem contribuir melhor na probabilidade de conexão de um par de vértices que os vizinhos comuns inter-comunidades (I)
• Assim, os índices de similaridade local são reformulados utilizando o conjunto de vizinhos comuns intra-comunidade (W) ao invés do conjunto total de vizinhos comuns
25
Conjunto de índices da forma W
26
Vizinhos comuns intra-comunidade (W)
Vizinhos comuns inter-comunidade (I)
Índice local: Índice da forma W:
AVALIAÇÃOEXPERIMENTAL
Metodologia
28
Propriedades estruturais básicas das dez redes adotadas
Metodologia
• Para cada rede adotada, foram executados dois algoritmos de detecção de comunidades : o Fast Modularity (FM) e o WalkTrap (WT)
• Cada algoritmo de detecção de comunidades foi executado 7 vezes, com configurações diferentes em cada execução a fim de obter estruturas de comunidades diferentes
• 7 estruturas de comunidades do FM + 7 estruturas de comunidades do WT = 14 estruturas de comunidade diferentes para cada rede
• Uso da modularidade (Q) para quantificar a qualidade de uma estrutura de comunidade
29
Metodologia
30Informações das estruturas de comunidades detectadas com FM
Metodologia
31Informações das estruturas de comunidades detectadas com WT
Metodologia• Uso da subamostragem aleatória para seleção de links que serão
parte do conjunto de treino e do conjunto de teste
• Considerando a proporção de links por vértice, r = |𝐸|
|𝑉|, tem-se:
• Links formados pelos pares de vértices com grau menor de r/3 são totalmente desconsiderados
• Dos links que são considerados, os formados por pares de vértices que tenham:
• Grau menor de 2r: formam parte do conjunto de treino
• Grau maior ou igual de 2r: 1/3 deles formam parte do conjunto de treino, os 2/3 restantes formam parte do conjunto de teste
• Esse processo é realizado 10 vezes, obtendo-se 140 conjuntos de dados para cada rede 32
Metodologia
• Uso de duas métricas de avaliação: AUC e Precisão
• AUC (Area under the ROC curve) : Da lista de links preditos, serão feitas n comparações das pontuações, n’ é a quantidade de comparações onde os links faltantes têm maior pontuação, e n’’ é a quantidade de comparações onde um link faltante e um link não existente têm a mesma pontuação
• Precisão: Da lista de links preditos, ordenada descendentemente em relação às pontuações, a precisão é a proporção de links relevantes que foram selecionados
33
Resultados
Avaliação do índice WIC e dos índices da Forma W usando AUC
34
Resultados da AUC obtidos na rede Airline com FM (esquerda) e WT (direita)
Resultados
Avaliação do índice WIC e dos índices da Forma W usando AUC
35
Resultados da AUC obtidos na rede Industry-pr com FM (esquerda) e WT (direita)
Resultados
Avaliação do índice WIC e dos índices da Forma W usando AUC
36
Resultados da AUC obtidos na rede Yeast com FM (esquerda) e WT (direita)
Resultados
Avaliação do índice WIC e dos índices da Forma W usando AUC
37
Resultados da AUC obtidos na rede NetScience com FM (esquerda) e WT (direita)
Resultados
Avaliação do índice WIC e dos índices da Forma W usando Precisão
38
Resultados da Precisão (L = 10% do número de links existente) obtidos na redeAirline com FM (esquerda) e WT (direita)
Resultados
Avaliação do índice WIC e dos índices da Forma W usando Precisão
39
Resultados da Precisão (L = 10% do número de links existente) obtidos na redeIndustry-pr com FM (esquerda) e WT (direita)
Resultados
Avaliação do índice WIC e dos índices da Forma W usando Precisão
40
Resultados da Precisão (L = 10% do número de links existente) obtidos na redeYeast com FM (esquerda) e WT (direita)
Resultados
Avaliação do índice WIC e dos índices da Forma W usando Precisão
41
Resultados da Precisão (L = 10% do número de links existente) obtidos na redeNetScience com FM (esquerda) e WT (direita)
ResultadosAvaliação dos índices locais e baseados nas informações das comunidades
42Resultados da predição correspondentes à AUC
ResultadosAvaliação dos índices locais e baseados nas informações das comunidades
43Distribuição estatística do desempenho em relação à AUC
ResultadosAvaliação dos índices locais e baseados nas informações das comunidades
44
Diferença estatística das dez primeiras posições no ranking em relação à AUC
ResultadosAvaliação dos índices locais e baseados nas informações das comunidades
45Resultados da predição correspondentes à Precisão
ResultadosAvaliação dos índices locais e baseados nas informações das comunidades
46Distribuição estatística do desempenho em relação à Precisão
ResultadosAvaliação dos índices locais e baseados nas informações das comunidades
47
Diferença estatística das dez primeiras posições no ranking em relação à Precisão
CONSIDERAÇÕESFINAIS
Conclusões
• Em relação aos índices de similaridade local, destacam-se CN, AA e RA. Em redes com um alto coeficiente de agrupamento global, esses índices têm desempenho comparável ao do Katz
• Nas redes com alto coeficiente de agrupamento (> 0,3) global e alto grau de heterogeneidade (> 1,8), os índices baseados nas informações de comunidades alcançam seu melhor desempenho nas estruturas mais ricas. Nos outros casos, o melhor desempenho foi alcançado nas estruturas de comunidades com uma alta densidade
• Os índices WIC, RA-W, AA-W e CN-W destacaram-se entre todos os índices avaliados, tanto dos índices locais como dos globais. Além disso, cada índice da forma W apresentou um melhor desempenho que seu respectivo índice base
49
Contribuições
• Estudo do uso das informações das comunidades na predição de novos relacionamentos em redes complexas de categorias diferentes
• Avaliação experimental considerando a existência de diferentes configurações de estruturas de comunidades para uma mesma rede, as quais foram caracterizadas por terem diferentes valores de modularidade e média de densidade
• Determinação da justificativa do melhor desempenho dos índices baseados nas informações das comunidades
50
Contribuições
• Análise do desempenho atingido por duas métricas sobre dez redes seguindo uma estratégia não supervisionada
• Produção de dois artigos publicados em duas conferências internacionais:
• Link prediction in complex networks based on cluster information. Em Advances in Artificial Intelligence, SBIA 2012, 21th Brazilian Symposiumon Artificial Intelligence, vol. 7589 de Lecture Notes in Computer Science, pp. 92-101, Springer.
• Structural Link Prediction Using Community Information on Twitter. Em Proceedings of the 2012 Fourth International Conference onComputational Aspects of Social Networks, CASON 2012, pp. 132-137, IEEE.
51
Limitações
• Foram utilizadas apenas informações estruturais
• Não foram considerados os pesos dos links
• Não foram consideradas questões temporais
52
Trabalhos Futuros
• Comparar a eficácia dos índices propostos com outros métodos híbridos
• Testar o desempenho da proposta seguindo uma estratégia supervisionada
• Avaliar o desempenho da proposta considerando a dinâmica temporal das redes
• Estender a proposta para casos nos quais existe interseção entre comunidades
• Aplicar os índices propostos em redes sociais de diferentes domínios
53
Referências
Adamic, L. e Adar, E. (2003), Friends and neighbors on the Web. Social Networks, 25(3): 211-230.
Demsar, J. (2006), Statistical comparisons of classifiers over multiple data sets. JMLR, 7:1-30.
Feng, X. Zhao, J. e Xu, K. (2012). Link Prediction in complex networks: a clustering perspective. EPJB, 85(1):3.
Hasan, M.A., Chaoji, V., Salem, S., e Zaki, M. (2006). Link prediction usingsupervised learning. In Proc. of SDM’06.
Liben-Nowell, D. e Kleinberg, J. (2007). The link prediction problem for social networks. JASIST, 58(7): 1019-1031.
Lü, L. e Zhou, T. (2011). Link prediction in complex networks: A survey. Physica A: Statistical Mechanics and its Applications, 390(6):1150-1170.
54
Referências
Newman, M.E.J. (2003). The structure and function of complex networks. SIAM review, (45): 167-256
Newman, M.E.J. e Girvan, M. (2004). Finding and evaluating communitystructure in networks. Phys. Rev. E., 69(2):026113.
Soundarajan, S. e Hopcroft, J. (2012). Using community information to improve the precision of link prediction methods. WWW’12, pp. 607-608.
Valverde-Rebaza, J. e de Andrade Lopes, A. (2012). Link prediction in complexnetworks based on cluster information. In Advances in Artificial Intelligence, SBIA 2012, 21th Brazilian Symposium on Artificial Intelligence, vol. 7589 ofLecture Notes in Computer Science, pp. 92-101, Springer.
Valverde-Rebaza, J. e de Andrade Lopes, A. (2012). Structural link predictionusing community information on Twitter. In Proceedings of the 2012 fourthinternational Conference on Computational Aspects of Social Networks, CASON 2012, pp. 132-137. 55
Referências
Yin, D., Hong, L., e Davison, B.D. (2011). Structural link analysis and prediction in microblogs. In Proc. of the 20th ACM International Conference on Informationand Knowledge Management, CIKM’11, pp. 1163-1168.
Yu, P.S., Han, J. , e Faloutsos, C. (2010). Link mining: models, algorithms andaplications. Springer, 1ª edição.
Zheleva, E., Getoor, L., Golbeck, J. e Kuter, U. (2008). Using friendship ties andfamily circles for link prediction. In Proc. of the SNAKDD’08, pp. 97-113.
Zhou, T., Lü, L., e Zhang, Y.-C. (2009). Predicting missing links via local information. The European Physical Journal B, 71:623.
56
OBRIGADO