Aprendizado de Representações para Mineração de...
Transcript of Aprendizado de Representações para Mineração de...
Aprendizado de RepresentaçõesAprendizado de Representaçõespara Mineração de Eventospara Mineração de Eventos
Ricardo M. [email protected]
Aprendizado de Representações para Mineração de Eventos 2
Agenda
Motivação
Definição do Problema
Aplicações em Clustering
Desafios de Pesquisa Método Proposto Resultados Experimentais
Considerações Finais
Aprendizado de Representações para Mineração de Eventos 3
Motivação
Método tradicional
(Representação)Modelo
Espaço-Vetorial
Dataset Pré-processamento
Aprendizado de Máquina(Classificação, Clustering, Regressão)
Problema(Task)
Aprendizado de Representações para Mineração de Eventos 4
Motivação
Método tradicional Método alternativo
(Representação)Modelo
Espaço-Vetorial
Dataset Pré-processamento
Aprendizado de Máquina(Classificação, Clustering, Regressão)
Problema(Task)
Conhecimento Adicional (Externo)● Novo conjunto de atributos● Específico sobre o problema● Informação complementar Dataset
Aprendizado de Representações para Mineração de Eventos 5
Motivação
Método tradicional Método alternativo
(Representação)Modelo
Espaço-Vetorial
Dataset Pré-processamento
Aprendizado de Máquina(Classificação, Clustering, Regressão)
Problema(Task)
Conhecimento Adicional (Externo)● Novo conjunto de atributos● Específico sobre o problema● Informação complementar
(Representação)Modelo
Espaço-Vetorial
Dataset
Aprendizado de Máquina(Classificação, Clustering, Regressão)
Aprendizado de Representações para Mineração de Eventos 6
Motivação
Método tradicional Método alternativo
(Representação)Modelo
Espaço-Vetorial
Dataset Pré-processamento
Aprendizado de Máquina(Classificação, Clustering, Regressão)
Problema(Task)
Conhecimento Adicional (Externo)● Novo conjunto de atributos● Específico sobre o problema● Informação complementar
(Representação)Modelo
Espaço-Vetorial
Dataset
Aprendizado de Máquina(Classificação, Clustering, Regressão)
Modelo ConsensualModelo Consensual
Aprendizado de Representações para Mineração de Eventos 7
Motivação
Método tradicional Método alternativo
(Representação)Modelo
Espaço-Vetorial
Dataset Pré-processamento
Aprendizado de Máquina(Classificação, Clustering, Regressão)
Problema(Task)
Conhecimento Adicional (Externo)● Novo conjunto de atributos● Específico sobre o problema● Informação complementar
(Representação)Modelo
Espaço-Vetorial
Dataset
Aprendizado de Máquina(Classificação, Clustering, Regressão)
Modelo ConsensualModelo Consensual
Marcacini, R. M. (2014). Machine learning with privileged information:approaches for hierarchical text clustering.
Doctoral Thesis, Institute of Mathematics and Computer Sciences,University of São Paulo, São Carlos.
Marcacini, R. M. (2014). Machine learning with privileged information:approaches for hierarchical text clustering.
Doctoral Thesis, Institute of Mathematics and Computer Sciences,University of São Paulo, São Carlos.
Aprendizado de Representações para Mineração de Eventos 8
Motivação
Método tradicional Método alternativo
(Representação)Modelo
Espaço-Vetorial
Dataset Pré-processamento
Aprendizado de Máquina(Classificação, Clustering, Regressão)
Problema(Task)
Conhecimento Adicional (Externo)● Novo conjunto de atributos● Específico sobre o problema● Informação complementar
(Representação)Modelo
Espaço-Vetorial
Dataset
Aprendizado de Máquina(Classificação, Clustering, Regressão)
Modelo ConsensualModelo Consensual
Aprendizado de Representações para Mineração de Eventos 9
Motivação
Método tradicional Método alternativo
(Representação)Modelo
Espaço-Vetorial
Dataset Pré-processamento
Aprendizado de Máquina(Classificação, Clustering, Regressão)
Problema(Task)
Conhecimento Adicional (Externo)● Novo conjunto de atributos● Específico sobre o problema● Informação complementar
(Representação)Modelo
Espaço-Vetorial
Dataset
Aprendizado de Máquina(Classificação, Clustering, Regressão)
Modelo ConsensualModelo Consensual
Aprendizado de Representações para Mineração de Eventos 10
Motivação
Método tradicional Método alternativo
(Representação)Modelo
Espaço-Vetorial
Dataset Pré-processamento
Aprendizado de Máquina(Classificação, Clustering, Regressão)
Problema(Task)
Conhecimento Adicional (Externo)● Novo conjunto de atributos● Específico sobre o problema● Informação complementar
(Representação)Modelo
Espaço-Vetorial
Dataset
Aprendizado de Máquina(Classificação, Clustering, Regressão)
Modelo ConsensualModelo Consensual
Aprendizado de Representações para Mineração de Eventos 11
Motivação
Método tradicional Método alternativo
(Representação)Modelo
Espaço-Vetorial
Dataset Pré-processamento
Aprendizado de Máquina(Classificação, Clustering, Regressão)
Problema(Task)
Conhecimento Adicional (Externo)● Novo conjunto de atributos● Específico sobre o problema● Informação complementar
(Representação)Modelo
Espaço-Vetorial
Dataset
Aprendizado de Máquina(Classificação, Clustering, Regressão)
Modelo ConsensualModelo Consensual
Aprendizado de Representações para Mineração de Eventos 12
Motivação
Método tradicional Método alternativo
Dataset Pré-processamento
Problema(Task)
Conhecimento Adicional (Externo)● Novo conjunto de atributos● Específico sobre o problema● Informação complementar Dataset
Como generalizar o método para uma grande variedadede problemas de aprendizado de máquina?
Conhecimento externo de diferentesdomínios de aplicação?
Como generalizar o método para uma grande variedadede problemas de aprendizado de máquina?
Conhecimento externo de diferentesdomínios de aplicação?
Aprendizado de Representações para Mineração de Eventos 13
Motivação
Projeto Websensors: mapear eventos que ocorrem na web (mundo virtual) para o nosso mundo real e assim monitorar fenômenos, identificar tendências e realizar tarefas preditivas.
Aprendizado de Representações para Mineração de Eventos 14
Motivação
Extração de Conhecimento em Redes de Eventos Classificação Clustering Link Prediction
Aprendizado de Representações para Mineração de Eventos 15
Motivação
Extração de Conhecimento em Redes de Eventos
Aprendizado deMáquina
Aprendizado de Representações para Mineração de Eventos 16
Motivação
Extração de Conhecimento em Redes de Eventos
Aprendizado deMáquina
Aprendizado de Representações emRedes de Eventos faz parte de uma tarefa
de Aprendizado de Máquina
Aprendizado de Representações para Mineração de Eventos 17
Motivação
Extração de Conhecimento em Redes de Eventos
Aprendizado de Representações
Aprendizado de Representações para Mineração de Eventos 18
Definição do Problema
Aprendizado de Representações Rede de informação: Aprender uma função de mapeamento:
Modelo espaço-vetorial m-dimensional Cada objeto na rede possui um vetor de características
Aprendizado de Representações para Mineração de Eventos 19
Agenda
Motivação
Definição do Problema
Aplicações em Clustering
Desafios de Pesquisa Método Proposto Resultados Experimentais
Considerações Finais
Aprendizado de Representações para Mineração de Eventos 20
Desafio de Pesquisa
Agrupamento de Redes de Eventos Analisa a matriz de adjacência da rede Proximidade entre vértices da rede Custo computacional
Aprendizado de Representações para Mineração de Eventos 21
Ideia Geral
Aprendizado de Representações Modelos de embedding space Redução da dimensionalidade Habilita o uso de métodos tradicionais de agrupamento
EmbeddingSpace
HierarchicalClustering
Aprendizado de Representações para Mineração de Eventos 22
Ideia Geral
DeepWalk para Redes de Eventos Aprendizado de embedding space usando deep learning
Escalabilidade: aprendizado “online” que processa a matriz de adjacência de forma incremental
Resultados promissores em modelos de linguagem:Word2Vec (Google 2013), Glove (Stanford 2014), FastText (Facebook 2017)
Aprendizado de Representações para Mineração de Eventos 23
Trabalhos Relacionados
Baseado em DeepWalkDeepwalk: Online learning of social representations.Knowledge Discovery and Data Mining (KDD’2014)
Node2Vec: Scalable Feature Learning for NetworksKnowledge Discovery and Data Mining (KDD’2016)
Baseado em Fatoração de MatrizesNetMF: Network embedding as matrix factorization.ACM International Conference on Web Search and Data Mining (WSDM’2018)
Baseado em Reconstrução de ArestasLine: Largescale information network embedding.International Conference on World Wide Web (WWW ’15)
Aprendizado de Representações para Mineração de Eventos 24
Proposta
Extensão do Framework do DeepWalk
Deep Learning
Aprendizado de Representações para Mineração de Eventos 25
Deep Learning
Proposta
Extensão do Framework do DeepWalk
Aprendizado de Representações para Mineração de Eventos 26
Proposta
Random Walk para gerar sequências de vértices da rede de eventos
Conhecimento de domínio pode ser utilizado para enviesar a caminhada (Biased Random Walk)
1. [(Event1), (Us Army), (Missiles), (Kabul), (Event2)]
2. [(Event1), (bombard), (Event2), (kill), (Afghan)]
...
n. [(1/2/1987), (Event1), (Event2), (Weapons), (Troops)]
Exemplo:
Aprendizado de Representações para Mineração de Eventos 27
Deep Learning
Proposta
Framework
Aprendizado de Representações para Mineração de Eventos 28
Proposta
Representation Mapping
Aprendizado de Representações para Mineração de Eventos 29
Deep Learning
Proposta
Framework
Aprendizado de Representações para Mineração de Eventos 30
Proposta
Aprendizado Profundo
30
Exemplo: se a entrada é o vértice wi, possíveis saídas são wi-2,wi-1,wi+1,wi+2 janela de tamanho 2.
[(Event1), (Us Army), (Missiles), (Kabul), (Event2)]wiwi-1wi-2 wi+1 wi+2
Aprendizado de Representações para Mineração de Eventos 31
Deep Learning
Proposta
Framework
Aprendizado de Representações para Mineração de Eventos 32
Proposta
Embedding Space
Codifica a nova representação
Aprendizado de Representações para Mineração de Eventos 33
Avaliação Experimental
Datasets (Redes de Eventos)
Aprendizado de Representações para Mineração de Eventos 34
Avaliação Experimental
Configuração dos Experimentos Embedding Spaces
DeepWalk NetMF LINE (1st e 2st) Proposta
Tradicional: agrupamento via matriz de adjacências Spectral Clustering
Critério de Avaliação Macro-F1
Aprendizado de Representações para Mineração de Eventos 35
Avaliação Experimental
Macro-F1 do agrupamento usando Embedding Space com d=300.
Aprendizado de Representações para Mineração de Eventos 36
Avaliação Experimental
Macro-F1 do agrupamento usando Embedding Space com d=2.
Aprendizado de Representações para Mineração de Eventos 37
Considerações Finais
Aprendizado de Representações é uma forma de extrair conhecimento da rede de eventos Novos atributos para o problema Permite uso de modelos de aprendizado conhecidos
Conhecimento pode ser combinado com informações originais do problema Informações originais (atributos do problema) Informação externa / complementar (eventos)
Aprendizado de Representações para Mineração de Eventos 38
Considerações Finais
Framework em desenvolvimento… Modelo FaaS: Feature-as-a-service
Aprendizado de Representações para Mineração de Eventos 39
Conclusões
Graph Embedding é promissor para análise de eventos via agrupamento Todos os métodos de graph embedding obtiveram
resultados superiores aos spectral clustering
O modelo proposto é competitivo com o DeepWalk e apresenta algumas vantagens Permite empregar Biased Random Walk para incluir
informação de domínio (bias)
Aprendizado de Representações para Mineração de Eventos 40
Conclusões
Experimentos preliminares em Clustering Promissor para tarefas de agrupamento Resultados superiores aos spectral clustering
Trabalhos futuros e em andamento Avaliar o framework em diferentes domínios Mineração de Opinições e Análise de Sentimentos Tarefas de Regressão Tarefas de Classificação
Aprendizado de RepresentaçõesAprendizado de Representaçõespara Mineração de Eventospara Mineração de Eventos
Ricardo M. [email protected]