Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica...
Transcript of Mineração de Textos e Semânticasites.labic.icmc.usp.br/semantics2020/roberta.pdf · Semântica...
Enriquecimento Semântico
Workshop: Representações SemanticamenteEnriquecidas
Roberta Akemi Sinoara
20 de janeiro de 2020
Importância da semântica
Abordagens para enriquecimento semântico de
representações
Alguns resultados
Trabalhos futuros
2
Agenda
Faces do Processamento de Textos
3(Grobelnik, 2011)
Fonte: http://videolectures.net/wims2011_grobelnik_processing/
- A interação entre
as diferentes áreas
é essencial para a
resolução do
problema
Semântica
É um tema é bastante abrangente e não há consenso
entre os pesquisadores da Linguística sobre os limites da
Semântica (Riemer, 2010; Fossile, 2009; Araújo, 2007).
Nosso interesse está na representação e no uso do
significado (ou sentido) de itens linguísticos (palavras,
expressões ou documentos completos) para melhorar os
resultados da Mineração de Textos4
Significado de Textos
Para se entender o significado de textos é necessário conhecer:
o Vocabulário
o Gramática do idioma
o Relações semânticas entre os itens linguísticos
o Conhecimento de mundo e do contexto no qual os textos foram escritos
Fenômenos linguísticos podem alterar o significado composicional
do que é dito (Riemer, 2010)
o Ambiguidade
o Sarcasmo
o Ironia5
Mineração de Textos
O tratamento adequado da semântica dos textos pode levar
a resultados mais apropriados em determinadas aplicações
Por exemplo: permite a diferenciação de documentos que,
apesar de utilizarem o mesmo vocabulário, apresentam
ideias diferentes sobre o mesmo assunto
6
Mineração de Textos
É necessário ter um modelo de representação de textos
que possibilite a representação adequada do problema
o Modelo espaço-vetorial
o Redes
7
Mineração de Textos
É necessário ter um modelo de representação de textos
que possibilite a representação adequada do problema
o Modelo espaço-vetorial
o Redes
A bag-of-words já é suficiente?
8
Mineração de Textos
É necessário ter um modelo de representação de textos
que possibilite a representação adequada do problema
o Modelo espaço-vetorial
o Redes
A bag-of-words já é suficiente? DEPENDE do problema!
9
Semântica na Organização de DocumentosExemplo 1
10
D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi por
três sets a zero no jogo final.
D2: Hamilton larga na pole position e vence o Grande Prêmio do
Canadá. Após colisão, Massa abandona a prova.
Coleção de notícias de vários esportes
11
D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi por
três sets a zero no jogo final.
D2: Hamilton larga na pole position e vence o Grande Prêmio do
Canadá. Após colisão, Massa abandona a prova.
Coleção de notícias de vários esportes
Objetivo: Classificar por esporte
12
D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi por
três sets a zero no jogo final.
D2: Hamilton larga na pole position e vence o Grande Prêmio do
Canadá. Após colisão, Massa abandona a prova.
Coleção de notícias de vários esportes
Objetivo: Classificar por esporte
13
D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi
por três sets a zero no jogo final.
D2: Hamilton larga na pole position e vence o Grande Prêmio do
Canadá. Após colisão, Massa abandona a prova.
Coleção de notícias de vários esportes
Objetivo: Classificar por esporte
o Cada esporte possui seus termos específicos
o Documentos de um mesmo esporte usam palavras similares
o A classe pode ser determinada em grande parte pelo vocabulário utilizado
14
D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi por
três sets a zero no jogo final.
D2: Hamilton larga na pole position e vence o Grande Prêmio do
Canadá. Após colisão, Massa abandona a prova.
Coleção de notícias de vários esportes
Objetivo: Classificar por desempenho de atleta brasileiro
15
D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi por
três sets a zero no jogo final.
D2: Hamilton larga na pole position e vence o Grande Prêmio do
Canadá. Após colisão, Massa abandona a prova.
Coleção de notícias de vários esportes
Objetivo: Classificar por desempenho de atleta brasileiro
16
D1: Guga é o campeão do Tennis Masters Cup. Ele venceu Agassi por
três sets a zero no jogo final.
D2: Hamilton larga na pole position e vence o Grande Prêmio do
Canadá. Após colisão, Massa abandona a prova.
Coleção de notícias de vários esportes
Objetivo: Classificar por desempenho de atleta brasileiro
o É necessário saber- Guga e Massa são atletas brasileiros
- “ser campeão” representa vitória
- “abandonar a prova” representa derrota
Semântica na Organização de DocumentosExemplo 2
17
D1: Amei esse hotel! Check-in rápido, banheiro grande, quarto quente
no inverno, cama confortável...
D2: Fila grande, prato pequeno, cerveja quente e atendimento
demorado. Foi uma experiência péssima!
Coleção de textos de opinião de vários produtos e serviços
18
D1: Amei esse hotel! Check-in rápido, banheiro grande, quarto quente
no inverno, cama confortável...
D2: Fila grande, prato pequeno, cerveja quente e atendimento
demorado. Foi uma experiência péssima!
Coleção de textos de opinião de vários produtos e serviços
Objetivo: Classificar por produto
19
D1: Amei esse hotel! Check-in rápido, banheiro grande, quarto
quente no inverno, cama confortável...
D2: Fila grande, prato pequeno, cerveja quente e atendimento
demorado. Foi uma experiência péssima!
Coleção de textos de opinião de vários produtos e serviços
Objetivo: Classificar por produto
o Termos específicos para cada tipo de produto
o Vocabulário tem grande contribuição na diferenciação das classes
20
D1: Amei esse hotel! Check-in rápido, banheiro grande, quarto quente
no inverno, cama confortável...
D2: Fila grande, prato pequeno, cerveja quente e atendimento
demorado. Foi uma experiência péssima!
Coleção de textos de opinião de vários produtos e serviços
Objetivo: Classificar por polaridade da opinião
21
D1: Amei esse hotel! Check-in rápido, banheiro grande, quarto
quente no inverno, cama confortável...
D2: Fila grande, prato pequeno, cerveja quente e atendimento
demorado. Foi uma experiência péssima!
Coleção de textos de opinião de vários produtos e serviços
Objetivo: Classificar por polaridade da opinião
o Limitação das palavras de sentimentos (dependência de domínio)
o Presença de sentiment shifters (palavras de negação, por exemplo)
o Sarcasmo
o Opiniões implícitas
o...
Níveis de complexidade semântica de problemas de classificação
1º. nível: Organização por tópico
o Problemas que dependem basicamente do vocabulário
o Cada classe possui termos bastante característicos
o Documentos podem ser diferenciados em grande parte pelas palavras utilizadas
2º. nível: Organização semântica
o Problemas que necessitam mais do que apenas o vocabulário para serem resolvidos
o Classes distintas podem usar o mesmo vocabulário
o Requerem uma análise mais profunda 22
Semântica na Organização de DocumentosExemplo
23
bag-of-words
7 algoritmos de
classificação; 105
configurações
10-fold cross-
validationA
curá
cia
desemp. atletaesporte produto polaridade(Sinoara, 2018)
Enriquecimento Semântico de Representação de TextosAbordagens
Conceitos identificados em fontes externas (Spanakis et al., 2012;
Gabrilovich e Markovitch, 2007)
Técnicas de Processamento de Língua Natural (Shehata et al.,
2010; Persson et al., 2009)
Métodos de modelagem de tópicos (Lu et al., 2011; Zrigui et al., 2012; Liu
et al., 2011)
Modelos de semântica distribucional (Le e Mikolov, 2014; Sinoara et al.,
2019)
24
Enriquecimento Semântico de Representação de TextosAbordagens
Conceitos identificados em fontes externas (Spanakis et al.,
2012; Gabrilovich e Markovitch, 2007)
Técnicas de Processamento de Língua Natural (Shehata et al.,
2010; Persson et al., 2009)
Métodos de modelagem de tópicos (Lu et al., 2011; Zrigui et al., 2012; Liu
et al., 2011)
Modelos de semântica distribucional (Le e Mikolov, 2014; Sinoara et al.,
2019)
25
Mineração de Textos e Semântica
26
Fontes de conhecimento
identificadas em um
mapeamento sistemático da
literatura sobre a Semântica
na Mineração de Textos
(Sinoara et al., 2017)
Representação de TextosAbordagens semânticas
Conceitos identificados em fontes externas (Spanakis et al., 2012;
Gabrilovich e Markovitch, 2007)
Técnicas de Processamento de Língua Natural (Shehata et al.,
2010; Persson et al., 2009)
Métodos de modelagem de tópicos (Lu et al., 2011; Zrigui et al., 2012; Liu
et al., 2011)
Modelos de semântica distribucional (Le e Mikolov, 2014; Sinoara et al.,
2019)
27
Algumas Tarefas deProcessamento de Língua Natural
Correção gramatical
Anotação de etiquetas morfossintáticas
Análise sintática
o funcional
o de constituinte
Reconhecimento de entidades nomeadas
28
Anotação de papéis
semânticos
Desambiguação lexical de
sentidos
Similaridade semântica
Resolução de
correferências
Representação de TextosAbordagens semânticas
Conceitos identificados em fontes externas (Spanakis et al., 2012;
Gabrilovich e Markovitch, 2007)
Técnicas de Processamento de Língua Natural (Shehata et al.,
2010; Persson et al., 2009)
Métodos de modelagem de tópicos (Lu et al., 2011; Zrigui et al., 2012;
Liu et al., 2011)
Modelos de semântica distribucional (Le e Mikolov, 2014; Sinoara et al.,
2019)
29
Métodos de modelagem de tópicos
Encontram os tópicos que compõem os documentos
o Espaço semântico
Tópicos:
o Atributos em um espaço de menor dimensionalidade
− Redução de dimensionalidade
o Clusters
− Agrupamento
30
Uso de métodos de modelagem de tópicos
Latent Dirichlet Allocation (LDA) na organização de documentos (Sinoara et al., 2017b)
o Coleção de notícias sobre esportes em português
o Análise qualitativa dos grupos com apoio de um especialista
o Avaliação do LDA como método de agrupamento
− LDA vs K-means
o Avaliação do LDA como método de redução de dimensionalidade / extração de termos
− LDA vs bag-of-words31
LDAAnálise do especialista
No geral, os tópicos encontrados foram bons
No entanto...
o Documentos de esportes diferentes foram colocados no mesmo
grupo
o Documentos de um mesmo esporte foram colocados em grupos
diferentes
32
LDAAnálise do especialista
Exemplo: notícias de Formula 1
91 documentos 8 grupos
33
LDAAnálise do especialista
Notícias de Formula 1 (91 documentos em 8 grupos)
o 3 grupos com apenas documentos de Formula 1
34
LDAAnálise do especialista
35
Notícias de Formula 1 (91 documentos em 8 grupos)
o 1 grupo com documentos de Formula 1 e da extinta Fórmula 3000
Notícias de Formula 1 (91 documentos em 8 grupos)
o 2 grupos com documentos de Formula 1 e MotoGP
LDAAnálise do especialista
36
LDAAnálise do especialista
37
Notícias de Formula 1 (91 documentos em 8 grupos)
o 1 grupo com documentos de Formula 1, de outros esportes a motor e
de Futebol
LDAAnálise do especialista
38
Notícias de Formula 1 (91 documentos em 8 grupos)
o 1 grupo com documentos de Formula 1, Futebol, Boxe, Esgrima e
Hipismo
LDAAvaliação experimental (Fscore)
LDA vs bag-of-words
39
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
full topic semantic topic-semantic
LDA K-means
BOW K-means (cosine)
LDA vs K-means (bag-of-words)
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
full topic semantic topic-semantic
LDA
BOW K-means (cosine)
LDA emCenários semanticamente mais complexos
Agrupamento por esporte vs Agrupamento por desempenho de atleta
brasileiro
40
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
topic semantic
LDA K-means
BOW K-means (cosine)
BOW K-means (random)
LDA emCenários semanticamente mais complexos
Agrupamento por esporte vs Agrupamento por desempenho de atleta
brasileiro
41
0,0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
1,0
topic semantic
LDA K-means
BOW K-means (cosine)
BOW K-means (random)
Representação de TextosAbordagens semânticas
Conceitos identificados em fontes externas (Spanakis et al., 2012;
Gabrilovich e Markovitch, 2007)
Técnicas de Processamento de Língua Natural (Shehata et al.,
2010; Persson et al., 2009)
Métodos de modelagem de tópicos (Lu et al., 2011; Zrigui et al., 2012; Liu
et al., 2011)
Modelos de semântica distribucional (Le e Mikolov, 2014; Sinoara et
al., 2019)
42
Semântica Distribucional
Área de pesquisa que estuda e desenvolve teorias e métodos para o
cálculo de similaridade semântica entre itens linguísticos
Modelos de semântica distribucional baseiam-se na hipótese
distribucional (Turney e Pantel, 2010)
43
Distributional hypothesis:
palavras que ocorrem em
contextos similares tendem
a ter significados similares
o Palavras podem ser representadas
por vetores cujas dimensões são
contextos
o Palavras cujos vetores são
similares tendem a ter sentidos
similares
Modelos de Semântica DistribucionalDistributional Semantic Models
Modelos de contagem
o Baseados na contagem de contextos
Modelos preditivos / neural language models / embeddings
o Gerados por redes neurais artificiais
44
Modelos de Semântica Distribucional
Modelos preditivos / neural language
models / embeddings
o Inicialmente desenvolvidos para
modelagem de língua
− Predizer uma palavra dado um contexto
o Apresentam melhores resultados em
diferentes tarefas de semântica lexical (Baroni et al., 2014)
45Modelo CBOW
Fonte: (Rong, 2016)
Embeddings
Word2Vec (Mikolov et al., 2013)
Glove (Pennington et al., 2014)
fastText (Bojanowski et al., 2017)
node2Vec (Grover e Leskovec, 2016)
o Representação de nós de redes
NASARI (Camacho-Collados et al., 2016)
o Representação de conceitos e entidades (synsets)46
Embeddings
Representação de Palavras x Synsets
Exemplo: Representação vetorial de “São Paulo”
O que está sendo representado?
47
Uso de representação de documentos baseada em Embeddings
Avaliação na classificação de documentos e no cálculo de
similaridade semântica (Sinoara et al., 2019)
o Bag-of-words
o LDA
o Word2Vec
o Babel2Vec (desambiguação + Word2Vec)
o NASARI+Babel2Vec (desambiguação + NASARI + Word2Vec)
48
Uso de representação de documentos baseada em Embeddings
Alguns resultados -
classificação (Macro-
F1)
49Fonte: (Sinoara et al., 2019)
1- NASARI+Babel2Vec
2- Babel2Vec
3- Bag-of-words
4- LDA
5- Word2Vec
Uso de representação de documentos baseada em Embeddings
Alguns resultados – similaridade
semântica
o Correlação entre julgamentos de humanos
e similaridade entre vetores
50(Sinoara et al., 2019)
Representações PropostasAspectos Semânticos Abordados
Conhecimento do domínio
o gBoED (Scheicher et al., 2016)
Sentidos (termos desambiguados) e hiperônimos
o Uni-based (Sinoara, 2018)
Papéis semânticos
o SR-based Terms e SR-based Sentences (Sinoara et al., 2016)
Sentidos (termos desambiguados) e representações distribuídas de itens
linguísticos
o NASARI2DocVec, Babel2Vec e NASARI+Babel2Vec (Sinoara et al., 2019)51
Representações PropostasAspectos Semânticos Abordados
Representações baseadas em conhecimento do domínio,
hiperônimos ou papéis semânticos
o Apresentaram desempenho de classificação mais baixo
o Apresentam atributos mais expressivos
52
Representações PropostasAspectos Semânticos Abordados
Representações baseadas em embeddings
o Apresentaram performance de classificação superiores a bag-of-
words, LDA e Doc2Vec
o Apresentam atributos pouco expressivos, porém podem ser
interpretadas por meio dos vetores vizinhos
53
Próximos passos...
Projeto “Representações Semanticamente Enriquecidas para Mineração de Textos em Português: Modelos e Aplicações”
Exploração de diferentes aspectos semânticos, de acordo com os problemas a serem tratados
Aplicações em diferentes tarefas de Mineração de Textos
Foco na interpretabilidade e explicabilidade dos resultados, além do desempenho dos modelos
Exploração do conhecimento do domínio54
Referências
56
ARAÚJO, I. L. Por uma concepção semântico-pragmática da linguagem. Revista Virtual deEstudos da Linguagem, v. 5, n. 8, p. 1–26, 2007.
BARONI, M.; DINU, G.; KRUSZEWSKI, G. Don’t count, predict! a systematic comparison ofcontext-counting vs. context-predicting semantic vectors. In: ACL 2014: Proceedings of the52nd Annual Meeting of the Association for Computational Linguistics. 2014. p. 238–247.
BOJANOWSKI, P.; GRAVE, E.; JOULIN, A.; MIKOLOV, T. Enriching word vectors withsubword information, Transactions of the Association for Computational Linguistics 5 (2017)135-146.
CAMACHO-COLLADOS, J.; PILEHVAR, M. T.; NAVIGLI, R. Nasari: Integrating explicitknowledge and corpus statistics for a multilingual representation of concepts and entities.Artificial Intelligence, v. 240, p. 36–64, 2016.
FOSSILE, D. K. Semântica & pragmática: Campos independentes. VOOS RevistaPolidisciplinar Eletrôntica da Faculdade Guairacá, v. 2, p. 40–58, 2009.
GABRILOVICH, E.; MARKOVITCH, S. Computing semantic relatedness using Wikipedia-based explicit semantic analysis. In: IJCAI-07: Proceedings of the 20th International JointConference on Artifical Intelligence. 2007. p. 1606–1611.
GROBELNIK, M. Many faces of text processing. In: WIMS’11: Proceedings of theInternational Conference on Web Intelligence, Mining and Semantics. 2011. p. 5.
57
GROVER, A.; LESKOVEC, J. node2vec: Scalable Feature Learning for Networks. ACMSIGKDD International Conference on Knowledge Discovery and Data Mining (KDD), 2016.
LE, Q.; MIKOLOV, T. Distributed representations of sentences and documents. In: ICML-14:Proceedings of the 31st International Conference on Machine Learning. 2014. p. 1188–1196.
LIU, Z.; LI, M.; LIU, Y.; PONRAJ, M. Performance evaluation of latent dirichlet allocation intext mining. In: FSKD 2011: Proceedings of the Eighth International Conference on FuzzySystems and Knowledge Discovery. 2011. v. 4, p. 2695–2698.
LU, Y.; MEI, Q.; ZHAI, C. Investigating task performance of probabilistic topic models: Anempirical study of PLSA and LDA. Information Retrieval, v. 14, n. 2, p. 178–203, 2011.
MIKOLOV, T.; CHEN, K.; CORRADO, G.; DEAN, J. (2013). Efficient estimation of wordrepresentations in vector space. In Proceedings of International Conference on LearningRepresentations Workshop (ICLR-2013).
PENNINGTON, J.; SOCHER, R.; MANNING, C. D. (2014). Glove: Global vectors for wordrepresentation. Proceedings of the 2014 Conference on Empiricial Methods in NaturalLanguage Processing (EMNLP-2014), 12:1532–1543.
PERSSON, J.; JOHANSSON, R.; NUGUES, P. Text categorization using predicate-argument structures. In: NODALIDA 2009: Proceedings of the 17th Nordic Conference ofComputational Linguistics. 2009. p. 142–149.
58
RIEMER, N. Introducing Semantics. Cambridge University Press, 2010. (CambridgeIntroductions to Language and Linguistics).
RONG, X. word2vec parameter learning explained. arXiv preprint arXiv:1411.2738v4,2016.
SCHEICHER, R. B.; SINOARA, R. A.; KOGA, N. J.; REZENDE, S. O. Uso de expressõesdo domínio na classificação automática de documentos. In: ENIAC 2016: Anais do XIIIEncontro Nacional de Inteligência Artificial e Computacional. 2016. p. 625–636.
SHEHATA, S.; KARRAY, F.; KAMEL, M. S. An efficient model for enhancing textcategorization using sentence semantics. Computational Intelligence, Wiley Online Library,v. 26, n. 3, p. 215–231, 2010.
SINOARA, R. A.; CAMACHO-COLLADOS, J.; ROSSI, R. G.; NAVIGLI, R.; REZENDE, S.O. Knowledge-enhanced document embeddings for text classification. Knowledge-basedSystems, 163:955–971, 2019.
SINOARA, Roberta Akemi. Aspectos semânticos na representação de textos paraclassificação automática. São Carlos : Instituto de Ciências Matemáticas e deComputação, Universidade de São Paulo, 2018. Tese de Doutorado em Ciências deComputação e Matemática Computacional.
SINOARA, R. A.; ANTUNES, J.; REZENDE, S. O. Text mining and semantics: a systematicmapping study. Journal of the Brazilian Computer Society, v. 23, n. 9, p. 1–20, 2017.
59
SINOARA, R. A.; SCHEICHER, R. B.; REZENDE, S. O. Evaluation of latent dirichletallocation for document organization in different levels of semantic complexity. In: CIDM’17:Proceedings of the 2017 IEEE Symposium on Computational Intelligence and Data Mining.2017. p. 2057–2064.
SINOARA, R. A.; ROSSI, R. G.; REZENDE, S. O. Semantic role-based representations intext classification. In: ICPR 2016: Proceedings of the 23rd International Conference onPattern Recognition. 2016. p. 2314–2319.
SPANAKIS, G.; SIOLAS, G.; STAFYLOPATIS, A. Exploiting wikipedia knowledge forconceptual hierarchical clustering of documents. Computer Journal, v. 55, n. 3, p. 299–312,2012.
TURNEY, P. D.; PANTEL, P. From frequency to meaning: Vector space models ofsemantics. Journal of Artificial Intelligence Research, AI Access Foundation, USA, v. 37, n.1, p. 141–188, 2010.
ZRIGUI, M.; AYADI, R.; MARS, M.; MARAOUI, M. Arabic text classification frameworkbased on latent dirichlet allocation. Journal of Computing and Information Technology, v. 20,n. 2, p. 125–140, 2012.