Post on 03-Jul-2015
MestrandoChristiano Otero Avila
Orientador Stanley Loh
Desenvolvimento de um Sistema de Recomendação de Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Artigos Científicos e Avaliação de Métodos de Extração de
Palavras-ChavePalavras-Chave
SumárioSumário Objetivo do projetoObjetivo do projeto Diagrama e funcionamento interno da ferramentaDiagrama e funcionamento interno da ferramenta Métodos de extraçãoMétodos de extração Avaliação dos métodos Avaliação dos métodos Fase 2 – consolidação dos métodosFase 2 – consolidação dos métodos Fase 2 – novos métodosFase 2 – novos métodos SisRecAC – perspectiva do usuárioSisRecAC – perspectiva do usuário Tags – folksonomiaTags – folksonomia Expansão semântica – folksonomiaExpansão semântica – folksonomia Expansão semântica – descoberta de relações em textosExpansão semântica – descoberta de relações em textos CronogramaCronograma ConclusõesConclusões ReferênciasReferências
Objetivo do ProjetoObjetivo do Projeto
Desenvolver um sistema de recomendação para Desenvolver um sistema de recomendação para descobrir os melhores ou o melhor método para descobrir os melhores ou o melhor método para extração de palavras-chave de documentosextração de palavras-chave de documentos Melhor = retorna artigos científicos mais relevantesMelhor = retorna artigos científicos mais relevantes Quem retorna ?Quem retorna ?
Palavra 1
Documento
Algoritmo para identificação automática de palavras-chave
Palavra 1Palavra 2Palavra 3
Palavra 1Palavra 2Palavra 3Palavra 4
Palavra 1Palavra 2Palavra 3Palavra 4Palavra 5
Palavra 1Palavra 2Palavra 3Palavra 4Palavra 5Palavra 6
Palavra 1Palavra 2Palavra 3Palavra 4Palavra 5Palavra 6Palavra 7
Palavra 1Palavra 2Palavra 3Palavra 4Palavra 5Palavra 6Palavra 7Palavra 8
Palavra 1Palavra 2Palavra 3Palavra 4Palavra 5Palavra 6Palavra 7Palavra 8Palavra 9
http://scholar.google.com.br/scholar?hl=pt-BR&lr=&q=banco+dados+gerenciamento+-cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=
Palavra 1Palavra 2Palavra 3Palavra 4Palavra 5Palavra 6Palavra 7Palavra 8Palavra 9Palavra 10
Envio sucessivosPalavra 1Palavra 2Palavra 3Palavra 4Palavra 5Palavra 6Palavra 7Palavra 8Palavra 9Palavra 10
Palavra 1Palavra 2
Título do artigo + link
origem do artigo
resumo do artigo
Métodos de ExtraçãoMétodos de Extração
1) Palavras mais freqüentes1) Palavras mais freqüentes
3Processos
4Sistema
5Relacional
6Postgresql
7Sgbd
8Modelagem
11Projeto
12Gerenciamento
15Dados
15Banco
FREQÜÊNCIAPALAVRA
Métodos de ExtraçãoMétodos de Extração ExemplosExemplos
com 3 palavrascom 3 palavras banco, dados e gerenciamentobanco, dados e gerenciamento http://scholar.google.com.br/scholar?hl=pt-http://scholar.google.com.br/scholar?hl=pt-
BR&lr=&q=BR&lr=&q=banco+dados+gerenciamentobanco+dados+gerenciamento+-cita%C3%A7%C3%A3o+-+-cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=%5Blivro%5D&btnG=Pesquisar&lr=
com 4 palavrascom 4 palavras banco, dados, gerenciamento e projetobanco, dados, gerenciamento e projeto http://scholar.google.com.br/scholar?hl=pt-http://scholar.google.com.br/scholar?hl=pt-
BR&lr=&q=BR&lr=&q=banco+dados+gerenciamento+projetobanco+dados+gerenciamento+projeto+-cita%C3%A7%C3%A3o+-+-cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=%5Blivro%5D&btnG=Pesquisar&lr=
1.3) com 5 palavras1.3) com 5 palavras 1.4) com 6 palavras1.4) com 6 palavras 1.5) com 7 palavras1.5) com 7 palavras 1.6) com 8 palavras1.6) com 8 palavras 1.7) com 9 palavras1.7) com 9 palavras 1.8) com 10 palavras1.8) com 10 palavras
Métodos de ExtraçãoMétodos de Extração
2) Método “Fusion”2) Método “Fusion” São extraídas as 10 São extraídas as 10
palavras mais freqüentespalavras mais freqüentes
3Processos
4Sistema
5Relacional
6Postgresql
7Sgbd
8Modelagem
11Projeto
12Gerenciamento
15Dados
15Banco
FREQÜÊNCIAPALAVRA
Métodos de ExtraçãoMétodos de Extração
São enviadas ao Google Acadêmico cada São enviadas ao Google Acadêmico cada palavra individualmente palavra individualmente http://scholar.google.com.br/scholar?hl=pt-BR&lr=&q=http://scholar.google.com.br/scholar?hl=pt-BR&lr=&q=bancobanco+-+-
cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr= http://scholar.google.com.br/scholar?hl=pt-BR&lr=&q=http://scholar.google.com.br/scholar?hl=pt-BR&lr=&q=dadosdados+-+-
cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr= http://scholar.google.com.br/scholar?hl=pt-http://scholar.google.com.br/scholar?hl=pt-
BR&lr=&q=BR&lr=&q=gerenciamentogerenciamento+-cita%C3%A7%C3%A3o+-+-cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=%5Blivro%5D&btnG=Pesquisar&lr=
http://scholar.google.com.br/scholar?hl=pt-BR&lr=&q=http://scholar.google.com.br/scholar?hl=pt-BR&lr=&q=projetoprojeto+-+-cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=
.......... http://scholar.google.com.br/scholar?hl=pt-BR&lr=&q=http://scholar.google.com.br/scholar?hl=pt-BR&lr=&q=sistemasistema+-+-
cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=
Métodos de ExtraçãoMétodos de Extração
De cada palavra, são recuperados 30 links, De cada palavra, são recuperados 30 links, totalizando 300 linkstotalizando 300 links
Apenas os 10 links mais freqüentes dentre os Apenas os 10 links mais freqüentes dentre os 300 serão apresentados e avaliados300 serão apresentados e avaliados
Métodos de ExtraçãoMétodos de Extração
3) Expressões3) Expressões- São extraídas do texto apenas expressões, ou São extraídas do texto apenas expressões, ou
seja, grupos de palavras que se repetemseja, grupos de palavras que se repetem- Exemplos:Exemplos:
- ““Banco de dados” Banco de dados” - ““Gerenciamento de projetos”Gerenciamento de projetos”- ““Inteligência Artificial”Inteligência Artificial”
Métodos de ExtraçãoMétodos de Extração
São enviados ao Google Acadêmico somente as São enviados ao Google Acadêmico somente as expressões mais freqüentes:expressões mais freqüentes: Duas palavras e três palavras Duas palavras e três palavras Ex. “Inteligencia artificial” e “banco de dados” Ex. “Inteligencia artificial” e “banco de dados” http://scholar.google.com.br/scholar?hl=pt-http://scholar.google.com.br/scholar?hl=pt-
BR&lr=&q= “BR&lr=&q= “inteligencia artificial”+inteligencia artificial”+““banco de banco de dados”dados”+-cita%C3%A7%C3%A3o+-+-cita%C3%A7%C3%A3o+-%5Blivro%5D&btnG=Pesquisar&lr=%5Blivro%5D&btnG=Pesquisar&lr=
Avaliação dos MétodosAvaliação dos Métodos
Avaliação subjetivaAvaliação subjetiva Avaliação por similaridadeAvaliação por similaridade
Avaliação subjetivaAvaliação subjetiva
O próprio usuário do SisRecAC avalia cada O próprio usuário do SisRecAC avalia cada documento recomendado.documento recomendado. Este documento é relevante no contexto do Este documento é relevante no contexto do
documento de origem ? documento de origem ? ( ) Totalmente Relevante ( ) Totalmente Relevante
( ) Parcialmente Relevante( ) Parcialmente Relevante
( ) Irrelevante( ) Irrelevante
Avaliação subjetiva Avaliação subjetiva
Qtd documentos considerados totalmente relevantesPercRelevantes = ---------------------------------------------------------------- X 100
Qtd documentos recomendados
Qtd documentos considerados parcialmente relevantesPercParcRelev. = ---------------------------------------------------------------- X 100
Qtd documentos recomendados
Qtd documentos considerados irrelevantesPercIrrelevantes ---------------------------------------------------------------- X 100
Qtd documentos recomendados
Avaliação subjetiva – Tabulação dos Avaliação subjetiva – Tabulação dos resultadosresultados
Avaliação subjetiva – Tabulação dos Avaliação subjetiva – Tabulação dos resultados – fase Iresultados – fase I
Comparação dos Métodos
0
20
40
60
80
100
120
1 PC 2 PC 3 PC 4 PC 5 PC 6 PC 7 PC 8 PC 9 PC 10 PC Fusion
RELEVANTE
PARCIALMENTE
IRRELEVANTE
Avaliação por similaridadeAvaliação por similaridade Avaliar a similaridade média das recomendações de cada Avaliar a similaridade média das recomendações de cada
métodométodo FórmulaFórmula
Avaliação por similaridade Resultados
Avaliação por similaridade Gráficos
Similaridade Top 1 - Top 3 - Top 5
0
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
1 PC 2 PC 3 PC 4 PC 5 PC 6 PC 7 PC 8 PC 9 PC 10 PC
TOP 1
TOP 3
TOP 5
Avaliação por similaridade Gráfico similiaridade média
Similaridade Média
0
0,01
0,02
0,03
0,04
0,05
0,06
0,07
1 PC 2 PC 3 PC 4 PC 5 PC 6 PC 7 PC 8 PC 9 PC 10 PC
Similaridade Média
0
0,01
0,02
0,03
0,04
0,05
0,06
0,07
1 PC 2 PC 3 PC 4 PC 5 PC 6 PC 7 PC 8 PC 9 PC 10 PC
Fase 2 – Consolidação dos Métodos Tendo como base as avaliações da “Fase 1”, optamos por
continuar avaliando os seguintes métodos: Métodos de palavras-chave
4 PC 5 PC 6 PC 7 PC 8 PC 9 PC
Fase 2 – Novos Métodos Expressões
Uma expressão de maior ocorrência Duas expressões de maior ocorrência Três expressões de maior ocorrência
Tags cadastradas pelo usuário para identificar o documento Título sem stopwords
Fase 2 – Novos Métodos Visão Geral
1 - uma expressão de maior ocorrência 2 - duas expressões de maior ocorrência 3 - três expressões de maior ocorrência 4,5,6,7,8,9 – palavras-chave 10 – título sem stopwords 11 - tags
SisRecAC SisRecAC Perspectiva do Usuário Perspectiva do Usuário
SisRecAC – Objetivo e Funcionalidades
SisRecAC – Sistema de Recomendação de Artigos Científicos
Objetivo Recomendar artigos científicos baseados em
documentos armazenados pelo usuário Permitir o compartilhamento de documentos e
artigos recuperados
SisRecAC – Principais SisRecAC – Principais funcionalidadesfuncionalidades
Permite armazenar documentos associando a uma ou Permite armazenar documentos associando a uma ou mais tagsmais tags
Apresenta artigos baseados nos documentos Apresenta artigos baseados nos documentos armazenadosarmazenados
Permite o compartilhamento de documentos e artigosPermite o compartilhamento de documentos e artigos
Link para o documento
Avaliação
SisRecAC – Principais funcionalidades
Estatísticas
Tags --> folksonomia
SELECT nomesite,tagorigem,tag as tagrelacionada FROM rec_tagdados WHERE tagorigem='framework' ORDER BY tagrelacionada;
SELECT * FROM vtags WHERE tagorigem='framework'
Expansão Semântica - Folksonomia
Expansão do Método que utiliza as tags que o usuário cadastrou para identificar um documento
Expansão Semântica – Descoberta Relações em Textos
SisRecAC – Funcionalidades extrasSisRecAC – Funcionalidades extras
Integração com o SAPUIntegração com o SAPU Convites (marketing viral)Convites (marketing viral) Construção de um sistema de alertas, com o apoio de Construção de um sistema de alertas, com o apoio de
conceitos de IA, para informar ao usuário que novos conceitos de IA, para informar ao usuário que novos artigos foram descobertosartigos foram descobertos EmailEmail RSSRSS
CronogramaCronograma Artigo para WebMedia (julho)Artigo para WebMedia (julho) Definir e implementar os novos métodos com alguma forma de expansão Definir e implementar os novos métodos com alguma forma de expansão
(julho) (julho) Implementar recursos e mecanismos para aumentar a utilização do SisRecAC Implementar recursos e mecanismos para aumentar a utilização do SisRecAC
– julho/agosto 2007– julho/agosto 2007 convitesconvites integração com o SAPUintegração com o SAPU alertas (????)alertas (????)
Definir e implementar visualização de estatísticas das questões realizadas Definir e implementar visualização de estatísticas das questões realizadas somente para Relevantes/Parcialmente Relevantes – “Justifique sua somente para Relevantes/Parcialmente Relevantes – “Justifique sua Avaliação” (agosto)Avaliação” (agosto)
Monitorar os resultados da avaliação subjetiva (agosto/setembro)Monitorar os resultados da avaliação subjetiva (agosto/setembro) Avaliar e documentar os resultados (outubro)Avaliar e documentar os resultados (outubro)
avaliação subjetiva e avaliação matemática (similaridade) avaliação subjetiva e avaliação matemática (similaridade) Artigos e monografiaArtigos e monografia
ConclusãoConclusão
A importância do aumento do número de usuários e A importância do aumento do número de usuários e avaliações faz pensar a implementação de recursos avaliações faz pensar a implementação de recursos interessantes interessantes cuidado para não provocar uma perda de foco com recursos e cuidado para não provocar uma perda de foco com recursos e
facilidades (ajax por exemplo)facilidades (ajax por exemplo) concentrar no estudo e resultados dos métodos e não na concentrar no estudo e resultados dos métodos e não na
ferramentaferramenta Folksonomia não era um estudo que estava previsto Folksonomia não era um estudo que estava previsto
desde o início, mas é uma área emergente e interessantedesde o início, mas é uma área emergente e interessante publicações são recentes (maioria em 2006 e 2007)publicações são recentes (maioria em 2006 e 2007) semântica emergentesemântica emergente
Referências B. Ribeiro-Neto, M. Cristo, E. S. de Moura, and P. B. Golgher. Impedance coupling in content-target
advertising. In Proceedings of the 28th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pages 496--500, Salvador, Bahia, Brazil, July 2005.
Brooks, C. H.; Montanez, N. (2006) Improved annotation of the blogosphere via autotagging and hierarchical clustering. In: International World Wide Web Conference – WWW, May 2006, Edinburgh, Scotland, p.625-631.
Dahlen,B.J., Konstan,J.A., Herlocker,J.L., Good,N., Borchers,A., Riedl,J., 1998. Jump-starting movielens: User benefits of starting a collaborative filtering system with "dead data". University of Minnesota TR 98-017.
Goldberg, D. Nichols, D., Oki, B. M., and Terry, D. Using collaborative filtering to weave an information tapestry. Commun. ACM 35, 12 (Dec.1992), 61—70.
Herlocker, J., Konstan, J., Terveen, L., and Riedl, J. Evaluating collaborative filtering recommender systems. ACM Transactions on Information Systems 22, 1 (2004), 5–53
Kraft, R., Chang, C. C., Maghoul, F., and Kumar, R. 2006. Searching with context. In Proceedings of the 15th International Conference on World Wide Web (Edinburgh, Scotland, May 23 - 26, 2006). WWW '06. ACM Press, New York, NY, 477-486.
Kraft, R., Chang, C. C., Maghoul, F., and Kumar, R. 2006. Searching with context. In Proceedings of the 15th International Conference on World Wide Web (Edinburgh, Scotland, May 23 - 26, 2006). WWW '06. ACM Press, New York, NY, 477-486.DOI= http://doi.acm.org/10.1145/1135777.1135847
Lau, Tessa & Horvitz, Eric (1999) Patterns of search: analyzing and modeling web query refinement. In: 7th International Conference on User Modeling, June 1999, Banff, Canada, p.119-128
Loh, S. Abordagem Baseada em Conceitos para Descoberta de Conhecimento em Textos. Porto Alegre: UFRGS. Requisito Parcial ao Grau de Doutor em Ciência da Computação, Instituto de Informática, Universidade Federal do Rio Grande do Sul, 2001.
McNee, S. , Riedl, J. , Konstan, J. . Accurate is not always good: How accuracy metrics have hurt recommender systems. ACM CHI 2006.
Orengo, V. M.; Huyck, C. R. A Stemming Algorithim for The Portuguese Language. In: Proceedings of the SPIRE Conference. Laguna de San Raphael: [s.n.], 2001, p. 13-15.
ReferênciasReferências Osinski S., Stefanowski J, and Weiss D. Lingo: Search results clustering algorithm based on Singular Value Decomposition. Osinski S., Stefanowski J, and Weiss D. Lingo: Search results clustering algorithm based on Singular Value Decomposition.
Submitted to Intelligent Information Systems Conference 2004, Zakopane, Poland, 2003. Submitted to Intelligent Information Systems Conference 2004, Zakopane, Poland, 2003. Pereira, M, Reis, Carolina e Nunes, Maria. Implementação, Avaliação e Validação de Algoritmos de Extração de Palavras-Pereira, M, Reis, Carolina e Nunes, Maria. Implementação, Avaliação e Validação de Algoritmos de Extração de Palavras-
Chave de Textos Científicos em Português. SBC - Revista Eletrônica de Iniciação Científica, 2002Chave de Textos Científicos em Português. SBC - Revista Eletrônica de Iniciação Científica, 2002 Resnick, P. ; Varian, H. R. 1997. Recommender systems. Commun. ACM 40, 56–58.Resnick, P. ; Varian, H. R. 1997. Recommender systems. Commun. ACM 40, 56–58. Schafer, J. Ben et al. (2001) E-commerce recommendation applications. Journal of Data Mining and Knowledge Discovery, Schafer, J. Ben et al. (2001) E-commerce recommendation applications. Journal of Data Mining and Knowledge Discovery,
v.5, n.1/2, Janeiro, p.115-153.v.5, n.1/2, Janeiro, p.115-153. Salton, G.; Mcgill, M. J. Introduction to modern information retrieval. New York: McGraw-Hill, 1983.Salton, G.; Mcgill, M. J. Introduction to modern information retrieval. New York: McGraw-Hill, 1983. Schmitz, C; Hotho, A ; Aschke, R J; Stumme,G. Mining Association Rules in Folksonomies. In Proceedings of the 10th Schmitz, C; Hotho, A ; Aschke, R J; Stumme,G. Mining Association Rules in Folksonomies. In Proceedings of the 10th
IFCS Conference, 2006.IFCS Conference, 2006. Silverstein, C.; Henzinger, M.; Marais, H.; Moricz, M. (1999) Analysis of a very large web search engine query log. ACM Silverstein, C.; Henzinger, M.; Marais, H.; Moricz, M. (1999) Analysis of a very large web search engine query log. ACM
SIGIR Forum, 1999, v.33, n.3, p.6-12.SIGIR Forum, 1999, v.33, n.3, p.6-12. Smith, G. (2004) “Folksonomy: social classification.” August, 2004. Smith, G. (2004) “Folksonomy: social classification.” August, 2004.
http://atomiq.org/archives/2004/08/folksonomy_social_classification.htmlhttp://atomiq.org/archives/2004/08/folksonomy_social_classification.html Spink, Amanda; Wolfram, Dietmar; Jansen, Major B. J.; Saracevic, Tefko (2001) Searching the web: the public and their Spink, Amanda; Wolfram, Dietmar; Jansen, Major B. J.; Saracevic, Tefko (2001) Searching the web: the public and their
queries. Journal of the American Society for Information Science and Technology, v.52, n.3, p.226 – 234. queries. Journal of the American Society for Information Science and Technology, v.52, n.3, p.226 – 234. Teevan, J.; Adar, Eytan; Jones, R.; Potts, M. (2006) History repeats itself: repeat queries in Yahoo’s logs. In: Proceedings of Teevan, J.; Adar, Eytan; Jones, R.; Potts, M. (2006) History repeats itself: repeat queries in Yahoo’s logs. In: Proceedings of
the 29th International ACM SIGIR Conference on Research and Development in Information Retrieval – SIGIR, p.703-the 29th International ACM SIGIR Conference on Research and Development in Information Retrieval – SIGIR, p.703-704.704.
Turney, P. Learning to Extract Keyphrases from Text, Tech. Report Number NRC−41622, National Research Council Turney, P. Learning to Extract Keyphrases from Text, Tech. Report Number NRC−41622, National Research Council Canada, Institute for Information Technology, 1999.Canada, Institute for Information Technology, 1999.
Weiss Dawid and Stefanowski J. Web search results clustering in Polish: Experimental evaluation of Carrot. In Proceedings Weiss Dawid and Stefanowski J. Web search results clustering in Polish: Experimental evaluation of Carrot. In Proceedings of the New Trends in Intelligent Information Processing and Web Mining Conference, Zakopane, Poland, 2003.of the New Trends in Intelligent Information Processing and Web Mining Conference, Zakopane, Poland, 2003.
Witten I. H. et al. KEA: Practical automatic keyphrase extraction. In:Proceedings of the Fourth ACM Conference on Witten I. H. et al. KEA: Practical automatic keyphrase extraction. In:Proceedings of the Fourth ACM Conference on Digital Libraries. [S.l.]: [s.n.], 1999. p. 254-255.Digital Libraries. [S.l.]: [s.n.], 1999. p. 254-255.
Wu, H., Zubair, M., and Maly, K. 2006. Harvesting social knowledge from folksonomies. In Proceedings of the Wu, H., Zubair, M., and Maly, K. 2006. Harvesting social knowledge from folksonomies. In Proceedings of the Seventeenth Conference on Hypertext and Hypermedia (Odense, Denmark, August 22 - 25, 2006). HYPERTEXT '06. Seventeenth Conference on Hypertext and Hypermedia (Odense, Denmark, August 22 - 25, 2006). HYPERTEXT '06. ACM Press, New York, NY, 111-114. DOI= http://doi.acm.org/10.1145/1149941.1149962ACM Press, New York, NY, 111-114. DOI= http://doi.acm.org/10.1145/1149941.1149962
Ziegler, C.N., McNee, S.M., Konstan, J.A., and Lausen, G., Improving Recommendation Lists through Topic Ziegler, C.N., McNee, S.M., Konstan, J.A., and Lausen, G., Improving Recommendation Lists through Topic Diversification. In Proc. of WWW 2005, ACM Press (2005), 22-32.Diversification. In Proc. of WWW 2005, ACM Press (2005), 22-32.
MestrandoChristiano Otero Avila
OrientadorStanley Loh
Desenvolvimento de um Sistema de Recomendação de Desenvolvimento de um Sistema de Recomendação de Artigos Científicos e Avaliação de Métodos de Extração de Artigos Científicos e Avaliação de Métodos de Extração de
Palavras-ChavePalavras-Chave