Mineração de Opiniões Juliano Rabelo [email protected].
Transcript of Mineração de Opiniões Juliano Rabelo [email protected].
Introdução
• Dois tipos de informação na web– Fatos e opiniões
• Engenhos de busca são dirigidos a fatos– Fatos são bem representados por palavras-
chave– Já opiniões...
• O que as pessoas acham do novo celular da Motorola?
– Estratégia de ordenação dos resultados não apropriada para busca de opiniões
Introdução
• Boca-a-boca na web– Sites de review, fóruns, grupos de discussão,
blogs, etc• Experiências pessoais e opiniões sobre tudo
– Informação valiosa em escala global
• Objetivo: minerar opiniões no conteúdo gerado por usuários– Problema complexo– Com várias aplicações práticas
Introdução
“(1) Sábado passado eu comprei um celular Nokia e minha namorada comprou um Motorola. (2) Quando chegamos em casa nos ligamos. (3) A voz dela não estava tão limpa no meu celular, achei pior que no meu antigo aparelho. (4) Já a câmera é boa. (5) Minha namorada gostou bastante do celular dela. (6) Eu queria um celular com boa qualidade de voz, (7) então minha compra foi muito frustrante. (8) Acabei devolvendo o celular ontem.”
Introdução – Aplicações
• Empresas: benchmarking de produtos e serviços e pesquisas de mercado– Atualmente feitos através de pesquisas de opinião
“manuais”
• Indivíduos: buscam opiniões de outras pessoas– Ex: ao comprar produtos
• Propaganda dirigida– Anúncios apropriados para as opiniões emitidas
• Busca de opiniões– Engenho de busca genérico para opiniões
Introdução
• Três tipos de opinião– Direta: “Essa câmera é muito boa”
• Subjetiva
– Indireta: “O fone quebrou depois de dois dias”• Objetiva
– Comparação: “Essa câmera é melhor do que aquela”
• Subjetiva ou objetiva • Comparativa!
Busca de Opiniões
• Antes de tomar uma decisão, consultam-se outras pessoas
• Atualmente isso não pode ser feito na web– Opiniões: “celulares Motorola”– Comparações: “celulares Motorola x Nokia”
Consultas de Opinião Típicas
• O que alguém pensa sobre algo– Eg, qual a opinião de Lula sobre privatizar a Petrobras?– Um fato = vários fatos– IR usual resolve com o uso de queries adequadas
• Achar opiniões negativas e positivas sobre algo– Opiniões de usuários sobre um produto– Opiniões sobre um tema político– Um fato != vários fatos– Algum tipo de agregação/sumarização é necessário
• Como as opiniões sobre algo variam ao longo do tempo• Comparações
Roteiro
• Mineração de opiniões: abstração
• Mineração de opiniões– Por documento– Por sentença– Por característica Sentenças comparativas e
extração de relação
• Conclusão
Mineração de opiniões: abstração
• Componentes de uma opinião– Emissor, objeto e opinião– Objeto: produto, evento, organização, evento
ou tópico• Hierarquia de componentes, subcomponentes e
atributos
– Opinião sobre cada componente ou atributo• Característica
• Objeto O representado por um conjunto de características F = {f1, f2, ..., fn}
– Cada fi pode ser expressa através de um conjunto Wi de palavras ou frases (sinônimos)
• Modelo: um emissor j comenta sobre um subconjunto Sj F de O
– Para cada fk, o emissor:
• Escolhe uma palavra ou frase de Wk
• Expressa uma opinião positiva, negativa ou neutra
Modelo de uma review
Tarefas
• No nível de documento: classificação de sentimento de documentos (reviews)– Classes: positiva, negativa e neutra– Assume que cada documento foca num único objeto
e contém opiniões de um único emissor
• No nível de sentença– Tarefa 1: identificar sentenças subjetivas– Tarefa 2: classificar sentimento de sentenças
• Assume que cada sentença contém uma única opinião
Tarefas
• No nível de característica– Tarefa 1: identificar características que foram
comentadas por um emissor– Tarefa 2: classificar as opiniões– Tarefa 3: agrupar características sinônimas
• Identificar emissores é importante, mas normalmente mais simples
• Tarefa em comum: produzir um sumário baseado em características
Palavras Opinativas
• Palavras e frases opinativas– Positivas: bonita, ótima, excelente– Negativas: ruim, péssimo, horrível, custa o olho da
cara• Três formas de construir uma lista
– Manualmente (esforço único)– Através de corpus– Através de dicionários
• Importante– Palavras dependentes de contexto (eg: grande) e
independentes de contexto (eg: ótimo)– Ironia e sarcasmo dificultam a classificação
Corpus
• Duas linhas principais: – Baseadas em padrões sintáticos ou de co-
ocorrência em corpora grandes– Uso de restrições ou convenções sobre
conectivos• “Esse carro é bonito e espaçoso”
Dicionário
• Normalmente usam o WordNet– Partem de um conjunto-semente pequeno– Buscam sinônimos e antônimos no WordNet
• Pode ser necessária inspeção manual
– Desvantagem• Não encontram palavras dependentes de contexto
– SentiWordNet
Roteiro
• Mineração de opiniões: abstração
• Mineração de opiniões– Por documento– Por sentença– Por característica
• Sentenças comparativas e extração de relação
• Conclusão
Mineração por Documento
• Classificar documentos de acordo com sentimentos expressos por emissores– Positivo, negativo e neutro– O é uma característica
• Busca-se a opinião sobre O em cada documento
• Parecido com classificação de texto baseada em tópicos– Mas palavras “opinativas” são mais
importantes que palavras de tópico
Mineração por Documento
• Várias abordagens– N-gramas, POS taggers, etc– Combinam a polaridade das palavras
“opinativas”– Sentimento geral é dado de acordo com essa
combinação
• Granularidade inadequada para muitas aplicações
Roteiro
• Mineração de opiniões: abstração
• Mineração de opiniões– Por documento– Por sentença– Por característica
• Sentenças comparativas e extração de relação
• Conclusão
Mineração por Sentença
• Primeira tarefa: identificar sentenças “opinativas”– Todas as técnicas usam aprendizagem de
máquina
• Rilloff e Wiebe: Bootstrapping– Parte de um conjunto manual de indicadores
de subjetividade– Aprendem padrões sintáticos de sentenças
opinativas
Mineração por Sentença
• Ainda pouco detalhada para muitas aplicações
• Não encontra o que o emissor gostou e não gostou
• Sentimento negativo sobre um objeto não indica que o emissor não gostou de nada e vice-versa
Roteiro
• Mineração de opiniões: abstração
• Mineração de opiniões– Por documento– Por sentença– Por característica
• Sentenças comparativas e extração de relação
• Conclusão
Mineração de opiniões baseada em características
• Objetivo: achar as características e as opiniões acerca delas
• Potencialmente muitas características, fontes, emissores, etc– Sumarização dos resultados é essencial
Tarefas – Relembrando
• Tarefa 1: identificar características
• Tarefa 2: classificar as opiniões
• Tarefa 3: agrupar característica sinônimas
• Produzir um sumário baseado em características
Extração de características
• Normalmente cada segmento de sentença contém uma característica– Segmentos separados por vírgula, ponto,
ponto-e-vírgula, “e”, “mas”, etc– “as fotos são muito boas”
• Característica explícita: foto
– “pequena o suficiente para caber no bolso”• Característica implícita: tamanho
• Extração baseada em frequência
Extração baseada em frequência
• Características frequentes: comentadas por muitos emissores
• Emissores diferentes se expressam de formas diferentes
• Quando características de objetos são discutidas, o vocabulário converge– Características principais
Extração de características infrequentes
• Como encontrá-las?
• A mesma palavra opinativa pode ser usada para descrever características diferentes– “As fotos ficam realmente excelentes”– “O software da câmera é excelente”
Classificação de opiniões
• Para cada característica, identificar o sentimento expresso
• Quase todas as abordagens usam palavras e frases opinativas– Observando contexto conforme apropriado
Agregação de opiniões
• Dada uma sentença s que contém opinião sobre f
• Identificar as palavras opinativas e somar suas orientações (+1, -1, 0)
• A orientação da opinião sobre f é dada pelo resultado
• Pequenas variações ponderando o orientação pela distância de cada palavra opinativa a f
Identificar sinônimos
• Primeiras tentativas usando apenas WordNet
• Abordagens mais sofisticadas baseadas em medidas de similaridade– Similaridade de string, sinônimos e distâncias
calculadas através do WordNet– Desvantagem: requer que uma taxonomia de
características seja dada
Sumarização
• Construção de um sumário estruturado• Alternativas
– Votação– Selecionar opiniões-chave (de acordo com
emissor, assunto ou característica, por exemplo)
– Identificar pontos de desacordo e de consenso
– Estabelecer níveis de autoridade entre os autores
Sumarização
• Textual– Característica 1: “foto”– Positivas: 12
• ...
– Negativas: 2• ...
– Característica 2: “tamanho”• ...
Sumarização
• Gráfico
Sumário paracâmera A
Comparativoentre câmeras A e B
Foto Bateria Zoom Tamanho Peso
Roteiro
• Mineração de opiniões: abstração
• Mineração de opiniões– Por documento– Por sentença– Por característica
• Sentenças comparativas e extração de relação
• Conclusão
Extração de comparativos
• Dois tipos de opiniões– Direta: “Esse carro é ruim”– Comparação: “X é tão bom quanto Y”
• Usam diferentes construções
• Tarefas– Identificar sentenças comparativas– Extrair delas relações comparativas
Perspectiva linguística
• Sentenças comparativas usam termos como “mais”, “menos”, “tanto quanto”, etc
• Limitações– Cobertura reduzida
• “A Intel está muito à frente da AMD”
– Não comparativos com palavras comparativas
• “No contexto de velocidade, mais rápido significa melhor”
Comparativos mensuráveis
• Mensurável não igual– Expressões como melhor, à frente, etc– “o visor da câmera A é melhor que o de B”
• Mensurável igual– Expressões como igual, equivale, ambos, etc– “câmeras A e B são ambas muito boas”
• Superlativo– Expressões como a melhor, a maior, etc
• “a câmera A é a mais barata do mercado”
Comparativos não mensuráveis
• Sentenças que comparam características entre objetos mas não as mensuram. Implicam:– Objeto A é similar/diferente do B em relação a
algumas características
– Objeto A tem f1, objeto B tem f2 (f1 e f2 são equivalentes)
– Objeto A tem f e B não tem
Roteiro
• Mineração de opiniões: abstração
• Mineração de opiniões– Por documento– Por sentença– Por característica
• Sentenças comparativas e extração de relação
• Conclusão
Conclusão
• Três tipos de avaliação– Opiniões diretas e indiretas
• Em nível de documento, sentença e característica• Sumário estruturado de vários documentos
– Comparações• Identificação de sentenças comparativas• Extração de relações
• Problemas complexos e desafiadores– Técnicas atuais ainda incipientes
• Aplicações comerciais estão surgindo– Inclusive em Recife