Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e...

24
Mineração de Texto Visão geral das tarefas e métodos Prof. Walmes Zeviani [email protected] Laboratório de Estatística e Geoinformação Departamento de Estatística Universidade Federal do Paraná Walmes Zeviani · UFPR Mineração de Texto

Transcript of Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e...

Page 1: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Mineração de TextoVisão geral das tarefas e métodos

Prof. Walmes [email protected]

Laboratório de Estatística e GeoinformaçãoDepartamento de Estatística

Universidade Federal do Paraná

Walmes Zeviani · UFPR Mineração de Texto 1

Page 2: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Text Mining

Walmes Zeviani · UFPR Mineração de Texto 2

Page 3: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Definição

Análise de texto é sobre extrair informação.

Text mining é o processo de analisar um texto desestruturado, extrairinformação relevante e transformá-la em estruturada de forma quepossa ser aproveitada de diversas formas (HURWITZ et al., 2016).

The practice of text mining is aimed at undestanding and ap-plying insights from the most complex analytical processingsystem in the universe - the human brain - to the analysis ofwritten language.

Walmes Zeviani · UFPR Mineração de Texto 3

Page 4: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Motivação e exemplos

Walmes Zeviani · UFPR Mineração de Texto 4

Page 5: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Texto e informação

I Somos sensores sobre o mundo e registramos o que percebemoscom texto.

I Quando lemos um livro, recordamos das sensações mas não daprosa.

I Tratamos a informação de texto na sociedade assim também.I Acredita-se que a informação em texto sobre o mundo hoje é tão

rica que as máquinas poderiam dominar o mundo.

Walmes Zeviani · UFPR Mineração de Texto 5

Page 6: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Dados de texto são abundantesOpinião do consumidor

1. http://www.carrosnaweb.com.br/opiniaolista.asp.2. https://www.reclameaqui.com.br/.3. https://www.consumidor.gov.br/.4. http://www.macworld.co.uk/review/iphone/.

Descoberta de tópicos e tendências

1. https://twitter.com/search-advanced?lang=pt.2. http://www1.folha.uol.com.br/mercado/.3. http://www.valor.com.br/opiniao.4. https://www.ncbi.nlm.nih.gov/pubmed.5. http://apps.webofknowledge.com/.6. http://www.sciencedirect.com/.7. http://cnpq.br/projetos-pesquisa.

Walmes Zeviani · UFPR Mineração de Texto 6

Page 7: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Dados de texto são abundantesOportunidades de emprego

1. http://www.catho.com.br/.2. https://www.indeed.com.br/.3. https://www.bne.com.br/.4. https://www.infojobs.com.br/.

Similaridade e agrupamento

1. https://www.cifraclub.com.br/.2. http://www.tudogostoso.com.br/.

Modelagem preditiva

1. http://www.infomoney.com.br/

2. https://www.webmotors.com.br/

3. http://www.imovelweb.com.br/.

Walmes Zeviani · UFPR Mineração de Texto 7

Page 8: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Alguns casos de aplicação de análise de texto

1. Descoberta de ameaças terroristas.2. Mapear focos de dengue (UFMG) e demais problemas de saúde

pública.3. Fornecer diagnóstico de doença pelo relato de caso (IBM Watson).4. Melhorar qualidade de produto pelo relato dos consumidores.5. Aproveitar conversas transcritas de telemarketing.6. Registros de call center.7. Escrita para aumentar sucesso no desfecho de

petições/processos.8. Classificação de documentos para busca em biblioteca.

Walmes Zeviani · UFPR Mineração de Texto 8

Page 9: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Tipos de formato de documentos com texto

I Dados não estruturados = estrutura imprevisível.I Exemplos: texto, imagem, aúdio, vídeo, etc.

Nota fiscal Notícia Tweetpré estrutura organização coloquial e curto

números e campos língua formal abreviações e hashtags

Walmes Zeviani · UFPR Mineração de Texto 9

Page 10: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Abordagens principais

Walmes Zeviani · UFPR Mineração de Texto 10

Page 11: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Análise sintática

NLP

I Análise lexical/morfológica: formas da palavra.I Análise sintática: estrutura gramátical, criar contexto.I Análise semântica: determinar significado, eliminar ambiguidades.I Análise do âmbito do discuso: significado além do discurso,

inferência.I É uma análise complexa que pode determinar: quem, o que, quanto

onde e porquê.

Walmes Zeviani · UFPR Mineração de Texto 11

Page 12: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Saco de palavras (baf-of-words)

Figura 1. http://uc-r.github.io/creating-text-features.

I As frases são desfeitas.I Cada palavra é um termo.I Representa-se quantas vezes cada um ocorre no documento.I Estrutura linguística é ignorada.I Apesar de simples, é muito robusta e útil.

Walmes Zeviani · UFPR Mineração de Texto 12

Page 13: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Saco de palavras (baf-of-words)

Walmes Zeviani · UFPR Mineração de Texto 13

Page 14: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Áreas e disciplinas relacionadas

Walmes Zeviani · UFPR Mineração de Texto 14

Page 15: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

As 7 áreas da mineração de texto

Visão por tarefas (MINER et al., 2012).Walmes Zeviani · UFPR Mineração de Texto 15

Page 16: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Disciplinas relacionadas

Visão por disciplinas (MINER et al., 2012).Walmes Zeviani · UFPR Mineração de Texto 16

Page 17: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Ferramentas de mineração de texto

Walmes Zeviani · UFPR Mineração de Texto 17

Page 18: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Ferramentas online

1. https://www.paperrater.com/.2. http://www.articlegeneratorpro.com/.3. http://articlegenerator.org.4. http://parts-of-speech.info/.5. https://iwl.me.6. http://textalyser.net/.

Walmes Zeviani · UFPR Mineração de Texto 18

Page 19: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Softwares comerciais

1. STATISTICA Text Miner.2. SAS Text Miner.3. Clarabridge.4. IBM SPSS Text Analytics.5. IBM News Explorer.

Mais em list of text mining software.

Walmes Zeviani · UFPR Mineração de Texto 19

Page 20: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Recursos no RTask Views relevantes

I Natural Language Processing.I Web Technologies and Services.

Pacotes R

Text mining Web scrapingtm, Rweka XML, xml2

topicmodels, lsa RCurl, httrtext2vec rvest

tokenizers, udpipe jsonliteNLP, openNPL twitteR

koRpus, lexiconPT RfacebookRTextTools, tidytext Rlinkedin

Walmes Zeviani · UFPR Mineração de Texto 20

Page 21: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Complemento importantíssimo

Walmes Zeviani · UFPR Mineração de Texto 21

Page 22: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Web scraping

Como extrair ou consumir dados da Web?

I XMLI HTMLI JSON

Walmes Zeviani · UFPR Mineração de Texto 22

Page 23: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

Referências

Walmes Zeviani · UFPR Mineração de Texto 23

Page 24: Mineração de Texto - LEG-UFPRwalmes/ensino/mintex/slides/00-intro... · 2019. 12. 6. · Texto e informação I Somos sensores sobre o mundo e registramos o que percebemos com texto.

HURWITZ, J.; NUGENT, A.; DR. HALPER, F.; KAUFMAN, M. Big data paraleigos: ALTA BOOKS, 2016.

MINER, G.; ELDER, J.; HILL, T. Practical Text Mining and StatisticalAnalysis for Non-structured Text Data Applications. Academic Press,2012.

Walmes Zeviani · UFPR Mineração de Texto 24