Mineração de Dados [3mm] Aula 3: Manipulando Textos e...

Mineracao de Dados

Aula 3: Manipulando Textos e Imagens

Rafael Izbicki

1 / 24

Nesta Aula: Vamos aprender como manipular imagens e textos(no R).

2 / 24

Em estatıstica, estamos acostumados a trabalhar com objetos xque representam (sequencias de) numeros/vetores.

Ex: Queremos estimar uma funcao de regressao E[Y |x ]

Em mineracao de dados, sao comuns as aplicacoes em que xrepresenta objetos nao convencionais, como imagens e documentosde texto.

3 / 24

Exemplo: Deteccao de Spams

Xi −→ emailYi −→ spam/nao spam

Objetivo: prever Yi com base em Xi

4 / 24

Exemplo: Information Retrieval

Dados um conjunto de documentos de texto (e.g., paginas deinternet), escolher os k documentos mais similares a um dadodocumento.

5 / 24

Exemplo: Reconhecimento de Dıgitos

Xi −→ imagem de um dıgitoYi −→ dıgito correspondente

6 / 24

Hoje aprenderemos algumas maneiras basicas de manipular estesobjetos

Em uma frase, o que veremos e como converter esses objetos emnumeros.

Tal conversao deve ao mesmo tempo (i) ser rapida de ser feita (ii)ser informativa sobre esses documentos.

7 / 24

Manipulando Texto

Digamos que x e um documento de texto, por exemplo, o textoem uma pagina de internet, o texto de um tweet, ou de um postdo facebook.

Texto 1: x1 =“Poderoso Estimulante Natural - Esquente sua noite nacama.”Texto 2: x2 =“Ola professor, sou aluna de Mineracao de Dados.”Texto 3: x3 =“Boa tarde professor Rafael, segue contato como pedido.”

Texto 4: x4 =“Aumente sua performance na cama a noite usando esse

estimulante. Esquente seu relacionamento!”

Como convertemos cada um desses texto e um vetor numerico quecontenha informacao relevante sobre eles?

8 / 24

Bag-of-words – “sacola de palavras”

Muito simples: simplesmente liste as palavras que aparecem nosdocumentos, e conte quantas vezes elas aparecem.

Texto 1: x1 =“Poderoso Estimulante Natural - Esquente sua noite nacama.”Texto 2: x2 =“Ola professor, sou aluna na aula de Mineracao de Dados.”Texto 3: x3 =“Boa tarde professor Rafael, segue contato como pedido.”

Texto 4: x4 =“Aumente sua performance na cama a noite usando esse

estimulante.”

A ideia e fazer uma tabela da seguinte forma:

poderoso estimulante natural esquente sua noite na cama ola professor . . . esse

Texto 1 1 1 1 1 1 1 1 1 0 0 . . . 0

Texto 2 0 0 0 0 0 0 1 0 1 1 . . . 0

Texto 3 0 0 0 0 0 0 0 0 0 1 . . . 0

Texto 4 0 1 0 1 1 1 1 1 0 0 . . . 1

Matriz documento-termo9 / 24

poderoso estimulante natural esquente sua noite na cama ola professor . . . esse

Texto 1 1 1 1 1 1 1 1 1 0 0 . . . 0

Texto 2 0 0 0 0 0 0 1 0 1 1 . . . 0

Texto 3 0 0 0 0 0 0 0 0 0 1 . . . 0

Texto 4 0 1 0 1 1 1 1 1 0 0 . . . 1

Note que o vetor relativo ao texto 1 e mais proximo ao vetorrelativo ao texto 4 que aos outros. (Distancia Euclidiana)

Documentos “proximos”tem distancia baixas; documentos“distantes”tem distancia alta.

Analogamente, o vetor relativo ao texto 2 e mais proximo ao vetorrelativo ao texto 3 que aos outros.

Uma maneira simples de se classificar novos emails (nearestneighbors)

10 / 24

Algumas melhorias adicionais:

Como documentos diferentes tem tamanhos diferentes, pode-senormalizar estes vetores (e.g., dividindo-se as frequencias absolutaspelo tamanho de cada um dos documentos)

Palavras que sao muito comuns muitas vezes nao sao informativas(e.g., “a”, “esse”, . . . ).

Uma maneira de resolver isso e retirar palavras muito comuns. Issoe chato e entendiante

Outra maneira de resolver isso e a chamada Inverse documentfrequency (IDF), que e mais eficiente.

Seja D o numero total de documentos. Para cada palavra w , sejanw o numero de documentos que contem essa palavra. Para cadavetor de frequencias xd , multiplicamos o w-esimo elementopor log(D/nw ).

11 / 24

Para cada vetor de frequencias xd , multiplicamos o w-esimoelemento por log(D/nw ).

Intuicao: palavras pouco frequentes (nw baixo) recebem um pesomaior.

Ex: A matrixpoderoso estimulante natural esquente sua noite na cama ola professor . . . esse

Texto 1 1 1 1 1 1 1 1 1 0 0 . . . 0

Texto 2 0 0 0 0 0 0 1 0 1 1 . . . 0

Texto 3 0 0 0 0 0 0 0 0 0 1 . . . 0

Texto 4 0 1 0 1 1 1 1 1 0 0 . . . 1

passa a ser (D = 4)poderoso estimulante natural esquente sua noite na cama ola professor . . . esse

Texto 1 2 1 2 1 1 1 0.41 1 0 0 . . . 0

Texto 2 0 0 0 0 0 0 0.41 0 2 1 . . . 0

Texto 3 0 0 0 0 0 0 0 0 0 1 . . . 0

Texto 4 0 1 0 1 1 1 0.41 1 0 0 . . . 2

E uma especie de selecao de variaveis12 / 24

Todas essas sao diferentes maneiras de representar um documentode texto. Qual destas e a melhor forma varia conforme a aplicacao.

No R: pacote tm.

dtm = DocumentTermMatrix(corp,

control=list(tolower=TRUE, removePunctuation=TRUE,

removeNumbers=TRUE, stemming=TRUE,

weighting=weightTfIdf))

stemming=TRUE: palavras com mesma raiz sao agrupadas (e.g.,connect, connects, connected, connecting)

Nem em todas as lınguas isso e tao simples!! Ex: Alemao

13 / 24

Resumo sobre Documentos de Texto:

E comum representarmos um texto por um vetor com asfrequencias absolutas ou relativas de cada palavra. Esse e ometodo bag-of-words.

Pode-se multiplicar cada palavra nesta lista por um peso quequantifica o quao comum uma palavra e. A ideia e que palavrasmuito comuns nao sao muito informativas.

Uma das formas de se fazer isso e atraves do Inverse documentfrequency (IDF).

14 / 24

Manipulando Imagens

Vamos aprender aqui a manipular imagens que tem formato dotipo raster (ex: JPEG, PNG, . . . )

raster significa que a imagem e representada por uma ou maismatrizes que contem informacoes sobre os pixels da figura.

Vamos comecar com uma ideia simples: digamos que nos criamosuma matriz binaria:

1 1 01 1 00 0 0

15 / 24

1 1 01 1 00 0 0

A ideia chave e que podemos associar a essa matriz a imagem

Aqui, 1 simboliza um pixel preto, e 0 um pixel branco.

16 / 24

Usando essa ideia, ja podemos criar imagens como

Quanto mais pixels, maior a resolucao da imagem.

17 / 24

Podemos ir um passo alem.

Ao inves de usar apenas 0 (branco) e 1 (preto), podemos usarqualquer numero entre 0 e 1 para denotar uma intensidade decinza.

Com isso, podemos fazer imagens como

18 / 24

Podemos ir ainda mais alem.

Lembre-se que usando cores primarias podemos compor qualquercor.

Usando essa ideia, podemos representar uma imagem com tresmatrizes simultaneamente.

– A primeira indica quanto azul vamos ter em cada pixel (cadaelemento e um numero entre 0 e 1)

– A segunda indica quanto amarelo vamos ter em cada pixel (cadaelemento e um numero entre 0 e 1)

– A terceira indica quanto vermelho vamos ter em cada pixel (cadaelemento e um numero entre 0 e 1)

19 / 24

Com isso, podemos fazer imagens como

Esse e o princıpio usando por exemplo no formato JPEG. Mas, aoinves de usar cores primarias, sao usados os RGB channels(vermelho, verde e azul).

20 / 24

Variacoes sobre o tema:

0 ser branco e 1 preto e apenas uma convencao. Formatosdiferente usam convencoes diferentes (por exemplo, algunsformatos atribuem 0 a branco e 256 a preto)

21 / 24

Lendo imagens no R

Exemplo artificial:

> m=matrix(c(1,1,0,1,1,0,0,0,0),3,3)

> image(m[,3:1],col = c("white","black"))

Exemplo do sımbolo da ufscar:

> library(jpeg)

> imagem=readJPEG("1024px-UFSCar.jpg")

> dim(imagem) [1] 746 1024 3

> image(t(imagem[746:1,,3]),col =

grey.colors(1000,start = 0,end =1)) # imagem em tons

de cinza so com a terceira matriz

> rasterImage(imagem, 0, 0, 1, 1) # imagem colorida

22 / 24

Muitas vezes e necessario mudar a resolucao de imagens com afinalidade de comparacao (i.e., mudar a dimensao das matrizes).Recomendo o MATLAB para isso.

23 / 24

Resumo sobre Imagens:

Imagens nada mais sao que matrizes.

Cada elemento da matriz, um pixel, representa a intensidade dacor naquela posicao da imagem.

Podemos representar uma imagem com tons de cinza com umaunica matriz.

Imagens coloridas costumam ser representadas por 3 matrizes,cada uma indicando a intensidade dos pixels para uma certa cor.

24 / 24

Mineração de Dados [3mm] Aula 3: Manipulando Textos e...

Documents

Transcript of Mineração de Dados [3mm] Aula 3: Manipulando Textos e...

Aula 04 e 05 - Manipulando o Dna e Introduzindo Em Células Vivas

Aprendizado de Máquina Introdução às Redes Neurais Artificiaismarcosop/est171-ML/slides/RNA_MLP.pdf · Blocos do Sistema Nervoso . Tarefa: Aprender a andar Robô Ser Humano Inteligência

Ilhas Temáticas - ABINEEcidade e ativá-las à vontade. É possível escurecer grandes áreas da cidade, manipulando medidores inteligentes, explorando vulnerabilidades de segurança

Cluster - ICEx - UFMGmarcosop/est171-ML/slides/Cluster.pdf · Cluster Motivação nunca é demais A análise de cluster divide dados em grupos (clusters) que tenham significado ou

Circula pela Internet uma apresentação feita por inimigos dos judeus, manipulando imagens e criando relações mentirosas entre o passado da Alemanha nazista.

Aprendizado de Máquina - GitHub Pages · 2018-02-19 · Aprendizado de Máquina UFMG EST171 - 1ª Lista de exercícios Caio Cesar De Oliveira Freitas & Eduardo Elias Ribeiro Junior

Sistema Manipulando Módulo Sngpc 2013 – Manual do Usuário · Sistema Manipulando Módulo Sngpc 2013 – Manual do Usuário 1 Módulo SNGPC 2013 Guia Rapido de Abertura de Inventário

GEOMETRIA ANALÍTICA CONICASˆ - mat.ufrgs.brcalculo/conicas/conicas.pdf · Estas são chamadas conicas degeneradas, que não serão estudadas neste curso. Na página calculo/calculo1.html

SECRETARIA DE ESTADO DE EDUCAÇÃO DE MINAS GERAIS ...€¦ · comendo, ouvindo historias, colocando algo na boca, chorando, caminhando pelo espaço, manipulando objetos, brincando.

Aritmética de Alta Precisão - decom.ufop.br · Manipulando Polinômios Divisão • A divisão de polinômios é capciosa, pois os polinômios não são fechados sob divisão; •

AGT0001–Algoritmos Aula03 ManipulandoDados · Tipos de Dados Manipulando Dados Primitivos Escrevendo Programas UDESC ... Exemplos: vetores,matrizes,registros Karina G. Roggia 2016

Manipulando Pacotes

Definição Classe Objeto Construtor de Classes Manipulando o objeto Namespace Utilização do namespace Herança Polimorfismo Encapsulamento Propriedades.

INTELIGÊNCIAS MÚLTIPLAS Howard Gardner. Capacidade de análise de relações, categorias e padrões, manipulando objetos ou símbolos para experimentar de.

MANIPULANDO E CSS J SprogramaÇÃo para internet rica prof. dr. daniel caetano 2012 - 1 manipulando xhtml e css com javascript

AULA 5 – Manipulando Dados Matriciais: Grades e …cieg:aula5...5.1 AULA 5 – Manipulando Dados Matriciais: Grades e Imagens Nessa aula serão apresentadas algumas funcionalidades

Manipulando dados pelo excel Ax 2012

Curso MySQL #07 - Manipulando Registros DELETE UPDATE

lAGINA TREMORES DE TERR - Hemeroteca Digitalhemerotecadigital.cm-lisboa.pt/EFEMERIDES/Sismo1969/Dia... · 2019. 1. 14. · l"AGINA 8 DIÃRIO DE LISBOA 4 MARÇO 1969 TREMORES DE TERR

CONTROLE DE VIBRAC¸OES EM M˜ AQUINAS´ ROTATIVAS … · 2017. 2. 15. · Almir Satter e Renato Teixeira. Esta p´agina foi intencionalmente deixada em branco. AGRADECIMENTOS Aos