Post on 16-Apr-2015
Mineração de Textos
Luis Paulo Vieira Braga, D.Sc., Mba.
lpbraga@im.ufrj.br
http://www.dme.im.ufrj.br/braga.html
c.p. 2386
20.001-970 Rio de Janeiro, R.J.
Mineração de dados
• Mineração de dados• O que é ?• Metodologia básica• Mineração de textos• Para que serve• Como é feita• Exemplos
Mineração de dados
• O que é:• A mineração de dados é uma metodologia
para predição e classificação em grandes massas de dados observacionais, sem a tendenciosidade e a limitação de uma análise baseada exclusivamente na experiência do especialista.
Mineração de Dados
• Armazém de dados• Seleção dos dados de
interesse• Pré-processamento• Transformações
matemáticas• Classificação ou
Previsão
Mineração de Dados
Mineração de Dados
Mineração de Dados
Mineração de Dados
Mineração de Dados
• Classificação Não-Supervisionada: Tem por objetivo a separação das observações em sub-grupos ou classes. Segmentação é a criação de classes.
Mineração de Dados
5 4 3 2 1
A B C D E
Mineração de Dados
• Classificação Supervisionada: Determinar uma regra que possa ser usada para classificar, de forma otimizada, uma nova observação a uma classe já rotulada.
Mineração de Dados
1. Problema: identificar clientes que se interessariam em comprar CDB´s.
2. Dados: amostra de 150.000 clientes dos quais se mediram os seguintes atributos: idade, renda, variáveis demográficas, lucratividade, nível do depósito, freqüência de investimentos, ocasião das aplicações entre outras.
3. Extração de características : considerar apenas os atributos relacionados à recência, freqüência e fator monetário.
4. Modelo : Árvore de decisão
Mineração de Dados
5. Avaliação: A árvore explicou 80% do comportamento dos clientes
6. Implementação: Baseado na árvore foram enviados convites para parte da totalidade dos clientes do Banco propondo a aplicação em CDB´s
7. Retorno do Investimento: Gastou-se 30% a menos em divulgação porque ao contrário de outras promoções o contato só foi feito com parte dos clientes. A resposta foi 50% melhor do que em promoções anteriores.
Mineração de Dados
Sexo:
1 (H=1 e M=0)
Renda:
2000
Idade:
18 3 Tops
3 Standards 3 Tops 2 Standards 1 Standard 1 Standard , 2 Tops 1 Top 1 Standard 2 Tops
3
7 6
5 4
2
1
Mineração de Dados
• Análise de Associação: Determinar uma associação significativa entre diferentes observações.
Mineração de Dados
Caminhos mais percorridos % do total
1 http://www.rocknet.com.br/index.html 49,02 2 http://www.rocknet.com.br/index.html
http://www.rocknet.com.br/conectar.html 8,17
3 http://www.rocknet.com.br/index.html http://www.rocknet.com.br/news.html
5,87
4 http://www.rocknet.com.br/index.html http://www.rocknet.com.br/como.html
1,10
5 http://www.rocknet.com.br/index.html http://www.rocknet.com.br/como.html http://www.rocknet.com.br/instalando.html
0,88
total 65,06 Fonte: Construção de Websites comerciais, André Valle, FGV-EPGE
Mineração de Dados
• Predição: Prever o valor de um atributo em função das observações de outros atributos.
Mineração de textos
• O objetivo da Mineração de Textos é o processamento de informação textual, extraindo índices numéricos significativos a partir do texto e então tornar esta informação acessível para os programas disponíveis nos sistemas de mineração de dados.
Mineração de textos
• Podem ser analisadas palavras, agrupamentos de palavras, ou mesmo documentos entre si através das suas similaridades ou de suas relações com outras variáveis de interesse num projeto de mineração de textos.
Mineração de textos
• O objetivo na fase inicial do projeto é “transformar textos em números (índices significativos” , que podem então ser incorporados em outras análises tais como classificação supervisionada ou não supervisionada.
Mineração de textos
• Algumas aplicações típicas para mineração de textos:
• Análise de questões abertas em questionários.
• Processamento automático de mensagens, “e-mails”, etc...
• Busca de referências em uma coleção de artigos, motores de busca.
Mineração de textos
• Mais apropriado para um grande número de textos de tamanho médio ou pequeno.
• Não deve ser tratado como uma caixa preta. A intervenção do analista é necessária.
• Soluções não podem ser importadas de outra língua.
Mineração de textos
• Etapas em um Projeto de Mineração de Textos:• Entrada dos textos
• Pré-processamento
• Cálculo de frequências
• Indexação Semântica
• Visualização
• Classificação Não Supervisionada(“clustering”)
• Classificação Supervisionada (“preditive data mining”)
Mineração de textos
• Entrada dos textosm1Academia de Desenvolvimento Profissional e Organizacional Como evitar riscos com a TERCEIRIZAÇÃO 24 e 25 de Outubro de 2007 Elegemos uma equipe de profissionais capacitados para debater sobreos aspectosestratégicos, legais e burocráticos da terceirização. Saiba como sua empresa pode obter maior produtividade, com menorrisco além de altos níveis de competitividade com a Terceirização. Serão abordados, entre outros, temas como: Como identificar uma terceirização ilícita A competitividade através do outsourcing A visão do judiciário com relação ao trabalho terceirizado Prevenindo riscos trabalhistas decorrentes da terceirização Como minimizar riscos na contratação e gestão de prestação de serviços de terceiros Participação Especial: GRAN SAPORE BRASIL SACSN – COMPANHIA SIDERURGICA NACIONALADVB – ASSOCIAÇÃO DOS DIRIGENTES DE VENDAS E MARKETING DO BRASIL SOLICITE PROGRAMAÇÃO COMPLETA! Informe-se por e-mailou ligue 11 3031-6777 Se deseja excluir seu email de nosso mailing, CLIQUE AQUI
Mineração de textos
• Entrada dos textos
m2Visitar Bordeaux, uma das regiões vinícolas mais importantes do mundo, já é um privilégio. Imagine ter a honra de participar de uma degustação com o Sommelier pessoal da Baronesa Philippine de Rothschild ,tendo como pano de fundo o lendário Château Mouton Rothschild.
Quer visitar um dos maiores museus da história do vinho e jantar no restaurante Saint Julien?Participando desta promoção você ganha cupons para concorrer a esta mágica viagem, com direito a acompanhante.Acompanhe o roteiro da viagem: Dia 1: Viagem a Paris Dia 2: Trem TGV com destino a Bordeaux. Dia 3: Visita ao Chatêau Mouton Rothschild Visita ao Museu, caves e salas de barricas; Degustação com o sommelier pessoal da Baronesa Philippina Almoço no Restaurante Saint Julien Dia4: Visita a Saint Emillion Dia5: Retorno a Paris / Brasil.
Mineração de textos
• Entrada dos textosm3Cursos via InternetCalendario de cursos de Outubro de 2007 Curso Básico de Segurança em Instalações e Serviços em Eletricidade - NR 10De: 20/10/2007 à 18/12/2007Eletricistas, Eletrotécnicos, Operadores, Técnicos, Supervisores, Auxiliares de Manutenção, Mecânicos de Refrigeração, Engenheiros, Gerentes de Construção, Operação e Manutenção; Membros da CIPA, Técnicos e Engenheiros de Segurança e outros interessados responsáveis pela área elétrica e de segurança das instituições em geral. Proteger os trabalhadores que interagem com instalações elétricas, inclusive os que atuam em suas proximidades para fins de ...Saiba mais... Acompanhamento Os participantes terão o acompanhamento do engenheiro de segurança do trabalho habilitado, Sr. Benedito Lázaro Belut, durante todo o curso, para dirimir suas dúvidas.
Formação do Tutor:
ENGENHARIA DE AVALIAÇÕES - 2000 ENGENHARIA DE SEGURANÇA DO TRABALHO - 1995 ENGENHARIA ELÉTRICA UNESP – (FUNDAÇÃO EDUCACIONAL) – BAURU/SP - 1983 TECNOLOGIA DE SISTEMAS ELÉTRICOS – FUNDAÇÃO EDUCACIONAL – BAURU/SP - 1980 TÉCNICO ELETROTÉCNICA / COLÉGIO TÉCNICO INDUSTRIAL DE BOTUCATU/SP – 1976 37 Cursos de atualização áreas de: Elétrica, Informática, Segurança, Qualidade e Gestão. Investimento de R$ 666,00 por R$ 499,00 (quatrocentos e noventa e nove reais ).
Mineração de textos
• Textos agrupados em uma planilha
1URLs
2Root
3ReferencePage
12345678
C:\Documents and Settings\Owner\My Documents\letras\m1.txtC:\Documents and Settings\Owner\My Documents\letras\m2.txtC:\Documents and Settings\Owner\My Documents\letras\m3.txtC:\Documents and Settings\Owner\My Documents\letras\m4.txtC:\Documents and Settings\Owner\My Documents\letras\m5.txtC:\Documents and Settings\Owner\My Documents\letras\m6.txtC:\Documents and Settings\Owner\My Documents\letras\m7.txtC:\Documents and Settings\Owner\My Documents\letras\m8.txt
Mineração de textos
• Pré-processamento:• 1) Exclusão de palavras e números, baseada no
tamanho, nas letras inicial e final ou outros critérios.• 2) Manutenção ou exclusão de palavras baseada em
uma lista previamente definida.• 3) Identificação de sinônimos e antônimos.• 4) Determinação de radicais
Mineração de textos
• Pré-processamento:• 1) Exclusão de palavras e números, baseada no
tamanho, nas letras inicial e final ou outros critérios.
Caracteres válidos: letras latinas e algarismos arábicos
Tamanho mínimo da palavra, tamanho máximo, número máximo de consoantes, etc...
Mineração de textos
• Pré-processamento:• 2) Manutenção de palavras (lista de inclusão) e
eliminação de palavras (lista de exclusão). Há também uma lista de “multipalavras” para inclusão.
Lista de inclusão: curso, treinamento, atualização, especialização...
Lista de exclusão: o, de, para, até, ser, estarei, estarei, ter, haver...
Lista de multipalavras: estado da arte, mineração de dados...
Mineração de textos
• Pré-processamento:• 3) Identificação de sinônimos e antônimos.
Lista de sinônimos: profissional=técnico=executivo=empregado
Lista de antônimos: junior x senior
Mineração de textos
• Pré-processamento:• 4) Determinação de radicais
Lista de radicais: arquia- autarquia, monarquia
Mineração de textos
• Cálculo de frequências:• 1) Log-frequências• 2) Frequências binárias• 3) Frequências relativas a
textos• 4) Frequências de palavras• 5) Frequências inversas
Mineração de textos
1desenvolvimentoprofissional
2curso
3professor
4engenharia
5programas
6tecnologia
7vendas
8viagem
12345678
1 0 0 0 0 0 1 00 0 0 0 0 0 0 10 1 0 1 0 1 0 00 0 0 0 0 0 0 00 0 0 0 1 0 0 01 1 0 0 0 0 0 01 1 0 0 0 0 0 00 0 1 0 0 0 0 0
• Cálculo de frequências:• 2) Frequências binárias
Mineração de textos
• Indexação Semântica:• Decomposição em Valores
Singulares
Mineração de textos
• Decomposição em Valores Singulares
SVD Word importance (Spreadsheet21 in binario)Importance
cursodesenvolvimentodesenvolvimento profissionalengenhariaprofessorprofissionalprogramastecnologiavendasviagem
99,0760100,0000100,000056,119450,7966100,000060,736056,119450,966170,8412
Mineração de textos
• Decomposição em Valores Singulares
Singular v alues
0 1 2 3 4 5 6 7
Component
5
10
15
20
25
30
35
40
Sin
gula
r va
lue
% e
xpla
ined
Mineração de textos
• Classificação Não Supervisionada
Cluster members (binario)Number of clusters: 2Total number of training cases: 8
Case No.Final
classificationdesenvolvimentoprofissional
cursoprofessorengenhariaprogramastecnologiavendasviagemDistance tocentroid
12345678
1 1 0 0 0 0 0 1 02,0000002 0 0 0 0 0 0 0 12,0000002 0 1 0 1 0 1 0 00,0000002 0 0 0 0 0 0 0 01,7320512 0 0 0 0 1 0 0 02,0000002 1 1 0 0 0 0 0 01,7320512 1 1 0 0 0 0 0 01,7320512 0 0 1 0 0 0 0 02,000000
Mineração de textos
Academia de Desenvolvimento Profissional e Organizacional Como evitar riscos com a TERCEIRIZAÇÃO 24 e 25 de Outubro de 2007 Elegemos uma equipe de profissionais capacitados para debater sobreos aspectosestratégicos, legais e burocráticos da terceirização. Saiba como sua empresa pode obter maior produtividade, com menorrisco além de altos níveis de competitividade com a Terceirização. Serão abordados, entre outros, temas como: Como identificar uma terceirização ilícita A competitividade através do outsourcing A visão do judiciário com relação ao trabalho terceirizado Prevenindo riscos trabalhistas decorrentes da terceirização Como minimizar riscos na contratação e gestão de prestação de serviços de terceiros Participação Especial: GRAN SAPORE BRASIL SACSN – COMPANHIA SIDERURGICA NACIONALADVB – ASSOCIAÇÃO DOS DIRIGENTES DE VENDAS E MARKETING DO BRASIL SOLICITE PROGRAMAÇÃO COMPLETA! Informe-se por e-mailou ligue 11 3031-6777 Se deseja excluir seu email de nosso mailing, CLIQUE AQUI
Mineração de textos
f1: deposit the cash and check in the bankf2: the river boat is on the bankf3: borrow based on creditf4: river boat floats up the riverf5: boat is by the dock near the bankf6: with credit, I can borrow cash from the bankf7: boat floats by dock near the river bankf8: check the parade route to see the floatsf9: along the parade route
Mineração de textos
1the
2cash
3check
4bank
5river
6boat
7be
8on
9borrow
10credit
11float
12by
13dock
14near
15parade
16route
17paraderoute
123456789
2 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0 02 0 0 1 1 1 1 1 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 1 1 1 0 0 0 0 0 0 01 0 0 0 2 1 0 0 0 0 1 0 0 0 0 0 02 0 0 1 0 1 1 0 0 0 0 1 1 1 0 0 01 1 0 1 0 0 0 0 1 1 0 0 0 0 0 0 01 0 0 1 1 1 0 0 0 0 1 1 1 1 0 0 02 0 1 0 0 0 0 0 0 0 1 0 0 0 1 1 11 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1
1-2 do que 1-3
Mineração de textos
Projec tion of the c as es on the f ac tor-plane ( 1 x 2)
Cas es w ith s um of c os ine s quare >= 0,00
A c tiv e
1 2
3
4 5
6
7
8
9
-5 -4 -3 -2 -1 0 1 2 3 4 5 6
Fac tor 1: 32,49%
-5
-4
-3
-2
-1
0
1
2
3
4
5
Fac
tor
2: 2
5,10
%