Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.
Transcript of Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.
![Page 1: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/1.jpg)
Extração da Informação
Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana
![Page 2: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/2.jpg)
Motivação Processo de extração da informação Abordagens para um sistema de EI Aplicações Conclusão
Roteiro
![Page 3: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/3.jpg)
Crescimento desordenado da internet:◦ Em Dez/2012 o site InternetArchive afirmou que a
internet possuia 10PetaBytes◦ Em 2015 estudos prevêm 966ExaBytes
(1,000,000,000,000,000,000bytes)
Oportunidade de extrair informações da rede◦ Problemas
Documentos na maioria das vezes: não-estruturas ou semi-estruturados
Migração de dados entre interfaces distintas: Web-service -> Banco de Dados
Motivação
![Page 4: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/4.jpg)
Com Extração de Informações é possível:◦ Gerar resumos de textos
◦ Minerar Dados
◦ Preencher Base de Dados
◦ Sumarizar Textos
Motivação
![Page 5: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/5.jpg)
O que é EI?
◦ Encontra informações em documentos não estruturados ou semi-estruturados
◦ Conversão para estruturas de tabelas WebServices Banco de Dados
◦ Exibição dos dados de forma legível
Introdução
![Page 6: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/6.jpg)
Introdução
Sistema de
Extração de
Informação
Sistema de
Extração de
Informação
![Page 7: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/7.jpg)
Processo de extração de informação
![Page 8: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/8.jpg)
História
◦ JASPER (1980s) Sistema para finanças
◦ MUC-Message Understanding Conference [final da década de 80]
◦ Internet/Web [década de 90]
Introdução
![Page 9: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/9.jpg)
Recuperação de informação trata documentos relevantes, levando em conta os termos que aparecem no documento
Análise sintática do documento
Recuperação de Informação
![Page 10: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/10.jpg)
Busca mais direta nos textos. Pesquisa direcionada em partes específicas
do texto Possui custo computacional mais baixo,
menor esforço
Extração de Informação
![Page 11: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/11.jpg)
Extração de informação é uma tarefa na área de Recuperação da Informação
As informações são extraídas baseando-se no prévio conhecimento do documento
Procura encontrar informações e derivar conhecimento de documentos recuperados através da estrutura de sua representação
Extração de Informação
![Page 12: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/12.jpg)
Mineração na web
![Page 13: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/13.jpg)
Processo de extração de informação
Documento Reconhecimento de entidades
Análise Léxica e Morfológica
Análise Sintática
Análise de relacionamentos e contexto
Análise semântica
InferênciaInformação estruturada e contexto
Extração individual
Integração
![Page 14: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/14.jpg)
A Implementação de sistemas de Extração de Informação distinguem-se entre duas abordagens:◦ Engenharia de conhecimento◦ Treinamento automático
As abordagens são diferenciadas pela forma com que as regras são definidas
Sistema de EI
![Page 15: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/15.jpg)
Regras são elaboradas manualmente Para isso é necessário que um especialista
em sistemas de Extração de Informação participe efetivamente da criação das regras
Sistemas mais precisos Mais tempo para desenvolvê-lo
Engenharia de conhecimento
![Page 16: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/16.jpg)
Algoritmos de Inteligência Artificial para treinar o sistema
Documentos são utilizados no treinamento e na geração das regras
Usuários podem interagir◦ O algoritmo aprende regras com a interação com o
usuário
Tempo menor de desenvolvimento
Menor precisão nos resultados
Treinamento automático
![Page 17: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/17.jpg)
Wrappers
Processamento de Linguagem Natural – PLN
Abordagens para um Sistema de EI
![Page 18: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/18.jpg)
Módulo que extrai a informação de documentos e a exporta como parte de uma estrutura de dados
Avanço da WEB, necessidade de sistemas mais eficientes com capacidade suficiente para extrair informação dos textos
Wrappers
![Page 19: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/19.jpg)
Textos estão◦ Estruturados◦ Semi-estruturados
Utilizam dados sobre a formatação do texto, marcadores, freqüência estatística das palavras
Wrappers
![Page 20: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/20.jpg)
Automática◦ Define regras de extração com um corpus de
treinamento com de técnicas de aprendizagem de máquina.
Semi-automática◦ Auxiliado por ferramentas, o usuário especifica a
estrutura e o contexto dos dados a serem extraídos.
Manual◦ Mais demorada e trabalhosa, porém com maior
precisão nos dados extraídos.
Construção de wrappers
![Page 21: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/21.jpg)
Textos estão◦ Semi-Estruturados (pouca estrutura)◦ Sem estrutura
PLN trabalha com língua e suas nuances para descobrir dados relevantes a serem extraídos
Processamento de Linguagem Natural - PLN
![Page 22: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/22.jpg)
Nível Morfológico Nível Sintático Nível Semântico Nível Discursivo Nível Pragmático
Visão Geral
![Page 23: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/23.jpg)
A análise Morfológica determina:
Nível Morfológico
Radical + Sufixo
Classe da Palavra
Conjugação Pessoa
Eat+s Verbo Singular 3ª Pessoa
Dog+s Substantivo Plural ----------
![Page 24: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/24.jpg)
A análise sintática faz uso do dicionário gerado pela análise morfológica procurando mostrar relacionamento entre palavras.
As palavras que apresentam apenas um sentido possível podem ser substituídas pela sua representação semântica
Tem como saída a representação da sentença que representa as dependências entre palavras
As sentenças de exemplo apenas diferem na sintaxe e apresentam significados diferentes
Nível Sintático
![Page 25: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/25.jpg)
Não é apenas neste nível que o significado é determinado, todos os níveis contribuem para a determinação do significado
O nível semântico determina o possível significado de uma sentença, focando nas interações entre os significados das palavras na sentença
Sem ambiguidade semântica◦ A cabeça une-se ao tronco pelo pescoço◦ Ele é o cabeça da rebelião◦ Sabrina tem boa cabeça
Nível Semântico
![Page 26: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/26.jpg)
Analisa textos maiores que sentenças Foca nas propriedades do texto como um
todo, determinando significado através das conexões de sentenças
Resolução de Anáfora: ◦ Substituição de pronomes pelas entidades que
eles referenciam
Reconhecimento de estrutura de texto: ◦ em um revistas temos; artigos de capa, opiniões,
eventos passados, anúncios
Nível Discursivo
![Page 27: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/27.jpg)
Foca no significado que vai além do contexto do texto
Requer um conhecimento global Os exemplos seguintes utilizam anáforas
mas as resoluções necessitam de um conhecimento global◦ Os vereadores recusaram receber os
manifestantes, porque eles temiam o confronto◦ Os vereadores recusaram receber os
manifestantes, porque eles defendiam a revolução.
Nível Pragmático
![Page 28: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/28.jpg)
Autômatos finitos Casamento de padrões Classificadores de texto Modelos de Markov escondidos (HMM)
Técnicas de Extração
![Page 29: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/29.jpg)
Bons para textos estruturados. Definidos manualmente ou aprendidos
automaticamente. Tipos:
◦ Acceptors: com resposta sim ou não◦ Recognizers: um ou mais estados finais
(categorização)◦ Transducers
Autômatos Finitos
![Page 30: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/30.jpg)
Textos estruturados, semi-estruturados e livres.
Padrões descritos através de expressões regulares (ER) que “casam” com o texto para extrair as informações.
ER mais intuitivas do que autômatos.
Casamento de Padrões
![Page 31: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/31.jpg)
Textos semi-estruturados Documento é dividido em fragmentos,
podendo utilizar várias características deles (tamanho, posição, formatação, presença de palavras)
Realiza classificação local independente para cada fragmento, perdendo informações estruturais importantes do documento
Classificadores de Texto
![Page 32: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/32.jpg)
Textos livres e semi-estruturados. Verifica a ocorrência de padrões em
sequência no texto de entrada. Assume-se que a probabilidade de se visitar
um site depende do site que foi visitado anteriormente.
Maximiza a probabilidade de acerto para o conjunto todo de padrões.
Modelos de Markov Escondidos (HMM)
![Page 33: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/33.jpg)
Ubibus◦ UbibusAnalysis
TG de vgl2 do Cin UFPE Extrator de Dados Contextuais - responsável por
buscar nas redes sociais informações sobre ocorrências de trânsito no Recife
Aplicações de Extração de Informação
![Page 34: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/34.jpg)
Filtragem de Fóruns◦ Controle de Conteúdo◦ Assunto do Dialogo
Monitoramento da WEB◦ Buscar por Hackers◦ Busca por Terroristas
Aplicações de Extração de Informação
![Page 35: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/35.jpg)
DEWI◦ É uma ferramenta baseada na Web que permite
aos usuários encontrar e extrair as variáveis de conjuntos de dados selecionados dentro da ciência social, a coleta de dados numéricos “The Stanford University Libraries”.
◦ Ele está disponível para uso pela comunidade de Stanford para investigação e instrução.
◦ O Sistema DEWI foi inspirado no Codebook Eletrônico (BCE) para Windows que foi desenvolvido por Dennis Carroll no Centro Nacional para Estatísticas da Educação (ENC).
Aplicações de Extração de Informação
![Page 36: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/36.jpg)
Software aplicado em várias áreas:
A seguir, histórias de sucesso de clientes para extração de dados Web
Aplicações de Extração de Informação
![Page 37: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/37.jpg)
Aplicações de Extração de Informação
![Page 38: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/38.jpg)
Aplicações de Extração de Informação
![Page 39: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/39.jpg)
Aplicações de Extração de Informação
![Page 40: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/40.jpg)
Aplicações de Extração de Informação
![Page 41: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/41.jpg)
Aplicações de Extração de Informação
![Page 42: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/42.jpg)
Aplicações de Extração de Informação
![Page 43: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/43.jpg)
Aplicações de Extração de Informação
![Page 44: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/44.jpg)
Extrair Informação é preciso WEB é um pandemônio de informações Soluções inteligentes
Conclusões
![Page 45: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/45.jpg)
Dúvidas
![Page 46: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/46.jpg)
MANFREDINI, V. H.; Proposta de uma Técnica de Extração de Informação de Arquivos de Log de Servidores Proxy
Silva, E. F. A.; Barros, F. A.; Prudencio, R. B. C.; Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados
http://en.wikipedia.org/wiki/Information_extraction
Liddy, E. D. In Encyclopedia of Library and Information Science, 2nd Ed. Marcel Decker, Inc http://www.cnlp.org/publications/03NLP.LIS.Encyclopedia.pdf
Referências
![Page 47: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/47.jpg)
Schneider O. M., Rosa, L.J., Processamento de Linguagem Natural (PLN), http://moschneider.tripod.com/pln.pdf
Aranha C., Passos E. A Tecnologia de Mineração de Textos, PUC-RIO
Bulegon H., Moro M. C. C., Text Mining and Natural Language Processing in Discharge Summaries, PPGTS,PUCPR
http://143.54.31.10/reic/edicoes/2003e2/tutoriais/MineracaoNaWeb.pdf
Referências
![Page 48: Gregório Patriota Lucas Paes Renan H. Torres Vinícius Viana.](https://reader035.fdocumentos.tips/reader035/viewer/2022062307/552fc130497959413d8d471e/html5/thumbnails/48.jpg)
www.cin.ufpe.br/~if796/2006-1/ExtracaoInformacao.ppt
http://sare.unianhanguera.edu.br/index.php/rcext/article/viewFile/413/409
MELO, Taciana. Um Sistema Especialista para Extração e Classificação de Receitas Culinárias em Páginas Eletrônicas. Trabalho de Conclusão de Curso. UFPE, CIn. 2000. - www.cin.ufpe.br/~tg/2000-2/tmlm.doc
Referências