1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

1

Extração de Informações

Carlos Alberi dos Santos MeloIvan Gesteira Costa Filho

2

Crescente números de Crescente números de textostextos digitalizados: intranets, bibliotecas digitalizados: intranets, bibliotecas

digitais, CD-Rom, ...digitais, CD-Rom, ...

WEB

Page 3: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

3

• Trata o problema de extração de dados Trata o problema de extração de dados a partir de uma coleção de documentos.a partir de uma coleção de documentos.

• Apenas informações relevantesApenas informações relevantes

Extração de Informações

4

IR x IE

• IR (Information Retrieval)– recuperação de páginas (documentos)– ex. nosso projeto

• IE (Information Extraction)– recuperar dados dentro de documentos– deadlines, locais e assuntos em páginas de

“call for papers”

Page 5: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

5

Contexto

Documentos

Dados

Classificação

Extração deInformação

Page 6: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

6

Histórico

• Linguistic String Project (60)• FRUMP - newswire (79)• DARPA - Grupos de Pesquisa (80)• MUC - Message Understanding

Conference (80)

Page 7: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

7

Tipos de Texto

• Estruturados– Ex. tabelas, listas, XML, ...

• Não estruturados– Ex. Fichas médicas, artigos, reportagens, ...

• Semi-estruturados– Ex. Referencias bibliográficas, anuncios, ...

Page 8: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

8

Texto Estruturados

<html><title> Some Country Codes </title><body>Some Country CodesCongo242 Egypt20 Brazil55 </body></html>

Some Country CodesCongo 242Egypt 20Brazil 55

Page 9: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

9

Texto Não Estruturados

• Evento– Pessoa Entrando: C. Vicent Protho– Pessoa Saindo: John W. Smith– Cargo: Presidente

C. Vicent Protho, diretor executivo do deste fabricante de chips, foi nomeado ao posto adicional de presidente , sucedendo John W. Smith, que renunciou o cargo em vista de outros interesses.

Page 10: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

10

Texto Semi-estruturados

VDO/TRC/ALG - Casa Pau Amarelo c/ 3 qts, 2sls, copa, coz, 3wcs, muro alto. Terreno medindo 936m2, area construída 248.69m2. R$50 mil.Fones: 436.1648

Page 11: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

11

XML

• Tags SGML• Semântica no texto.• Arquivo DTD

Será XML amplamente usado na WEB?

Page 12: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

12

XML

<!doctype CodigoTelefonico SYSTEM ”http:/www.di.ufpe.br/ias/codtel.dtt><pais>Congo</pais><codigo>242</codigo><pais>Egypt</pais><codigo>20</codigo><pais>Brazil</pais><codigo>55</codigo>

<!element CodigoTelefonico (Pais, Codigo)><!element Pais (#PCDATA)><!element Codigo (#PCDATA)>

Documento XML

DocumentoDTT

Page 13: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

13

Técnicas de IE

WrappersPLN

•Textos não-estruturados•Técnicas simplificadas de PLN

•Textos estruturados•Aplicações Web

•Ex. html, wml, xml, ..

Page 14: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

14

PLN

Análise Léxica /Morfológica

Análise Sintática/Semântica

Construção de Regras de Extração

Preenchimentode Templates

Análise deDiscurso

Tokenização

Page 15: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

15

PLN - Tokenização

Tokenização

Análise Léxica /Morfológica

Análise Sintática/Semântica

Construção de Regras de Extração

Análise deDiscurso

Preenchimentode Templates

•Segmentação das Palavras•Divisão em segmentos (estruturas)•Pre-processamento

– ignorar partes do texto

Page 16: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

16

PLN - Análise Léxica

Tokenização

Análise Léxica /Morfológica

Análise Sintática/Semântica

Construção de Regras de Extração

Análise deDiscurso

Preenchimentode Templates

•Classificação Morfológica (artigo, verbo, substantivo).•Reconhecimento de nomes próprios, empresas, datas, ...•Etiquetagem automática

Page 17: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

17

PLN - Análise Sintática

Tokenização

Análise Léxica /Morfológica

Análise Sintática/Semântica

Construção de Regras de Extração

Análise deDiscurso

Preenchimentode Templates

•Construção arvore sintática•Grupos Nominais•Grupos Verbais

•Análise sintática parcial

Page 18: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

18

PLN - Construção de Padrões

Tokenização

Análise Léxica /Morfológica

Análise Sintática/Semântica

Construção de Regras de Extração

Análise deDiscurso

Preenchimentode Templates

•Dicionário de padrões de Extração•Específico ao Domínio•Automática X Manual

•eficiência, portabilidade, treinamento, alterações ad hoc

Page 19: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

19

PLN - Construção de Padrões

•O parlamento foi bombardeado pela Guerrilha.•A guerrilha bombardeou o parlamento

ALVO - foi bombardeado pela - GRUPOgrupo-nominal(ALV,cabeca(alvo-fisico))grupo-nominal(GRP,cabeca(GRP))grupo- verbal(VG,tipo(passivo),cabeca(bombardeado)

sujeito(ALV,VG)objeto(GRP,VG)

-> EventoBonbardeamento(alvo(AVL),agente(GRUPO))

Exemplo:

Regras:

Page 20: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

20

PLN - Análise de Discurso

Tokenização

Análise Léxica /Morfológica

Análise Sintática/Semântica

Construção de Regras de Extração

Análise deDiscurso

Preenchimentode Templates

•Relações entre sentenças do texto.•Correferência•Ligações entre palavras.

Page 21: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

21

PLN - Preenchimento dos Templates

Tokenização

Análise Léxica /Morfológica

Análise Sintática/Semântica

Construção de Regras de Extração

Análise deDiscurso

Preenchimentode Templates

•Preenches os dados em templates especificados pela aplicação.•Objetos ou tabelas

Page 22: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

22

Avaliação do Sistema

• Corpus Etiquetado• Cobertura X Precisão• F-Measure

• Taxa Mínima de 90%

FMeasure = (2 * Cobertura * Precisão) (Cobertura + Precisão)

Page 23: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

23

Problemas - PLN

• Adequação de Teorias• Custo de Etiquetagem

– Técnicas automáticas

• Custo de Produção– Seis especialistas mês

Page 24: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

24

PLN X Homem

• Tipster– 38 paginas de regras– Artigos de 10 paginas

Homem MáquinaX

60% a 80% 50%

30 minutos20 horas

Page 25: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

25

Wrappers

• Ferramenta usada para extrair dados de textos estruturados ou com algum tipo de estrutura

• Usada para permitir acesso integrado a base de dados heterogêneas

• Não usa conhecimento lingüístico• Identifica padrões no documento

Page 26: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

26

Tarefas & Construção

• 3 Tarefas– Recuperar/ler documento– Extrair informações– Estruturar os dados (ex. BD)

• Construção– Depende do problema a ser resolvido

• Abordagem– Manual– Semi-automática– automática

Page 27: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

27

Construção Manual

• Regras escritas manualmente em uma linguagem de programação

Page 28: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

28

Construção Manual

• Prós– Maior precisão – Técnica simples

• Contra– Tempo e esforço de desenvolvimento– Habilidade para definição das regras– Mudança no código caso a estrutura dos

documentos seja alterada

Page 29: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

29

COIN (Context Interchange)

• Utiliza wrappers para permitir acesso integrado a fontes de dados heterogêneas

• A intenção é construir wrappers com interfaces genéricas

• Proporcionar facilidade de reuso de código

Page 30: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

30

Arquitetura

Interpretador

Projetista/Otimizador

Interpretador

Executor

Casamento de padrões

Acesso à rede

Especificações

Documentos Web

consultaResultados

Page 31: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

31

ProdExt

• Extração de dados sobre produção técnica.– Ex. Autor, Título, Local, Data, ...

• Textos semi-estruturados• Arquitetura Híbrida

Page 32: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

32

ProdExt - PLN

• Análise Léxica– Identificação de nomes de lugares, datas,

veículos, nomes próprios (desejável)

• Dicionários– Veiculo de publicação, editora

Page 33: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

33

ProdExt - Wrappers

• Regras com peso– Autor, Título, Veiculo de Produção, ...

• Ex. Regra para Título

Se cadeia tem sinal de hifem ou dois pontos:ENTÃO incrementa a chance de ser Título( 0.25)e incrementa a chance de ser Veículo( 0.2)e incrementa a chance de ser Local( 0.1)e incrementa a chance de ser Editora( 0.015)

Page 34: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

34

Construção semi-automática

• Uso de uma ferramenta no desenvolvimento

• Especificado de maneira interativa e com uso de exemplos

• O usuário delimita trechos que interessam

Page 35: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

35

Construção semi-automática

• Com base nos trechos selecionados, a ferramenta define um padrão sintático

• O resultado é um conjunto de dados estruturados de acordo com o modelo criado pela ferramenta

Page 36: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

36

Construção semi-automática

• Prós:– Torna mais rápido e fácil o desenvolvimento

• Contras:– Caso a estrutura do documento seja

modificado o wrapper tem que ser refeito

Page 37: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

37

NoDoSe

• Ferramenta para estruturar e extrair dados de forma semi-automática

• Tanto o processo de estruturação quanto o de extração ocorre interativamente

Page 38: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

38

O processo

• Especificar como os dados devem ser modelados:– A estrutura é constituída de um conjunto de nós– Cada nó é descrito por uma lista de atributos

onde cada atributo tem a forma: <nome, valor>

• Decompor o documento em regiões:– As regiões são mapeadas em nós

• Definir o formato de saída:– Relatórios, BD etc.

Page 39: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

39

Construção Automática

• Utiliza indução para encontrar padrões a partir de um conjunto de exemplos

• O processo de aprendizagem pode gerar várias hipóteses para um mesmo dado

• A solução é ajustar o algoritmo de aprendizagem para obedecer alguns critérios

Page 40: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

40

Construção Automática

• Três aspectos a considerar em relação ao processo de aprendizagem:– Aprendizagem o corre de maneira

incremental ou o corpus é definido antecipadamente

– Em que linguagem(ou formalismo) será descrito o corpus e as hipóteses

– O algoritmo terá abordagem top-down ou bottom-up

Page 41: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

41

Construção Automática

• Prós:– Não requer nenhum esforço humano

• Contras:– As regras dependem do dos exemplos de

treinamento– Caso a estrutura dos documentos seja

alterada torna-se necessário selecionar um novo corpus e repetir o processo de aprendizagem

Page 42: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

42

ShopBot

• Agente de compras para comércio eletrônico

• Realiza consultas em lojas on-line e extrai e resume informações de interesse

• Duas fases de atuação:– Aprendizado

• Analisa páginas utilizando técnicas de aprendizagem– Comparação

• Encontra o melhor preço de um produto específico

Page 43: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

43

Análise

• Procura-se padrões no código do documento HTML

• Cria uma seqüência de registros separadas por tags visualmente perceptíveis como:– <HR>, , , <LI>

• Gera uma assinatura para cada registro através da remoção de tags HTML.

Page 44: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

44

Análise

• Página de entrada:

<html> <title>CD’s</title> <body> Preços Pixies 23,00 The Cure 22,00 Suede 22,00 </body> < /html>

Page 45: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

45

Análise

• Assinatura:<html> <title>texto</title> <body> textotexto texto texto texto texto texto </body> </html>

• A primeira e a última linha representam, cada uma, apenas 1/5 das assinaturas, enquanto as outras, idênticas, representam 3/5

• O shopBot descarta então, a primeira e a última linha

Page 46: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

46

Avaliação de Wrappers

• O modo de avaliação não é padrão• Podem ser usados:

– Tempo de processamento em relação ao volumes de dados;

– Taxa de erros;– Custo e eficácia no processo de

aprendizagem;– F-measure, etc.

Page 47: 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.

47

Bibliográfia

• Rodrigues Nunes C.C. ProdExt: Um Wrapper para Extração de Produção Técnica e Científica de Páginas Eletrônicas. Dissertação de Mestrado, UFPE, 2000.

• Cowie J., Lehnert W.. Information extraction. Comunications of the ACM, 39(1):80-91, January 1996.

• Maruyama H., Tamura K., Uramoto N. XML and Java.Addison-Wesle, 1998

Download - 1 Extração de Informações Carlos Alberi dos Santos Melo Ivan Gesteira Costa Filho.