Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS...

Post on 17-Apr-2015

111 views 0 download

Transcript of Processamento da Linguagem Natural PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO GRANDE DO SUL - PUCRS...

Processamento da Linguagem Natural

PONTIFÍCIA UNIVERSIDADE CATÓLICA

DO RIO GRANDE DO SUL - PUCRS

Faculdade de Informática

Ricardo Annes

2

Apresentação

• Processamento da Linguagem Natural– Processamento Baseado em Corpus– Etiquetação – Conclusões

• Sistemas Multi Agentes

• Arquitetura de Etiquetadores Multi-Agentes

• Referências

3

Processamento da Linguagem Natural

• Ramo da I.A.

• Objetivos– interpretar e processar o conhecimento disponível

• compreensão

• geração

– melhorar a comunicação Homem X Máquina

• interdisciplinar– computação– lingüística– ciências cognitivas

4

Processamento da Linguagem Natural

• Aplicações– tradução automática– correção de textos– geração de resumos– sistemas inteligentes– interface– consultas bibliográficas– consultas tipo SQL em BD– síntese / análise de voz

5

Processamento da Linguagem Natural

• língua X linguagem

• processamento– interpretação

• texto representação

– geração• representação texto

6

Processamento da Linguagem NaturalLinguagem

• natural artificial– geral - restrita– complexa - limitada– contextual - específica– ambígua - não ambígua

– português - fortran– inglês - pascal– francês - C– espanhol - java

7

Fenômenos lingüísticos

• Elipse Não ganhei na loto.• Zeugma Comprei uma caixa de maças e outra de

ameixas.

• Metáfora Um mar de problemas.

• Metonímia Gosto de ler Érico Veríssimo.

• Anáfora João gosta de Maria. Ela gosta de José.

• Ambigüidade casa - substantivo ou verbo

manga - fruta ou peça do vestuário

Se você quer comprar um carro rápido.

8

Domínios do PLN

• Léxico-morfológico

• Sintático

• Semântico-pragmático

9

Domínio Léxico-morfológico

• Analisador léxico-morfológico

• léxico (dicionário)

• categorias gramaticais– substantivo adjetivo– verbo adverbio– numeral artigo– pronome preposição

• ambigüidade léxica-morfológica– casa, mato, morro

10

• Relações entre palavras da sentença

• gramaticalidade

• Unidades sintáticas (sintágmas)– sujeito– predicado– complemento verbal / nominal

• concordância

• regência

• posicionamento

Domínio Sintático

11

Domínio Sintático

texto

estrutura da sentença

gramática

léxico

todas sentença

léxico-morf.

parser

Eu vi a moça com o binóculos.

Árvore de derivações

12

• Representação do significado e sentido.

• Semântica – léxica– gramatical

Um assador de churrasco gaúcho

• fenômenos de referência– anáfora pronominal Ela gosta do

Zé.– elipse

• sarcasmo

Domínio Semântico-pragmático

13

• texto formalismos representação

• representação texto

• templates

• Eliza[MIT60]

Geração de textos

14

• Fonética

• Fonologia

• Prosódia– volume– entonação– tempo (velocidade e ritmo)

• sarcasmo

• agressividade

• excitação

Fala

• amor

• simpatia

palavras

proc. sinal

reconhecimento

fala

class. acústica

Sistema PLN

fonética

intonação

palavras

caracteres f. i.

sintet. voz

fala

ALLEN

Processamento baseado em Corpus• Corpus - coleção de textos

– escritos ou orais – representativos da linguagem– computacionalmente disponíveis– o plural - corpora

• estudo do conhecimento lingüístico através de exemplos

• vantagens– acessibilidade– velocidade– exatidão / fidelidade

Processamento baseado em Corpus

• treino e teste de sistemas de PLN

• corpus– simples – marcados / anotados / rotulados / etiquetados

18

PLN - conclusões

• Ainda é um problema sem solução– relacionamento entre os domínios– interdisciplinar

• IA

• lingüística

• ciências cognitivas

– pesquisa

• soluções domínios restritos

• aplicações – reconhecimento de voz, geração de texto– formalismos para representação

19

Domínios do PLN

• Léxico-morfológico

• Sintático

• Semântico-pragmático

20

PLN - conclusões

• Arquiteturas

• módulos hierárquicos independentes – seqüenciais– explosão combinatória

• Distribuição (IAD) SMA

interdependentes

21

PLN - conclusões

• Trabalhos na área– Ambigüidade léxica categorial [Silva97]– Anáfora do pronome possessivo [Paraboni97]– Léxico semântico [Abrahão97]– Tradução automática [Agustini]– Elipse [Unicamp]– www.portugues.mct.pt/recursos.html– SBIA - www.inf.pucrs.br/~sbia98/– PROPOR - www.inf.pucrs.br/~sbia98/propor98.html

Etiquetação

ETIQUETADORsentençaSentença marcada

Quem casa, quer casa.

Quem/pronome indef.

casa/verbo intransitivo

,/vírgula

quer/verbo trans. direto

casa/substantivo comum

./ponto final

Etiquetador

• estatístico - padrões corpora

• baseado em regras - lingüísticas

• misto - regras obtidas processo estatístico

[BRILL93]

Etiquetador Estatístico (fases)

- treinamento - aprende (corpus marcado)

- teste - marcação (corpus conhecido)

avalidação (medida de precisão)

- marcação - marca sentenças

- HMM - forma de modelar

Corpus de treinamento

classificadorClasses de

ambiguidadee rótulos

Construtor do HMM

Corpus de teste

classificador Classes de ambiguidade

Viterbi Rótulos

dicionário HMMtreinamento

teste

Rotulador Estatístico de Categorias Morfo-Sintáticas para a Língua Portuguesa

Sistemas Multi-Agentes

Sociedade - coleção de entidades

- coordenação

Agentes - entidades atuam na sociedade

- autonomia

- cooperação

- aprendizagem

- objetivos- conhecimentos

Sistemas Multi-Agentes

agentes + ambiente + interações + organização

[DEMA95]

interações - protocolos

apresentação

troca de conhecimentos

negociação

Agente Genérico

Conhecimento EscolhaComunicação

Capacidadesde Decisão

PossibilidadesCapacidadesde raciocínio

Percepção

Objetivos

Modelo de agente [DEMA90]

ARQUITETURA DO SISTEMA

Problema

- conhecimento lingüístico

- conhecimento distribuído - processos distribuídos

- genérico

- específico

precisão corpus de treinamento muito grande

fase de treinamento (tempo)

corpus único perde dependência ao domínio

motiva múltiplos corpora

MAS

Fase de treinamento

corpus T1

HMM T1

Agente T1

corpus T3

HMM Genérico

Agente Genérico

. . .corpus T2 corpus Tn

HMM T2

Agente T2

HMM T3

Agente T3

HMM Tn

Agente Tn

Fase de Marcação

sentença

s

AgenteGenérico

sentençassemi-marcadas

AgenteT1

ou ou

sentençasmarcadas

. . .

AgenteT2

AgenteTn

sentençasmarcadas

sentençasmarcadas

Modelo do Agente

• Conhecimento - HMM (treinamento)

• Objetivos - aquisição de conhecimento

- marcação

• Comunicação - corpus treinamento / sentenças

- interação social (prot. KQML)

• Raciocínio social - negociação

• Ações - marcação- atualização conhecimentos

- comunicação entre agentes

Cooperação entre os Agentes

• INTERAÇÕES– Apresentação– Despedida– Requisição ao agente genérico– Requisição a outro agente específico– Negociação

Protótipo em desenvolvimento

• Conhecimento modelo bigramas (HMM)

• DPSK+P ambiente (MASENV)

• KQML

• NALAMAS

• Etiquetador - UNL

Hidden Markov Model

HMM tuplas <S, s1, W, T>

onde:

S conjunto de estados

s1 estado inicial

W conjunto símbolos

T as transições

Hidden Markov Model

HMM tuplas <S, s1, W, T>

onde:

S conjunto de estados rótulos

s1 estado inicial

W conjunto símbolos palavras

T as transições palavras

Hidden Markov Models

1 2

P(a) = 0,3

P(b) = 0,1

P(b) = 0,1

P(a) = 0,2

P(b) = 0,2 P(b) = 0,5

P(a) = 0,4 P(a) = 0,2

Referências de PLN

• [ALLE94] ALLEN, J. Natural language understanding. The Benjamin/Cumming Company. 1994.

• [BEAR91] BEARDON, C; LUMSDEN, D.; HOLMES, G. Natural Language and Computational Linguistics. Ellis Horwood Ltd. Melsham-Wiltshire, England, 1991.

• [CHARN93] CHARNIAK. E. Statistical language learning. London: Abradford Book.The MIT Press. 1993. 170p.

• [DE LIMA96] DE LIMA, V.L.S. - Processamento da Linguagem Natural - premissas e desafios -IV Escola Regional de Informática - SBC. 1996

• [DE LIMA97] DE LIMA, V.L.S. - Projeto NALAMAS - Atividades setembro 1996/ agosto 1997 - PUCRS - Relatório Técnico -1997

annes@pucrs.campus2.br

PONTIFÍCIA UNIVERSIDADE CATÓLICA

DO RIO GRANDE DO SUL - PUCRS

Faculdade de Informática

Ricardo Annes