Processamento de Linguagem Natural Inteligência Artificial Prof. Cedric Luiz de Carvalho Instituto...

Post on 16-Apr-2015

108 views 0 download

Transcript of Processamento de Linguagem Natural Inteligência Artificial Prof. Cedric Luiz de Carvalho Instituto...

Processamento de Linguagem Natural

Inteligência Artificial

Prof. Cedric Luiz de CarvalhoInstituto de Informática

UFG 2006

Comunicação

Ao entardecer em uma floresta na região da Estrada de Ferro, um grupo de macacos guariba está procurando comida nas folhagens debaixo das tortuosas árvores da região, quando de repente um guariba solta um grito alto, parecido com um latido

Comunicação Os outros macacos que

estavam comendo reconhecem isto como um gripo de perigo por causa de uma onça pintada

Todos sobem para as árvores os macacos possuem uma

boa comunicação com o grupo

Comunicação

“Troca intencional de informação através da produção e percepção de sinais a partir de um sistema compartilhado de sinais convencionais”

Comunicação

A maioria dos animais

vocabulários de sinais: representando importantes mensagens

“comida por perto” “predador se aproximando” etc.

chimpanzés, golfinhos e outros mamíferos: centenas de sinais

Comunicação

Em mundos parcialmente observáveis

a comunicação pode ajudar a agentes a terem sucessos

eles podem aprender informações que são observados ou inferidos por outros agentes

Comunicação

Seres humanos linguagem

sistema estruturado e complexo de sinais permite os seres humanos a comunicar a maioria do

seu conhecimento sobre o mundo

número limitados de sinais convencionais sorrisos apertos de mão acenos etc.

Comunicação Seres humanos

golfinhos, chimpanzés e outros mamíferos possuem um vocabulário com centenas de sinais capacidade para arranjar os sinais

somente os seres humanos podem comunicar com um número ilimitado de mensagens

diferentes usar roupas torcer para o Flamengo assistir televisão durante 3 horas

Comunicação Ato de fala

ação de um agente ao produzir linguagem fala, não conversa

digitação, uso de sinais, etc. fala

palavra qualquer tipo de sinal comunicativo

Termos para ser referir aos modos de comunicação orador ouvinte declaração

Comunicação

Por quê um agente executaria um ato de fala ao invés de executar uma de suas ações ordinárias?

um grupo de agentes poderia tirar vantagem (coletivamente e individualmente)

Comunicação

Agentes em ambientes multiagentes podem usar a comunicação para ajudar a articular planos para chegarem ao objetivo: perguntar aos outros agentes sobre aspectos

particulares do mundo Você encontrou os sinais das balas?

responder questões Existem vários sinais de bala nas paredes do quarto.

informar os demais sobre a parte do mundo que ele já explorou

Existe um grande buraco antes da ponte.

Comunicação

Agentes em ambientes multiagentes podem usar a comunicação para ajudar a articular planos para chegarem ao objetivo: requisitar ou ordenar que outros agentes

executem ações Por favor, me ajude a carregar o resto do corpo. Anda logo, carregue o resto do corpo para o

carro.

Comunicação Agentes em ambientes multiagentes podem usar

a comunicação para ajudar a articular planos para chegarem ao objetivo: prometer fazer alguma coisa ou oferecer negócios

Amanhã faço o exame dos ossos. Vendo laudos médicos, quer comprar?

concordar com requisições ou ofertas Sim, posso realizar o trabalho.

compartilhar sentimentos e experiências Toda vez que ocorre este tipo de crime alguma

torcida organizada está envolvida.

Comunicação

Para um agente:

é difícil decidir quando executar um ato de fala

é difícil decidir qual ato de fala deve ser escolhido

pode existir vários

Comunicação

Este problema pode ser encarado como uma questão de planejamento:

o agente tem várias opções para escolher uma, e deve selecionar aquela que lhe permita atingir a sua meta

comunicar alguma informação a outro agente

Entretanto, planejamento dos atos de fala é uma tarefa

difícil

Comunicação

Não determinismo:

um agente pode dar um comando fale(“vire à direita”).

outro agente pode perceber a ordem segui-la, ou simplesmente ignorar o comando

É necessário um planejamento condicional

Comunicação

Planejamento geral ou política de conversação: ao invés de se fazer o planejamento do início até o fim da

conversação gera-se a primeira sentença e espera-se pela resposta, a

partir da qual é executada uma reação Por exemplo:

1) Vamos em um bar hoje?2) Não.3) Então vamos ficar em casa e assistir um

filme?...

Comunicação

Entendimento de atos de fala: apresenta a mesma dificuldade de outros

problemas como o entendimento de imagens, diagnósticos médicos, etc.

é dado um conjunto de entradas ambíguas, partir das quais se deve descobrir que estado do mundo gerou estas entradas

Comunicação

A linguagem é determinante

Por quê um agente executou um certo ato de fala? é necessário saber algo sobre a sintaxe e sobre

a semântica Por exemplo:

Feia casa. Feia é um substantivo ou adjetivo Casa é um verbo ou substantivo

Comunicação Implicações lógicas

uma boa maneira de descrever como palavras e sentenças são combinadas para produzir frases maiores

Técnicas de raciocínio sob incerteza pode tratar outra parte do problema de

entendimento vários estados do mundo podem levar a um mesmo

ato de fala deve-se decidir qual é o mais provável por exemplo: Corra!!!!

Correr em um jogo, fugir da polícia, almoçar rápido, etc.

Fundamentos das Linguagens

Linguagens formais - LF Lisp Lógica de Primeira Ordem etc.

Linguagens naturais - LN Português Inglês etc.

Fundamentos das Linguagens

Linguagens formais - LF:

conjuntos de cadeias (Strings) concatenação de símbolos terminais tomados de

um conjunto finito também chamado de palavras

Fundamentos das Linguagens

Linguagens formais - LF: por exemplo, na linguagem da lógica de primeira

ordem os símbolos terminais ν, Q e P uma string membro da linguagem: P ν Q uma string não membro da linguagem: P Q ν

LF possuem severas definições matemáticas já as LN não possuem esta definição

mas são usadas por uma comunidade oradores

Fundamentos das Linguagens Gramáticas:

conjunto finito de regras que especificam uma linguagem

LF sempre possuem uma gramática oficial, especificadas em livros ou manuais

LN não possuem uma gramática oficial embora, lingüistas descobrem propriedades e

codificam suas descobertas em uma gramática também existem lingüistas que tentam ditar como

uma gramática dever ser usada

Fundamentos das Linguagens Gramáticas:

ambas LF e LN associam um significado semântico para cada string válida

por exemplo, em uma linguagem aritmética, teríamos uma regra que diz que se “X” e “Y” são expressões, então, “X + Y” também são expressões, e a sua semântica é a soma de X e Y

Fundamentos das Linguagens Gramáticas:

nas LN, também é importante entender o pragmatismo de uma string

Dicionário Aurélio: pragmatismo é uma doutrina de Charles Sanders, cuja tese fundamental é que a idéia que temos de um objeto qualquer nada mais é senão a soma das idéias de todos os efeitos imagináveis atribuídos por nós a esse objeto, que possam ter um efeito prático

Em resumo: o significado atual da string como ela é falada em uma dada situação

o significado não somente das palavras, mas na interpretação das palavras também

Fundamentos das Linguagens

Gramáticas: diversos formalismos e notações

idéia básica: estrutura de frases as strings são compostas de substrings,

chamadas de frases, classificadas em diferentes categorias

Fundamentos das Linguagens

Categorização das frases:

devem estar associadas a semântica – facilita o seu tratamento

ajuda a descrever as cadeias permitidas na linguagem

Fundamentos das Linguagens

Símbolos não terminais:

Frases nominais (FN) “o rei”, “a torre na casa (2,3)”, etc.

Frases verbais (FV): “está morto”, “está em perigo”, etc.

Sentenças (S): FN + FV “o rei + está morto”

Fundamentos das Linguagens

Na Forma Normal de Bakus-Naur (BNF):

S FN FV

Regras de Reescrita

Um não terminal do ladoesquerdo e uma

seqüência de terminais enão terminais do lado

direito.S pode consistir de

qualquer FN seguindo por qualquer FV

Os Passos para a Comunicação Um episódio típico de comunicação, em que um orador

que informar a um ouvinte sobre uma proposição usando com conjunto de palavras, é composto de 7 passos ou processos

Convenções: Quem fala (orador): S

Quem ouve (ouvinte): H

O que será comunicado: proposição P

Palavras as serem usadas em P: W

Os Passos para a Comunicação Processos (quem fala):

1) Intenção: S quer que H acredite em P (tipicamente S acredita em P)

quem fala deve decidir se vale a pena dizer algo ao ouvinte

envolve raciocínio a respeito das crenças e metas do ouvinte

de forma que a comunicação tenha efeito

Os Passos para a Comunicação Processos (quem fala):

2) Geração: S escolhe as palavras W (que expressam o significado de P) para que H faça a inferência do significado de P

quem fala deve usar seus conhecimentos a respeito da linguagem para decidir o que dizer, por exemplo:

A vítima está morta!

3) Síntese: S emite uma realização física W’ das palavras W (usualmente endereçando-as a H)

deve ser produzida uma saída escrita em papel ou na tela: trivial

saída sonoras: síntese de sons a partir de alfabetos fonéticos

Os Passos para a Comunicação

Processos (quem ouve):

4) Percepção: H recebe W´ (idealmente W = W´, mas pode haver percepção equivocada) e decodifica para W2

quando o meio de transmissão é falado, o passo de percepção é chamado de reconhecimento de fala

quando o meio de transmissão é impresso, o passo de percepção é chamado de reconhecimento de caracteres óptico

Os Passos para a Comunicação

Processos (quem ouve): 5) Análise: H infere que W2 tem os possíveis

significados P1, ..., Pn (palavras e frases podem ter vários significados)

a análise é dividida em três partes:

análise gramatical (parsing) interpretação semântica interpretação pragmática

Os Passos para a Comunicação Processos (quem ouve):

5) Análise: análise gramatical (parsing) é o processo de construir uma árvore de análise para

uma string de entrada ligações representam aplicação de regras gramaticais os nós representam as frases e as folhas

representam as palavrasS

FN FV

artigo

A

substantivo

vitíma

verbo

está

adjetivo

morta

Os Passos para a Comunicação Processos (quem ouve):

5) Análise: Interpretação semântica é o processo de extrair o significado de uma proposição

em alguma linguagem por exemplo, dado a proposição: “A vítima está morta”,

podemos ter duas possíveis interpretações semânticas

A vítima perdeu a vida

A vítima está muito cansada (morta de cansaço)

Obs.: proposições com várias interpretações são ditas ambíguas

Os Passos para a Comunicação

Processos (quem ouve): 5) Análise: Interpretação pragmática

palavras iguais podem ter diferentes significados em situações diferentes

a interpretação sintática é uma função com um argumento, a string

a interpretação pragmática é função do predicado e do contexto ou situação em que o predicado foi emitido

Ela é uma princesa! Dito pelo pai da moça Dito por um admirador

Os Passos para a Comunicação

Processos (quem ouve): 6) Eliminação de ambigüidades: H infere que S

teve a intenção de comunicar Pi (idealmente Pi = P, mas pode haver má percepção)

7) Incorporação: H decide acreditar em Pi (ou a rejeitar, se ela estiver fora dos limites do que H já acredita)

um agente ingênuo deve acreditar em tudo que ele escutou

agentes sofisticados tratam cada ato de fala como uma evidência para Pi

Eliminação de Ambigüidades Na maior parte das vezes, quem fala não quer ser

ambíguo grande parte das falas têm várias interpretações

O ouvinte não se preocupa em descobrir qual o provável significado que quem falou desejou expressar

Depende fortemente de raciocínio sob incerteza

São geradas as possíveis interpretações e, se há mais de uma possível, é escolhida a melhor

Uso de Linguagem Os agentes comunicantes:

devem entender a linguagem

devem ter um contexto em comum base para a conversação

devem ter algum mecanismo de raciocínio

Modelos de Comunicação Comunicação

centrada na forma como as crenças de um agente é transformada em palavras

quem fala tem em mente uma proposição P definida e codifica esta proposição em palavras (ou sinais)

como as palavras são transformadas novamente em conhecimento de um outro agente

o ouvinte tenta decodificar a mensagem W de forma a recuperar o proposição original

Modelos de Comunicação Modelo de mensagem codificada:

o significado da mensagem: está na

cabeça de quem fala

a mensagem transmitida e a interpretação usada pelo ouvinte têm o mesmo conteúdo, mas pode haver diferenças

devidas a ruído no canal de comunicação ou

erros de codificação ou decodificação

Modelos de Comunicação

Modelo de linguagem situada:

o significado da mensagem: depende das palavras e da situação em que as palavras são geradas

Modelos de Comunicação Modelo de linguagem situada: as funções de

codificação e decodificação têm um argumento extra, representando a situação atual as mesmas palavras diferentes significados em

diferentes situações se quem fala e quem ouve têm idéias diferentes a

respeito de qual é a situação atual problemas de entendimento

Tipos de Agentes Comunicantes

Agentes que compartilham uma linguagem de representação interna: não é necessária uma linguagem externa para a

comunicação

Agentes que não fazem nenhuma suposição com relação à linguagem interna de outros agentes compartilham uma linguagem externa, que é um

subconjunto do Inglês

Comunicação usando DIGA e PERGUNTE

Comunicação Telepática: agentes compartilham linguagem de

representação interna

agentes têm acesso direto à Base de Conhecimento dos outros (através de DIGA e PERGUNTE).

é possível acessar a BC de outros como se fora sua própria BC

Comunicação usando DIGA e PERGUNTE

Comunicação Telepática (cont.): os agentes têm que estar de acordo no formato

interno da linguagem de representação e também de grande parte dos símbolos usados

símbolos estáticos: fixos, definidos a priori símbolos dinâmicos: criados depois dos agentes

começarem a explorar o mundo

Comunicação usando DIGA e PERGUNTE

Dificuldades na sincronização dos símbolos dinâmicos: deve existir uma política de nomeação: dois

agentes não podem atribuir o mesmo nome para símbolos diferentes

o nome do agente pode fazer parte do nome do símbolo – resolve-se o problema

deve existir um meio de inter-relacionar novos símbolos criados pelos agentes

Comunicação usando DIGA e PERGUNTE

Dificuldades na sincronização dos símbolos dinâmicos: é difícil coordenar as diferenças entre as BCs dos

agentes novos fatos podem ser transmitidos a todos assim que

forem gerados: requer boa estrutura de comunicação

se a comunicação não é freqüente: ao ser feito um contato é preciso decidir quais novas informações vale a pena comunicar

Comunicação usando DIGA e PERGUNTE

Agentes telepáticos: são vulneráveis a sabotagens

usando a interface DIGA, um agente pode alterar diretamente a BC de outros, inserindo mentiras nelas

Comunicação usandoLinguagem Formal

Agentes devem executar ações que produzam uma linguagem compreendida por outros agentes

A linguagem de comunicação pode ser diferente da linguagem de representação interna

Comunicação usandoLinguagem Formal

Problema mais crítico: conciliar as diferenças entre as diferentes BCs

dos agentes

o que um agente A diz e como um agente B interpreta o que A disse depende crucialmente do que A e B acreditam

Qual é o melhor time do mundo, Flamengo ou Real Madri??

Uma Gramática Formalpara um Subconjunto do Inglês

Uma linguagem formal é adequada para o tratamento de linguagens naturais:

usam um conjunto fixo de letras (escrita)

usam um conjunto fixo de sons (falada)

estes conjuntos são combinados em um conjunto relativamente fixo de palavras

Uma Gramática Formalpara um Subconjunto do Inglês

Alguns problemas:

nem sempre as pessoas estão de acordo a respeito do que está na linguagem

diferenças regionais uai bão trem no meu olho

as linguagens naturais mudam com o tempo voismecê você ??? c (bate-papo)

Uma Gramática Formalpara um Subconjunto do Inglês

Alguns problemas:

algumas construções que não seguem a gramática podem ser entendidas

O Flamengo é bom (segue a gramática ) Flamengo bom (não segue a gramática )

o julgamento a respeito de correção gramatical pode não ser absoluto

vários lingüistas divergem

Uma Gramática Formalpara um Subconjunto do Inglês

Alguns problemas: as sentenças a seguir podem ser

classificadas: Para quem você enviou a carta? Perto de quem você estava? De quem você encontrou um amigo? De quem você viu o vendedor que comprou o

quadro que Vincent pintou?

BOA

RUIM

Uma Gramática Formalpara um Subconjunto do Inglês

Mesmo se forem definidas quais sentenças pertencem à linguagem e quais não pertencem, o problema mais crítico ainda persiste: interpretação semântica e eliminação de

ambigüidades

Uma Gramática Formal para um Subconjunto do Português

Linguagem formal: todo enunciado é um comando

Linguagem natural: o ouvinte precisa determinar se a fala é: um comando uma pergunta um enunciado promessa etc.

Léxico O primeiro passo é definir o léxico (vocabulário)

conjunto de palavras permitidas

Estas palavras são classificadas: substantivos denotam coisas

verbos denotam ações

adjetivos modificam os nomes

advérbios modificam os verbos

artigo, numeral, pronome, proposição, conjunção e interjeição

Léxico

Substantivo carne | flor | cheiro | mulher | ...

Verbos ver | ter | olhar | testar | ...

Adjetivos claro | bonito | cheirosa | ...

Advérbios aqui | ali | cedo | ...

Pronome eu | tu | nós | ...

Nome Paula | Cláudia | Maria | ...

Artigo o | um | a | ...

Preposição para | em | ...

Conjunção e | ou | mas | enquanto | ...

Dígito 0 | 1 | ... | 9

Léxico Como foi visto no slide anterior, cada categoria

finaliza com ... é impossível listar todas além de existir milhares, a cada dia novas membros

das classes surgem MP3

Classes abertas substantivos, verbos, adjetivos e advérbios

Classes fechadas artigo, numeral, pronome, proposição, conjunção e

interjeição podem demorar séculos para haver mudanças

voismecê você

Uma Gramática O próximo passo é combinar as palavras em

frases: gramática Usaremos 5 Não Terminais:

S sentença FN frase nominal FV frase verbal FP frase preposicional CR cláusula relativa

Consiste de umpronome relativoseguido de uma

frase verbal.Ex.: que, cujo, quem

Une palavras, designa relações, por exemplo, posse e tempo. Em orações é um conectivo.

Ex.: as pernas da mulher

Gramática

PaulaFN Nome

a flor + de mariaFN FN FP

euFN Pronome

florFN Substantivo

a + florFN Artigo Substantivo

3 5FN Dígito Dígito

eu + colhi a florS FN FV

eu colhi a flor + e + a dei a maria.S S Conjunção S

a flor + que é cheirosaFN FN CR

Gramática

para + o lesteFP Preposição FN

vá + em frenteFV FV Advérbio

está + cheirosaFV FV Adjetivo

vire + para o lesteFV FV FP

que + é cheirosaCR que FV

verFV Verbo

colhi + a florFV FV FN

Gramática Esta gramática é dita ser overgenerate

gera sentenças que não fazem parte da gramática Eu vou Brasília S FN FV Pronome FV FN pronome verbo nome

Esta gramática é dita ser undergenerate não gera algumas sentenças que fazem parte da gramática Eu pensei que o jogo estava perdido S FN FV pronome FV FN pronome verbo FN CR

perdido

Análise Sintática

Parsing Algoritmo não determinístico:

Trata a lista de palavras como uma floresta sintática: lista ordenada de árvores sintáticas.

Análise Sintática

Algoritmo: Em cada passo do laço:

encontra uma subseqüência de elementos na floresta e se “casa” com o lado direito de uma das regras da gramática.

Análise Sintática

Algoritmo: Em cada passo do laço:

encontra uma subseqüência de elementos na floresta e se “casa” com o lado direito de uma das regras da gramática.

Substitui a subseqüência por uma única árvore sintática cuja categoria é o lado esquerdo da produção e cujos filhos são os nós na subseqüêcia original.

Análise Sintática

função ANASINT(palavras,gramática) retorna árvore sintática

floresta palavras

repita faça

se COPRIMENTO(floresta) = 1

e CATEGORIA(floresta([1]) = INÍCIO(gramática) então retorne floresta([1])

caso contrário

i escolha em {1 ... COMPRIMENTO(floresta)}

regra escolha em REGRAS(gramática)

n COMPRIMENTO(REGRA-LD(regra))

Análise Sintática

subseqüência SUBSEQUÊNCIA(floresta,i,i+n-1)

se CASA(subseqüência, REGRA_LD(regra)) então

floresta[i ... i+n-1] [NOVO-NÓ( REGRA-LE(regra), subseqüência)]

caso contrário falha

fim

Cada nó tem dois campos: CATEGORIA e FILHOS.

Análise Sintática

S

S FN FVFN FVFN FV

FV FV AdjetivoFV AdjetivoFN FV Adjetivo

FV VerboVerboFN Verbo Adjetivo

Adjetivo cheirosacheirosaFN Verbo cheirosa

Verbo ééFN é cheirosa

FN Artigo Subst.Artigo Subst.Artigo Subst. é cheirosa

Subst. florflorArtigo flor é cheirosa

Artigo aAA flor é cheirosa

regrasubseqüênciafloresta

Gramática de Cláusulas Definidas (DCG) Problemas com a BNF:

Somente representam cadeias, não significados.

Queremos realizar comunicação: o significado é essencial.

É estritamente livre de contexto necessitamos de gramáticas dependentes do

contexto.

Gramática de Cláusulas Definidas (DCG) Usa o poder da Lógica de Primeira Ordem:

Cada símbolo não terminal predicado de um lugar que são verdadeiros se as cadeias são frase desta categoria.

Ex.: Substantivo(“perfume”) é verdadeiro. Substantivo(“para”) é falso.

Gramática de Cláusulas Definidas (DCG) Usa o poder da Lógica de Primeira Ordem:

Cada símbolo não terminal predicado de um lugar que são verdadeiros se as cadeias são frase desta categoria.

Ex.: Substantivo(“perfume”) é verdadeiro. Substantivo(“para”) é falso.

Gramática de Cláusulas Definidas (DCG) “Uma cláusula definida é um tipo de cláusula

de Horn que, quando escrita na forma de um implicação, tem exatamente um átomo no seu conseqüente, e uma conjunção de zero ou mais átomos no seu antecedente, por exemplo,

A1 A2 ... C1”

Gramática de Cláusulas Definidas (DCG) Regras BNF escritas na Lógica de Primeira Ordem:

(s = “flor” ... ) Substantivo(s)

Substantivo flor | ...

FN(s1) FV(s2) S(append(s1,s2))

S FN FV

Lógica de Primeira OrdemBNF

Gramática de Cláusulas Definidas (DCG)

Gramática escrita com sentenças da lógica: gramática lógica.

Inferência lógica irrestrita muito cara, computacionalmente.

Notação Especial para uma DCG

X Y Z ...: Y(s1) Z(s2) ... X(Append(s1, s2...)

X palavra : X([“palavra”])

X Y | Z | ... : Y´(s) Z´(s) ... X(s) Y´ : tradução de expressão DCG Y para a lógica.

Si cadeias

Notação Especial para uma DCG

Extensão da notação: não terminais aumentados com argumentos extras.

Não terminais:

Na BNF: não terminais são representados como predicados de apenas um argumento. Ex: FN é representada como FN(s).

Com extensão: FN(sem) – FN com semântica – é representada como FN(sem,s).

Notação Especial para uma DCG

Variável: Pode aparecer do lado direito de uma regra da DCG Representa um único símbolo da cadeia de entrada, sem

dizer o que ele é.

Definição de uma nova categoria: Double – conjunto de cadeias consistindo de uma palavra repetida duas vezes.

Double w w :

(s1 = [w] s2 = [w]) Double(Append(s1,s2))

Notação Especial para uma DCG

Teste Lógico:

Pode aparecer no lado direito de uma regra

Representado entre chaves na notação DCG.

Gramática Aumentada

Uma gramática como a anterior pode gerar sentenças que não são gramaticalmente corretas:

“Mim sentiram o perfume da flor” Tempo verbal; Concordâncias; Etc.

Gramática Aumentada

As línguas naturais não são livres de contexto.

Para se utilizar uma GLC, deve-se introduzir novas regras que diferenciem os pronomes, os tempos verbais, etc.

Gramática Aumentada

FP Preposição FNo

Pronomes eu | ele | ela | ...

FNo Pronomeo | Substantivo | Artigo Substantivo

FV FV FNo | ...

Pronomeo mim | ...

S FNs FV | ...

FNs Pronomes | Substantivo | Artigo Substantivo

Gramática Aumentada

Ao invés de acrescentar novas regras aumentar as regras existentes:

Introduzir parâmetros nas regras.

Gramática Aumentada

FP Preposição FN(Objeto)

Pronome(Sujeito) eu | ele | ela | ...

FV FV FN(Objeto) | ...

Pronome(Objeto) mim | você | ...

S FN(Sujeito) FV | ...

FN Pronome(Caso) | Substantivo

| Artigo Substantivo

Subcategorização dos Verbos

De acordo com a gramática, poderíamos aceitar as frases:

Dê-me a flor. Vá para a casa (2,4). Vá-me a flor. Dê para a casa (2,4).

Subcategorização dos Verbos

É necessário que sejam especificados os complementos de cada verbo:

frases obrigatórias que seguem um verbo em uma Frase Verbal.

Subcategorização dos Verbos

A cada verbo pode-se associar uma lista de possíveis complementos.

Uma palavra pode estar em mais de uma lista. “Você”, por exemplo, pode aparecer no sujeito

ou no predicado.

Subcategorização dos Verbos

Acreditar

Morrer

Ser

Dar

Verbo

É uma flor.

É bela

[FN]

[Adjetivo]

Morreu[ ]

Acredite que a flor que lhe dei tem per-

fume.

[S]

Exemplos de FVsSubcats.

Dê a flor para Maria.

Dê-me a flor.

[FN,FP]

[FN,FN]

Subcategorização dos Verbos A subcaterização deve ser integrada à

gramática.

FV(subcat) FV([FN|subcat]) FN(Objeto)

| FV([Adjetivo|subcat]) Adjetivo

| FV([FP|subcat]) FP

| Verbo(subcat)

Subcategorização dos Verbos

A regra para S deve dizer que requer uma frase verbal que tem todos os seus complementos, tendo, portanto, uma lista de subcat vazia ( [ ] ). Assim:

Ele morreu sentença aceita. Você comprou sentença não aceita.

Subcategorização dos Verbos

S FN(Sujeito) FV( [ ] )

“Uma sentença pode ser composta por uma FN no caso de sujeito, seguida por uma FV que tenha uma lista subcat vazia.”

Adjuntos Adverbiais

Sinto o perfume agora. Comprei um carro ontem.

FV(subcat) FV(subcat) FP

| FV(subcat) Advérbio

Interpretação Semântica

Semântica Composicional:

A semântica de uma frase é função da semântica das subfrases.

A semântica de uma frase não depende de qualquer outra, antes, depois ou que a englobe.

Interpretação Semântica

Vantagem da Semântica Composicional:

Permite tratar gramáticas infinitas com um conjunto finito de regras (freqüentemente pequeno).

Interpretação Semântica

Interpretação semântica: é responsável por obter um conjunto de possíveis interpretações a partir da combinação composicional de significados.

Eliminação de ambigüidades: escolha do melhor significado.

Semântica e DCG

Pode-se estender uma gramática de forma a incluir especificações semânticas. Exemplo:

Exp(sem) Exp(sem1) Operador(op) Exp(sem2) { sem = aplic(op, sem1, sem2)}

Exp(sem) ( Exp(sem) )Exp(sem) Número(sem)Dígito(sem) sem { 0 sem 9 }Número(sem) Dígito(sem)Número(sem) Número(sem1) Dígito(sem2)

{ sem = 10 * sem1 + sem2 }Operador(sem) sem{ sem {+, - , /, * } }

Análise de um Subconjuntodo Português Primeiro passo: determinar os fatos:

Quais as representações semânticas que serão associadas às frases.

Exemplo: “João ama Maria”

ama(joão, maria)

Análise de um Subconjuntodo Português Intuitivamente: “ama maria” é uma descrição

que pode ou não ser aplicada a uma determinada pessoa. É um predicado que dever ser combinado

com um termo que represente uma pessoa: representação lógica completa.

Na representação :

x ama(x, maria)

Análise de um Subconjuntodo Português Pode-se definir uma regra:

“Uma FN, com semântica obj, seguida por uma FV, com semântica rel, produz uma sentença cuja semântica é o resultado de aplicação da relação rel ao objeto obj.”

S(rel(obj)) FN(obj) FV(rel)

Análise de um Subconjuntodo Português Pela regra anterior, a interpretação para

“João ama Maria” é:

x ama(x, maria)(joão)

ou

ama(joão, maria)

Análise de um Subconjuntodo Português Da mesma maneira, pode-se representar os

verbos. Assim, para o verbo “ama”:

y x ama(x, y)

Análise de um Subconjuntodo Português

A regra FV Verbo FN:

Aplica o predicado, que é a interpretação semântica do verbo, ao objeto que a interpretação semântica da FN

Gera a interpretação semântica da FV.

Análise de um Subconjuntodo Português

Assim:

S(rel(obj)) FN(obj) FV(rel)

FV(rel(obj)) Verbo(rel) FN(obj)

FN(obj) Nome(obj)

Nome(joão) João

Nome(maria) Maria

Verbo(x, y) ama

Semântica

Como representar:

Tempo. Eventos. Substâncias.

Semântica

Uma opção, para a sentença “Todo agente sente o cheiro de um gambá” poderia ser:

a Agente(a) g Gambá(g) e e Percebe(a,g,Nariz) Dura(Agora, e)

Semântica

A sentença deve ser quebrada em frases FV e FN, às quais podemos associar as semânticas:

Todo agente:

FN(a Agente(a) ,... )

Semântica

Sente cheiro de um gambá:

FV(g Gambá(g) e e Percebe(...,g,Nariz)

Dura(Agora, e) )

Semântica

Problemas:

A semântica da sentença inteira parece ser a semântica de FN com a semântica da FV substituindo os “...”.

isto significa que não podemos formar a semântica da sentença com rel(obj).

Semântica

Problemas (cont.):

Precisamos obter a variável a como um argumento da relação Percebe.

isto significa que a semântica da sentença é formada pela inserção da semântica de FV no espaço em FN e também inserido a variável a, de FN no espaço para o argumento da semântica de FV.

Semântica

Problemas (cont.):

Precisamos de duas funções de composição : complicado!

A estrutura sintática émuito diferente da

estrutura semântica”

Semântica

Outro caminho: Definição de uma forma intermediária entre

sintaxe e semântica. Estruturalmente semelhante à sintaxe da

sentença pode ser facilmente construída por composição.

Contém informação suficiente de forma a poder ser traduzida para a Lógica de Primeira Ordem.

Forma “Quase Lógica”

Semântica

Forma “quase lógica” inclui:

Toda a Lógica de Primeira Ordem, Expressões lâmbda, e Um termo quantificado.

Ex.: para “todo agente” – [a Agente(a)]

Semântica

A sentença “Todo agente sente o cheiro de um gambá” poderia ser representada, usando-se a relação Percebe:

e (e Percebe([a Agente(a)],

[g Gambá(g)],Nariz) Dura(Agora, e) )

Construção de uma Gramática

Gramática complexa:

Difícil de escrever – representar a interpretação semântica correta.

Pode haver inúmeras formas de atacar o problema.

Construção de uma GramáticaMetodologia Sugerida

1. Decidir qual forma deverá ser gerada (lógica ou quase lógica).

Escrever alguns exemplos de sentenças e a forma lógica correspondente.

Construção de uma GramáticaMetodologia Sugerida

1. Modificar as palavras nas sentenças (uma de cada vez) e verificar as mudanças na forma lógica correspondente.

Ex.: se a frase anterior fosse alterada para “todo agente sentiu o cheiro de um gambá”

Dura(Agora, e) deve ser substituído por Depois(Agora, e).

Construção de uma GramáticaMetodologia Sugerida

Ex.: se a frase anterior fosse alterada para “todo agente sentiu o cheiro de um gambá”

Dura(Agora, e) deve ser substituído por Depois(Agora, e).

Assim: Dura está associado à semântica de sente e Depois está associado à semântica de sentiu.

Da mesma forma: todo e um

Construção de uma GramáticaMetodologia Sugerida

1. Deve-se definir as categorias e o tipo semântico das palavras em cada categoria.

2. Modificar as frases (uma de cada vez) e analisar as conseqüências na representação.

Ex.: substituir “todo lírio perfumado” por “Eu”.

Construção de uma GramáticaMetodologia Sugerida

1. Aumentar as regras da gramática com interpretações semânticas, associadas as tipos de cada categoria.

Se o lado direito da regra tem somente um constituinte: copia-se a semântica para ele

FN(sem) Pronome(sem)

Construção de uma GramáticaMetodologia Sugerida

1. Se o lado direito da regra contém uma interpretação semântica que é um predicado (ou função) e um ou mais que são objetos: a relação deve ser aplicada ao(s) objeto(s).

S(rel(obj)) FN(obj) FV(rel)

Construção de uma GramáticaMetodologia Sugerida

1. Algumas vezes, a semântica é construída concatenando a semântica dos constituintes.

Algum conector pode ser necessário.

FN([sem1,sem2]) Dígito(sem1) Dígito(sem2)

Construção de uma GramáticaMetodologia Sugerida

1. Algumas vezes, pode ser necessário separar um dos constituintes, antes de definir a semântica de toda a frase. Ex.:

FV(x rel1(x) rel2(Var-Evento(rel1))) FV(rel1) Advérbio(rel2)

A função Var-Evento escolhe a variável de evento da forma intermediária da expressão rel1

Construção de uma GramáticaMetodologia Sugerida

1. Ex.: Uma frase como “me viu ontem”, pode ter a interpretação:

x e e Ver(x, QuemFala) Depois(Agora, e) Dura(e, Ontem)

Construção de uma GramáticaMetodologia Sugerida Seguindo-se estes passos, pode obter uma

gramática como a seguinte.

Para ser utilizada, a gramática deve ser aumentada com informações de caso e de subcategorização.

Exemplo

e e (Dormir,QuemFala)

Dura(Agora,e)

Eu durmo.SentençaS

Forma Quase lógicaExemploTipoCategoria

Exemplo

x y e e Come(x,y) Dura(Agora, e)

comeobjeton sentençaVerbo

QuemFalaeuObjetoPronome

x y Em(x,y)emobjeto2 sentençaPreposição

x Gambá(x)gambáobjeto sentençaSubstantivo

77NúmeroDígito

p,q (pq)eSentença2 sentençaConjunção

!oQuantificadorArtigo

e Dura(e,Hoje)hojeevento sentençaAdvérbio

x Cheiroso(x)cheirosoobjeto sentençaAdjetivo

Forma Quase lógicaExemploTipoCategoria

Exemplo

x e e Vê(x,QuemFala) Dura(Agora, e)

me vêobjeton sentençaFV

x e e Vê(x,QuemFala) Dura(Agora, e)

que me vêobjeto sentençaCR

x Em(x,[2,2])Em [2,2]objeto2 sentençaFP

[ f Flor(f)]uma florObjetoFN

Forma Quase lógicaExemploTipoCategoria

Interpretação Pragmática

São acrescentadas informações sobre a situação atual, informações dependentes do contexto e que não são composicionais.

Interpretação Pragmática

Por quê?

Informações pragmáticas são úteis na resolução do significado de frases diretamente relacionadas à situação atual (indexcals).

Ex.: Eu estou na UFG hoje.

Interpretação Pragmática

Exemplo: Eu estou na UFG hoje.

O significado de Eu e de hoje depende de quem disse a frase e quando fala.

Interpretação Pragmática

O ouvinte que percebe o ato de fala deve também perceber quem fala e usar esta informação para identificar o significado da frase.

Ex.: o ouvinte deve saber que:

T((QuemFala = AgenteB), Agora)

Interpretação Pragmática

Anáfora: frase referenciando objetos que foram mencionados anteriormente.

Exemplo: “João estava com fome. Ele entrou em um restaurante.”

Refere-se a João

Interpretação Pragmática

Para entender que Ele se refere a João:

É preciso processar a primeira sentença, e Usá-la como parte do conhecimento

situacional para a interpretação da segunda sentença.

Interpretação Pragmática

Outro exemplo:

“Depois que João pediu Maria em casamento, eles encontraram um padre e se casaram. A lua-de-mel ocorreu no Havaí.”

Interpretação Pragmática

A frase nominal “a lua-de-mel” se refere a algo implicitamente relacionado ao verbo “casar”.

“Eles” refere-se a um grupo que não foi mencionado explicitamente antes: João e Maria (mas não o padre).

Ambigüidades

Comunicação ideal:

Quem fala tem em mente uma proposição P e executa um ato de fala que tem várias interpretações mas, na situação atual, pode ser melhor interpretado como comunicando P.

O ouvinte entende isto e chega em P com a interpretação adequada.

Ambigüidades

O ouvinte entende isto e chega em P com a interpretação adequada.

O ouvinte resolveu a ambigüidade!

Ambigüidades

Ambigüidades léxicas: tipo mais simples de ambigüidades. Uma palavra tem mais de um significado.

Manga (de camisa) Manga (fruta)

Uma palavra pode pertencer a mais de uma categoria:

Mato (substantivo) Mato (verbo matar)

Ambigüidades

Ambigüidades sintáticas (ou estrutural): ocorrem com ou sem ambigüidade léxica.

Ex.: “Senti o cheiro do gambá no galinheiro”.

Ambigüidades

Ambigüidade semântica: gerada por ambigüidades sintáticas e/ou léxicas. Interpretações:

1. O gambá está no galinheiro.

2. O cheiro do gambá está no galinheiro.

Ambigüidades

Ambigüidade semântica: pode ser gerada mesmo se não houver ambigüidades sintáticas e/ou léxicas. Exemplo:

“Estrada costeira” pode significar uma estrada ao longo da costa, ou uma estrada que leve à costa.

Ambigüidades

Ambigüidade referencial: ocorre porque linguagens naturais consistem de palavras para categorias, não para objetos individuais.

Exemplo: não há uma palavra para a-maça-que-eu-comi-pela-manhã, mas somente para maça.

Ambigüidades

Ambigüidade referencial:

Expressões referenciais como “ela”, podem ser referir a praticamente tudo.

Ambigüidades

Ambigüidade pragmática: ocorre quando quem fala e o ouvinte não estão de acordo com relação à situação em questão.

Exemplo: Quem fala diz “Eu o encontrarei na próxima quinta”, se referindo ao dia 17, mas o ouvinte interpreta como sendo o dia 24.

Ambigüidades

Ambigüidade local: pode ser que uma substring possa ser analisada sintaticamente de várias formas, mas somente uma destas formas é adequada ao contexto onde ela se insere.

Exemplo - na linguagem C, *c significa ponteiro para c em char *c significa multiplicação por c, em 2*c.

Ambigüidades

Ambigüidade do ato de fala: qual ato foi executado?

Exemplo: Você sabe quantas horas são? Poderia provocar a resposta: Sim. O objetivo de quem fala poderia ser

descobrir quantas horas são.

Eliminação de Ambigüidades

É uma questão de diagnóstico:

O ouvinte mantém um modelo do mundo e, ao ouvir um novo ato de fala, acrescenta possíveis interpretações ao modelo, como hipóteses.

Eliminação de Ambigüidades

Pode-se usar “raciocínio sobre incerteza” para decidir qual interpretação é a melhor.

Por exemplo: João viu Maria trocando de roupa com sua luneta.

É mais provável que João observava Maria enquanto esta trocava de roupa, utilizando a sua luneta (de João e não de Maria).

Eliminação de Ambigüidades

Em geral, a eliminação de ambigüidades requer a combinação de quatro modelos:

Modelo do mundo. Modelo Mental. Modelo de Linguagem. Modelo acústico.

Eliminação de Ambigüidades

Modelo do mundo:

A probabilidade de um fato acontecer no mundo.

Eliminação de Ambigüidades

Modelo mental:

A probabilidade de quem fala formar a intensão de comunicar este fato ao ouvinte, dado que ele ocorreu.

Eliminação de Ambigüidades

Modelo da linguagem:

A probabilidade de que certa cadeia de palavras foi escolhida, dado que quem fala tem a intensão de comunicar certo fato.

Eliminação de Ambigüidades

Modelo acústico:

A probabilidade de que uma seqüência particular de sons seja gerada, dado que quem fala escolheu uma dada cadeia de palavras.

Eliminação de Ambigüidades

Uma outra razão que torna difícil a escolha da interpretação correta:

Pode haver várias interpretações corretas. Poesia, propaganda, retórica política, etc

quem fala pode introduzir ambigüidades proposicionalmente.

Eliminação de Ambigüidades

A forma mais simples de tratar probabilidades, neste contexto, é usar uma Gramática Livre de Contexto Probabilística (ou Estocástica) - GLCP.

Cada regra de reescrita é associada a uma probabilidade.

S FN FV (0.9) S S Conjunção S (0.1)

Eliminação de Ambigüidades

No modelo da GLCP:

A probabilidade de uma árvore é o produto das probabilidades de todas as regras que geram os nodos da árvore.

Eliminação de Ambigüidades

Problema do modelo GLCP:

A gramática é Livre de Contexto. A diferença entre P(“Eu comi uma banana”) e

P(“Eu comi uma bandagem”) depende apenas de P(“banana”) e P(“bandagem”) e não da relação comer entre os respectivos nomes.

Eliminação de Ambigüidades

No modelo da GLCP(cont.):

A probabilidade de uma cadeia P(palavras) é a soma das probabilidades se suas árvores sintáticas.

Uma única árvore para cadeias não ambíguas; Nenhuma árvore para cadeias não gramaticais; Várias árvores para cadeias ambíguas.