Analisadores Gramaticais em Prolog - docs.ufpr.brarthur/pesquisa/agp.pdf · (Projeto de pesquisa)...

download Analisadores Gramaticais em Prolog - docs.ufpr.brarthur/pesquisa/agp.pdf · (Projeto de pesquisa) ... enquanto que um analisador gramatical é um algoritmo ou seja, um con-junto preciso

If you can't read please download the document

Transcript of Analisadores Gramaticais em Prolog - docs.ufpr.brarthur/pesquisa/agp.pdf · (Projeto de pesquisa)...

  • Analisadores Gramaticais em Prolog(Projeto de pesquisa)

    Luiz Arthur Paganihttp://people.ufpr.br/arthur

    [email protected]

    Resumo

    Neste texto, apresenta-se ao Departamento de Lingstica, LetrasVernculas e Clssicas, da Universidade Federal do Paran, um projetode pesquisa no qual diversas tcnicas para a implementao de ana-lisadores gramaticais em Prolog sero avaliadas. Este recenseamentodos analisadores gramaticais visa a embasar o trabalho que vem sendodesenvolvido para a implementao de modelos computacionais paraas Gramticas Categoriais.

    Introduo

    Ao contrrio do que acontece nas reas da Lingstica Computacional e doProcesssamento Automtico de Lngua Natural, nas quais uma mquina pre-cisa executar por si s uma anlise gramatical, na tradio dos estudos pu-ramente lingsticos sempre se deu mais ateno gramtica e anlise gra-matical do que ao processo de construo da anlise gramatical. Os lingis-tas elaboram gramticas para as lnguas, que depois justicam as anlisesgramaticais para determinadas expresses lingsticas (as expresses grama-ticais) e a excluso das expresses que no fazem parte da lngua descrita(as expresses agramaticais); no entanto, eles normalmente pressupem quea aplicao destas gramticas na construo destas anlises gramaticais no

    O presente texto foi preparado no sistema LATEX, atravs de uma de suas implemen-taes para Linux o TeTEX e de um ambiente de integrao de trabalho (IntegratedDesktop Environment, IDE) o Kile ambos instalados em computadores funcionandocom o sistema operacional Kurumin; tudo dentro das diretrizes do chamado software li-vre. Expresso assim o meu reconhecimento enorme equipe annima que desenvolve todosesses recursos e os disponibilisa gratuitamente.

    1

  • precisa receber o mesmo tratamento explcito e formal que costuma ser dis-pensado principalmente s gramticas.

    Contudo, este processo de construo de anlises gramaticais a partir deuma gramtica constitui uma questo bastante complexa, que merece a aten-o dos lingistas, e que ainda pode servir como um dos possveis critriospara se avaliar gramticas, alm do tradicional critrio de economia, postu-lado por Chomsky (segundo o qual uma gramtica seria melhor que outraquando a primeira analisa as mesmas expresses lingsticas que a segunda,mas empregando uma quantidade menor de regras): se uma gramtica exigeuma operao que impossvel de se realizar, esta gramtica pior do queoutra que s recorre a operaes realizveis; ou ainda, se uma gramticaexige uma operao de realizao mais custosa do que a outra, e ambas tma mesma abrangncia emprica e s diferem nesta operao, ento a gram-tica que permite a realizao de anlises gramaticais menos custosa melhordo que a outra.

    Alm disso, a observao das condies para a construo de anlises gra-maticais pertinente para a compreenso do processamento lingstico hu-mano: quando sabemos que determinadas operaes s podem se realizar deum determinado jeito, e no de outro, somos capazes de postular que, dadascertas limitaes na produo efetiva das expresses lingsticas e na com-preenso de seu signicado, esse processamento lingstico (in)compatvelcom algum tipo de gramtica; um exemplo deste tipo de compromisso en-tre uma gramtica e seu processamento aparece em gramticas de estruturasintagmtica com regras recursivas esquerda (como SN SN SP , porexemplo) processadas por analisadores gramaticais descendentes (que partemdas regras para chegar expresso analisada) e da esquerda para a direita(que satisfazem o lado direito das regras de reescrita a partir do smbolomais esquerda), que entram em recurso inntia, j que sempre possvelreescrever um SN por um SN SP (SN = SN SP = SN SP SP =. . . = SN SP . . . SP ).

    Vale lembrar tambm que, ao aprendermos o funcionamento de deter-minados algoritmos computacionais, estamos ainda nos capacitando melhorpara testar empiricamente, na Lingstica, algumas previses feitas pela cha-mada metfora computacional das cincias cognitivas.

    2

  • 1 Fundamentos

    1.1 Anlise Gramatical

    Ainda que a dimenso mais evidente de uma manifestao lingstica seja asua seqenciao no tempo,1 o eixo sintagmtico tambm dispe de uma se-gunda perspectiva; nas palavras de Lyons [7, p. 78], as relaes sintagmticasno pressupem necessariamente uma ordenao das unidades em seqncialinear, de maneira que a realizao substancial de um elemento deva prece-der, no tempo, a realizao de outro elemento. Nas palavras de Gra [6,p. 76],2 os sintagmas no so uma simples sucesso de palavras individuais,mas so constitudos por grupos de palavras hierarquicamente organizados.Assim, para descobrir esta organizao hierrquica, normalmente chamadade estrutura de constituintes, os lingistas recorrem a diversos testes paraconstatar a maior ou menor coeso entre os elementos dos supostos gru-pos, como os testes de comutao, de coordenao, de clivagem e mesmo depassivizao, que servem para determinar a estrutura de constituintes (ouestrutura sintagmtica), como por exemplo em Lyons [7, ps. 219226] (apre-sentado de uma maneira um pouco intuitiva), Gra [6, ps. 7591], Mioto,Silva & Lopes [10, ps. 4549], ou mesmo Chierchia [2, cap. 3]. Atravs destetipo de teste, possvel observar, nas sentenas abaixo, que uma mulher um consituinte, j que ele se mantm coeso em todas as posies que eleocupa nas referidas sentenas.

    1. Todo homem ama uma mulher.

    2. Uma mulher, todo homem ama.

    3. uma mulher que todo homem ama.

    4. Uma mulher amada por todo homem.

    Estas duas dimenses do eixo sintagmtico parecem car ainda mais cla-ras na lingstica computacional, j que certas operaes s podem ser reali-zadas depois que esta dimenso secundria revelada. Gazdar e Mellish[5, p. 5], por exemplo, se referem exatamente a isto quando dizem que:

    1Rero-me aqui ao fato de que as enunciaes so constitudas pelo encademanto tem-poral de fones

    2Esta citao de [6] e as de [5], que sero usadas a seguir, foram todas traduzidas pormim.

    3

  • os objetos lingsticos so objetos estruturados. Mas eles nomanifestam explicitamente sua estrutura. A compreenso do sig-nicado de uma sentena depende essencialmente de uma habili-dade, que provavelmente inconsciente para o falante nativo dalngua em questo, em reconstruir esta estrutura.

    Neste caso, os autores mencionam explicitamente um aspecto cognitivoda gramtica: a construo mental de uma representao gramatical. Noentanto, mesmo para aqueles que no esto diretamente interessados nasmanifestaes cognitivas lingsticas, no h como fugir de uma representa-o gramatical, ainda que ela seja considerada apenas uma entidade terica:da mesma maneira que a reconstruo mental da estrutura gramatical ajudaa explicar nossas capacidades lingsticas, a construo terica de uma es-trutura de constituintes nos ajuda a explicar as relaes entre as expresseslingsticas.

    1.2 Gramtica

    Uma anlise gramatical no um objeto aleatrio: ela segue critrios bas-tante especcos que a relacionam com uma certa expresso lingstica, de-terminados pelo que se convencionou chamar de gramtica. Uma apresen-tao deste tipo de concepo de gramtica feita, por exemplo, por Gazdare Mellish [5, p. 100]:

    O conjunto de expresses lingsticas compostas em uma lnguanatural no nito, portanto no podemos simplesmente list-las uma-a-uma (cf. uma mquina lenta, uma mquina muitolenta, uma mquina muito muito lenta, . . . ). At onde se sabe,nenhuma lngua natural uma lngua nita. O domnio das cons-trues que tornam uma lngua innita normalmente bastantegrande. Em portugus, uma palavra como e nos permite com-binar um nmero indeterminado de sintagmas, e as sentenasrelativas podem conter sintagmas verbais que podem conter sin-tagmas nominais, que por sua vez podem conter outras sentenasrelativas . . . .

    Por isso, precisamos de sistemas formais (ou seja, matemticos)que denam os membros de conjuntos innitos de expresseslingsticas e atribuam uma estrutura a cada um dos membrosdestes conjuntos. Estes sistemas formais so as gramticas.

    4

  • A relao entre a gramtica e a anlise gramatical tambm reconhe-cida por Gazdar e Mellish [5, p. 101] da seguinte maneira: Da perspectivado PLN [Processamento de Lngua Natural], o estudo da gramtica umramo da representao do conhecimento: uma gramtica apenas uma ma-neira de representar determinados aspectos do que conhecemos sobre umalngua e que explcito e formal o suciente para ser compreendido por umamquina.

    1.3 Analisador Gramatical

    Da noo de gramtica como representao do conhecimento lingstico eda determinao da estrutura hierrquica das expresses lingsticas, Gaz-dar e Mellish [5, p. 5] denem o que um analisador gramatical (parser):um artefato computational que infere estrutura a partir de uma seqnciagramatical de palavras conhecido como analisador gramatical, e a maiorparte da histria do PLN nos ltimos 20 anos foi dedicada formulao deanalisadores gramaticais.

    A distino entre gramtica e analisador gramatical pode ser equiparada distino entre competncia e desempenho: a gramtica estaria no dom-nio da competncia, enquanto o analisador gramatical estaria relacionado aodesempenho. Pode-se perceber esse tipo de distino nas seguintes palavrasde Gazdar e Mellish [5, p. 5]: Conceitualmente, o analisador gramatical e agramtica so coisas de tipos bem distintos: uma gramtica apenas umadenio abstrata de um conjunto de objetos estruturados bem-formados,enquanto que um analisador gramatical um algoritmo ou seja, um con-junto preciso de instrues para se chegar a tais objetos.

    Nesse sentido, esta distino remete diretamente a toda uma discussoque tem ocorrido no mbito da psicolingstica moderna sobre a relao entrea gramtica e o analisador gramatical. Nesta discusso, podemos encontrarposies que vo da separao radical entre gramtica e analisador (comoa proposta pela hiptese da competncia forte, de Bresnan [1]) negaodesta separao (como geralmente acontece nas propostas coneccionistas),passando por posies intermedirias que defendem uma distino tericamediada por um processo de pr-compilao da gramtica a ser empregadapelo analisador (como a de Merlo [9]).

    1.4 Prolog

    A escolha do Prolog como linguagem de programao bastante natural paraquem lida com o PLN, j que este foi um dos principais motivos que levou

    5

  • criao desta linguagem. Alm disso, para um lingista acostumado como clculo de predicados, o Prolog uma linguagem bastante simples de seaprender, porque ela fortemente inspirada num subconjunto decidvel doclculo de predicados de primeira ordem.

    Finalmente, talvez o melhor de todos os motivos para escolher o Prologseja a disponibilidade das fontes. Alm do j mencionado livro de Gazdar eMellish [5], podemos mencionar ainda os livros de Pereira e Shieber [11], deCovington [3], de Dougherty [4] e de Matthews [8], todos dedicados exclusi-vamente ao PLN em Prolog.

    2 Proposta

    2.1 Objetivos

    O objetivo principal deste projeto o de propor o recenseamento das v-rias tcnicas de implementao de analisadores gramaticais disponveis emProlog. Depois que os algoritmos forem identicados nas fontes citadas, elessero minuciosamente compreendidos tanto em seu funcionamento quantoem suas limitaes. Para esse m, alm dos critrios normalmente empre-gados relacionados estrutura sinttica, sero consideradas ainda questesde ordem da interpretao semntica, j que um dos principais motivos dapostulao deste projeto o embasamento para a implementao de mode-los computacionais para as Gramticas Categoriais, que se caracterizam pelorespeito ao princpio de composicionalidade (que prev que o signicado deuma expresso complexa deve ser resultado exclusivamente dos signicadosdas expresses mais simples que a compem e da forma como estas expres-ses mais simples se combinam; ou, dito de outra maneira, que cada operaosinttica deve corresponder a uma operao semntica); alm disso, questesrelativas possibilidade de aplicao destes modelos computacionais para aexplicao do comportamento lingstico humano tambm sero levadas emconsiderao.

    Como um objetivo secundrio, pretende-se que os resultados deste recen-seamento sejam disponibilizados atravs de uma pgina de internet, a sersediada no endereo http://people.ufpr.br/arthur. Alm disso, aindaem relao divulgao, espera-se que os contedos sejam reunidos em for-mato de livro a ser submetido a algumas editoras para publicao.

    6

  • 2.2 Cronograma

    Como a maior parte do trabalho consistir na resenha de livros, deu-se pre-ferncia para a organizao do cronograma baseada nas obras resenhadas.Assim, os livros devem ser lidos e comentados na seguinte ordem:3

    2006:

    junho a agosto: resenha de [11]

    setembro a novembro: resenha de [5]

    dezembro: frias

    2007

    janeiro e fevereiro: continuao da resenha de [5]

    maro e abril: resenha de [4]

    maio a julho: resenha de [3]

    agosto e setembro: resenha de [8]

    outubro e novembro: reviso das informaes disponibilizadas nainternet

    dezembro: frias

    2008

    janeiro a abril: preparao do manuscrito do livro

    maio: preparao do relatrio nal do projeto

    Referncias

    [1] Joan Bresnan, editor. The Mental Representation of Grammatical Re-lations. The MIT Press, Cambridge, Massachusetts, 1982.

    [2] Gennaro Chierchia. Semntica. Edunicamp & Eduel, Campinas & Lon-drina, 2003. Traduzido por Luiz Arthur Pagani, Lgia Negri e RodolfoIlari.

    3O cronograma inicial era para apenas um ano e se iniciava em abril de 2006. Noentanto, como o projeto s foi aprovado em reunio departamental no dia 18 de maio de2006, postergou-se seu incio para junho de 2006; e atendendo o parecer apresentado nestareunio, que recomendava que o projeto fosse executado em mais tempo, o cronogramafoi extendido para dois anos.

    7

  • [3] Michael A. Covington. Natural Language Processing for Prolog Pro-grammers. Prentice Hall, Englewood Clis, 1994.

    [4] Ray C. Dougherty. Natural Language Computing An English Ge-nerative Grammar in Prolog. Lawrence Erlbaum Associates, Hillsdale,NJ, 1994.

    [5] Gerald Gazdar and Chris Mellish. Natural Language Processing in Pro-log An Introduction to Computational Linguistics. Addison-Wesley,Wokingham, 1989.

    [6] Giorgio Gra. Sintassi. Il Mulino, Bologna, 1994.

    [7] John Lyons. Introduo Lingstica Terica. Ed. Nacional & EDUSP,So Paulo, 1979. Trad. Rosa Virgnia Mattos e Silva & Hlio Pimentel.

    [8] Clive Matthews. An Introduction to Natural Language Processing th-rough Prolog. Longman, London, 1998.

    [9] Paola Merlo. Parsing with Principles and Classes of Information.Kluwer, Dordrecht, 1996.

    [10] Carlos Mioto, Maria Cristina Figueiredo Silva, and Ruth Elisabeth Vas-concellos Lopes. Manual de Sintaxe. Insular, Florianpolis, 1999.

    [11] Fernando C. N. Pereira and Stuart M. Shieber. Prolog and Natural-Language Analysis. CSLI, Stanford, 1987.

    8