Aquisição de Subcategorization Frames para Verbos da Língua ...

54
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE INFORMÁTICA CURSO DE CIÊNCIA DA COMPUTAÇÃO ADRIANO ZANETTE Aquisição de Subcategorization Frames para Verbos da Língua Portuguesa Projeto de Diplomação Prof a . Dr a . Aline Villavicencio Orientador Porto Alegre, julho de 2010

Transcript of Aquisição de Subcategorization Frames para Verbos da Língua ...

Page 1: Aquisição de Subcategorization Frames para Verbos da Língua ...

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SULINSTITUTO DE INFORMÁTICA

CURSO DE CIÊNCIA DA COMPUTAÇÃO

ADRIANO ZANETTE

Aquisição de Subcategorization Frames paraVerbos da Língua Portuguesa

Projeto de Diplomação

Profa. Dra. Aline VillavicencioOrientador

Porto Alegre, julho de 2010

Page 2: Aquisição de Subcategorization Frames para Verbos da Língua ...

“La venganza nunca es buena,mata el alma y la envenena.”

— DON RAMÓN

Page 3: Aquisição de Subcategorization Frames para Verbos da Língua ...

AGRADECIMENTOS

Agradeço a Aline Villavicencio e a Maria José Finatto por me orientarem na área dePLN.

Agradeço ao Leonardo Zílio pela ajuda na avaliação manual do trabalho.

Agradeço ao Leonardo Borba que teve a paciência de ler todo o meu trabalho.

Agradeço aos membros do NILC que contribuiram com o léxico e também se mostra-ram atenciosos para todo tipo de questionamentos.

Agradeço especialmente aos meus pais, colegas e amigos que me acompanharam eapoiaram durante todo tempo de faculdade e também a minha namorada, que soube divi-dir o dia dos namorados com o trabalho de conclusão.

Page 4: Aquisição de Subcategorization Frames para Verbos da Língua ...

SUMÁRIO

LISTA DE ABREVIATURAS E SIGLAS . . . . . . . . . . . . . . . . . . . . 6

LISTA DE FIGURAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

LISTA DE TABELAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

RESUMO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

ABSTRACT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

1 INTRODUÇÃO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2 TRABALHOS RELACIONADOS . . . . . . . . . . . . . . . . . . . . . 152.1 Parsing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.1.1 Selva . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.1.2 Curupira . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.1.3 Bikel’s Multi-Lingual Parsing Engine . . . . . . . . . . . . . . . . . . . . 172.1.4 PALAVRAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2 Aquisição Lexical . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.2.1 Medidas de Avaliação . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.2.2 Sistemas de Aquisição de Subcategorização . . . . . . . . . . . . . . . . 20

3 MATERIAIS E MÉTODOS . . . . . . . . . . . . . . . . . . . . . . . . . 253.1 Materiais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.1.1 Floresta Virgem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.1.2 Léxico do NILC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.2 Métodos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.2.1 Pré-Processador . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.2.2 Extrator de SCFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.2.3 Construtor de SCFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.2.4 Filtro de SCFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

4 RESULTADOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.1 Avaliação Manual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.2 Avaliação Automática . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.2.1 Avaliação Geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.2.2 Avaliação Específica . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.3 Discussões . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

Page 5: Aquisição de Subcategorization Frames para Verbos da Língua ...

5 CONCLUSÕES E TRABALHOS FUTUROS . . . . . . . . . . . . . . . 49Apêndice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

APÊNDICE A VERBOS MAIS FREQUENTES . . . . . . . . . . . . . . . 51

REFERÊNCIAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

Page 6: Aquisição de Subcategorization Frames para Verbos da Língua ...

LISTA DE ABREVIATURAS E SIGLAS

SCF Subcategorization Frame

PLN Processamento da Linguagem Natural

PP Prepositional Phrase (Sintagma Preposicionado)

NP Noun Phrase (Sintagma Nominal)

VP Verbal Phrase (Sintagma Verbal)

ADVP Adverbial Phrase (Sintagma Adverbial)

ADJP Adjectival Phrase (Sintagma Adjetivo)

AD Árvores Deitadas

TP Verdadeiro positivo

FN Falso negativo

FP Falso positivo

Page 7: Aquisição de Subcategorization Frames para Verbos da Língua ...

LISTA DE FIGURAS

Figura 1.1: Exemplo de análise gramatical. . . . . . . . . . . . . . . . . . . . . 13

Figura 2.1: Visão geral do sistema de (BRISCOE; CARROLL, 1997). . . . . . . 20Figura 2.2: Exemplo de saída do etiquetador de (BRISCOE; CARROLL, 1997). . 20Figura 2.3: Exemplo de saída do lematizador de (BRISCOE; CARROLL, 1997). 21Figura 2.4: Exemplo de saída do parser de (BRISCOE; CARROLL, 1997). . . . 21Figura 2.5: Exemplo de saída do Extrator de padrões de (BRISCOE; CARROLL,

1997). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22Figura 2.6: Exemplo de relações de dependências na frase “«Confissões» chega

a Portugal”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23Figura 2.7: Exemplo de saída do parser de (MESSIANT, 2008). . . . . . . . . . 23Figura 2.8: Exemplo de saída do Extrator de padrões de (MESSIANT, 2008). . . 24Figura 2.9: Exemplo de saída do Construtor de SCFs de (MESSIANT, 2008). . . 24

Figura 3.1: Exemplo de análise gramatical para a frase “Seca afeta pouco a pro-dução de grãos” no formato AD. . . . . . . . . . . . . . . . . . . . . 26

Figura 3.2: Exemplo de análise gramatical para a frase “«Confissões» chega aPortugal”. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

Figura 3.3: Visão geral do sistema. . . . . . . . . . . . . . . . . . . . . . . . . . 28Figura 3.4: Modelagem da tabela de verbos. . . . . . . . . . . . . . . . . . . . . 29Figura 3.5: Modelagem da tabela de frames. . . . . . . . . . . . . . . . . . . . . 33Figura 3.6: Modelagem do banco de dados do sistema. . . . . . . . . . . . . . . 34

Figura 4.1: Gráfico com a variação de medidas de avaliação sobre o filtro defrequência absoluta de verbos. . . . . . . . . . . . . . . . . . . . . . 41

Figura 4.2: Gráfico com a variação de medidas de avaliação sobre o filtro defrequência absoluta de frames. . . . . . . . . . . . . . . . . . . . . . 42

Figura 4.3: Gráfico com a variação de medidas de avaliação sobre o filtro defrequência relativa de frames. . . . . . . . . . . . . . . . . . . . . . 42

Figura 4.4: Gráfico com a variação de medidas de avaliação sobre o filtro defrequência absoluta de verbos, eliminando todos frames com frequên-cia relativa menor que 0,017. . . . . . . . . . . . . . . . . . . . . . . 43

Figura 4.5: Gráfico com a variação de medidas de avaliação sobre o filtro defrequência absoluta de frames com o grupo de 20 verbos mais fre-quentes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

Figura 4.6: Gráfico com a variação de medidas de avaliação sobre o filtro defrequência relativa de frames com o grupo de 20 verbos mais frequentes. 44

Page 8: Aquisição de Subcategorization Frames para Verbos da Língua ...

Figura 4.7: Gráfico com a variação de medidas de avaliação sobre o filtro defrequência relativa de frames com o grupo de 10 verbos mais fre-quentes, após a correção do sistema. . . . . . . . . . . . . . . . . . . 46

Page 9: Aquisição de Subcategorization Frames para Verbos da Língua ...

LISTA DE TABELAS

Tabela 1.1: Simples comparação entre alguns dicionários da Língua Portuguesa. . 14

Tabela 2.1: Exemplo de subcategorização. . . . . . . . . . . . . . . . . . . . . . 18

Tabela 4.1: Resultados obtidos pelo sistema. . . . . . . . . . . . . . . . . . . . . 36Tabela 4.2: Comparação entre o número de frames rejeitados distribuídos por

faixa de frequência. . . . . . . . . . . . . . . . . . . . . . . . . . . . 37Tabela 4.3: Comparação entre os 20 verbos mais frequentes. . . . . . . . . . . . 45Tabela 4.4: Comparação entre os diferentes métodos de aquisição de SCFs. . . . 46

Page 10: Aquisição de Subcategorization Frames para Verbos da Língua ...

RESUMO

Neste trabalho são apresentados métodos para aquisição automática de subcategoriza-tion frames (SCF) para verbos de diversas línguas assim como a adaptação de um destesmétodos para Língua Portuguesa. Para tanto foi desenvolvido uma solução automática uti-lizando corpora previamente anotados com informações linguísticas. Utilizou-se comobase um parser já existente para a língua portuguesa - o parser PALAVRAS - e foi adap-tada uma solução desenvolvida para o francês (cf. (MESSIANT, 2008)). Para verificar aefetividade do método foi gerado automaticamente um léxico com informações de subca-tegorização e comparado com um léxico gerado manualmente.

Palavras-chave: Processamento da linguagem natural, aquisição léxica, léxico, subcate-gorização.

Page 11: Aquisição de Subcategorization Frames para Verbos da Língua ...

ABSTRACT

Subcategorization Frames Acquisition for Portuguese Language Verbs

This work discusses techniques for the automatic acquisition of subcategorizationframes (SCF) for verbs in many languages, and presents the extension of one of thesemethods for Portuguese. An automatic solution was developed using corpora annotatedwith linguistic information. We used a parser for Portuguese - the PALAVRAS parser -as basis for this work and adapted an existing solution developed for French (see (MES-SIANT, 2008)). To verify the effectiveness of the implemented method we automaticallygenerated a lexicon with subcategorization informations and compared it with a manuallygenerated lexicon.

Keywords: natural language processing, parsing, lexical acquisition, subcategorizationframes.

Page 12: Aquisição de Subcategorization Frames para Verbos da Língua ...

12

1 INTRODUÇÃO

O Processamento de Linguagem Natural (PLN) é uma área interdisciplinar que en-volve a Ciência da Computação (em particular a área de Inteligência Artificial) e a Lin-guística. Nesta área são estudados diversos problemas com relação à geração e/ou com-preensão de linguagens naturais por máquinas, entre outros problemas afins, como pode-mos encontrar em (JURAFSKY; MARTIN, 2000).

Atualmente, em PLN, existem diversos desafios de grande complexidade, como porexemplo, sistemas automáticos de Resposta a Pergunta, tradução automática, correçãogramatical, entre outros. Estes tópicos têm gerado grande interesse, com as mais diferen-tes técnicas e abordagens em diversas línguas. Porém, a maioria destas abordagens sãopara sistemas que tem como língua alvo o inglês (cf. (KORHONEN, 1997) e (BRISCOE;CARROLL, 1997)). Já para o português, as pesquisas e recursos são mais escassos, secomparados, por exemplo, ao inglês, espanhol ou francês.

Neste contexto, um dos mecanismos fundamentais no bom desempenho de sistemasde PLN é um parser. Dada uma gramática (conjunto de regras com um vocabulário) quedescrevem uma certa linguagem, parsers são analisadores gramaticais que recebem comoentrada um texto puro, verificam se o texto pode ser descrito pela gramática e o represen-tam, geralmente, em árvores de derivação que descrevem as relações entre as palavras emuma frase. Assim, em sistemas de Resposta a Pergunta estas relações podem ser usadaspara detectar qual informação está sendo requisitada, e guiar a busca por esta informa-ção. Por exemplo, caso quiséssemos fazer a pergunta “Quem venceu a copa do mundode 1998?” para um sistema de Resposta a Pergunta, internamente o sistema utilizaria umparser que analisaria a sentença de uma forma similar a vista na Figura 1.1, onde pode-mos ver as diversas partes da frase como o sujeito, verbo, objeto e modificadores. Pelosujeito, neste caso “Quem”, o sistema pode inferir que a busca se refere a alguém. Como verbo identificando a ação do sujeito, que no exemplo é “vencer”. Do objeto é retiradaa informação do que foi vencido e com o complemento é extraído uma restrição para aconsulta, que neste caso é o ano do fato ocorrido (1998). Assim, se o sistema de Respostaa Pergunta souber tratar corretamente estas informações, ele poderia pesquisar em umabase de dados e retornar a resposta correta ao questionamento.

Uma das principais dificuldades para o desenvolvimento de sistemas de Respostaa Pergunta para a Língua Portuguesa é a escassez de parsers para a mesma. Atual-mente existem poucos parsers específicos para o português (como podemos encontrarem (BICK, 2000), (WING; BALDRIDGE, 2006), (MARTINS et al., 2002) e (SILVA etal., 2010)). E se, ainda por cima, estivermos querendo que eles tenham uma ampla co-

Page 13: Aquisição de Subcategorization Frames para Verbos da Língua ...

13

Figura 1.1: Exemplo de análise gramatical.

bertura (e consequentemente alta taxa de acerto) teremos um problema ainda maior. Acobertura de um parser depende do conjunto de regras e palavras: quanto maior ele for,maior será a cobertura. Porém a definição manual desta informação é lenta e custosa eexige conhecimento de especialistas em lexicografia.

Uma alternativa é desenvolver métodos para a aquisição semi-automática de conhe-cimento linguístico, que possa ser subsequentemente incorporado a gramática da línguautilizada pelo parser. Desta forma, pode-se incorporar aos parsers já existentes maisinformações de uma maneira mais rápida, que permita que eles sejam mais facilmenteportados para um novo domínio. (BALDWIN et al., 2004) explica que grande parte doserros de parsing de ampla cobertura se dá por falta de palavras no vocabulário do parser.E em (BRISCOE; CARROLL, 1997) foi comprovado que enriquecendo um parser cominformações lexicais é possível obter uma melhora considerável de desempenho.

Como pode ser visto em (KORHONEN et al., 2006), léxicos de subcategorização sãovitais para a tarefa de parsing. Também são muito importantes para: classificação auto-mática de verbos, aquisição de preferências de seleção e tarefas que necessitam de co-nhecimento de estrutura predicado-argumento (como tradução automática e extração deinformação). Porém, léxicos de subcategorização construídos manualmente são altamentecustosos de produzir, são extremamente difíceis de serem atualizados com novas informa-ções obtidas automaticamente e dificilmente contêm informações estatísticas (tais comofrequência absoluta, frequência relativa, etc). Estas informações estatísticas são essenci-ais para qualquer tipo de abordagem probabilística e é quase impossível de ser coletadasem auxílio de programas de computador, além de serem altamente sensíveis ao domíniodos textos dos quais são extraídas.

Para o Português, existem poucos dicionários, ou léxicos, eletrônicos e não há umamédia de número de entradas (palavras) padrão para estes. Como, por exemplo, podemosver na Tabela 1.1 o tamanho de alguns dicionários da Língua portuguesa varia muito.

Tendo em vista que a maior parte dos erros de um parser se dá por falta de itens le-xicais, este trabalho tem como foco a aquisição lexical , mais especificamente, a geraçãode um léxico de subcategorização verbal. Extraindo as informações de subcategorizaçãode um grande número de verbos tendo como base um corpus1 de mais de 1 milhão depalavras previamente anotado pelo parser PALAVRAS. Para tanto, foi implementado umdo sistema automático de aquisição de SCF fundamentado em (MESSIANT, 2008), onde

1Corpus é um conjunto textos escritos ou falados (no caso deste trabalho quando se referir a corpus estáse tratando de corpus de texto escrito)

Page 14: Aquisição de Subcategorization Frames para Verbos da Língua ...

14

Dicionário Desenvolvedor EntradasDiadorim NILC/USP 1.5M de palavras flexio-

nadasPALMORF PALAVRAS/VISL 45.000 lexemas, 10.000

polilexicais e 20.000 for-mas de inflexão irregular

Dicionário de Pediatria Textquim/UFRGS 1000 termos compostos

Tabela 1.1: Simples comparação entre alguns dicionários da Língua Portuguesa.

foi extraído um grande número de SCFs para verbos do francês. Este sistema para o fran-cês precisou ser adaptado às ferramentas disponíveis para o português. O autor não temconhecimento até o dado momento de trabalho similar envolvendo aquisição automáticaem larga escala de SCFs para a língua portuguesa, fazendo este trabalho pioneiro nestaárea.

No Capítulo 2 são apresentados trabalhos para diferentes línguas sobre aquisição deSCFs para verbos e também são apresentados os principais parsers da língua portuguesa.No Capítulo 3 encontram-se os principais recursos utilizados neste trabalho e ainda o mé-todo implementado para aquisição de SCFs para verbos do português. No Capítulo 4 sãoexibidos os resultados obtidos com o método apresentado no Capítulo 3. E finalmente, noCapítulo 5 são apresentadas as conclusões retiradas deste trabalho, assim como possibili-dades de continuação do trabalho.

Page 15: Aquisição de Subcategorization Frames para Verbos da Língua ...

15

2 TRABALHOS RELACIONADOS

Neste capítulo serão apresentados os principais trabalhos que influenciaram o desen-volvimento de um sistema de aquisição de subcategorization frames (SCFs) para o portu-guês. São duas grandes áreas: parsing e aquisição lexical. Na Seção 2.1 são apresentadosalguns conceitos básicos sobre parsing, além de um estudo sobre os principais parsers dis-poníveis para a língua portuguesa. Já na Seção 2.2 serão abordados os principais trabalhossobre aquisição em larga escala de SCFs bem como as principais medidas de avaliação desistemas de recuperação de informação.

2.1 Parsing

Segundo (SILVA et al., 2007), parsing é uma tarefa fundamental nas diversas apli-cações de processamento da linguagem natural. A palavra parsing em si não remete aoprocessamento sintático por computador (ou processamento sintático computacional). Otermo vem da expressão latina pars orationes (partes-do-discurso, em português). Em(MATEUS; XAVIER, 1992) encontramos a seguinte definição para parsing:

“Parsing pode ser entendido como o processo de atribuição de uma es-trutura e de uma interpretação a uma sequência linguística.”

Resumidamente falando, em nível de computação, parsing diz respeito à interpreta-ção automática de sentenças de linguagem natural por meio de programas de computadorconhecidos como parsers. Especificamente, é a combinação de reconhecimento de umasentença, em linguagem natural, de entrada e a atribuição de alguma estrutura sintáticaa ela, que uma máquina possa posteriormente compreender. Um parser é utilizado emdiversas sub-áreas do PLN, como: correção gramatical, análise semântica, tradução auto-mática, sistemas de Resposta a Pergunta, extração de informação, aquisição léxica, entreoutras.

Em suma, a maioria dos parsers são compostos de um conjunto de regras gramaticaismatematizadas que definem uma certa língua. O grande problema é que é impossívelmatematizar todas as regras gramaticais existentes, pois muitas delas não são bem co-nhecidas ou ainda não estão bem formalizadas nas gramáticas. Outro fator que limita aabrangência de um parser, é que a língua é um fenômeno social, variando no tempo enas diversas camadas da sociedade, fazendo a tarefa de matematizar as regras gramaticais

Page 16: Aquisição de Subcategorization Frames para Verbos da Língua ...

16

mais difícil. Para finalizar, o parsing é desbancado quando utilizado para analisar frasesproduzidas por um registro oral, onde há diversas hesitações, repetições, falsos inícios eretomadas de frase.

Tratando-se da língua portuguesa, alvo deste trabalho, o desenvolvimento de par-sers ainda encontra-se em um estágio atrasado, comparando-se com o inglês, espanhol oufrancês. O estudo do estado-da-arte de parsers da Língua Portuguesa mostrou-se extrema-mente difícil, visto que estes são poucos e muitas vezes de baixa precisão. Nas seguintessubseções é explanado sobre os quatro parsers que chamaram mais atenção neste estudo.Dentre estes quatro foi escolhido o PALAVRAS para ser utilizado neste trabalho, pois éo que apresenta maior cobertura, além de já existir alguns corpora de grande tamanho jáanalisados pelo mesmo (cf. 3.1.1). E também apresenta uma característica pouco comuma maioria dos parsers, que é incorporar algumas marcações semânticas na análise de sen-tenças.

A seguir serão apresentados os quatro parsers mais relevantes encontrados.

2.1.1 Selva

Selva é um parser desenvolvido para analisar sentenças do português brasileiro. Pro-jetado para trabalhar com qualquer tipo de texto, sem restrição de contexto e de domínio,permitindo uma grande variação de construções de coordenação e subordinação.

O parser opera separadamente em cada sentença gerando todas as estruturas sintáti-cas válidas para cada sentença. Porém não reconhece algumas estruturas válidas que sãocomuns (como é o caso da inversão da ordem de sujeito e objeto) e além disto quandonão consegue reconhecer uma sentença como um todo, o parser simplesmente retornaum erro, sem gerar nenhum tipo de estrutura válida intermediária.

No único artigo encontrado sobre este parser (cf. (ALMEIDA et al., 2003)), ele foiavaliado com um pequeno corpus de 80 sentenças, retiradas de jornais e artigos de re-vistas, tendo em média 15 palavras por frase. Em 28 das sentenças o parser falhou ouencontrou uma estrutura inválida, nas outras 52 ele encontrou em média 51 árvores dederivação para a sentença de entrada.

2.1.2 Curupira

O Curupira foi desenvolvido pelo Núcleo Interinstitucional de Linguística Computaci-onal (NILC) e é parte de um projeto comercial de um verificador gramatical. É um parserrobusto para o português do Brasil, suporta sentenças de tamanho, estrutura e domínioirrestritos. O parser contém dois léxicos. O primeiro, é composto de 1.5 milhões de pa-lavras simples com informações morfossintáticas. Já o segundo é formado de expressõescompostas.

O Curupira tenta gerar as árvores sintáticas tentando fazer um pareamento em sua basede regras com a sentença analisada. Quando nenhum pareamento é encontrado, mesmodepois de tratados possíveis erros de ortografia, o parser não gera nada (nenhum tipo deanálise parcial é realizada). O parser possui dois tipos de saída. Uma traz as informações

Page 17: Aquisição de Subcategorization Frames para Verbos da Língua ...

17

obtidas com o léxico e a outra mostra toda a estrutura sintática obtida a partir das regrasde derivação.

A versão 1.0 do Curupira foi testada com 297 sentenças obtidas de um jornal bra-sileiro (principalmente manchetes de notícias). O parser não conseguiu obter resultadopara 25% das sentenças. Para as outras 222 frases, o Curupira foi capaz de gerar pelo me-nos uma estrutura sintática válida, mas para 39 dentre estas o resultado não foi o esperado.

2.1.3 Bikel’s Multi-Lingual Parsing Engine

O parser desenvolvido por Dan Bikel é um parser que suporta diversos tipos de mo-delos estatísticos de parsing, podendo ser facilmente treinado para diversas línguas como,por exemplo, para o inglês, chinês e arábico. Possui um modelo de parsing que tem di-ferentes níveis de informações estruturais, tais como distinção de complemento/adjunto,subcategorização, etc.

Em (WING; BALDRIDGE, 2006) é encontrada uma adaptação do parser do Dan Bi-kel para o português, utilizando como corpus de treinamento o Floresta Sintá(c)tica (vide3.1.1), mas para tanto foi preciso converter o Floresta para o formato de treinamentoaceito pelo Bikel’s Multi-Lingual Parsing Engine. O parser foi testado com 60 sentençase obteve uma taxa de erro de apenas 13%.

2.1.4 PALAVRAS

O PALAVRAS é um parser automático para textos irrestritos do português. Este par-ser é destinado para aplicações como marcação de corpora, tradução automática e ensinode gramática. As regras gramaticais são formuladas no formalismo de Constraint Gram-mar (CG) e focadas em desambiguação, tratando vários níveis de análise linguística demaneira relacionada. Apesar de usar um conjunto de etiquetas diferenciado o PALAVRAStem uma boa taxa de acerto para textos de domínios irrestritos - 99% para morfologia daspalavras e cerca de 97% para funções sintáticas (BICK, 2000).

As estruturas de argumentos e relações de dependência são tratados de um modo ino-vador que permite transformação automática entre alguns formalismos de estruturação deárvores de derivação. Além de informações sintáticas, o parser usa valência e informa-ções de classe semântica do léxico.

2.2 Aquisição Lexical

Como pode ser visto em (KORHONEN, 1997), a importância de léxicos tem aumen-tado consideravelmente tanto para PLN como para Linguística. Construir léxicos repre-sentativos manualmente é uma tarefa que demanda muito trabalho e muito tempo de vá-rios linguistas. Mas tem-se aliviado muito deste trabalho com o auxílio de computadores.Com esta ajuda os léxicos são desenvolvidos cada vez em menos tempo e têm aumentadode tamanho.

Atualmente há um empenho grande em desenvolver métodos de aquisição lexical au-

Page 18: Aquisição de Subcategorization Frames para Verbos da Língua ...

18

Subcategoria Argumentos ExemplosVerbo intransitivo NP[sujeito] A mulher caminhou.Verbo transitivo direto NP[sujeito],

NP[objeto]João ama Maria

Verbo transitivo indireto NP[sujeito],PP[objeto]

Pedro gosta de leite.

Tabela 2.1: Exemplo de subcategorização.

tomática a partir de corpus para diversas línguas. Neste contexto, é importante não so-mente adicionar uma nova entrada a um dicionário, mas também suas características lin-guísticas (morfológicas, sintáticas e semânticas). Neste trabalho o foco é na aquisição deinformações sintáticas, como os subcategorization frames (SCF), ou padrões de predica-ção ou subcategoria de uma palavra.

Palavras são classificadas em categorias (verbo, substantivo, artigo, etc.) que por suavez são classificadas em subcategorias (verbo transitivo direto, substantivo próprio, etc.).Tendo isto em mente, o SCF de uma dada palavra especifica o número e tipo de cadaum dos argumentos sintáticos que ocorrem junto a ela. Na Tabela 2.1 podemos ver algunsexemplos de subcategorização para verbos. Por exemplo, como é possível notar na tabela,um verbo transitivo indireto possui dois argumentos: o primeiro, um sintagma nominal1

(ou NP do inglês Noun Phrase) indica que o núcleo é um substantivo e este argumento éo sujeito da oração, neste caso “Pedro”. O segundo argumento é um PP (do inglês Prepo-sitional Phrase) que sugere que o verbo “gostar” possui um argumento preposicionado,que no exemplo é “de leite”.

Vários métodos têm sido propostos na área de PLN para a aquisição automática deinformações de subcategorização, tais como os descritos em (KORHONEN et al., 2006),(LAPATA; BREW, 1999), (BRISCOE; CARROLL, 1997), (WALDE, 2002), (MESSI-ANT, 2008). Estes métodos em geral são desenvolvidos para uma língua específica (namaioria das vezes para o inglês), e nem sempre podem ser portados para outras línguas.O método descrito em (KORHONEN et al., 2006) para o inglês é uma exceção, pois foiadaptado para o francês (descrito em (MESSIANT, 2008)). O método desenvolvido em(MESSIANT, 2008) foi escolhido como base deste trabalho, visto que tanto ele como ométodo de (KORHONEN et al., 2006) são o estado-da-arte de aquisição de SCF para ofrancês e para o inglês, respectivamente. Alguns dos métodos citados aqui serão explica-dos mais adiante neste capítulo.

2.2.1 Medidas de Avaliação

Antes de explicar os métodos de aquisição de SCFs é necessário ter uma visão geralsobre medidas de avaliação de sistemas de aquisição lexical. Estas medidas são utilizadaspara avaliar o desempenho tanto nos trabalhos relacionados como para avaliar os resulta-dos deste trabalho. Dentre as várias medidas de avaliação de recuperação de informação,as principais são: precisão, abrangência e f-measure.

1Sintagmas são grupos de palavras organizados em torno de um núcleo sintático que o denomina. Assim,sintagmas nominais são agrupamentos de palavras onde o núcleo é um substantivo.

Page 19: Aquisição de Subcategorization Frames para Verbos da Língua ...

19

• Precisão: indica a quantidade de SCFs recuperados por um sistema que são rele-vantes, ou seja, é a medida da quantidade de SCFs, que foi recuperado, que estácorreta. A precisão é calculada como se segue:

Precisao =numero SCFs de corretos recuperados

numero total de SCFs recuperados

• Abrangência: indica a quantidade de SCFs relevantes que foram recuperados comsucesso, ou seja, indica a porcentagem de SCFs que foi recuperado com sucessodentro de uma lista de referência (lista que contém todos os SCFs que deveriamser recuperadas). Em alguns sistemas é trivial alcançar uma abrangência de 100%retornando todas as informações encontradas sem serem filtradas. Porém a abran-gência sozinha não significa muito para uma avaliação, é necessário outra medidaque utilize também o número de informações que foram recuperadas e não são re-levantes a busca como, por exemplo, é feito no cálculo da precisão. Para se calculara abrangência é utilizada a seguinte fórmula:

Abrangencia =numero de SCFs corretos obtidos

numero total de SCFs corretos

• F-measure: na maioria dos sistemas com o aumento da precisão, a abrangênciadiminui e com o aumento da abrangência a precisão decai. Tendo em vista que pre-cisão e abrangência são medidas distintas, e que trazem bastante informação sobreo desempenho do sistema, é usada a f-measure para combinar estas duas medidasem uma só. Assumindo-se um valor arbitrário β , a f-measure é calculada da se-guinte maneira:

F−measure =(1+β 2)∗ precisao∗abrangencia

β 2 ∗ (precisao+abrangencia)

Se β = 1, então a f-measure equivale a média harmônica entre precisão e abrangên-cia:

F−measure =2∗ precisao∗abrangencia

precisao+abrangencia

Page 20: Aquisição de Subcategorization Frames para Verbos da Língua ...

20

Figura 2.1: Visão geral do sistema de (BRISCOE; CARROLL, 1997).

Figura 2.2: Exemplo de saída do etiquetador de (BRISCOE; CARROLL, 1997).

2.2.2 Sistemas de Aquisição de Subcategorização

Aqui são apresentados os principais sistemas de aquisição de SCFs para o inglês epara o francês. Primeiro, em 2.2.2.1 será apresentado um sistema básico para o inglêsdescrito em (BRISCOE; CARROLL, 1997). Em 2.2.2.2 será visto um aprimoramentofeito no sistema de (BRISCOE; CARROLL, 1997), desenvolvido por (KORHONEN etal., 2006). E, por fim, em 2.2.2.3 é descrita uma adaptação deste último sistema para ofrancês.

2.2.2.1 Briscoe e Carroll, 1997

O trabalho de (BRISCOE; CARROLL, 1997) propõe um sistema para aquisição au-tomática de SCFs para verbos da língua inglesa. Na Figiura 2.1 é apresentada uma visãogeral do sistema. Este sistema é composto basicamente de seis módulos que são aplicadosem sequência a sentenças de um corpus de texto puro:

• Etiquetador: é utilizado um etiquetador de pontuação e categoria morfológica daspalavras, para atribuir etiquetas com informações morfossintáticas para cada pa-lavra, ou sinal de pontuação, de uma dada sentença. Por exemplo, a frase “Heattributed his failure, he said, to no< blank> one buying his books” seria etiquetadacomo apresentado na Figura 2.2;

• Lematizador: é utilizado para substituir os pares palavra-etiqueta, gerados comosaída do etiquetador, para lema-etiqueta, onde um lema é a base morfológica dapalavra. Por exemplo, o lema de “cantaram” é “cantar”, de “meninos” é “menino”.No caso do exemplo da Figura 2.2, o resultado do lematizador seria igual ao daFigura 2.3;

Page 21: Aquisição de Subcategorization Frames para Verbos da Língua ...

21

Figura 2.3: Exemplo de saída do lematizador de (BRISCOE; CARROLL, 1997).

Figura 2.4: Exemplo de saída do parser de (BRISCOE; CARROLL, 1997).

• Parser probabilístico: é utilizado um parser treinado com um treebank que re-torna análises sintáticas ordenadas por probabilidade de ocorrência da análise paraa sentença. Como saída do parser para o exemplo da Figura 2.3 teríamos a árvoresintática apresentada na Figura 2.4;

• Extrator de padrões: nesta etapa são extraídos padrões de subcategorização, in-cluindo as categorias sintáticas e lemas dos constituintes. O sistema é capaz dereconhecer 163 padrões diferentes de subcategorização que foram retirados de doisdicionários eletrônicos gerados manualmente. A saída deste módulo é compostados SCFs dos verbos e os núcleos de cada um dos complementos, exceto no casodos PPs (sintagmas preposicionados), onde são retornadas também informaçõessobre o frame destes tipos de sintagma. Por exemplo, na Figura 2.5 é apresentadoum exemplo de extração de padrão para o verbo “attribute” na frase “He attributedhis failure, he said, to no< blank> one buying his books”. Como é possível ver, noexemplo, que um dos argumentos do verbo é um PP e por isto foi adquirido tambémos complementos deste constituinte;

• Classificador de padrões: os padrões são classificados de acordo com uma dasclasses pré-definidas manualmente ou são rejeitados caso não se enquadrem emnenhuma das classes. A partir do exemplo da Figura 2.5 seria atribuído a classe desubcategorização correspondente a um NP mais um PP que tem como complementouma oração não-finita;

• Avaliador de padrões: constrói os SCFs eliminando entradas que o classificadornão conseguiu atribuir a nenhuma classe e elimina frames com poucas ocorrências.

Page 22: Aquisição de Subcategorization Frames para Verbos da Língua ...

22

Figura 2.5: Exemplo de saída do Extrator de padrões de (BRISCOE; CARROLL, 1997).

Os testes do sistema foram feitos com a união de dois corpora, somando um total de1,2 milhão de palavras. E foram extraídos SCFs de 14 verbos escolhidos aleatoriamente,sujeitos a regra de que eles deveriam ter uma boa variação de padrões de subcategoriza-ção. Foram extraídas dos corpora todas as sentenças que possuíssem um destes verbos esobre elas foram aplicados os 6 passos do método descrito acima. O resultado foi com-parado contra um léxico de subcategorização gerado manualmente onde obteve-se 65,7%de precisão e 35,5% de abrangência, o que leva a uma f-measure de 46,1%.

2.2.2.2 Korhonen et al., 2006

Em (KORHONEN et al., 2006) é utilizado o sistema descrito em (BRISCOE; CAR-ROLL, 1997) como base, com um corpus corpus pré-processado pelo RASP (RobustAccurate Statistical Parsing (BRISCOE et al., 2006)) que é um parser robusto para o in-glês independente de domínio. O objetivo do trabalho apresentado em (KORHONEN etal., 2006) foi de gerar um grande léxico de subcategorização para o inglês a partir de 5corpora e documentos extraídos da web, somando um total de 900 milhões de palavras.

Padrões de subcategorização de verbos são extraídos das análises geradas pelo RASP.Estes padrões adquiridos são então classificados em uma das 163 categorias de SCFs ver-bais. Depois de classificados, são construídas entradas léxicas para cada combinação deverbo e SCF, gerando assim um léxico básico. Por fim, as entradas lexicais passam porum módulo que filtra parte das entradas que foram adquiridas erroneamente. Este móduloé aplicado para melhorar a qualidade do léxico adquirido, existem várias opções de filtroneste módulo.

O sistema de (KORHONEN et al., 2006) foi avaliado utilizando 183 verbos escolhi-dos aleatoriamente, com a restrição de que deveriam ter uma boa variação de frames efoi comparado a um léxico de subcategorização gerado manualmente. Utilizando-se umfiltro de frequência relativa nos SCFs adquiridos foi obtido 80,7% de precisão, 46,1% deabrangência e 58,6% de f-measure. Mas utilizando técnicas mais avançadas de filtragemde SCFs o sistema obteve um máximo de 87,3% de f-measure.

Como resultado foram obtidos 212.741 entradas no léxico para 6.397 verbos, tendouma média de 33 frames por verbo. Em cada entrada do léxico são contidas as seguin-tes informações: o verbo alvo, o SCF para o verbo, o número de ocorrências do verbocom o SCF, a frequência relativa do verbo acompanhado do SCF (o cálculo deste tipo de

Page 23: Aquisição de Subcategorization Frames para Verbos da Língua ...

23

Figura 2.6: Exemplo de relações de dependências na frase “«Confissões» chega a Portu-gal”.

Figura 2.7: Exemplo de saída do parser de (MESSIANT, 2008).

frequência é explicado adiante neste capítulo) e os argumentos do verbo no SCF.

2.2.2.3 Messiant, 2008

Em (MESSIANT, 2008) é descrito um método adaptado de (KORHONEN et al.,2006) para o francês para adquirir automaticamente um léxico de subcategorização. Foinecessária uma adaptação do sistema pois as ferramentas utilizadas no método para oinglês não estão disponíveis para o francês, então foi necessário buscar por ferramentasdisponíveis para o francês que se assemelhassem às utilizadas por (KORHONEN et al.,2006).

A partir do método descrito em (MESSIANT, 2008) foi gerado o primeiro léxico desubcategorização para o francês automaticamente adquirido. Para gerar este léxico foi uti-lizado um corpus composto de dez anos do jornal “Le Monde”, contendo 200 milhões depalavras. Este corpus foi primeiro pré-processado pelo etiquetador morfossintático Tree-Tagger (cf. (SCHMID, 1994)) e posteriormente analisado pelo parser de dependências2

Syntex (cf. (BOURIGAULT et al., 2005)). Este parser para o francês é especializadoem extrair relações de dependências entre as palavras em uma sentença, tais como a daFigura 2.6, com três relações de dependência entre: 1) o verbo “chega” e “«Confissões»”com a relação de sujeito; 2) “chega” e “a” como seu objeto e; 3) “a” e “Portugal” como oargumento do sintagma preposicionado. Por exemplo, para a frase “La sácheresse s’abattitsur le Sahel en 1972-1973.” o Syntex geraria a análise apresentada na Figura 2.7.

Depois que o corpus é pré-processado são escolhidos os verbos alvo para extração deSCFs. Estes verbos são os com mais de 200 ocorrências no corpus. E logo após o corpus,

2Uma palavra possui relação de dependência com outra palavra, quando ela está inclusa dentro de umsintagma no qual a outra palavra é o núcleo, ou seja, a uma é argumento da outra.

Page 24: Aquisição de Subcategorization Frames para Verbos da Língua ...

24

Figura 2.8: Exemplo de saída do Extrator de padrões de (MESSIANT, 2008).

Figura 2.9: Exemplo de saída do Construtor de SCFs de (MESSIANT, 2008).

já anotado com informações de relações de dependência entre as palavras, passa por umprocesso que extrai os SCFs para os verbos selecionados. Este processo é dividido em 3etapas:

• Extração de padrões: coleta todas as dependências encontradas pelo parser paracada ocorrência de um dos verbos alvo, que foram previamente selecionados. Seum pronome reflexivo é uma das dependências do verbo, há um tratamento especialno qual o verbo passa a ser composto dele mesmo junto com o pronome reflexivo.Além disso, se um dos argumentos é um PP (sintagma preposicionado) são aindaindicadas a preposição que é núcleo deste sintagma e se ele é seguido de um NP(sintagma nominal) ou de uma sentença no infinitivo. Com a análise da Figura 2.7, éapresentado na Figura 2.8 a extração de um padrão para o verbo “s’abattre”. Comoé possível ver, foi juntado o pronome reflexivo (“se”) com o verbo (“abattre”), ge-rando um novo verbo;

• Construção dos SCFs: a partir das dependências extraídas na etapa anterior sãomontados os candidatos a SCF com informações das dependências, frequência, etc.A partir do exemplo da Figura 2.8 é obtido o frame da Figura 2.9;

• Filtro de SCFs: esta etapa é executada para retirar possíveis informações incorre-tamente extraídas para os frames, ou resultantes de erros de parsing. Para isto sãoretirados todos os frames de baixa frequência, e após os frames restantes são passa-dos por um filtro de frequência relativa. A frequência relativa de um SCF i com umverbo j é calculada como a seguir:

Frequencia Relativa(sc fi,verbo j) =|sc fi,verbo j||verbo j|

|sc fi,verbo j| é o número de ocorrências do SCF i com o verbo j e |verbo j| é númerototal de ocorrências do verbo j no corpus. Então um SCF é rejeitado pelo filtro se ovalor de sua frequência relativa é menor que um dado valor estipulado como limiar.

No final deste processo foram obtidos 11.149 entradas para o léxico para 3.268 verbos,tendo um total de 336 SCF diferentes. Cada entrada contém as seguintes informações:verbo, SCF para o verbo, número de ocorrências do SCF com o verbo, frequência relativae exemplos no corpus. O léxico obtido foi comparado a um léxico gerado manualmentee obteve 79% de precisão, 55% de abrangência e 65% de f-measure.

Page 25: Aquisição de Subcategorization Frames para Verbos da Língua ...

25

3 MATERIAIS E MÉTODOS

Neste capítulo serão apresentados os principais materiais utilizados para se desen-volver o sistema de aquisição de SCFs para verbos da língua portuguesa deste trabalhoe também os módulos que o compõe. Na Seção 3.1 é apresentado o corpus utilizadopara extrair os SCFs, passando pelo dicionário usado como padrão para a avaliação ena Seção 3.2 é explicado como estes materiais foram utilizados para se obter um léxicoautomaticamente gerado de subcategorização para verbos da língua portuguesa.

3.1 Materiais

Os materiais, tanto o corpus como o léxico, apresentados aqui foram selecionados porserem, dentre os disponíveis atualmente para a língua portuguesa, os que melhor se enqua-dram aos propósitos deste trabalho. Como já foi explanado anteriormente, os recursos dePLN para a língua portuguesa ainda estão em fase de crescimento e ainda estão muito dis-tantes dos disponibilizados para o inglês. Por isto deve-se levar em conta, ao comparar osmateriais e resultados deste trabalho, o estado atual dos recursos de PLN para o português.

3.1.1 Floresta Virgem

O sistema proposto neste trabalho recebe como entrada um corpus anotado com infor-mações morfossintáticas e semânticas, a partir do qual extrai as dependências dos verbospara gerar os seus respectivos SCFs. O corpus selecionado é o Floresta Virgem, que per-tence a um projeto maior, o projeto Floresta Sintá(c)tica. O Floresta Sintá(c)tica visaconstruir florestas sintáticas para a língua portuguesa. Neste contexto, se entende queflorestas sintáticas (ou do inglês treebank) são “um conjunto de itens (frases) analisadossintaticamente. A cada frase é atribuída uma estrutura sintática hierárquica, e por issouma frase (sintaticamente analisada) pode ser vista como uma árvore, donde uma florestanada mais é que um conjunto de frases analisadas sintaticamente e com informação rela-tiva aos níveis de constituintes.”(FREITAS et al., 2008)

A Floresta Virgem (AFONSO et al., 2001) é um corpus composto de cerca de 1,6milhão palavras (cerca de 96.000 frases), formado de textos jornalísticos, retirados doscorpora CETENFolha (parte do corpus NILC/São Carlos, composto de textos do jornalbrasileiro Folha de São Paulo, de 1994) e CETEMPúblico (formado por textos do diárioportuguês PÚBLICO, no período de 1991 a 1998). Este e os outros corpus do FlorestaSintá(c)tica encontram-se disponíveis para download em http://www.linguateca.pt/floresta/principal.html

Page 26: Aquisição de Subcategorization Frames para Verbos da Língua ...

26

Figura 3.1: Exemplo de análise gramatical para a frase “Seca afeta pouco a produção degrãos” no formato AD.

A Floresta Virgem foi totalmente anotada automaticamente pelo analisador morfos-sintático PALAVRAS, sem revisão manual, e está disponível em diversos formatos. Omais utilizado dos formatos é o árvores deitadas (AD). No formato AD, as informaçõessão codificadas em pares função e forma, como pode ser visto na Figura 3.1, onde a fun-ção corresponde a parte antes dos “:” e a forma o que vem após os “:”, e a quantidadede “=” na frente de cada item representa o nível que o item se apresenta na árvore. Estafigura exemplifica a análise sintática da frase “Seca afeta pouco a produção de grãos”pelo parser PALAVRAS no formato AD. Como pode-se ver na segunda linha da figura,há a indicação de que a palavra “Seca” tem função de um sujeito (SUBJ) e a forma é umsintagma nominal (np), sendo que o sujeito “seca” está no mesmo nível, e por isto é umargumento, do predicado “afeta”. As demais informações que se encontram apenas emnodos terminais são as que estão entre parenteses que correspondem ao lema da palavra(entre aspas simples), informações semânticas (entre “<” e “>”), informações morfossin-táticas da palavra. Por último, fora dos parenteses aparece a palavra assim como ocorreno corpus. Por exemplo, para a palavra “seca”, estas seriam respectivamente “seca”, “np-idf”, “F S” e “Seca”.

Na Figura 3.2 podemos ver um fragmento do corpus Floresta Virgem. Na primeiralinha é indicada a fonte de onde foi extraída a sentença, neste caso foi do caderno TVFolha do jornal Folha de São Paulo do ano de 1994. Na segunda linha encontra-se umidentificador para a sentença, seguido da sentença como é apresentada no jornal. Já naterceira linha tem um identificador para a árvore de derivação para sentença em questão,neste caso o parser só conseguiu inferir uma derivação (A1) se existissem mais árvoresencontraríamos, no exemplo, as árvores A2, A3, A4, ..., Ax. As árvores A1, A2,..,Axencontram-se ordenadas por uma série de heurísticas que indicam que A1 é uma árvore,que para uma dada sentença, mais provável que A2 e A2 é mais provável que A3 e assimpor diante. Por fim, no exemplo, da quarta linha em diante é apresentada a análise sintá-tica para a sentença.

Page 27: Aquisição de Subcategorization Frames para Verbos da Língua ...

27

Figura 3.2: Exemplo de análise gramatical para a frase “«Confissões» chega a Portugal”.

3.1.2 Léxico do NILC

Para avaliação dos resultados obtidos é usado o léxico descrito em (MUNIZ, 2004),desenvolvido em 2004 pelo NILC, contendo mais de 1.5 milhão de entradas flexionadaspara o português. Ele contém, para cada palavra, uma série de informações, tais como TD(para verbos transitivos diretos), TI (para verbos transitivos indiretos), BI (para verbosbitransitivos), INT (para verbos intransitivos), AUX (para verbos auxiliares), entre outras.A partir destas é possível mapear as correspondências em relação aos SCFs extraídos poreste trabalho. Além destas informações também são encontradas as preposições que po-dem acompanhar cada verbo. Mais informações de como este léxico foi adaptado paraque tornasse a comparação viável é explicado no Capítulo 4. Abaixo segue um exemploda entrada para o verbo armar no léxico, onde “V” indica que a entrada é um verbo, se-guido das suas subcategorias (BI, AUX, PRONOM, TD e TI), os tempos e pessoas emque o verbo na forma apresentada pode ocorrer (FUT-SUBJ.ELE, FUT-SUBJ.EU, INF-PESS.ELE, INF-PESS.EU.) e as preposições que o acompanham (a, com, contra, de, em,para).

armar=<V.[BI.INT.PRONOM.TD.TI.][FUT-SUBJ.ELE.FUT-SUBJ.EU.INF-PESS.ELE.INF-PESS.EU.]N.[a.com.contra.de.em.para.][armar]0.>

3.2 Métodos

Como foi apresentado anteriormente, em (MESSIANT, 2008) foi desenvolvido umsistema de aquisição de SCFs para o francês, e o que o tornou diferenciado de outros tra-balhos que focassem em outras línguas é que ele foi adaptado do trabalho desenvolvidoem (KORHONEN et al., 2006) para o inglês. Assim, foi tomada como base a metodolo-gia descrita em (MESSIANT, 2008) e (KORHONEN et al., 2006) e foi desenvolvida umaadaptação para língua portuguesa, utilizando ferramentais (corpora, parser, material para

Page 28: Aquisição de Subcategorization Frames para Verbos da Língua ...

28

Figura 3.3: Visão geral do sistema.

avaliação) já desenvolvidos para a mesma. Como discutido anteriormente, as ferramentasque se têm hoje para o português são bastante limitadas quando comparadas com as de-senvolvidas para outras línguas, como o inglês e o francês.

O sistema desenvolvido trabalha com 4 módulos: pré-processador, extrator de SCFs,construtor de SCFs e filtro de SCFs. Estes módulos são aplicados em sequência para quea partir de um corpus de texto puro se obtenha, no final, um léxico de subcategorizaçãopara a língua portuguesa obtido automaticamente. A seguir, os módulos são explicadoscom maior detalhamento. Na figura 3.3 podemos ter uma visão geral do sistema.

3.2.1 Pré-Processador

O pré-processador tem como entrada um corpus de texto puro e utilizando um anali-sador morfossintático são anotadas informações de classe gramatical, função gramatical,dependências, classe semântica, entre outras. Para fazer esta anotação foi utilizado in-diretamente parser PALAVRAS (como já visto anteriormente, é um parser robusto queapresenta, atualmente, os melhores resultados com textos tanto do português do Brasilcomo do português de Portugal (BICK, 2000)), pois o corpus escolhido para extrair osSCFs foi o Floresta Virgem que já está totalmente anotado pelo PALAVRAS no formatoAD. Este corpus foi escolhido por ser um dos de maior tamanho para o português1.

3.2.2 Extrator de SCFs

Após o corpus ter sido devidamente anotado com informações morfossintáticas, éaplicado o extrator de SCFs que retira fragmentos da árvore de derivação que posterior-mente se tornarão possíveis SCFs. Antes de explicar mais detalhadamente como sãoextraídos os possíveis SCFs, vale salientar alguns itens:

1Apesar do corpus Amazônia ser o maior disponível, ele tem notação diferente a adotada neste trabalhoe teria que ser feita uma mudança muito grande no sistema para que fosse possível obter os SCFs dos doiscorpora

Page 29: Aquisição de Subcategorization Frames para Verbos da Língua ...

29

Figura 3.4: Modelagem da tabela de verbos.

• Diferente dos trabalhos de (KORHONEN et al., 2006) e (MESSIANT, 2008) ondesão considerados somente alguns verbos alvo para se fazer a extração de SCFs, aquisão considerados todos os verbos contidos no corpus do Floresta Virgem;

• São considerados como argumentos do verbo tudo que vier após o verbo e estiver nomesmo nível que ele. Neste caso, não foi considerado o sujeito como complementodo verbo;

• Assim como em (MESSIANT, 2008) não é feita nenhuma distinção entre comple-mentos verbais e adjunto adverbiais, por não haver um estudo consolidado nestaárea para o português e também porque não existe distinção entre complemento eadjunto na análise gerada pelo PALAVRAS. Uma explicação para não fazer estadistinção aqui, é descrita em 3.2.4.

A extração é feita da seguinte forma: varre-se o corpus em busca de sintagmas ver-bais (VPs - do inglês Verbal Phrase), quando um VP é encontrado começa a leitura de umfragmento e é armazenado o nível em que o VP se encontra. É considerado como partedo fragmento tudo que estiver no mesmo nível do VP ou o que estiver um ou mais níveisacima dele. A leitura do fragmento é finalizada somente quando encontrar uma linha quetenha um nível inferior ao nível do VP ou quando a árvore chegar ao fim, ou ainda quandoencontrar um novo VP, neste caso é encerrada a leitura do fragmento encabeçado pelo VPanterior e é iniciada a leitura de um novo fragmento que tem como núcleo o novo VPencontrado.

As informações obtidas durante a leitura do fragmento são armazenadas de duas for-mas: 1) Durante esta etapa do processamento são coletadas informações sobre o verbo esuas ocorrências no corpus. Informações sobre o verbo são armazenadas em uma tabelano banco de dados, que contém para cada verbo um identificador único, o lema do verboe a quantidade de vezes que o verbo ocorre no corpus (frequência do verbo), como mos-trado na Figura 3.4; 2) As ocorrências de cada verbo no corpus também são armazenadasem arquivos, onde cada arquivo contém todos os fragmentos de um determinado verbo apartir dos quais serão extraídos os SCFs. Nestes arquivos são armazenados o identificadorda frase de onde foi extraído o fragmento junto com o fragmento em si.

Devido a erros consistentes de parsing, há um tratamento especial para verbos segui-dos por verbos no infinitivo. Nestes casos, o parser incorretamente trata os argumentoscomo pertencentes ao primeiro verbo, quando na verdade são argumentos do verbo noinfinitivo. Por exemplo, de acordo com a anotação abaixo:

Page 30: Aquisição de Subcategorization Frames para Verbos da Língua ...

30

==P:vp===AUX:v-fin(’poder’ PR 3S IND) pode===MV:v-inf(’ser’ <icl-subst>) ser==SC:adjp===H:adj(’interessante’ F S) interessante

o verbo “poder” seria o núcleo do sintagma verbal e o sintagma adjetivo (ADJP), quevem depois, seria reconhecido como argumento do verbo “poder”, quando na verdadeé argumento do verbo “ser”. Para isto não ocorrer os sintagmas verbais devem ser se-parados, para que o sintagma seja finalizado após o verbo “poder”, inserindo uma linhaindicando que o complemento do verbo “poder” é uma oração com verbo no infinitivo (S-INF) e o verbo “ser‘” se torna núcleo do de um novo VP que começa a ser lido a partir deentão, que tem um complemento “ADJP”. Neste trabalho isto é feito da seguinte forma: ofragmento do verbo anterior é finalizado, adicionando uma linha artificial com o nível doVP e com função “TAG” e forma “v-inf” no fim deste fragmento, e se dá início a leiturade um novo fragmento, onde o verbo núcleo do VP será o verbo no infinitivo encontrado.A linha inserida artificialmente serve para, posteriormente, quando for aplicado o cons-trutor de SCFs, “v-inf” ser identificado como um dos argumentos do verbo. Assim com otratamento, “poder” possui o frame “S-INF” e “ser” possui “ADJP”.

Para exemplificar o funcionamento do extrator de SCFs podemos utilizar como exem-plo a frase “«Confissões» chega a Portugal”, com análise morfossintática apresentadaanteriormente e repetida aqui na Figura 3.2. O extrator começa identificando que há oinício de uma nova sentença quando existe a sequência de caracteres “SOURCE” no iní-cio de uma linha. Da segunda linha é retirado o identificador para sentença, neste caso“CF2-1”, e ele é armazenado para no fim do fragmento ser guardado no arquivo do verbo.Só estão sendo tratadas as árvores A1 das sentenças, por serem as mais prováveis, as de-mais são descartadas. Quando é encontrado, na linha 9, um VP é iniciada a leitura de umfragmento, é armazenado o nível que o VP se encontra, calculando o número de sinais “=”encontrados no início da linha, neste caso existe apenas um sinal de “=”, então o nível emque o VP está é 1. Na linha abaixo do VP é encontrado o verbo núcleo do sintagma, noexemplo, o verbo “chegar”, que também é guardado para posteriormente ser adicionadona tabela de verbos no banco de dados. Então a leitura do fragmento continua até o fim,que neste caso é o fim da análise.

Após a leitura do fragmento ser finalizada são executados os seguintes passos:

1. Atualização de informação sobre verbo: Neste passo é verificado se já existe umaentrada para o verbo núcleo do sintagma verbal do fragmento. Caso não exista ne-nhuma linha na tabela para o verbo, então o verbo é inserido na tabela com valorde frequência igual a 1. Se já existe, o campo frequência é incrementado em umaunidade;

2. Atualização de ocorrência do verbo: Com base na operação anterior, consegue-sedizer se já existe um arquivo com fragmentos para o verbo encontrado. Se já existeuma linha na tabela de verbos quer dizer que já existe um arquivo para o verbo,então o arquivo do verbo é aberto para escrita apontando para a última linha domesmo. Caso não exista, um novo arquivo é criado e aberto para escrita. Por fim,

Page 31: Aquisição de Subcategorization Frames para Verbos da Língua ...

31

com o arquivo do verbo aberto na posição correta, é gravado primeiro uma linhaapenas com o identificador da sentença e depois todo o fragmento que foi obtido.Abaixo pode-se ver o fragmento, gravado no arquivo “chegar”, para o exemploanterior: é criado e aberto para escrita.

01- CF2-102- =P:vp03- ==MV:v-fin(’chegar’ PR 3S IND) chega04- =SA:pp05- ==H:prp(’a’) a06- ==P<:np07- ===H:prop(’Portugal’ M S) Portugal

3.2.3 Construtor de SCFs

A construção dos SCFs é feita a partir dos fragmentos extraídos do corpus, sendo quede cada fragmento são retirados determinados argumentos do verbo. Aqui é denominadocomo argumento de um verbo todos os constituintes que estiverem no mesmo nível doVP do fragmento e vierem depois. Além dos argumentos do verbo, também é obtido paraos PPs, o lema da preposição núcleo do sintagma preposicionado e o argumento do PP,na maioria dos casos, um NP. Os seguintes constituintes sintáticos, que representam osargumentos do verbo, são retirados dos fragmentos:

• NP para sintagmas nominais. Por exemplo, com o fragmento abaixo, seria cons-truído o frame NP para o verbo “pagar”;

===P:vp====MV:v-fin(’pagar’ PS 3S IND) pagou===ACC:np====>N:art(’um’ <arti> F S) uma====H:n(’fiança’ <np-idf> F S) fiança====N<:pp=====H:prp(’de’) de=====P<:np======H:n(’CR$’ <np-idf> M P) CR$======N<:np=======>N:num(’100’ <card> M P) 100=======H:n(’mil’ <card> <num> M P) mil

• VP para sintagmas verbais. Por exemplo no fragmento abaixo, o verbo “procurar”teria como frame “VP”, visto que ele foi encerrado para dar iníco a outro VP;

=P:vp==MV:v-fin(’procurar’ PS 3S IND) procurou=ACC:icl==P:vp

Page 32: Aquisição de Subcategorization Frames para Verbos da Língua ...

32

===MV:v-inf(’falar’ <icl-subst>) falar==PIV:pp===H:prp(’com’) com===P<:np====H:prop(’Melodia’ M S) Melodia==ADVL:pp===H:prp(’sobre’) sobre===P<:np====>N:art(’o’ <artd> M S) o====H:n(’incidente’ <np-def> M S) incidente

• ADJP para sintagmas adjetivos. Por exemplo, no fragmento abaixo seria obtido oframe “ADJP” para o verbo “acabar”;

=========P:vp==========MV:v-fin(’acabar’ <fs-rel> PR 3S SUBJ) acabe=========SC:adjp==========H:adj(’vencedor’ F S) vencedora

• ADVP para sintagmas adverbiais. Por exemplo, no fragmento abaixo, o verbo “rei-vindicar” teria como SCF “ADJP” ;

====P:vp=====AUX:v-fin(’vir’ PR 3P IND) vêm=====MV:v-inf(’reivindicar’ <fs-rel>) reivindicar====ADVL:advp=====H:adv(’junto’) junto=====A<:pp======H:prp(’de’ <sam->) de======P<:np=======>N:art(’o’ <-sam> <artd> M S) o=======H:n(’executivo’ <np-def> <prop> M S) Executivo

• S-INF para orações com verbo no infinitivo. Por exemplo, do fragmento acima,também seria extraído que o verbo “vir” tem como SCF “S-INF”;

• PP[prep+XX] para sintagmas preposicionados, onde prep é a preposição núcleodo sintagma e XX é qualquer um dos constituintes apresentados acima que seguemprep. Por exemplo no fragmento abaixo, o verbo “levar” teria com SCF “PP[a+NP];

=============P:vp==============MV:v-pcp(’levar’ F S) levada=============PIV:pp==============H:prp(’a’ <sam->) a==============P<:np

Page 33: Aquisição de Subcategorization Frames para Verbos da Língua ...

33

Figura 3.5: Modelagem da tabela de frames.

===============>N:art(’o’ <-sam> <artd> S) a===============H:n(’prática’ <np-def> F S) prática

Além dos constituintes apresentados acima, há uma marcação especial para verbosintransitivos (quando não existe nenhum argumento para o verbo), aqui denominada IN-TRANS.

Para construir um SCF com um dos fragmentos obtidos no extrator de SCFs, a pri-meira tarefa é encontrar um identificador de sentença. Assim que ele é localizado sabe-seque ali começa um novo fragmento. O identificador da sentença é guardado para quandoo frame for finalizado, ter-se a informação de quais sentenças contribuíram para sua cons-trução. Após encontrar um identificador, é buscada a linha que contém um VP, quandolocalizada é extraído dela o nível do sintagma verbal. A informação de nível guia a ex-tração dos argumentos, pois são considerados argumentos do verbo todos os itens queestiverem no mesmo nível que o VP. Com esta informação o resto do fragmento é varridoprocurando todas as linhas que têm o mesmo nível que o VP. Quando estas são encon-tradas é extraído a função sintática da linha em questão - NP, PP, VP, ADJP, ADVP ouS-INF. Caso a função seja um PP também é buscada a preposição núcleo do sintagma, quese encontra na linha subsequente ao PP e também é buscada e o argumento do sintagma.Se um frame tiver mais de um constituinte, estes são concatenados com “_”. Assim, ofragmento é lido até chegar ao seu fim, caso isto aconteça e o frame seja vazio, é atribuídoa ele o valor de “INTRANS”.

Para armazenar os frames é utilizada uma tabela no banco de dados. A estrutura destatabela é vista na Figura 3.5 e o relacionamento entre as tabelas de verbos e de frames,encontra-se na Figura 3.6. Assim que o frame é finalizado busca-se na tabela de framesuma entrada correspondendo a combinação do frame em questão e o verbo que o constru-tor de SCFs está avaliando no momento. Se esta combinação não existir, são inseridos natabela o frame, o identificador do verbo, o identificador da linha no campo de exemplos ea frequência, que é inicializada com valor 1. Caso a combinação de frame com verbo jáexista na tabela de frames, então a frequência é incrementada em uma unidade e no campoexemplos é concatenado o identificador da linha que o fragmento foi extraído. Este pro-cesso é repetido para cada fragmento dentro de cada arquivo de cada um dos verbos.

Para exemplificar este procedimento de construção de SCFs, pode-se tomar comoexemplo o fragmento extraído da frase “«Confissões» chega a Portugal”, apresentado naFigura 3.2. O processo começa lendo a linha 1 de onde é extraído o identificador da sen-tença que gerou este fragmento, neste caso “CF2-1”. Depois busca-se a linha que contémo VP, que é sempre uma linha após o identificador (linha 2 do exemplo). Dela é extraído

Page 34: Aquisição de Subcategorization Frames para Verbos da Língua ...

34

Figura 3.6: Modelagem do banco de dados do sistema.

o nível em que o sintagma se encontra, contando o número de sinais “=” que ocorrem noinício da linha, neste caso como só tem um sinal de “=” o nível é igual a 1. Descobrindo-se isto, pode-se varrer o resto do fragmento procurando constituintes no mesmo nível. Noexemplo existe apenas um argumento (que está no mesmo nível que o VP), que é o PP queaparece na linha 4 do fragmento. Como o argumento trata-se de um PP também é buscadaa preposição núcleo, que se encontra na linha 5 e é a preposição “a”, e também a próximaconstituinte do sintagma preposicionado, que neste caso é um NP e que tem como núcleo“Portugal”. Por fim encontra-se que o verbo “chegar” possui o seguinte frame:

PP[a+NP]

3.2.4 Filtro de SCFs

Devido a todos os passos serem completamente automatizados, a saída do construtorde SCFs produz muitos frames incorretos, devido a erros de parsing, de processamentoe também da dificuldade de fazer a distinção entre argumentos e adjuntos do verbo (estadistinção é difícil até mesmo para humanos fazerem) (MESSIANT, 2008). Neste trabalhosegue-se a hipótese adotada por (MESSIANT, 2008), verdadeiros argumentos tendem aocorrer em posições de argumentos mais frequentemente do que adjuntos, então os SCFsgerados pelo sistema, filtrando as entradas de baixa ocorrência, são os corretos. Para istoforam criados filtros para eliminar estas entradas de baixa frequência. Foram utilizadostrês tipos de filtro neste trabalho, que são apresentados abaixo:

• Filtro de frequência absoluta de verbos: este filtro é feito retirando-se todas as en-tradas de verbos de baixa frequência que estejam abaixo de um limiar pré-definido.Assim evita-se que verbos que tenham apenas uma ocorrência no corpus, mesmoque seja adquirido o frame corretamente, entrem na contagem. Esta heurística sebaseia na hipótese de que os frames corretos são os de alta frequência;

• Filtro de frequência absoluta de frames: este filtro é feito retirando-se todas as en-tradas de frames de baixa frequência que estejam abaixo de um limiar pré-definido.Ele é utilizado pelo mesmo motivo do que o filtro de frequência absoluta de ver-bos, só que para frames para capturar os casos em que os frames não tenham umaquantidade suficiente de amostras para que seja dado como verdadeiro;

• Filtro de frequência relativa de frames: este filtro é feito retirando-se todas asentradas de frames que tenham para cada verbo uma frequência relativa abaixo deum limiar predefinido. O cálculo de frequência relativa é o mesmo que foi apresen-tado na Seção 2.2. Com este filtro é possível eliminar, além de frames com baixa

Page 35: Aquisição de Subcategorization Frames para Verbos da Língua ...

35

frequência, também os frames que tenham uma baixa frequência comparados comoutros frames do mesmo verbo.

Os filtros são feitos basicamente de consultas no banco de dados, onde são dados li-miares para cada tipo de filtro - frequência do verbo, frequência do frame ou frequênciarelativa do frame. No Capítulo 4 será apresentado um estudo sobre os resultados obtidoscom cada um dos tipos de filtro, utilizados independentemente ou combinados.

Page 36: Aquisição de Subcategorization Frames para Verbos da Língua ...

36

4 RESULTADOS

Usando o framework para aquisição de subcategorization frames descrito na Seção 3.2,e o corpus do Foresta Virgem descrito em 3.1.1, o sistema conseguiu adquirir 1.709 verbose 5.864 combinações de subcategorization frames com verbos, sendo 686 frames distin-tos. Estes dados são apresentados na Tabela 4.1.

Para verificar a validade dos resultados obtidos pelo sistema de aquisição de subcate-gorization frames para verbos da língua portuguesa foram aplicados dois tipos de valida-ção. Uma avaliação manual, apresentada na Seção 4.1, com auxílio de um linguista. Osegundo tipo de avaliação foi automática, apresentada na Seção 4.2, onde para cada verbofoi feita uma comparação entre os SCFs obtidos pelo sistema e os contidos em uma listade referência, neste caso o léxico do NILC.

4.1 Avaliação Manual

Como o número total de SCFs é muito grande, para que a avaliação manual se tor-nasse viável, foi necessário selecionar apenas um subconjunto dos frames para que umhumano conseguisse avaliar em tempo hábil. Para isto foi necessário fazer uma pequenamodificação no sistema.

Como explicado no Capítulo 3, quando um dos argumentos do verbo é um sintagmapreposicionado é obtido também a preposição que é núcleo do sintagma e o primeiroconstituinte do sintagma. Quando é feito isto, o número de SCFs cresce muito, pois nor-malmente existe mais de uma preposição que pode formar o sintagma preposicionadopara um mesmo verbo. Tomando como exemplo o verbo “armar”, temos uma variedadede preposições que podem ser núcleo do sintagma preposicionado que é argumento doverbo, como podemos ver nos exemplos abaixo:

• José Lopes chegou a se armar com pedaços de paus.

• Pedro armou contra José.

# de verbos # de SCF # de combinaçõesverbo-SCF

1709 686 5.894

Tabela 4.1: Resultados obtidos pelo sistema.

Page 37: Aquisição de Subcategorization Frames para Verbos da Língua ...

37

Frequência Rejeitados Aprovadosentre 5 e 15 7(41,2%) 12(52,2%)entre 15 e 100 6(35,3%) 5(21,7%)maior que 100 4(23,5%) 6(26,1%)

Tabela 4.2: Comparação entre o número de frames rejeitados distribuídos por faixa defrequência.

• O pai armou-se de paciência para suportar as grosserias do filho.

• Pavãozinho se armou para eventual guerra.

Para reduzir o tamanho do conjunto de frames para ser avaliado, ao invés de se colocara preposição núcleo no frame foi simplesmente colocada a palavra “prep”. Assim framesque fossem apenas diferenciados na preposição foram considerados idênticos. Com estamodificação o número de frames diferentes foi reduzido de 686 para 139.

Para que fossem apresentados para o linguista, os frames foram gerados novamente,seguindo a regra apresentada acima, e foram selecionados apenas os frames diferentescomo parte do subconjunto para avaliação. Foi selecionado também o verbo em que acombinação SCF-verbo fosse a que ocorresse mais vezes. E além disto foram selecio-nados, para que fizessem parte do subconjunto, apenas os frames que tinham frequênciamaior que cinco. No total, foram obtidos 40 SCFs diferentes que ocorrem cinco ou maisvezes no corpus.

Foi desenvolvida uma interface para que o linguista pudesse classificar um framecomo aprovado ou reprovado. Para que esta avaliação fosse feita foram apresentadosas cinco primeiras ocorrências do frame com o verbo na íntegra, como ocorre no corpus.

Então foi pedido para que o linguista avaliasse se os frames foram extraídos corre-tamente com base nos exemplos apresentados. Caso houvesse dúvida, por exemplo, sequatro vezes o frame foi extraído corretamente e em uma vez ele foi extraído de modoerrado, valia a maioria, neste caso o frame seria considerado como válido. Tendo estasregras para avaliar os frames, o linguista aprovou 57,5% deles, ou seja, 23 SCFs. NaTabela 4.2 pode-se ver a quantidade e a porcentagem de frames aprovados e rejeitados,divididos por faixas de frequência.

Era esperado encontrar uma maior concentração de frames rejeitados na faixa de me-nor frequência e consequentemente que os frames aprovados fossem os mais frequentes.Mas como pode ser visto, na Tabela 4.2, isto não ocorre, tendo-se uma quantidade seme-lhante de frames aprovados e rejeitados por faixa de frequência. Por isto, foi pedido paraque o linguista explicasse porque os frames foram rejeitados.

O principal motivo de rejeição dos frames foi por que o verbo núcleo do frame era naverdade um verbo auxiliar da oração e deveria ter como frame apenas VP, o mesmo casotratado para os verbos no infinitivo explicados em 3.2.3 , mas ocorrendo de um mododiferente. 14 dos frames foram rejeitados por que os verbos auxiliares estavam sendotratados de forma errada, 2 foram rejeitados porque o sujeito estava incluso no frame e 1

Page 38: Aquisição de Subcategorization Frames para Verbos da Língua ...

38

porque o etiquetador parser marcava uma conjunção como preposição.

4.2 Avaliação Automática

Para executar a avaliação automática dos SCFs é necessário ter uma lista de referência,que diga quais frames são válidos e quais não são. Assim foi escolhido o léxico eletrô-nico do NILC,descrito na Seção 3.1.2, por sua cobertura e por conter informações sobresubcategorization frames.

Para a avaliação automática foi necessário pré-processar o léxico do NILC selecio-nando todos os verbos que se encontravam no infinitivo e destes foram extraídos os SCFs.Existem apenas quatro subcategorias de verbos que interessavam para comparar com osSCFs obtidos. Estas subcategorias são intransitivo, bitransitivo, transitivo direto, e tran-sitivo indireto. Cada uma delas recebe um tratamento especial para se tornar um SCFdiferente, podendo combinar com as preposições que os seguem.

Os tratamentos para as subcategorias dos verbos são os seguintes:

• Verbos intransitivos: como um verbo intransitivo não tem nenhum argumento, eleé mapeado para o frame “INTRANS”;

• Verbos transitivos diretos: os verbos transitivos diretos tem como argumento umsintagma nominal, por isto é mapeado para o frame “NP”;

• Verbos transitivos indiretos: os verbos transitivos indiretos têm como argumentoum sintagma preposicionado. Como visto em 3.2.3 quando há um sintagma prepo-sicionado como argumento do verbo, também é buscada a preposição que é núcleodo sintagma e o próximo constituinte, que na maioria dos casos é um sintagma no-minal. Assim, pode ser gerado mais de um frame para verbos transitivos indiretos.Estes frames correspondem a “PP[prep+NP]”, onde prep é substituído por cada umadas preposições que são apresentadas na entrada referente ao verbo no léxico. NPfoi escolhido como argumento do sintagma preposicional por ser o complementomais comum nesta posição;

• Verbos bitransitivos: os verbos bitransitivos possuem dois argumentos, um sin-tagma preposicionado e um sintagma nominal, não necessariamente nesta ordem.Por não haver esta restrição de ordem, foi necessário aplicar um tratamento espe-cial. Para exemplificar melhor este caso, podemos pegar os exemplos abaixo:

*********EXEMPLO 1************==P:vp===MV:v-inf(’dar’ <icl-subst>) dar==ACC:np===>N:art(’um’ <arti> M S) um===H:n(’basta’ <np-idf> M S) basta===N<:adjp

Page 39: Aquisição de Subcategorization Frames para Verbos da Língua ...

39

====H:adj(’definitivo’ M S) definitivo==PIV:pp===H:prp(’a’) a===P<:np====>N:pron-det(’todo’ <quant> M P) todos====>N:art(’o’ <artd> M P) os====H:n-adj(’remanescente’ <np-def> M P) remanescentes

********* FIM DO EXEMPLO 1************

*********EXEMPLO 2************==MV:v-fin(’dar’ PR 3S IND) dá=PIV:pp==H:prp(’a’ <sam->) a==P<:np===>N:art(’o’ <-sam> <artd> M P) os===H:n(’ministério’ <np-def> M P) ministérios...=ACC:np==H:n(’poder’ <np-idf> M S) poder==N<:pp===H:prp(’de’) de===P<:icl====P:vp=====MV:v-inf(’pedir’) pedir====ACC:np=====H:n(’intervenção’ <np-idf> F S) intervenção=====N<:adjp======H:adj(’judicial’ F S) judicial

********* FIM DO EXEMPLO 2************

Nos exemplos são apresentados dois fragmentos de análise, retirados do corpus Flo-resta Virgem, que envolvem o verbo “dar”, um verbo que pode ser subcategorizadocomo bitransitivo. É justamente isto que é apresentado nos exemplos 1 e 2, o verbo“dar” tendo como argumentos um sintagma preposicionado e um nominal, mas emordem diferente. No exemplo 1, o SCF para o verbo “dar” seria “NP_PP[a+NP]”,já no exemplo 2 seria “PP[a+NP]_NP”. Por este motivo, cada entrada de verbosbitransitivos no léxico é mapeada para dois tipos de SCFs com variação de preposi-ções. Estes dois SCFs são: “NP_PP[prep+NP]” e “PP[prep+NP]_NP”, onde prep ésubstituído por cada uma das preposições que são apresentadas na entrada referenteao verbo no léxico.

Tomando como exemplo a entrada, retirada diretamente do léxico do NILC, descritaabaixo, para o verbo “armar”:

armar=<V.[BI.INT.PRONOM.TD.TI.][FUT-SUBJ.ELE.FUT-SUBJ.EU.INF-PESS.ELE.INF-PESS.EU.]

Page 40: Aquisição de Subcategorization Frames para Verbos da Língua ...

40

N.[a.com.contra.de.em.para.][armar]0.>

Como pode-se ver, o verbo “armar” possui os quatro tipos de subcategorias tratadasaqui. Dentro da marcação “V.[]” encontram-se as subcategorias dos verbos separados por“.” e dentro da marcação “N.[]” estão as preposições que podem seguir o verbo separadaspor “.”. Como o verbo possui “TD” e “INT” entre suas subcategorias, seriam geradosos frames “NP” e “INTRANS” respectivamente. De “TI” infere-se que “armar” possui oseguinte frame “PP[prep+NP]” com prep sendo substituída por cada uma das suas prepo-sições - a, com, contra, de, em e para. E por fim de “BI” extraem-se os seguintes SCFs:“NP_PP[prep+NP]” e “PP[prep+NP]_NP” com prep sendo substituída por cada uma dassuas preposições. Então seriam obtidos, no final, os 20 SCFs abaixo:

INTRANSNPPP[a+NP]PP[com+NP]PP[contra+NP]PP[de+NP]PP[em+NP]PP[para+NP]NP_PP[a+NP]NP_PP[com+NP]NP_PP[contra+NP]NP_PP[de+NP]NP_PP[em+NP]NP_PP[para+NP]PP[a+NP]_NPPP[com+NP]_NPPP[contra+NP]_NPPP[de+NP]_NPPP[em+NP]_NPPP[para+NP]_NP

Tendo todas as entradas de verbos do léxico do NILC convertidas para SCFs foi possí-vel dar início aos testes, avaliando os resultados utilizando diferentes tipos de filtro. Nosprimeiros testes foi feita uma avaliação global sobre todos os 1.709 verbos adquiridospelo sistema e depois selecionando apenas os 20 verbos mais frequentes.

Para o léxico do NILC utilizando os 1.709 verbos, adquiridos pelo sistema, foram ob-tidos 6.061 combinações de SCFs com verbos. Vale observar que o sistema desenvolvidoneste trabalho considera muito mais constituintes do que os que podem ser representadoscom a conversão do léxico do NILC.

4.2.1 Avaliação Geral

Sem qualquer tipo de filtragem o sistema obteve uma precisão de 29,1% e abrangênciade 24,5% gerando uma f-measure de 26,5%. Estes valores são tão baixos porque há

Page 41: Aquisição de Subcategorization Frames para Verbos da Língua ...

41

Figura 4.1: Gráfico com a variação de medidas de avaliação sobre o filtro de frequênciaabsoluta de verbos.

muitos frames de baixa frequência que não foram filtrados. A seguir são apresentados osresultados utilizando os filtros descritos em 3.2.4.

• Filtro de frequência absoluta de verbos1: Como é possível observar na Figura 4.1a filtragem de verbos de baixa ocorrência melhora um pouco o desempenho dosistema, obtendo 31,9% de f-measure quando o corte de frequência equivale a 4.Pode-se ver, que o que prejudica o sistema, neste caso, é a precisão, pois a abran-gência cresce chegando até 83,1% quando são retirados todos os verbos que temfrequência menor que 180. No gráfico é apresentado o ponto de corte variando de0 até 200;

• Filtro de frequência absoluta de frames: Como é possível observar na Figura 4.2a filtragem de frames de baixa ocorrência só piora o desempenho geral do sistema.Mas mesmo decaindo o desempenho, nota-se que a precisão aumenta quando éaumentado o valor do ponto de corte de frequência absoluta de frames. Chegando aum pico de 61,8% quando são retirados todos os frames que tem frequência menorou igual a 8. No gráfico, o melhor valor de f-measure é quando o ponto de corte é 0,o que equivale aos resultados do sistema sem nenhum filtro. Na figura é apresentadoo ponto de corte variando de 0 até 10;

• Filtro de frequência relativa de frames: Observando a Figura 4.3 pode-se ver quehouve um pequeno incremento no desempenho de sistema utilizando este filtro.Com um ponto de corte equivalente a 0,017 obteve-se 35,5% de precisão, 23,1%de abrangência e f-measure de 28%. Na figura é apresentado o ponto de corte defrequência relativa variando de 0 até 0.1 com incremento de 0.001.

1O valor estipulado como ponto de corte de frequência absoluta de verbo é aplicado tanto nos framesobtidos por este trabalho como nos obtidos como o léxico do NILC. Por isto pode haver um aumento daabrangência utilizando este filtro.

Page 42: Aquisição de Subcategorization Frames para Verbos da Língua ...

42

Figura 4.2: Gráfico com a variação de medidas de avaliação sobre o filtro de frequênciaabsoluta de frames.

Figura 4.3: Gráfico com a variação de medidas de avaliação sobre o filtro de frequênciarelativa de frames.

Page 43: Aquisição de Subcategorization Frames para Verbos da Língua ...

43

Figura 4.4: Gráfico com a variação de medidas de avaliação sobre o filtro de frequênciaabsoluta de verbos, eliminando todos frames com frequência relativa menor que 0,017.

Comparando-se os gráficos obtidos podemos notar que em somente dois dos filtrosfoi obtida alguma melhora no sistema, que é o filtro por frequência absoluta de verbos e ofiltro por frequência relativa de frames. Uma característica interessante foi que enquantono filtro de verbos a abrangência crescia bastante, por outro lado no filtro de frequênciarelativa de frames a precisão era incrementada quando aumentado o ponto de corte. Poreste motivo, decidiu-se combinar estes dois filtros. Foi escolhido o melhor ponto do filtrode frequência relativa e foi feito o ponto de corte de frequência de verbos variar. O resul-tado pode ser visto na Figura 4.4, quando o ponto de corte varia de 0 até 200, eliminandotodos frames com frequência relativa menor que 0,017. Como melhor resultado obteve-se42,9% de precisão, 39,3% e 41% de f-measure.

4.2.2 Avaliação Específica

Como uma análise mais específica, foram selecionados apenas os SCFs dos 20 verbosmais frequentes no corpus e obtidos do léxico do NILC os SCFs para estes verbos. Estes20 verbos são apresentados no Apêndice A. Sem nenhum tipo de filtro, a avaliação dosistema, levando em conta apenas os 20 verbos mais frequentes, obteve uma precisão de13,9%, abrangência de 63,8% e f-measure de 22,8%. Foi aplicado primeiro o filtro defrequência absoluta de frame com ponto de corte variando de 0 até 10. Os resultadossão apresentados no gráfico da Figura 4.5. Como nitidamente pode-se ver, foi obtido umaumento considerável no desempenho do sistema chegando-se a um pico de 37% de f-measure quando o ponto de corte é igual a 4.

Após, foi aplicado o filtro de frequência relativa, que conseguiu melhorar ainda maisos resultados, com os resultados visualizados no gráfico da Figura 4.6. Foi obtido 41,3%de f-measure quando são eliminados todos os frames com frequência relativa menor ouigual a 0,009. Mesmo com estes resultados, foram obtidas medidas que ainda são inferi-ores aos outros trabalhos nesta área.

Page 44: Aquisição de Subcategorization Frames para Verbos da Língua ...

44

Figura 4.5: Gráfico com a variação de medidas de avaliação sobre o filtro de frequênciaabsoluta de frames com o grupo de 20 verbos mais frequentes.

Figura 4.6: Gráfico com a variação de medidas de avaliação sobre o filtro de frequênciarelativa de frames com o grupo de 20 verbos mais frequentes.

Page 45: Aquisição de Subcategorization Frames para Verbos da Língua ...

45

Verbo TP FP FN Precisão Abrangência F-measureser 2 9 2 18,1% 50% 26,7%ter 6 6 8 50% 42,9% 46,2%

estar 3 9 2 25% 60% 35,3%ir 1 9 0 10% 100% 18,2%

dizer 4 3 13 57,1% 23,5% 33.3%poder 4 6 2 40% 66,7% 50%fazer 9 7 5 56,3% 64,3% 60%haver 2 7 4 22,2% 33,3% 26,7%dever 2 8 3 20% 40% 26,7%dar 11 7 9 61% 55% 57,9%

ficar 7 12 16 36,8% 30,4% 33,3%passar 8 7 18 53,3% 30,8% 39%chegar 7 7 10 50% 41,2% 45,2%

ver 5 9 5 35,8% 50% 41,2%querer 2 3 12 40% 14,3% 21,1%afirmar 3 3 3 50% 50% 50%

conseguir 1 8 0 11,1% 100% 20%vir 7 8 12 46,7% 36,8% 41,2%

saber 3 3 0 50% 100% 66,7%continuar 5 4 2 55,6% 71,4% 62,5%

Tabela 4.3: Comparação entre os 20 verbos mais frequentes.

Na Tabela 4.3 são exibidos, para cada um dos 20 verbos, informação de precisão,abrangência e f-measure. Além de apresentar o número de verdadeiros positivo (TP),SCFs que o sistema recuperou com sucesso, falsos positivos (FP), SCFs que foram dadoscomo certos erroneamente, e falsos negativos (FN), SCFs que se encontram no léxico doNILC e não foram recuperados pelo sistema.

Como foi visto em 4.1, a principal fonte de erros são os verbos auxiliares que nãoestavam sendo corretamente tratados. E como pode ser visto na Tabela 4.3, a maioriados verbos apresentados nesta tabela, são muitas vezes classificados como auxiliares. En-tão, foi resolvido este problema da seguinte forma: os verbos auxiliares passam a tercomo SCF apenas “AUX”, os verbos que tinham a etiqueta “V-INF” também passam aser auxiliares, eliminando esta etiqueta do conjunto de possíveis argumentos de um SCFe adicionando a “AUX”. Também foram obtidos do léxico do NILC todos os verbos quepossuíssem como subcategoria “AUX” para poder comparar com a nova etiqueta. Comesta modificação obteve-se, com o léxico do NILC, 1674 verbos e 6739 combinações deverbo e SCFs.

Com a mudança apresentada acima, foram adquiridos 7256 combinações de SCF everbo, sendo 658 SCFs distintos. Na Figura 4.7 pode ser visto o resultado da aplicaçãodo filtro de frequência relativa para os 10 verbos mais frequentes. Com um ponto decorte de 0.008 foi obtido 47,7% de precisão, 54% de abrangência e 50,6% de f-measurealcançando assim medidas entre as aceitáveis comparando-se aos trabalhos desta área,apresentados anteriormente. Como é visto na Tabela 4.4, os resultados obtidos ficaramacima dos de (BRISCOE; CARROLL, 1997) e abaixo dos de (KORHONEN et al., 2006)

Page 46: Aquisição de Subcategorization Frames para Verbos da Língua ...

46

Figura 4.7: Gráfico com a variação de medidas de avaliação sobre o filtro de frequênciarelativa de frames com o grupo de 10 verbos mais frequentes, após a correção do sistema.

Método # de verbos deteste

Tamanho do corpus(em de palavras)

F-measure

(BRISCOE; CAR-ROLL, 1997)

14 1,2M 46,1%

(KORHONEN et al.,2006)

183 900M 58,6%

(MESSIANT, 2008) 20 200M 65,6%Deste trabalho 10 1,6M 50,6%

Tabela 4.4: Comparação entre os diferentes métodos de aquisição de SCFs.

e (MESSIANT, 2008).

4.3 Discussões

Analisando os resultados obtidos na avaliação manual são vistos três tipos de errosque aconteceram durante o processo de aquisição dos frames: 1) erros do etiquetador uti-lizado pelo parser; 2) mal tratamento de verbos auxiliares pelo sistema; 3) e o sujeitoestar incluso dentro do frame. Quanto aos resultados obtidos pela avaliação automática,é possível observar que há dois principais fatores que impossibilitaram obter um melhordesempenho para o sistema, são eles: o tamanho do corpus e o material utilizado paraavaliação não ser tão abrangente.

Uma das causas de erros na aquisição de SCFs é por falhas do etiquetador utilizadopelo PALAVRAS. Como foi visto em 4.1, uma das fontes de erro citadas pelo linguista éo caso em que uma conjunção é tratada como preposição. Isto pode ser visto no exemploabaixo:

Page 47: Aquisição de Subcategorization Frames para Verbos da Língua ...

47

CF45-4 Mas faz questão de lembrar que, aos 46 anos,ainda terá várias outras oportunidades para disputara presidência.A1...=====ADVL:advp======H:adv(’ainda’) ainda=====P:vp======MV:v-fin(’ter’ FUT 3S IND) terá=====ACC:np======>N:pron-det(’várias’ F P) várias======>N:pron-det(’outro’ F P) outras======H:n(’oportunidade’ F P) oportunidades=====ADVL/N<[+1]:pp======H:prp(’para’) para======P<:icl=======P:vp========MV:v-inf(’disputar’ ) disputar=======ACC:np========>N:art(’o’ F S) a========H:n(’presidência’ F S) presidência=.

No caso apresentado, a conjunção “para” é tratada como preposição, o que faz comque o frame gerado, para o verbo “ter”, seja “NP_PP[para+VP]”. Caso “para” fosse mar-cado como conjunção este frame não seria tratado pelo sistema, visto que não é feitonenhum tratamento para se adquirir conjunções nos SCFs. Porém, a rejeição desse frameé discutível, devido ao fato de que conjunção é uma observação gramatical discutível, maso linguista optou por tratar como conjunção durante a avaliação e rejeitar o SCF.

Outro problema, mais comum do que o erro do etiquetador, vem do fato de umaparte dos verbos auxiliares não estarem sendo tratados pelo sistema, gerando assim al-guns frames errados. Este problema foi o principal fator que fez com que os SCFs fossemrejeitados, durante a avaliação manual. Como pode ser visto, analisando os verbos daTabela 4.3, é que grande parte destes são verbos que comumente aparecem como auxili-ares de outros verbos. Apenas os verbos ser, ter, estar e ir, que na maioria das vezes sãoauxiliares, somados são mais frequentes que todos os outros 16 verbos que fazem partedos 20 verbos mais frequentes, como pode ser visto no Apêndice A.

Pode ser observado no exemplo abaixo o caso dos erros no tratamento de verbos au-xiliares:

CF12-2 «Na Vila, quando recebo a bola, tenho queficar olhando sua trajetória, para não sersurpreendido.A1...=,

Page 48: Aquisição de Subcategorization Frames para Verbos da Língua ...

48

=ADVL:pp==H:prp(’para’) para==P<:icl===ADVL:advp====H:adv(’não’) não===P:vp====AUX:v-inf(’ser’) ser====MV:v-pcp(’surpreender’ M S) surpreendido=.

Neste caso, o verbo núcleo do sintagma verbal, reconhecido pelo sistema, é o verbo“ser” e é adquirido o SCF “INTRANS” para ele. Porém o verbo núcleo é “surpreender”que deveria ter o frame “INTRANS” e o verbo “ser” deveria ser tratado de uma formadiferente. Como foi visto no final da Seção 4.2 este problema foi solucionado trazendoum desempenho consideravelmente melhor ao sistema.

Como observado com os resultados apresentados na Tabela 4.4, os trabalhos de (MES-SIANT, 2008) e (KORHONEN et al., 2006) utilizam um corpus muitas vezes maior.Como o sistema, utilizando os filtros, aceita apenas os frames mais frequentes como ver-dadeiros, com um corpus maior seria possível validar alguns frames que ocorrem poucasvezes, no corpus utilizado, mas que são corretos. E também seria possível rejeitar outrosque ocorreram algumas vezes, mas que o sistema aceitou eles. A Figura 4.7 evidenciaque o corpus utilizado é um fator limitante ao desempenho do sistema, pois a abrangênciadecai quando se filtram as estradas de baixa frequência.

Foi explicado em 3.1.2, que o léxico do NILC não é especificamente um dicionário desubcategorização, mas que de algumas informações encontradas nele é possível derivaralguns SCFs. Porém não é possível tratar todos os tipos de argumentos que o sistemapode adquirir. Por exemplo, não há nenhum tipo de mapeamento das entradas do léxicodo NILC para constituintes como “ADJP”, “ADVP” ou “VP”. Este fato prejudica alta-mente a precisão do sistema, pois todos os SCFs com estes constituintes são marcadoscomo falsos positivos.

Page 49: Aquisição de Subcategorization Frames para Verbos da Língua ...

49

5 CONCLUSÕES E TRABALHOS FUTUROS

O objetivo deste trabalho foi iniciar para o português uma área que ainda não haviasido abordada, a aquisição em larga escala de subcategorization frames para verbos. Jáhavia vários métodos implementados para outras línguas (como inglês, alemão e francês).O desenvolvimento de uma adaptação de um destes métodos para a língua portuguesa foiencorajado com o trabalho desenvolvido em (MESSIANT, 2008), onde um sistema deaquisição de SCFs foi adaptado a partir do trabalho desenvolvido em (KORHONEN etal., 2006). Para tanto, foi necessário adaptar desde as ferramentas utilizadas até o métodoem si.

Foi necessário, antes de começar a desenvolver o método para o português, fazer umestudo abrangente sobre as ferramentas disponíveis atualmente que se assemelhassem asutilizadas por (MESSIANT, 2008). Primeiro, foi estudado o estado-da-arte sobre par-sing para o português, estudo este que se mostrou difícil, pois além de serem poucos, osparsers, em geral, não tinham uma boa abrangência. O único que apresentou resultadossatisfatórios foi o PALAVRAS, que além de ser o parser mais consolidado para a línguaportuguesa, existem diversos corpora já anotados com este parser, disponibilizados peloprojeto Floresta Sinta(c)tica.

Os corpora do Floresta Sintá(c)tica são uma grande fonte para o sistema de aquisiçãode SCFs para o português. Porém nem todos os corpora puderam ser reunidos como umaúnica fonte, pois há uma diferença entre a representação dos constituintes mesmo tendoum conjunto de etiquetas iguais.

Tendo um corpus anotado com informações linguísticas foi possível começar a sepensar em como adaptar o método para o português, já que para o francês é utilizado umparser específico em extrair dependências, o que facilita muito o trabalho. Já o PALA-VRAS extrai dependências entre as palavras, mas as coloca de uma maneira um poucomais difícil de se extrair.

Depois de extraídos os SCFs foi necessário um método para limpar entradas no léxicode baixa frequência, porque estas entradas, por ocorrerem poucas vezes, são na maioriadas vezes, frutos de erros. Como cada uma das etapas da extração de SCFs é completa-mente automática, então o resultado está sujeito a erros, desde erros na etiquetagem daspalavras, no parsing das sentenças até erros na hora de extrair os SCFs das sentençasanotadas. Por este motivo foram utilizados filtros que tentassem amenizar todos estesproblemas com base na estatística.

Page 50: Aquisição de Subcategorization Frames para Verbos da Língua ...

50

Por fim, foi escolhido um material como referência para avaliação automática do sis-tema. Esta também foi uma tarefa difícil, pois a maioria dos léxicos eletrônicos existentespara o português apresentam apenas a categoria sintática da palavra, sem informações desubcategorização. O único material que foi encontrado foi um léxico de 2004 desenvol-vido pelo NILC, que apresenta alguma informação sobre subcategorização, de onde foipossível inferir alguns SCFs a partir das entradas deste léxico. E paralelo a esta avaliaçãoautomática foi apresentada uma avaliação manual, onde um linguista aprovou ou repro-vou os frames apresentados a ele.

Como resultado da avaliação manual obteve-se 57,5% de aprovação. Já com a avali-ação automática obteve-se 50,6% de f-measure. Estas medidas ficaram prejudicadas pornão se ter materiais atualmente que sirvam como base para fundamentar os princípios es-tatísticos estabelecidos por (MESSIANT, 2008), onde era utilizado um corpus duzentasvezes maior.

Há ainda muito o que se aprimorar na área de aquisição de SCFs para o português. Énecessário atender melhor cada um dos itens discutidos em 4.3, tendo um foco especialno tratamento de verbos auxiliares. Este, foi apenas início do estudo nesta área para oportuguês. Há uma grande quantidade de informações que ainda podem ser retiradas docorpus, incluindo, além de informações sintáticas, informações semântica. Mas antes deampliar o escopo de informações obtidas é necessário buscar por materiais melhores, quepossam validar a aquisição dos SCFs.

Como trabalho futuro se planeja utilizar um parser de dependências para verificar sehá um aumento de desempenho quando adicionadas as informações de subcategorização,como a melhora do parser obtida em (BRISCOE; CARROLL, 1997). Além disto se prevêa utilização de um corpus maior, o Amazônia, que precisará ser adaptado o método paraextrair as dependências de forma correta.

Page 51: Aquisição de Subcategorization Frames para Verbos da Língua ...

51

APÊNDICE A VERBOS MAIS FREQUENTES

Abaixo segue a listagem dos 20 verbos mais frequentes no corpus do Floresta Virgem:

1. ser - 3436 ocorrências

2. ter - 1233 ocorrências

3. estar - 825 ocorrências

4. ir - 508 ocorrências

5. dizer - 477 ocorrências

6. poder - 440 ocorrências

7. fazer - 436 ocorrências

8. haver - 310 ocorrências

9. dever - 257 ocorrências

10. dar - 216 ocorrências

11. ficar - 179 ocorrências

12. passar - 163 ocorrências

13. chegar - 152 ocorrências

14. ver - 151 ocorrências

15. querer - 149 ocorrências

16. afirmar - 142 ocorrências

17. conseguir - 137 ocorrências

18. vir - 131 ocorrências

19. saber - 130 ocorrências

20. continuar - 118 ocorrências

Page 52: Aquisição de Subcategorization Frames para Verbos da Língua ...

52

REFERÊNCIAS

JURAFSKY, D.;MARTIN, J. H. Speech and language processing: An introduction tonatural language processing, Computational Linguistics, and Speech Recognition.Segunda Edição. Upper Saddle River, NJ: Prentice Hall, 2000.

BICK, E. The Parsing System “Palavras”: Automatic Grammatical Analysis of Por-tuguese in a Constraint Grammar Framework. PhD thesis, Aarhus Univ., 2000.

WING, B.; BALDRIDGE, J. Adaptation of Data and Models for Probabilistic Par-sing of Portuguese. In R. Vieira, P. Quaresma, M. das Gracas Volpe Nunes, N. Mamede,C. Oliveira, and M. C. Dias, editors, Proceedings of the 7th Workshop on Computatio-nal Processing of Written and Spoken Portuguese PROPOR-06, Itatiaia, Rio de Janeiro,Brazil, 2006.

MARTINS, R. T.; HASEGAWA, R.; NUNES, M.G.V. CURUPIRA: Um parser funcio-nal para a língua portuguesa. Technical Report NILC-TR-02-26, NILC-ICMC, Univer-sidade Estadual de São Paulo, 2002

BRISCOE, E. J.; CARROLL, J.; WATSON, R. The second release of the rasp system.In Proc. of the COLING/ACL 2006 Interactive Presentation Sessions, Sydney, Australia,2006.

PREISS, J.; BRISCOE, T.; KORHONEN, A. A System for Large-scale Acquisitionof Verbal, Nominal and Adjectival Subcategorization Frames from Corpora. In Pro-ceedings of the 45th Annual Meeting of the Association for Computational Linguistics.Prague, Czech Republic, 2007.

KORHONEN, A.;KRYMOLOWSKI, Y.;BRISCOE, T. A Large Subcategorization Le-xicon for Natural Language Processing Applications. In Proceedings of the 5th inter-national conference on Language Resources and Evaluation. Genova, Italy, 2006.

KORHONEN, A. Acquiring Subcategorization from Textual Corpora. MPhil disser-tation. Department of Engineering, University of Cambridge, 1997.

LAPATA, M.; BREW, C. Using Subcategorization to Resolve Verb Class Ambi-guity. In Proceedings of the Joint SIGDAT Conference on Empirical Methods in NaturalLanguage Processing and Very Large Corpora, 397-404. College Park, MD, 1999.

AFONSO, S.; BICK, E.; HABER, R.; SANTOS, D. Floresta sintá(c)tica: um tree-bank para o português. Actas do XVII Encontro da Associação Portuguesa de Linguís-tica (Lisboa, Outubro de 2001), APL.

Page 53: Aquisição de Subcategorization Frames para Verbos da Língua ...

53

BRISCOE, T.; CARROLL, J. Automatic extraction of subcategorization from cor-pora. Proceedings of the fifth conference on Applied natural language processing, p.356-363, March 31-April 03, 1997, Washington, DC .

CARROLL, J.; MINNEN, G.; BRISCOE, E. Can subcategorisation probabilities helpa statistical parser. In Proceedings of the 6th ACL/SIGDAT Workshop on Very LargeCorpora (1998). Montreal, Canada.

KORHONEN, A.; GORRELL, G.; MCCARTHY, D. Statistical filtering and subca-tegorization frame acquisition. Proceedings of the 2000 Joint SIGDAT conference onEmpirical methods in natural language processing and very large corpora: held in con-junction with the 38th Annual Meeting of the Association for Computational Linguistics,p.199-206, October 07-08, 2000, Hong Kong.

MESSIANT, C. A subcategorization acquisition system for French verbs. HLT’08:Proceedings of the 46th Annual Meeting of the Association for Computational Linguisticson Human Language Technologies,2008,55–60,Columbus, Ohio.

MESSIANT, C.; KORHONEN, A.; POIBEAU, T. LexSchem: A Large Subcategori-zation Lexicon for French Verbs. In Language Resources and Evaluation Conference(LREC), 2008, Marrakech.

POIBEAU, T.; MESSIANT, C. Do We Still Need Gold Standard For Evaluation. InProceedings of the Language Resources and Evaluation Conference (LREC), 2008, Mar-rakech.

BALDWIN, T.; BENDER, E. M.; FLICKINGER, D.; KIM, A. OEPEN, S. Road-testingthe English Resource Grammar over the British National Corpus, 2004 (http://ww2.cs.mu.oz.au/~tim/pubs/lrec2004-erg.pdf).

SABINE SCHULTE IM WALDE Evaluating Verb Subcategorisation Frames learnedby a German Statistical Grammar against Manual Definitions in the Duden Dicti-onary Proceedings of the 10th EURALEX International Congress, 2002, Copenhagen,Denmark, 187?197.

ALMEIDA, S.; CARVALHO, A.; FANTIN, L.; STOLFI, J. Selva: A New SyntacticParser for Portuguese. CPROPOR 2003 : computational processing of the portugueselanguage, 2003

MATEUS, M. H. M.; XAVIER, M. F. Dicionário de termos lingüísticos. Lisboa: EdiçõesCosmos, 1992.

MARTINS, R.; NUNES, G.; HASEGAWA, R. Curupira: A Functional Parser for Bra-zilian Portuguese. In: PROPOR - International Workshop on the Computational Proces-sing of Portuguese, Faro. Lecture Notes in Computer Science 2721 Berlin, 2003:SPRIN-GER.

BICK, E.;SANTOS, D.; Afonso, S.; MARCHI, R. Floresta Sintá(c)tica: Ficção ou re-alidade?. In Diana Santos (ed.), Avaliação conjunta: um novo paradigma no processa-mento computacional da língua portuguesa. Lisboa, Portugal: IST Press, 2007, pp. 291-300.

Page 54: Aquisição de Subcategorization Frames para Verbos da Língua ...

54

FREITAS, C.; ROCHA, P.; BICK, E. Um mundo novo na Floresta Sintá(c)tica - o tree-bank para Português. Calidoscópio - Revista de Pós Graduação em Lingüística Aplicadada Unisinos, Rio Grande do Sul 6.3, 2008, pp. 142-148.

SILVA, J. R.; BRANCO, A.; CASTRO, S.; REIS, R. Out-of-the-Box Robust Parsing ofPortuguese. In Proceedings of the 9th Workshop on Computational Processing of Writtenand Spoken Portuguese PROPOR-10, Porto Alegre, Rio Grande do Sul, Brazil, 2010.

SILVA, B. C. D.; MONTILHA, G.; RINO, L. H. M.; SPECIA, L.; NUNES, M; G. V.;OLIVEIRA JR., O. N.; MARTINS, R. T.; PARDO, T. A. S. Introdução ao Processa-mento das Línguas Naturais e algumas aplicações. Série de Relatórios Técnicos doNILC, NILC-TR-07-10. São Carlos, 2007, 121p.

SCHMID, H. Probabilistic Part-of-Speech Tagging Using Decision Trees In Internati-onal Conference on New Methods in Language Processing, Manchester, UK. 1994.

BOURIGAULT, D.; JACQUES, M. P.; FABRE, C.; FRÉROT, C.; OZDOWSKA, S. Syn-tex, analyseur syntaxique de corpus In Actes des 12èmes journées sur le TraitementAutomatique des Langues Naturelles, 2005, Dourdan.

MINIZ, M. C. M. A construção de recursos lingüístico-computacionais para o portu-guês do Brasil: o projeto de Unitex-PB Dissertação de Mestrado. Instituto de CiênciasMatemáticas de São Carlos, USP. 72p. 2004.