Métodos em lingüistica de corpus e processamento da língua natural María Paula Santalla del Río...

Métodos em lingüistica de corpus e processamento da língua natural

María Paula Santalla del RíoPablo Gamallo Otero

TEMA 1Noções básicas de Extração de

Informação (EI)

Pablo Gamallo Oterohttp://gramatica.usc.es/~gamallo/

Bibliografia

Chantal Pérez Hernández, Antonio Moreno (2008), “Lingüística computacional y lingüística de corpus: Potencialidades para la investigación textual”. Disponível em:http://gramatica.usc.es/~gamallo/aulas/lingcomputacional/biblio/LingCompCorpus.pdf

Tony Berber Sardinha (2004), Lingüística de Corpus, Editora Manole, Brasil.

•Marco Baroni (2009), “Distributions in text”. In Anke Lüdeling and Merja Kytö (eds.), Corpus linguistics: An international handbook, Berlin: Mouton de Gruyter. Disponível em:http://gramatica.usc.es/~gamallo/aulas/lingcomputacional/biblio/Baroni_distributions.pdf

•J. Torruella y J. Llisterri (1999): “Diseño de corpus textuales y orales”, en J. M. Blecua et al. (eds.), Filología e informática. Nuevas tecnologías en los estudios filológicos, Barcelona: Editorial Milenio y Universidad Autónoma de Barcelona, págs. 45-77. Disponível em: http://liceu.uab.es/~joaquim/publicacions/Torruella_Llisterri_99.pdf

•Pablo Gamallo & Isaac González (2009) "Una gramática de dependencias basada en patrones de etiquetas", Procesamiento del Lenguaje Natural, 43, pp. 315-324. Disponível em:http://www.sepln.org/revistaSEPLN/revista/43/articulos/art34.pdf

PLANO

corpus e extração extração de frequências de palavras

(tokens e formas) lei de zipf extração de informação léxico-semântica a

partir das frequências extrações básicas: concordâncias

corpus e extração

Características dum corpus: Deve estar formado por um conjunto de dados lingüísticos naturais

(uso oral ou/e escrito). O conteúdo do corpus deve ser cuidadosamente escolhido segundo

certos critérios. O corpus deve ser representativo duma língua ou variedade. O corpus dever ser vasto para ser representativo. O corpus deve ter como finalidade ser objecto de estudo linguístico.

Processos computacionais que se podem realizar num

corpus: Anotação morfológica, sintática e semântica. Extração de informação

corpus e extração

Tipo de informação extraída:

Frequências de ocorrências de palavras, de tipos, de lemas, ...

Semelhança semântica entre palavras:se duas palavras aparecem no corpus nos mesmos contextos sintácticos, então devem ser sinómimos ou estar semanticamente relacionadas.

Equivalentes de tradução

Métodos de extração:

Métodos supervisados Métodos não supervisados

Extração de frequências de palavras

Contagem de palavras, ocorrências ou itens (tokens)

Contagem de palavras, formas ou tipos (types) conta-se o número de palavras diferentes.

Contagem de lemas, ou lexemas (lemmas)

Os corpus linguísticos contenhem um grande número de Hapax Legomena: palavras que ocorrem apenas uma vez (isto é, frequência 1)

Contagem de PoS tags ou categorias: Nomes, verbos...


Quais são as palavras mais frequentes num corpus representativo dum domínio específico?

PALAVRA FREQUÊNCIA

the 7332and 2972a 1775to 1725of 1440was 1161it 1027in 906that 877Tom 679

Palavras mais frequêntes de“Tom Sawyer”

PALAVRA FREQUÊNCIA

la 1.204.397que 1.007.827en 753.944el 666.949y 648.594a 583.111los 523.877las 370.840del 324.619se 318.383Comisión 125.258

Palavras mais frequêntes deEuroparl (Parlamento Europeu)


69970 the36410 of28852 and26149 to23326 a21341 in10594 that10102 is9815 was9542 he9488 for8760 it7290 with7251 as6997 his6742 on6376 be5377 at5306 by5178 i5146 this5131 had

4609 not4394 are4381 but4370 from4207 or3942 have3748 an3619 they3561 which3297 one3286 you3284 were3037 her3001 all2859 she2725 there2715 would2670 their2653 we2619 him2473 been2439 has

2331 when2252 who2244 will2216 more2202 no2199 if2096 out1985 so1961 said1908 what1895 up1858 its1815 about1791 into1790 than1789 them1772 can1747 only1702 other1635 new1617 some

1599 time1599 could1573 these1412 two1400 may1377 then1362 do1361 first1345 any1319 my1314 now1303 such1290 like1252 our1237 over1207 man

Palavras mais frequêntes do corpus Brown (não específico).


Quantas ocorrências de palavras (tokens ou itens) tem um corpus? ”Tom Sowyer” tem 71.370 ocorrências de palavras. “El Quijote” tem 376.509. “Brown” tem 1 milhão. “EuroParl” tem 30 milhões 600 mil

Quantas palavras diferentes (tipos ou formas) tem um corpus? ”Tom Sowyer” tem 8.018 palavras diferentes (8,9 tokens por tipo). “El Quijote tem 38.552 (9.8 tokens por tipo).

(se consideramos os 71.000 primeiros tokens, extraem-se mais de 12.000 tipos) “Brown” tem 55.734 (17 tokens por tipo). “EuroParl” tem 159.211 (192 tokens por tipo).


268,1100%125.927.624100%469.745TOTAL

2.223.37028,25%35.573.9220,00%16> 1.000.000

238.94714,80%18.637.8820,02%78100.000 a 999.999

24.75626,01%32.753.0320,28%1.32310.000 a 99.999

2.93020,38%25.663.3211,83%8.5861.000 a 9.999

316,87,81%9.840.2386,61%31.065100 a 999

32,42,11%2.662.49517,49%82.17410 a 99

3,80,48%610.45934,11%160.2282 a 9

1,00,15%186.27539,65%186.2751

frequência média

%ocorrências

Ocorrências% formas

FormasBanda de ocorrências

Corpus Banco do Português:

Modelo de frequências: Lei de Zipf

F(pal) = K / R(pal)

Dada uma constante K (frequência da palavra mais frequente), e dado o ranking R duma palavra, podemos predizer a frequência F da palavra:

f R Fthe 77327732 1 7732that 877 10 773,2two 104 100 77,3name 21 400 18,3comes 16 500 15,4

f R Fgroup 13 600 12,88friends 10 800 9,66family 8 1000 7,3brushed 4 2000 3,86Applausive 1 8000 0,97


F(pal) = K / R(pal)f R F dif (%)

de 1142511425 1 11425la 6473 2 5712 11%los 3528 5 2285 40%artículo 1791 10 1142 36%artículos 140 100 114 18%litigio 13 1000 11,4 12%desplazarse 1 10000 1,1 10%

21% (média)

Constituição Europeia (versão espanhola)


F(pal) = K / R(pal)

Constituição Europeia (versão inglesa)

f R F dif(%)of 1332813328 1 13328to 7425 2 6664 10%in 3260 5 2665 21%or 1394 10 1332 4%banks 161 100 133 17%commitment 13 1000 13,3 2%1985 1 10000 1,3 30%

14% (média)


F(pal) = K / Rdonde K = N / 10

onde N = tamanho do corpus (i.e., número total de ocorrências)

A Lei de Zipf sofreu numerosas correcções. Aqui abaixo, monstram-se duas modificações da fórmula inicial:

F(pal) = K / Rα

onde α = próximo a 1 (p.e. 0’9)

Modelo de frequências: Lei de ZipfPrácticas com ferramentas estatísticas

cat DonQuijote | ./tokenizer.perl | ./lei_zipf.perl

Extração de informação léxico-semântica

Matrizes “Palavra / Contexto”

N_errado resolver_N finalizar_N N_persistir assinar_por_N N_declarar N_complexoprocedimento 3 0 21 0 0 0 1problemática 0 1 0 2 0 0 0problema 0 11 0 24 0 0 5princípio 0 0 0 0 0 0 0pressuposto 1 0 0 0 0 0 0presidente 0 0 0 0 45 34 0preço 0 0 0 0 0 0 0


2unión, comunidad, estado, política, paíscommunity

4grupo, consejo, parlamento, comité, comisióncommittee

1,2compromiso, obligación, respuesta, responsabilidad, criteriocommitment

1,2comentario, observación, pregunta, reflexión, palabracomment

1colega, diputado, amigo, ministro, pueblocolleague

empresa, industria, mercado, economía, sector

cohesión, integración, solidaridad, estabilidad, igualdad

credibilidad, coherencia, claridad, rigor, visibilidad

1company

1cohesion

2coherence

Equivalentes de tradução

Extrações básicas:Concordâncias

A concordância é uma listagem das ocorrências duma forma específica, dispostas de tal modo que a palavra de busca (aquela que se quere investigar) aparece centralizada e acompanhada do seu contexto original, isto é, das palavras que ocorrem junto com ela no corpus.

13 | acordo em nada prejudica os direitos, no Reino da Dinamarca, dos nacionais dinamarqueses que res 14 | e algumas destas zonas na Bélgica, na Itália e no Reino Unido estão situadas em regiões que têm já 15 | e Tournai. Itália: província de Nápoles. Reino Unido: região de Strathclyde, counties de Clevela 16 | veis; Considerando que algumas destas zonas no Reino Unido estão situadas em regiões que têm já um elev 17 | específica diz respeito às seguintes zonas de Reino Unido: região de Strathclyde, condados de C 18 | grama especial», a apresentar à Comissão pelo Reino Unido. 2. O programa especial terá por fina 19 | izado a pedido dos governos da Irlanda e do Reino Unido, assim como da Comissão, recomendou que a r 20 | entre a Comunidade Económica Europeia e o Reino da Noruega na sequência da adesão da República Hel

Concordâncias

Palavras de contexto (context words): palavras que estão próximas do nódulo durante a busca (dentro da mesma janela). São opcionais, ou seja, é possível fazer uma concordância sem especificá-las.

Janela (Window): distância máxima entre o nódulo e a primeira palavra à esquerda (ou a ùltima à direita) dentro duma concordância.

Palavra de busca (search word) ou Nódulo: palavra (ou grupo de palavras) da qual o usuário tem interesse em obter uma concordância.

Métodos em lingüistica de corpus e processamento da língua natural María Paula Santalla del Río...

Documents

Transcript of Métodos em lingüistica de corpus e processamento da língua natural María Paula Santalla del Río...