Corpora para Processamento de Linguagem Natural

26
Corpora para Processamento de Linguagem Natura Alberto Manuel Brand˜ ao Sim˜ oes [email protected] 17 de Outubro de 2008 (v0.1) AlbertoSim˜oes Corpora para Processamento de Linguagem Natura

description

The first version of a Portuguese presentation on Corpora and Natural Language Processing (not yet finished).

Transcript of Corpora para Processamento de Linguagem Natural

Page 1: Corpora para Processamento de Linguagem Natural

Corpora para Processamento de Linguagem Natura

Alberto Manuel Brandao [email protected]

17 de Outubro de 2008 (v0.1)

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 2: Corpora para Processamento de Linguagem Natural

Definicao de Corpus

Corpus

Corpus e um termo usado para representar uma coleccao (finita)de textos, relativos a determinado assunto.

Corpora

Corpora e o plural de Corpus.

corpora

monolingue

multilingue

{comparavelparalelo

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 3: Corpora para Processamento de Linguagem Natural

Definicao de Corpus

Corpus

Corpus e um termo usado para representar uma coleccao (finita)de textos, relativos a determinado assunto.

Corpora

Corpora e o plural de Corpus.

corpora

monolingue

multilingue

{comparavelparalelo

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 4: Corpora para Processamento de Linguagem Natural

Definicao de Corpus

Corpus

Corpus e um termo usado para representar uma coleccao (finita)de textos, relativos a determinado assunto.

Corpora

Corpora e o plural de Corpus.

corpora

monolingue

multilingue

{comparavelparalelo

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 5: Corpora para Processamento de Linguagem Natural

Exemplos de Corpora Monolingue

Alguns exemplos de Corpora Monolingues:

British National Corpus — um corpus da lıngua inglesa quecontem diferentes generos de texto (escrito, oral, ...), commais de 100 milhoes de palavras;

CETEMPublico — mais de 191 milhoes de palavras desegmentos de texto jornalıstico recolhidos do Jornal Publico;

CETENFolha — mais de 33 milhoes de palavras de segmentosde texto jornalıstico recolhidos da Folha de Sao Paulo;

Russian National Corpus — um corpus da lıngua russa commais de 147 milhoes de palavras;

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 6: Corpora para Processamento de Linguagem Natural

Exemplos de Corpora Monolingue

Alguns exemplos de Corpora Monolingues:

British National Corpus — um corpus da lıngua inglesa quecontem diferentes generos de texto (escrito, oral, ...), commais de 100 milhoes de palavras;

CETEMPublico — mais de 191 milhoes de palavras desegmentos de texto jornalıstico recolhidos do Jornal Publico;

CETENFolha — mais de 33 milhoes de palavras de segmentosde texto jornalıstico recolhidos da Folha de Sao Paulo;

Russian National Corpus — um corpus da lıngua russa commais de 147 milhoes de palavras;

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 7: Corpora para Processamento de Linguagem Natural

Exemplos de Corpora Monolingue

Alguns exemplos de Corpora Monolingues:

British National Corpus — um corpus da lıngua inglesa quecontem diferentes generos de texto (escrito, oral, ...), commais de 100 milhoes de palavras;

CETEMPublico — mais de 191 milhoes de palavras desegmentos de texto jornalıstico recolhidos do Jornal Publico;

CETENFolha — mais de 33 milhoes de palavras de segmentosde texto jornalıstico recolhidos da Folha de Sao Paulo;

Russian National Corpus — um corpus da lıngua russa commais de 147 milhoes de palavras;

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 8: Corpora para Processamento de Linguagem Natural

Exemplos de Corpora Monolingue

Alguns exemplos de Corpora Monolingues:

British National Corpus — um corpus da lıngua inglesa quecontem diferentes generos de texto (escrito, oral, ...), commais de 100 milhoes de palavras;

CETEMPublico — mais de 191 milhoes de palavras desegmentos de texto jornalıstico recolhidos do Jornal Publico;

CETENFolha — mais de 33 milhoes de palavras de segmentosde texto jornalıstico recolhidos da Folha de Sao Paulo;

Russian National Corpus — um corpus da lıngua russa commais de 147 milhoes de palavras;

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 9: Corpora para Processamento de Linguagem Natural

Corpora Comparaveis

Corpora Comparaveis

Os Corpora Comparaveis sao conjuntos de textos em diferenteslınguas que, embora nao correspondam directamente a traducoesliterais, focam um mesmo assunto.

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 10: Corpora para Processamento de Linguagem Natural

Exemplos de Corpora Comparaveis

Qualquer conjunto de notıcias que se refiram a um mesmo assuntoou evento, e que estejam escritos em lınguas diferentes podem servistos como corpora comparaveis.

Outro exemplo sera um conjunto de artigos cientıficos sobre ummesmo micro-organismo.

Estes corpora sao essencialmente utilizados para o estudo eextraccao de terminologia especıfica da area a que os corpora sereferem.

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 11: Corpora para Processamento de Linguagem Natural

Corpora Paralelos

Corpora Paralelos

Os Corpora Paralelos sao textos em duas ou mais lınguas, em queexiste uma relacao de traducao entre eles. Tipicamente saobilingues, em que uma das lınguas e a original, e a outra atraducao.

Corpora Paralelos Alinhados

Habitualmente e usado o termo generico Corpus Paralelo pararepresentar os corpora paralelos alinhados ao nıvel da frase. Ouseja, em que os textos foram divididos em frases e foi definida umacorrespondencia entre os segmentos nas duas lınguas.

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 12: Corpora para Processamento de Linguagem Natural

Corpora Paralelos

Corpora Paralelos

Os Corpora Paralelos sao textos em duas ou mais lınguas, em queexiste uma relacao de traducao entre eles. Tipicamente saobilingues, em que uma das lınguas e a original, e a outra atraducao.

Corpora Paralelos Alinhados

Habitualmente e usado o termo generico Corpus Paralelo pararepresentar os corpora paralelos alinhados ao nıvel da frase. Ouseja, em que os textos foram divididos em frases e foi definida umacorrespondencia entre os segmentos nas duas lınguas.

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 13: Corpora para Processamento de Linguagem Natural

Exemplos de Corpora Paralelos

Exemplos de Corpora Paralelos

Hansards — Corpus ingles/frances com mais de um milhao deunidades de traducao provenientes da legislacao canadiana;

COMPARA — Corpus portugues/ingles com cerca de 97 milunidades de traducao provenientes de texto literario (comvariacoes na direccao da traducao e no dialecto portugues).

EuroParl — Corpus multilingue com uma media de um milhaode unidades de traducao para cada par de lıngua, provenientesda legislacao europeia;

JRC-Acquis — Corpus multilingue com uma media de ummilhao de unidades de traducao para cada par de lıngua,provenientes da legislacao europeia;

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 14: Corpora para Processamento de Linguagem Natural

Exemplos de Corpora Paralelos

Exemplos de Corpora Paralelos

Hansards — Corpus ingles/frances com mais de um milhao deunidades de traducao provenientes da legislacao canadiana;

COMPARA — Corpus portugues/ingles com cerca de 97 milunidades de traducao provenientes de texto literario (comvariacoes na direccao da traducao e no dialecto portugues).

EuroParl — Corpus multilingue com uma media de um milhaode unidades de traducao para cada par de lıngua, provenientesda legislacao europeia;

JRC-Acquis — Corpus multilingue com uma media de ummilhao de unidades de traducao para cada par de lıngua,provenientes da legislacao europeia;

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 15: Corpora para Processamento de Linguagem Natural

Exemplos de Corpora Paralelos

Exemplos de Corpora Paralelos

Hansards — Corpus ingles/frances com mais de um milhao deunidades de traducao provenientes da legislacao canadiana;

COMPARA — Corpus portugues/ingles com cerca de 97 milunidades de traducao provenientes de texto literario (comvariacoes na direccao da traducao e no dialecto portugues).

EuroParl — Corpus multilingue com uma media de um milhaode unidades de traducao para cada par de lıngua, provenientesda legislacao europeia;

JRC-Acquis — Corpus multilingue com uma media de ummilhao de unidades de traducao para cada par de lıngua,provenientes da legislacao europeia;

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 16: Corpora para Processamento de Linguagem Natural

Corpora Paralelos na Rede

E habitual a disponibilizacao de Corpora para consulta deconcordancias na Internet.

Alguns exemplos:

AC/DC — Acesso a Corpora / Disponibilizacao de Corporahttp://www.linguateca.pt/acesso/corpus.php

COMPARA — Corpus Paralelo de Obras Literariashttp://www.linguateca.pt/COMPARA/psimples.php

NATools — Natura Alignment Toolshttp://linguateca.di.uminho.pt/nat

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 17: Corpora para Processamento de Linguagem Natural

Etapas Tıpicas na Construcao de um Corpus

recolha dos textos a incorporar:

digitalizacao e OCR de documentos;recolha automatica a partir de documentosCaso particular: extraccao a partir da rede

analise e tratamento da qualidade dos textos:

tratamentos de erros tıpicos de OCR;analise e seleccao dos textos obtidos;

segmentacao e atomizacao dos textos:

deteccao de frases (cuidado com abreviaturas...)deteccao de palavras (o que sao palavras?...)

anotacao variada:

anotacao das entidades mencionadas;anotacao das categorias morfo-sintacticas;

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 18: Corpora para Processamento de Linguagem Natural

Etapas Tıpicas na Construcao de um Corpus

recolha dos textos a incorporar:

digitalizacao e OCR de documentos;recolha automatica a partir de documentosCaso particular: extraccao a partir da rede

analise e tratamento da qualidade dos textos:

tratamentos de erros tıpicos de OCR;analise e seleccao dos textos obtidos;

segmentacao e atomizacao dos textos:

deteccao de frases (cuidado com abreviaturas...)deteccao de palavras (o que sao palavras?...)

anotacao variada:

anotacao das entidades mencionadas;anotacao das categorias morfo-sintacticas;

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 19: Corpora para Processamento de Linguagem Natural

Etapas Tıpicas na Construcao de um Corpus

recolha dos textos a incorporar:

digitalizacao e OCR de documentos;recolha automatica a partir de documentosCaso particular: extraccao a partir da rede

analise e tratamento da qualidade dos textos:

tratamentos de erros tıpicos de OCR;analise e seleccao dos textos obtidos;

segmentacao e atomizacao dos textos:

deteccao de frases (cuidado com abreviaturas...)deteccao de palavras (o que sao palavras?...)

anotacao variada:

anotacao das entidades mencionadas;anotacao das categorias morfo-sintacticas;

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 20: Corpora para Processamento de Linguagem Natural

Etapas Tıpicas na Construcao de um Corpus

recolha dos textos a incorporar:

digitalizacao e OCR de documentos;recolha automatica a partir de documentosCaso particular: extraccao a partir da rede

analise e tratamento da qualidade dos textos:

tratamentos de erros tıpicos de OCR;analise e seleccao dos textos obtidos;

segmentacao e atomizacao dos textos:

deteccao de frases (cuidado com abreviaturas...)deteccao de palavras (o que sao palavras?...)

anotacao variada:

anotacao das entidades mencionadas;anotacao das categorias morfo-sintacticas;

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 21: Corpora para Processamento de Linguagem Natural

Adicionalmente para Corpora Paralelos

alinhamento ao nıvel da frase

com base no comprimento das frases;com base em palavras sem traducao;com base em dicionarios bilingues;

extraccao de dicionarios de traducao

para cada palavra associar traducoes provaveis;com base nas co-ocorrencias das palavras;

alinhamento ao nıvel da palavra

associar uma traducao a cada ocorrencia de uma palavra;

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 22: Corpora para Processamento de Linguagem Natural

Adicionalmente para Corpora Paralelos

alinhamento ao nıvel da frase

com base no comprimento das frases;com base em palavras sem traducao;com base em dicionarios bilingues;

extraccao de dicionarios de traducao

para cada palavra associar traducoes provaveis;com base nas co-ocorrencias das palavras;

alinhamento ao nıvel da palavra

associar uma traducao a cada ocorrencia de uma palavra;

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 23: Corpora para Processamento de Linguagem Natural

Adicionalmente para Corpora Paralelos

alinhamento ao nıvel da frase

com base no comprimento das frases;com base em palavras sem traducao;com base em dicionarios bilingues;

extraccao de dicionarios de traducao

para cada palavra associar traducoes provaveis;com base nas co-ocorrencias das palavras;

alinhamento ao nıvel da palavra

associar uma traducao a cada ocorrencia de uma palavra;

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 24: Corpora para Processamento de Linguagem Natural

Aplicacoes de Corpora

Aprendizagem Automatica:

modelos estatısticos de lıngua;

Extraccao de terminologia:

deteccao de palavras especıficas de uma area;extraccao de terminologia bilingue;

Traducao Automatica:

extraccao de dicionarios bilingues;extraccao de terminologia bilingue;extraccao de exemplos de traducao;modelos estatısticos de traducao;

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 25: Corpora para Processamento de Linguagem Natural

Construcao de Corpora Monolingue

A construcao de corpora monolingue tem como base a:

extraccao de paginas da Rede com conteudo relevante

pesquisas por termos chave;extraccao de algumas paginas obtidas;extraccao do lexico dessas paginas, e comparacao com lexicocomum;usar as palavras resultantes em novas pesquisas. Extraccaodessas paginas como constituintes do corpus.

seleccao das paginas obtidas

a lıngua pretendida;a percentagem de conteudo util;

Alberto Simoes Corpora para Processamento de Linguagem Natura

Page 26: Corpora para Processamento de Linguagem Natural

Construcao de Corpora Monolingue

A construcao de corpora monolingue tem como base a:

extraccao de paginas da Rede com conteudo relevante

pesquisas por termos chave;extraccao de algumas paginas obtidas;extraccao do lexico dessas paginas, e comparacao com lexicocomum;usar as palavras resultantes em novas pesquisas. Extraccaodessas paginas como constituintes do corpus.

seleccao das paginas obtidas

a lıngua pretendida;a percentagem de conteudo util;

Alberto Simoes Corpora para Processamento de Linguagem Natura