Corpora para Processamento de Linguagem Natural
-
Upload
alberto-simoes -
Category
Education
-
view
1.172 -
download
2
description
Transcript of Corpora para Processamento de Linguagem Natural
Corpora para Processamento de Linguagem Natura
Alberto Manuel Brandao [email protected]
17 de Outubro de 2008 (v0.1)
Alberto Simoes Corpora para Processamento de Linguagem Natura
Definicao de Corpus
Corpus
Corpus e um termo usado para representar uma coleccao (finita)de textos, relativos a determinado assunto.
Corpora
Corpora e o plural de Corpus.
corpora
monolingue
multilingue
{comparavelparalelo
Alberto Simoes Corpora para Processamento de Linguagem Natura
Definicao de Corpus
Corpus
Corpus e um termo usado para representar uma coleccao (finita)de textos, relativos a determinado assunto.
Corpora
Corpora e o plural de Corpus.
corpora
monolingue
multilingue
{comparavelparalelo
Alberto Simoes Corpora para Processamento de Linguagem Natura
Definicao de Corpus
Corpus
Corpus e um termo usado para representar uma coleccao (finita)de textos, relativos a determinado assunto.
Corpora
Corpora e o plural de Corpus.
corpora
monolingue
multilingue
{comparavelparalelo
Alberto Simoes Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue
Alguns exemplos de Corpora Monolingues:
British National Corpus — um corpus da lıngua inglesa quecontem diferentes generos de texto (escrito, oral, ...), commais de 100 milhoes de palavras;
CETEMPublico — mais de 191 milhoes de palavras desegmentos de texto jornalıstico recolhidos do Jornal Publico;
CETENFolha — mais de 33 milhoes de palavras de segmentosde texto jornalıstico recolhidos da Folha de Sao Paulo;
Russian National Corpus — um corpus da lıngua russa commais de 147 milhoes de palavras;
Alberto Simoes Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue
Alguns exemplos de Corpora Monolingues:
British National Corpus — um corpus da lıngua inglesa quecontem diferentes generos de texto (escrito, oral, ...), commais de 100 milhoes de palavras;
CETEMPublico — mais de 191 milhoes de palavras desegmentos de texto jornalıstico recolhidos do Jornal Publico;
CETENFolha — mais de 33 milhoes de palavras de segmentosde texto jornalıstico recolhidos da Folha de Sao Paulo;
Russian National Corpus — um corpus da lıngua russa commais de 147 milhoes de palavras;
Alberto Simoes Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue
Alguns exemplos de Corpora Monolingues:
British National Corpus — um corpus da lıngua inglesa quecontem diferentes generos de texto (escrito, oral, ...), commais de 100 milhoes de palavras;
CETEMPublico — mais de 191 milhoes de palavras desegmentos de texto jornalıstico recolhidos do Jornal Publico;
CETENFolha — mais de 33 milhoes de palavras de segmentosde texto jornalıstico recolhidos da Folha de Sao Paulo;
Russian National Corpus — um corpus da lıngua russa commais de 147 milhoes de palavras;
Alberto Simoes Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Monolingue
Alguns exemplos de Corpora Monolingues:
British National Corpus — um corpus da lıngua inglesa quecontem diferentes generos de texto (escrito, oral, ...), commais de 100 milhoes de palavras;
CETEMPublico — mais de 191 milhoes de palavras desegmentos de texto jornalıstico recolhidos do Jornal Publico;
CETENFolha — mais de 33 milhoes de palavras de segmentosde texto jornalıstico recolhidos da Folha de Sao Paulo;
Russian National Corpus — um corpus da lıngua russa commais de 147 milhoes de palavras;
Alberto Simoes Corpora para Processamento de Linguagem Natura
Corpora Comparaveis
Corpora Comparaveis
Os Corpora Comparaveis sao conjuntos de textos em diferenteslınguas que, embora nao correspondam directamente a traducoesliterais, focam um mesmo assunto.
Alberto Simoes Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Comparaveis
Qualquer conjunto de notıcias que se refiram a um mesmo assuntoou evento, e que estejam escritos em lınguas diferentes podem servistos como corpora comparaveis.
Outro exemplo sera um conjunto de artigos cientıficos sobre ummesmo micro-organismo.
Estes corpora sao essencialmente utilizados para o estudo eextraccao de terminologia especıfica da area a que os corpora sereferem.
Alberto Simoes Corpora para Processamento de Linguagem Natura
Corpora Paralelos
Corpora Paralelos
Os Corpora Paralelos sao textos em duas ou mais lınguas, em queexiste uma relacao de traducao entre eles. Tipicamente saobilingues, em que uma das lınguas e a original, e a outra atraducao.
Corpora Paralelos Alinhados
Habitualmente e usado o termo generico Corpus Paralelo pararepresentar os corpora paralelos alinhados ao nıvel da frase. Ouseja, em que os textos foram divididos em frases e foi definida umacorrespondencia entre os segmentos nas duas lınguas.
Alberto Simoes Corpora para Processamento de Linguagem Natura
Corpora Paralelos
Corpora Paralelos
Os Corpora Paralelos sao textos em duas ou mais lınguas, em queexiste uma relacao de traducao entre eles. Tipicamente saobilingues, em que uma das lınguas e a original, e a outra atraducao.
Corpora Paralelos Alinhados
Habitualmente e usado o termo generico Corpus Paralelo pararepresentar os corpora paralelos alinhados ao nıvel da frase. Ouseja, em que os textos foram divididos em frases e foi definida umacorrespondencia entre os segmentos nas duas lınguas.
Alberto Simoes Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Paralelos
Exemplos de Corpora Paralelos
Hansards — Corpus ingles/frances com mais de um milhao deunidades de traducao provenientes da legislacao canadiana;
COMPARA — Corpus portugues/ingles com cerca de 97 milunidades de traducao provenientes de texto literario (comvariacoes na direccao da traducao e no dialecto portugues).
EuroParl — Corpus multilingue com uma media de um milhaode unidades de traducao para cada par de lıngua, provenientesda legislacao europeia;
JRC-Acquis — Corpus multilingue com uma media de ummilhao de unidades de traducao para cada par de lıngua,provenientes da legislacao europeia;
Alberto Simoes Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Paralelos
Exemplos de Corpora Paralelos
Hansards — Corpus ingles/frances com mais de um milhao deunidades de traducao provenientes da legislacao canadiana;
COMPARA — Corpus portugues/ingles com cerca de 97 milunidades de traducao provenientes de texto literario (comvariacoes na direccao da traducao e no dialecto portugues).
EuroParl — Corpus multilingue com uma media de um milhaode unidades de traducao para cada par de lıngua, provenientesda legislacao europeia;
JRC-Acquis — Corpus multilingue com uma media de ummilhao de unidades de traducao para cada par de lıngua,provenientes da legislacao europeia;
Alberto Simoes Corpora para Processamento de Linguagem Natura
Exemplos de Corpora Paralelos
Exemplos de Corpora Paralelos
Hansards — Corpus ingles/frances com mais de um milhao deunidades de traducao provenientes da legislacao canadiana;
COMPARA — Corpus portugues/ingles com cerca de 97 milunidades de traducao provenientes de texto literario (comvariacoes na direccao da traducao e no dialecto portugues).
EuroParl — Corpus multilingue com uma media de um milhaode unidades de traducao para cada par de lıngua, provenientesda legislacao europeia;
JRC-Acquis — Corpus multilingue com uma media de ummilhao de unidades de traducao para cada par de lıngua,provenientes da legislacao europeia;
Alberto Simoes Corpora para Processamento de Linguagem Natura
Corpora Paralelos na Rede
E habitual a disponibilizacao de Corpora para consulta deconcordancias na Internet.
Alguns exemplos:
AC/DC — Acesso a Corpora / Disponibilizacao de Corporahttp://www.linguateca.pt/acesso/corpus.php
COMPARA — Corpus Paralelo de Obras Literariashttp://www.linguateca.pt/COMPARA/psimples.php
NATools — Natura Alignment Toolshttp://linguateca.di.uminho.pt/nat
Alberto Simoes Corpora para Processamento de Linguagem Natura
Etapas Tıpicas na Construcao de um Corpus
recolha dos textos a incorporar:
digitalizacao e OCR de documentos;recolha automatica a partir de documentosCaso particular: extraccao a partir da rede
analise e tratamento da qualidade dos textos:
tratamentos de erros tıpicos de OCR;analise e seleccao dos textos obtidos;
segmentacao e atomizacao dos textos:
deteccao de frases (cuidado com abreviaturas...)deteccao de palavras (o que sao palavras?...)
anotacao variada:
anotacao das entidades mencionadas;anotacao das categorias morfo-sintacticas;
Alberto Simoes Corpora para Processamento de Linguagem Natura
Etapas Tıpicas na Construcao de um Corpus
recolha dos textos a incorporar:
digitalizacao e OCR de documentos;recolha automatica a partir de documentosCaso particular: extraccao a partir da rede
analise e tratamento da qualidade dos textos:
tratamentos de erros tıpicos de OCR;analise e seleccao dos textos obtidos;
segmentacao e atomizacao dos textos:
deteccao de frases (cuidado com abreviaturas...)deteccao de palavras (o que sao palavras?...)
anotacao variada:
anotacao das entidades mencionadas;anotacao das categorias morfo-sintacticas;
Alberto Simoes Corpora para Processamento de Linguagem Natura
Etapas Tıpicas na Construcao de um Corpus
recolha dos textos a incorporar:
digitalizacao e OCR de documentos;recolha automatica a partir de documentosCaso particular: extraccao a partir da rede
analise e tratamento da qualidade dos textos:
tratamentos de erros tıpicos de OCR;analise e seleccao dos textos obtidos;
segmentacao e atomizacao dos textos:
deteccao de frases (cuidado com abreviaturas...)deteccao de palavras (o que sao palavras?...)
anotacao variada:
anotacao das entidades mencionadas;anotacao das categorias morfo-sintacticas;
Alberto Simoes Corpora para Processamento de Linguagem Natura
Etapas Tıpicas na Construcao de um Corpus
recolha dos textos a incorporar:
digitalizacao e OCR de documentos;recolha automatica a partir de documentosCaso particular: extraccao a partir da rede
analise e tratamento da qualidade dos textos:
tratamentos de erros tıpicos de OCR;analise e seleccao dos textos obtidos;
segmentacao e atomizacao dos textos:
deteccao de frases (cuidado com abreviaturas...)deteccao de palavras (o que sao palavras?...)
anotacao variada:
anotacao das entidades mencionadas;anotacao das categorias morfo-sintacticas;
Alberto Simoes Corpora para Processamento de Linguagem Natura
Adicionalmente para Corpora Paralelos
alinhamento ao nıvel da frase
com base no comprimento das frases;com base em palavras sem traducao;com base em dicionarios bilingues;
extraccao de dicionarios de traducao
para cada palavra associar traducoes provaveis;com base nas co-ocorrencias das palavras;
alinhamento ao nıvel da palavra
associar uma traducao a cada ocorrencia de uma palavra;
Alberto Simoes Corpora para Processamento de Linguagem Natura
Adicionalmente para Corpora Paralelos
alinhamento ao nıvel da frase
com base no comprimento das frases;com base em palavras sem traducao;com base em dicionarios bilingues;
extraccao de dicionarios de traducao
para cada palavra associar traducoes provaveis;com base nas co-ocorrencias das palavras;
alinhamento ao nıvel da palavra
associar uma traducao a cada ocorrencia de uma palavra;
Alberto Simoes Corpora para Processamento de Linguagem Natura
Adicionalmente para Corpora Paralelos
alinhamento ao nıvel da frase
com base no comprimento das frases;com base em palavras sem traducao;com base em dicionarios bilingues;
extraccao de dicionarios de traducao
para cada palavra associar traducoes provaveis;com base nas co-ocorrencias das palavras;
alinhamento ao nıvel da palavra
associar uma traducao a cada ocorrencia de uma palavra;
Alberto Simoes Corpora para Processamento de Linguagem Natura
Aplicacoes de Corpora
Aprendizagem Automatica:
modelos estatısticos de lıngua;
Extraccao de terminologia:
deteccao de palavras especıficas de uma area;extraccao de terminologia bilingue;
Traducao Automatica:
extraccao de dicionarios bilingues;extraccao de terminologia bilingue;extraccao de exemplos de traducao;modelos estatısticos de traducao;
Alberto Simoes Corpora para Processamento de Linguagem Natura
Construcao de Corpora Monolingue
A construcao de corpora monolingue tem como base a:
extraccao de paginas da Rede com conteudo relevante
pesquisas por termos chave;extraccao de algumas paginas obtidas;extraccao do lexico dessas paginas, e comparacao com lexicocomum;usar as palavras resultantes em novas pesquisas. Extraccaodessas paginas como constituintes do corpus.
seleccao das paginas obtidas
a lıngua pretendida;a percentagem de conteudo util;
Alberto Simoes Corpora para Processamento de Linguagem Natura
Construcao de Corpora Monolingue
A construcao de corpora monolingue tem como base a:
extraccao de paginas da Rede com conteudo relevante
pesquisas por termos chave;extraccao de algumas paginas obtidas;extraccao do lexico dessas paginas, e comparacao com lexicocomum;usar as palavras resultantes em novas pesquisas. Extraccaodessas paginas como constituintes do corpus.
seleccao das paginas obtidas
a lıngua pretendida;a percentagem de conteudo util;
Alberto Simoes Corpora para Processamento de Linguagem Natura