Criando corpora pessoais Corpógrafo – presente e futuro

Post on 15-Jan-2016

30 views 0 download

description

Criando corpora pessoais Corpógrafo – presente e futuro. Belinda Maia. PRESENTE. Corpógrafo. Um conjunto de ferramentas que permitem: Criar corpora Analisar corpora Extrair e catalogar itens linguísticos Armazenar o material estudado Exportar os resultados. Corpógrafo. Versão online: - PowerPoint PPT Presentation

Transcript of Criando corpora pessoais Corpógrafo – presente e futuro

Criando corpora pessoais Corpógrafo – presente e

futuroBelinda Maia

PRESENTE

Corpógrafo

Um conjunto de ferramentas que permitem:• Criar corpora

• Analisar corpora

• Extrair e catalogar itens linguísticos

• Armazenar o material estudado

• Exportar os resultados

Corpógrafo

Versão online:• Tem todas as funções

• Cada pessoa ou grupo trabalha num espaço próprio

• O trabalho de cada espaço é privado

Versão descarregável• Tem de pedir licenças para certas funções

• Não compatível com Windows

Criar corpora

Colecção de textos Limpeza de formatação –

e.g. .doc, .pdf, .ps, .html Fraseamento do texto Dicionário Registo de metadata

• Referências bibliográficas, fontes, etc

• Classificação - ‘medium’, género, domínio

• Língua

Criar corpora

Organização – e reorganização - de textos em corpora

Registo de metadata Relacionar corpora Alinhamento de textos paralelos Criação de corpora paralelos Exportação de corpora

Analisar corpora

Concordância frase – frase inteira Concordância Janela – até 15 átomos de

cada lado Concordância KWIC – até 15 átomos ou

100 caráteres N-grams – até 15 – ordem alfabética /

frequência

Concordâncias

Pode ver• Metadata do texto fonte

• Estatísticas do átomo / frase no corpus

• Outra forma de concordância

Em concordância janela – pode reorganizar por colunas à esquerda ou direita

Tipos de pesquisa

Por expressões regulares MySQL Por PoS NooJ – em Francês, Inglês ou

Português• Utiliza dicionários etiquetados

Por sequências de expressões regulares ou gramáticas NooJ

Centro de conhecimento

Bases de dados terminológicas• Objectivo original – extracção de terminologia

Bases de dados fraseológicas• Objectivo mais recente – permitir extracção e

classificação de• Itens do léxico geral

• Expressões multi-palavras

Bases de dados terminólogicas

BDs - multilingual Ferramentas:

• n-gram com filtros para extracção de ‘candidatos a termos’

• Possibilidade de pesquisar definições e relações semânticas

• Escolha de termos > traz metadata do corpus Dados terminológicos – registo de informação Material multimedia

Informação em BD

Geração de estatísticas dos termos• Frequência

• Co-ocurrência em textos

Ferramenta para ‘bootstrapping’ textos a partir de termos escolhidos

Concordância de corpora comparáveis Criação de relações semânticas pelo

pesquisador

BDs Fraseológicas

Algumas funções iguais ou semelhantes às BDs terminológicas

MAS Pesquisa com gramáticas NooJ – resultados >

BD Relações discursivos (Rhetorical Structure

Theory) Possibilidade de criar classificações do

investigador

Exportação de dados

Exportação de corpora Exportação de BDs

FUTURO

Funcionamento

Acelerar processamento Tornar possível manuseamento de maior

quantidade de dados Permitir mais interacção entre áreas

privadas quando desejado Criar possibilidade de projectos em

grupo mais sofisticados

Textos e corpora

Ferramenta para ‘bootstrapping’ de textos na Net na área de ‘uploading’ textos

Criar possibilidades de aceitar mais tipos de ficheiros - .docx, ppt, pptx, etc

Criar possibilidade de utilizar Corpografo com línguas como polaco, russo, grego, e até árabe e chinês etc

Melhorar sistema de limpeza de textos

Listas do léxico

Actualmente podemos criar um ‘dicionário’ de cada texto ou corpus

Criar• ‘standard wordlists’ para comparação

• + sistema estatística relacionado

• Etiquetagem PoS automática + ferramentas de correcção

Pesquisa de corpora

My SQL - aumentar possibilidades com mais exemplos e tutorial próprio – para linguístas

Possibilidades de utilizar vários sistemas (semi-)automáticos de anotação

Integração de uma ferramenta que permite ao utilizador criar a sua própria anotação

Outras Ideias

Aumentar possibilidades de criar relações• Sintácticos

• Semânticos Criar possibilidades de visualizar as

relações estabelecidos Usar métodos estatísticos para criar ‘word

clouds’ para futuro estudo e análise por linguístas > melhores ferramentas para data mining

Aproveitar

Wordnet – original e em PT Framenet – original e em PT Outros maneiras ‘linguísticas’ de analisar

a linguagem …… Sistemas informáticos > word clouds

Por exemplo

http://news.bbc.co.uk/2/hi/americas/7813432.stm

What words did George Bush use most during this eight-year presidency?

Wortschatz – Univ. Leipzig

http://corpora.informatik.uni-leipzig.de/?dict=uk• Computational

• Linguistics

• Artificial

• Intelligence