Corpus: definição e coletaCorpus: definição e coleta
Tradução Técnica 2008Tradução Técnica 2008
Stella E. O. TagninStella E. O. Tagnin
O que é um corpus? (cf. Aurélio O que é um corpus? (cf. Aurélio Eletrônico)Eletrônico)
(1) Conjunto de documentos, dados e informações
sobre determinada matéria.(3) Conjunto de materiais significantes
(enunciados lingüísticos, capas de revistas) constituído com vistas à análise
semiológica.
Uma coletânea de textos em formato eletrônico,
compilada segundo critérios específicos,considerada representativa de uma língua
(ou da parte que se pretende estudar),destinada à pesquisa
O que é um corpus hoje?
Critérios de compilaçãoCritérios de compilação
Origem: textos autênticosOrigem: textos autênticos
Objetivo: pesquisaObjetivo: pesquisa
População: seleçãoPopulação: seleção
Formato: eletrônicoFormato: eletrônico
Representatividade: de que, para Representatividade: de que, para quem?quem?
Extensão: de acordo com objetivosExtensão: de acordo com objetivos
A História dos CorporaA História dos Corpora
Década de 60 – corpora de Década de 60 – corpora de 1 milhão de palavras!1 milhão de palavras!
Brown – inglês americanoBrown – inglês americano– 200 textos de 5.000 palavras cada200 textos de 5.000 palavras cada– 15 categorias distintas15 categorias distintas
LOB (Lancaster/Oslo/Bergen) – LOB (Lancaster/Oslo/Bergen) – contrapartida em inglês britânicocontrapartida em inglês britânico
Os Corpora AtuaisOs Corpora Atuais
BNC – 1995 – 100 milhões de palavrasBNC – 1995 – 100 milhões de palavras– 90% língua escrita90% língua escrita– 10% língua falada10% língua falada
Bank of English (Cobuild)Bank of English (Cobuild)– Birmingham 1987 – 20 milhões de Birmingham 1987 – 20 milhões de
palavraspalavras– Hoje perto de 500 milhões de palavrasHoje perto de 500 milhões de palavras– corpus aberto – em constante atualizaçãocorpus aberto – em constante atualização
Qual a grande vantagem dos Qual a grande vantagem dos corpora?corpora?
Observação da Observação da linguagem em usolinguagem em uso
- natural - - natural -
contrapõe-se à introspecção contrapõe-se à introspecção ChomskyanaChomskyana
- gramatical- gramatical - -
Qual é a diferença?Qual é a diferença?
HallidayHalliday
DesempenhoDesempenho
Descrição Descrição lingüísticalingüística
EmpirismoEmpirismo
ObservaçãoObservação
ProbabilidadeProbabilidade
ChomskyChomsky
CompetênciaCompetência
Universais Universais lingüísticoslingüísticos
RacionalismoRacionalismo
Intuição - Intuição - introspecçãointrospecção
PossibilidadePossibilidade
Corpus linguist vs armchair linguistCorpus linguist vs armchair linguist
““... I don’t think there can be any ... I don’t think there can be any corpora, however large, that contain corpora, however large, that contain information about all of the areas of information about all of the areas of English lexicon and grammar that I English lexicon and grammar that I want to explore...”want to explore...”
Corpus linguist vs armchair linguistCorpus linguist vs armchair linguist
““... Every corpus [...] however small, ... Every corpus [...] however small, has taught me facts that I couldn’t has taught me facts that I couldn’t imagine finding out about in any imagine finding out about in any other way.”other way.”
(Fillmore, C.J. “Corpus linguistics” or “Computer-aided armchair (Fillmore, C.J. “Corpus linguistics” or “Computer-aided armchair linguistics”. In Svartvik, Jan (ed.) Directions in Corpus Linguistics, linguistics”. In Svartvik, Jan (ed.) Directions in Corpus Linguistics, Proceedings of Nobel Symposium 82, Stockholm, 4-8 August 1991, Proceedings of Nobel Symposium 82, Stockholm, 4-8 August 1991, Berlin/NY: Mouton de Gruyter, 1992, 35-60)Berlin/NY: Mouton de Gruyter, 1992, 35-60)
Lembrando...Lembrando...
Na tradução técnica o que se Na tradução técnica o que se almeja é um almeja é um
texto naturaltexto natural
fluentefluente
Para que servem os corpora?Para que servem os corpora?
Detectar padrões lexicaisDetectar padrões lexicais– FraseológicosFraseológicos (colocações): (colocações): palavras palavras
que co-ocorrem em freqüência maior do que co-ocorrem em freqüência maior do que esperadaque esperada: sweeping victory, high : sweeping victory, high and low > search high and lowand low > search high and low
– TerminológicosTerminológicos: lucros e perdas, : lucros e perdas, controle de qualidade, plantas controle de qualidade, plantas geneticamente modificadas geneticamente modificadas (alteradas??)(alteradas??)
Compilação de dicionários e Compilação de dicionários e glossáriosglossários
Para que servem os corpora?Para que servem os corpora?
Detectar padrões Detectar padrões gramaticaisgramaticais– ““coligações”: verbos coligações”: verbos
seguidos de infinitivo ou seguidos de infinitivo ou gerúndio:gerúndio:
– begin + to begin + to vs.vs. start + -ing start + -ing
Detectar a prosódia Detectar a prosódia semântica: semântica:
cause vs causarcause vs causar
Concordância
family thinks Vicki Rock's former job at the plant caused her son's cancer.
but he denies that the plant caused leukemia in families that have brought suits against the company
One of two things could have caused this error: The Pobox.com user whose web site you
Ok: BM caused TONS of problems over last few weeks…31: Holes that caused fuel leak on shuttle located in nozzle July 28: Columbia
reduce deaths, injuries, property damage, economic losses and human suffering caused by natural disasters.
ventos mais fortes do oeste e aumento de tempestades violentas, causou danos sem precedentes nas propriedades situadas na costa
de 1992 na região central dos Estados Unidos. Por isso,
causou grande impacto a descoberta do oceanógrafo americano Dudley Chelton
membro do conselho executivo deve fazer é "A nossa empresa causou uma primeira boa impressão em consumidores potenciais suficientes para garantir
de 1995, quando já assumira a presidência do Banco Central, causou repercussão na imprensa o fato de ter passado o carnaval fato teve não teve a repercussão equivalente ao prejuízo que causou a centenas de empresas que hoje dependem prioritariamente da rede
Áreas de PesquisaÁreas de Pesquisa
Lexicologia e lexicografiaLexicologia e lexicografiaEstudos lexicaisEstudos lexicaisCompilação de dicionáriosCompilação de dicionários
Estudos contrastivosEstudos contrastivosTraduçãoTraduçãoNaturalidade da línguaNaturalidade da língua
Áreas de PesquisaÁreas de Pesquisa
– TraduçãoTradução– Normalização/ Normalização/ Simplificação/ ExplicitaçãoSimplificação/ Explicitação
– Estratégias de traduçãoEstratégias de tradução– Normas de traduçãoNormas de tradução– Ensino e treinamentoEnsino e treinamento– Fontes de referênciaFontes de referência
Corpora OnlineCorpora OnlineInglêsInglês
BNC:BNC: http://sara.natcorp.ox.ac.uk/lookup.htmlhttp://sara.natcorp.ox.ac.uk/lookup.html
COBUILD:COBUILD: http://www.collins.co.uk/Corpus/Corpuhttp://www.collins.co.uk/Corpus/CorpusSearch.aspxsSearch.aspx
WebCorp:WebCorp: http://www.webcorp.org.ul/webcorp.htmlhttp://www.webcorp.org.ul/webcorp.html
Corpora OnlineCorpora Online Português Português
COMPARA:COMPARA:
http://www.linguateca.pt/COMPARAhttp://www.linguateca.pt/COMPARA
Lácio-Web:Lácio-Web:http://www.nilc.icmc.usp.br/laciowebhttp://www.nilc.icmc.usp.br/lacioweb
Dicionários baseados em Dicionários baseados em corporacorpora
Oxford English Dictionary (2nd ed.), Oxford English Dictionary (2nd ed.), 19891989
Longman Dictionary of Contemporary Longman Dictionary of Contemporary English (1980s)English (1980s)
Macmillan English Dictionary (2002)Macmillan English Dictionary (2002)
Os corpora quanto à línguaOs corpora quanto à língua
–monolíngüesmonolíngües–bilíngüesbilíngües–multilíngüesmultilíngües
Corpora monolíngüesCorpora monolíngües
língua geral: jornalísticos e literárioslíngua geral: jornalísticos e literários língua de especialidade: técnicoslíngua de especialidade: técnicos mistosmistos traduçõestraduções – TEC - Translation English CorpusTEC - Translation English Corpus
corpus de referênciacorpus de referência ( (depende da depende da pesquisapesquisa))– língua gerallíngua geral– variedade de gênerosvariedade de gêneros– variedade de registrosvariedade de registros
Corpora multilíngüeCorpora multilíngüe
comparáveis:comparáveis:– originais em duas ou mais originais em duas ou mais
línguaslínguas
paralelos:paralelos:originais + tradução/traduçõesoriginais + tradução/traduções
COMPARACOMPARA
Extratos de FicçãoExtratos de FicçãoPortuguês Português Inglês InglêsInglêsInglês Português Português
Textos alinhados Textos alinhados Originais Originais Traduções TraduçõesPortuguêsPortuguês 2626 1717InglêsInglês 1515 2727TotalTotal 4141 4444
PalavrasPalavras Originais Originais Traduções O &T Traduções O &TPortuguês 395244 452763 848013Português 395244 452763 848013Inglês 456075 439083 895158Inglês 456075 439083 895158Ptg & Ing 851319 891846 1743171Ptg & Ing 851319 891846 1743171
Then – Então – Aí – Daí - DepoisEBJB1(1018):ThenThen there are the three live parrots, two at Trouville and one at Venice; plus the sick parakeet at Antibes.Há depoisdepois os três papagaios vivos, dois em Trouville e um em Veneza; mais o periquito doente em Antibes.EBJB1(1033):ThenThen the parrot, returning its master's gaze with an unflinching eye, would murmur the cabbalistic word, and Henri's soul would be filled with the memory of his lost happiness.EntãoEntão o papagaio, retribuindo o olhar ao dono com um olho inflexível, murmurava a palavra cabalística e a alma de Henri enchia-se com a memória da sua felicidade perdida.ESNG1(496):ThenThen there was the matter of her job.DaíDaí vinha a questão do seu emprego
Alguns sites úteisAlguns sites úteis
Corpus Linguistics: http://www.humcorp.bham.ac.uk/
Bibliographyhttp://www.athel.com/corpus_bibliography.html
Text Corporahttp://www.athel.com/corpus.html
David Lee’s Bookmarks for Corpus-based Linguists:
http://devoted.to/corporahttp://devoted.to/corpora
Projeto e Compilação de um Projeto e Compilação de um CorpusCorpus
1. Objetivo do corpus1. Objetivo do corpusperguntas de pesquisaperguntas de pesquisa
2. Projeto do corpus2. Projeto do corpusa. a. estático ou dinâmico estático ou dinâmico b. falado ou escrito b. falado ou escrito c. monolíngüe ou multilíngüe c. monolíngüe ou multilíngüe
(comparável ou paralelo)(comparável ou paralelo)d. gêneros e tipos de textos a serem d. gêneros e tipos de textos a serem
incluídosincluídos
Projeto e Compilação de um Projeto e Compilação de um CorpusCorpus
2. Projeto do corpus2. Projeto do corpus
e. domínios a serem incluídose. domínios a serem incluídosf. proporção dos textosf. proporção dos textosg. quantidade de textosg. quantidade de textosh. completos ou trechosh. completos ou trechosi. extensão dos textosi. extensão dos textosj. fonte dos textosj. fonte dos textosk. tamanho do corpusk. tamanho do corpus
Projeto e Compilação de um Projeto e Compilação de um CorpusCorpus
3.3. CabeçalhoCabeçalho
• quais informações são relevantes quais informações são relevantes para o projeto?para o projeto?
• que outras informações poderiam que outras informações poderiam interessar a outros pesquisadores? - interessar a outros pesquisadores? - reusabilidadereusabilidade
CabeçalhoCabeçalho<Header>
<title> <filename> </filename>
</title> <author>
<name></name> </author> <sourceText>
<language></language> <mode>[mode of delivery of textual
content]</mode> <publisher></publisher> <pubPlace>[place of
publication]</pubPlace> <date></date> <copyright>[copyrights
holder]</copyright> </sourceText>
</Header>
<text><header><title>
<fileName> JO-IF-ESP-esp_01 </fileName><corpus> futebol </corpus><nPages> 2 </nPages><nWords> 935 </nWords><sample> íntegra </sample>
</title><sourceText>
<titleOfText> Santos no caminho certo </titleOfText><language> PB </language><source> O Estado de São Paulo </source><pubPlace> http://www.estado.com.br </pubPlace><date> 03.08.2004 </date><status> Original </status>
</sourceText><author>
<name> Válter Casagrande Júnior </name><gender> Masculino </gender><type> Individual </type>
</author>
<textClassification><textGenre>
<genre> informativo </genre></textGenre><textType> Editorial </textType><domain>
<generalDomain defined="auto-def"> Generalidades </generalDomain>
<specificDomain> Esporte </specificDomain></domain><distribution> Internet </distribution>
</textClassification></header>
Projeto e Compilação de um CorpusProjeto e Compilação de um Corpus
4.4. Código de nomeação Código de nomeação (Manual Lácio-Web)(Manual Lácio-Web)
Meio de Divulgação, Gênero Textual, Fonte, Data
JO-IF-FSP-mu-05fev99_01JO-IF-FSP-mu-05fev99_01Meio de divulgaçãoMeio de divulgação: jornal: jornal
Gênero textualGênero textual: informativo: informativo
FonteFonte: nome do periódico: Jornal “Folha de São : nome do periódico: Jornal “Folha de São Paulo”Paulo”
Caderno: “Mundo”Caderno: “Mundo”
DataData: 05 de fevereiro de 1999: 05 de fevereiro de 1999
Primeiro texto (deste caderno, nesta data Primeiro texto (deste caderno, nesta data
de publicação)de publicação)
Projeto e Compilação de um Projeto e Compilação de um CorpusCorpus
4.4. Código de nomeaçãoCódigo de nomeaçãoRE-IF-NE-cea-mar01_05RE-IF-NE-cea-mar01_05
Meio de divulgaçãoMeio de divulgação: revista: revista
Gênero textualGênero textual: informativo: informativo
FonteFonte: Revista “Nova Escola”: Revista “Nova Escola”
Caderno: “Cresça e Aconteça”Caderno: “Cresça e Aconteça”
DataData: mês de março de 2001: mês de março de 2001
Quinto texto (deste caderno, nesta data Quinto texto (deste caderno, nesta data
de publicação)de publicação)
Projeto e Compilação de um Projeto e Compilação de um CorpusCorpus
4.4. Código de nomeaçãoCódigo de nomeaçãoRE-IF-CI-#-nov00_03RE-IF-CI-#-nov00_03
Meio de divulgaçãoMeio de divulgação: revista: revista
Gênero textualGênero textual: informativo: informativo
FonteFonte: Revista “Cerâmica Industrial”: Revista “Cerâmica Industrial”
Caderno: não há subdivisões no periódicoCaderno: não há subdivisões no periódico
DataData: mês de novembro de 2000: mês de novembro de 2000
Terceiro texto (deste caderno, nesta data Terceiro texto (deste caderno, nesta data
de publicação)de publicação)
Projeto e Compilação de um Projeto e Compilação de um CorpusCorpus
4.4. Código de nomeaçãoCódigo de nomeaçãoRE-IF-CI-#-agodez01_02RE-IF-CI-#-agodez01_02
Meio de divulgaçãoMeio de divulgação: revista: revista
Gênero textualGênero textual: informativo: informativo
FonteFonte: Revista “Cerâmica Industrial”: Revista “Cerâmica Industrial”
Caderno: não há subdivisões no periódicoCaderno: não há subdivisões no periódico
DataData: período compreendendo os meses de : período compreendendo os meses de agosto a dezembro de 2001agosto a dezembro de 2001
Segundo texto (deste caderno, nesta data de Segundo texto (deste caderno, nesta data de publicação)publicação)
Projeto e Compilação de um Projeto e Compilação de um CorpusCorpus
5. Etiquetagem5. Etiquetagem morfossintática morfossintática (POS-tagging)(POS-tagging)
sintática (parsing)sintática (parsing) semânticasemântica discursivadiscursiva terminológicaterminológica
Etiquetagem morfossintáticaEtiquetagem morfossintática
<s><s>
Foi_VAUXFoi_VAUX
cercada_PCPcercada_PCP
de_PREP|+de_PREP|+
o_ARTo_ART
maior_ADJmaior_ADJ
sigilo_Nsigilo_N
a_ARTa_ART
chegada_Nchegada_N
de_PREP|+de_PREP|+
a_ARTa_ART
agência=de=publicidade_N agência=de=publicidade_N
Saatchi_NPROPSaatchi_NPROP
$&_NPROP$&_NPROP
Saatchi_NPROPSaatchi_NPROP
a_PREP|+a_PREP|+
o_ARTo_ART
Brasil_NPROPBrasil_NPROP
._.._.
</s></s>
Etiquetagem semânticaEtiquetagem semânticaFor the soupFor the soup, preheat the oven to 160ºC (350ºF / moderate / , preheat the oven to 160ºC (350ºF / moderate /
Gas 4). <Gas 4). <cutcut>Cut>Cut</cut> <veg></cut> <veg>tomatoes</tomatoes</vegveg> > lengthwise, discard seeds, place in a medium heatproof dishlengthwise, discard seeds, place in a medium heatproof dish with <with <seasonseason>garlic</>garlic</seasonseason>, olive oil, >, olive oil, <<seasonseason>salt</>salt</seasonseason>, <>, <seasonseason>pepper</>pepper</seasonseason>, >, and <and <herbherb>parsley</>parsley</herbherb> and <> and <herbherb>basil</>basil</herbherb> > sprigs tied by the stems. <sprigs tied by the stems. <cookcook>>Bake</cook> Bake</cook> for for approximately 1 hour, until <approximately 1 hour, until <vegveg>tomatoes</>tomatoes</vegveg> are soft > are soft and fragrant, let cool and refrigerate for 2 hours, or up to 2 and fragrant, let cool and refrigerate for 2 hours, or up to 2 days. days. DiscardDiscard wilted herbs and blistered tomato skin and wilted herbs and blistered tomato skin and puree in a <puree in a <applappl>blender</>blender</applappl> until a smooth paste is > until a smooth paste is obtained (if you want a soup with a more delicate texture, obtained (if you want a soup with a more delicate texture, press mixture through a sieve). press mixture through a sieve). CompleteComplete with with cold water cold water as to obtain 1 L (1 qt) of soup, adjust as to obtain 1 L (1 qt) of soup, adjust <<seasonseason>salt</>salt</seasonseason> and > and <<seasonseason>pepper</>pepper</seasonseason>, correct the acidity by adding >, correct the acidity by adding a pinch of <a pinch of <seasonseason>sugar</>sugar</seasonseason>, and refrigerate for at >, and refrigerate for at least 1 hour, or overnight.least 1 hour, or overnight.
Etiquetagem Etiquetagem semântica/terminológicasemântica/terminológica
Caponata (1 hour and 30 Caponata (1 hour and 30 minutes) minutes)
1 onion1 onion2 <2 <termterm>celery stalks</>celery stalks</termterm>>1 <1 <termterm>red bell pepper >red bell pepper
</</termterm>>4 fully ripe tomatoes, peeled 4 fully ripe tomatoes, peeled
and seededand seeded1 small deep green zucchini 1 small deep green zucchini
(courgette) (courgette) 2 medium eggplants 2 medium eggplants
(aubergines)(aubergines)2 tablespoons <2 tablespoons <termterm>pine >pine
nuts</nuts</termterm>>2 garlic cloves, <2 garlic cloves, <termterm>finely >finely
chopped</chopped</termterm>>1 <1 <termterm>bay leaf</>bay leaf</termterm>>
1 teaspoon oregano1 teaspoon oregano¼ cup <¼ cup <termterm>red wine >red wine
vinegar</vinegar</termterm>>1 tablespoon sugar1 tablespoon sugar2 tablespoons capers2 tablespoons capers2 tablespoons <2 tablespoons <termterm>dark >dark
raisins</raisins</termterm>>½ cup slivered green olives½ cup slivered green olives1 cup flat-leaf parsley leaves 1 cup flat-leaf parsley leaves ½ cup basil leaves½ cup basil leavesolive oilolive oilsalt and black pepper salt and black pepper
<<termterm>to taste</>to taste</termterm>>
Etiquetagem discursivaEtiquetagem discursiva
<titRec><titRec> Pudim de Leite Condensado Pudim de Leite Condensado </titRec></titRec> <coment><coment> Pudim de leite condensado é uma sobremesa Pudim de leite condensado é uma sobremesa que dispensa elogios, ou qualquer palavra para definí-lo. É que dispensa elogios, ou qualquer palavra para definí-lo. É simplesmente o máximo!! simplesmente o máximo!! </coment></coment><ingr><ingr> Ingredientes: Ingredientes: 1 lata de leite condensado 1 lata de leite condensado 1 lata de leite 1 lata de leite 3 ovos 3 ovos essência de baunilhaessência de baunilha3 colheres de açúcar 3 colheres de açúcar </ingr></ingr><modFaz><modFaz> Modo de Preparo: Modo de Preparo: Coloque o açúcar numa forma própria para pudim e leve ao Coloque o açúcar numa forma própria para pudim e leve ao fogo brando para caramelizar a forma. Bater todos os outros fogo brando para caramelizar a forma. Bater todos os outros ingredientes no liqüidificador. Despeje o conteúdo na forma ingredientes no liqüidificador. Despeje o conteúdo na forma caramelizada. Levar ao forno em banho-maria. caramelizada. Levar ao forno em banho-maria. </modFaz></modFaz><coment><coment> Dica: para verificar se o pudim esta pronto, fure Dica: para verificar se o pudim esta pronto, fure o pudim com um palito de dente, se o palito sair limpo, é que o pudim com um palito de dente, se o palito sair limpo, é que esta pronto, espere esfriar, desenforme e sirva. esta pronto, espere esfriar, desenforme e sirva. </coment></coment>
Etiquetadores do Lácio-WebEtiquetadores do Lácio-Web
MXPOST (não está funcionando)MXPOST (não está funcionando)
TreeTaggerTreeTagger
Brill Brill
Corpora de AprendizesCorpora de Aprendizes
Aprendizes de Língua EstrangeiraAprendizes de Língua Estrangeira
Aprendizes de TraduçãoAprendizes de Tradução
Aprendizes de Língua MaternaAprendizes de Língua Materna
O Projeto ICLE (International Corpus of O Projeto ICLE (International Corpus of Learner English)Learner English)
http://cecl.fltr.ucl.ac.be/Cecl-Projects/Icle/http://cecl.fltr.ucl.ac.be/Cecl-Projects/Icle/icle.htmicle.htm
Top Related