PACOTES LEXICAIS EM CORPORA DE APRENDIZES Deise Prina Dutra (UFMG) [email protected]...
Transcript of PACOTES LEXICAIS EM CORPORA DE APRENDIZES Deise Prina Dutra (UFMG) [email protected]...
PACOTES LEXICAIS EM CORPORA DE APRENDIZES
Deise Prina Dutra (UFMG)[email protected]
Tony Berber Sardinha (PUC-SP)[email protected]
ELC 2010Porto Alegre
Agradecimentos Tony Berber Sardinha
CNPq (Brasília, Brazil) Fapesp (São Paulo, Brazil) PUCSP CEPRIL
Deise Prina Dutra UFMG POSLIN – Estudos baseados em corpora e
Ensino/Aprendizagem de línguas estrangeiras LEEL (Laboratório de Estudos Empíricos
Experimentais da Linguagem) PUCSP
Introdução geral Fraseologia
Central em várias áreas de pesquisa Colabora para uma melhor compreensão da
linguagem Cognição Descrição Ensino (Ellis 2008; Granger Meunier 2008)
“... Phraseology pervades theoretical, empirical, and applied linguistics. Like blood in systemic circulation, it flows through heart and periphery, nourishing all.” (Ellis, 2008: 9)
Fraseologia “o estudo de uma estrutura,
significado e uso de combinações de palavras” (Cowie 1994:3168 apud Granger e Paquot 2008)
Abordagens para o estudo de fraseologias
Fraseológica – baseada na linguística Distribucional – baseada na frequência ou
movida a dados (Granger e Paquot 2008)
Definições Expressões pré-fabricadas ou pre-padronizadas ao invés de palavras têm
um papel predominante na produção de discurso oral e escrito (Alterbeng 1993 apud De Cock et al. 1998:67)
Fazem parte de produções proficientes e fluentes Falantes de uma língua operam principalmente com base no “princípio idiomático”
(Sinclair, 1991) ao invés do “princípio da escolha aberta”. Chunks
“seqüências de duas ou mais palavras que ocorrem regularmente e parecem possuir unidade de significados ou funções” (O´Keeffe, McCarthy & Carter 2007: 46)
Pacotes lexicais “simplesmente sequências de palvras que comumente aparecem juntas em
discurso natural” (Biber et al. 1999: 990) in terms of the, a list of, the fact that, it is a, etc.
A questão do tamanho do pacote: maior é melhor? Tamanho e frequência - 3 e 4, occasionalmente 5 palavras
A questão da sobreposição de pacotes Eles proporcionam uma nova maneira de olhar a lingua: blocos formadores
não são mais a sintaxe/gramática, mas o léxico Eles podem ser responsáveis pela fluência e naturalidade em L1 e L2
Outros palavras utilizadas na área Sequências formulaicas, colocações, clusters, n-gramas, MWUs, etc.
Estudos Psicolinguística
Wray (2002, 2008) Schmitt et al (2004) Nekrasova (2009)
Identificação e classificação de pacotes lexicais Biber, Conrad e Cortes (2004) Biber (2009) Simpson-Vlach e Ellis (2010)
Ligados ao ensino aprendizagem de línguas estrangeiras de Cock et al (1998) de Cock (2000) Meunier e Granger (ed.) (2008) Barfiled e Gullstad (ed.) (2009) Chen & Baker (2010)
Objetivo deste trabalho em andamento
Identificar e classificar pacotes lexicais corpora de textos escritos de aprendizes
categorias propostas por Simpson-Vlach & Ellis (2010) em sua Academic Formulas List (AFL)
Michigan Corpus of Academic Spoken English (MICASE) British National Corpus corpus de Hyland (2004)
Conhecer como os alunos brasileiros utilizam pacotes lexicais na escrita de redações
Quais tipos de pacotes são utilizados? Função pragmática e funcional Estrutural
Como o uso dos pacotes lexicais se aproxima ou se distancia do pacotes mais utilizados em textos produzidos por falantes nativos ou por outros aprendizes
Adequar o ensino às necessidades dos alunos
Corpora Louvain Corpus of Native English Essays
(LOCNESS) 324.006 palavras corpus de aprendizes ou de referência?
International Corpus of Learner English (ICLE)
3,7 milhões de palavras (Granger et al. 2009)
Br-ICLE, subcorpus, em formação, do ICLE com textos de alunos brasileiros
até 2009-> 159,000 palavras
Juntos somam 4.251.714 palavras
Metodologia Passos
Extraímos pacotes de 3 e 4 palavras com um scripts especialmente criados para esta investigação
Os pacotes foram categorizados manualmente nas categorias da AFL
Principais: expressão referencial, expressões de julgamento e organizadores discursivos
Secundárias (e.g. atributos de enquadramento tangíveis e não tangíveis, expressões de habilidade e possibilidade, metadiscurso e referência textual)
Verificamos quais categorias são as mais frequentes em cada corpora
Analisamos subcategorias especificas e geramos linhas de concordância (com scripts específicos e com o WordSmith Tools) para verificar
seu uso em contexto padrões léxico-gramaticais nos quais os pacotes tendem a ocorrer
Categorias da AFL - taxonomia pragmática funcional
Expressões referenciais
Expressões de julgamento
Funções organizadoras do discurso
Especificações de atributosa. Atributos de enquadramento intangívelb. Atributos de enquadramento tangívelc. Especificação de quantidade
Atenuadores Referência textual e metadiscursiva
Identificação e foco Epistêmicos Apresentação de tópico e foco
Contrastes e comparações Obrigações e diretivos Elaboração de tópicoa.Não causalb.Causa e efeito
Deiticos e locativos Expressões de habilidade e possibilidade
Marcadores discursivos
Marcadores de imprecisão Avaliação
Intenção/desejo, previsão
Resultados
Baseados nos pacotes lexicais mais frequentes (10 por milhão)
a categoria mais frequente expressões referenciais
LOCNESS10 more frequent 3-word bundles
Bundle raw freq norm freq wp1m categoryTHE FACT THAT 163 503,077 A1aIN ORDER TO 130 401,227 C3bONE OF THE 123 379,623 A2THE UNITED STATES 117 361,104 A4THAT IT IS 104 320,982 A1aBE ABLE TO 95 293,204 B3THERE IS NO 94 290,118 A2IT IS NOT 83 256,168 A2DUE TO THE 82 253,082 C3bBECAUSE OF THE 79 243,823 C3b
ICLE10 more frequent 3-word bundles
Bundle raw freq norm freq wp1m categoryA LOT OF 2473 656,225 A1cIN ORDER TO 2272 602,888 3CbONE OF THE 1801 477,906 A2IT IS NOT 1580 419,262 A2ON THE OTHER 1565 415,282 A3THERE IS NO 1468 389,542 A2THE FACT THAT 1369 363,272 A1aIT IS A 1367 362,741 A2THE OTHER HAND 1362 361,414 A3THERE IS A 1302 345,493 A2
Br-ICLE10 more frequent 3 word-bundles
Bundle raw freq norm freq wp1m categoryIN ORDER TO 83 521,416 C3bA LOT OF 69 433,466 A1cTHE OTHER HAND 45 282,695 A3 ON THE OTHER 45 282,695 A3TO HAVE A 40 251,285 A2AS WELL AS 35 219,874 C4IT IS NOT 32 201,028 A2THE FACT THAT 31 194,746 A1aIN THE WORLD 31 194,746 A4TO GET A 29 182,181 to-clause
Diferenças quantitativas – expressões referenciais(frequência bruta / frequência normalizada)
LOCNESS ICLE Br-ICLE
the fact that 163 / 503,1 1369 / 363,3 68/427,2
that there is 33 / 101,8 653 / 173,3 35/213,6
the number of 65 / 200,6 644 / 170,9 45/282,9
LOCNESSN Concordance
131 counties self-sufficient, due to the fact that during the war counties like
132 do little to eliminate the problem due to the fact that there would be less
133 rewarded job. Perhaps this is due to the fact that women have successfully
134 forgotten, yet just as important. Due to the fact that the child cannot speak or
135 cities would cost billions due to the fact that it costs £1million a mile of
136 commits a fallacy and that only adds to the fact that he presents a weak
137 still won the title outright due to the fact that they played a higher ranked
138 but his charge was dismissed due to the fact that Michigan has no law against
139 entered into. In some marriages due to the fact that the wife does not work, she
140 and eighth grade years partly due to the fact that the number of black
141 the perpetrater knew. This is due to the fact that human beings tend to
142 other hand, maybe it's simply due to the fact that the crucial task of raising
143 intra venous prescriptions due to the fact that they thought he could pass
144 to add worth to the cause due to the fact that they are prepared to make
145 schools. Supporters often point to the fact that teen pregnancy, violence,
146 stays with him but this is largely due to the fact that he chooses the wrong
147 Guilt is implicit in the account, due to the fact that it is focalized through the
148 refers to Dante's Hell and alludes to the fact that Amsterdam is his wordly
149 french realised that a defeat was due to the fact that they were not a strong
150 writes, . This is somewhat true due to the fact that the limited genetic
151 does not deserve to "care" for it. Due to the fact that the child is biologically only
152 the mother may feel left out. Due to the fact that she did not bear the child
153 are looking for an easy solution due to the fact that they are af raid of death,
ICLE
N Cluster Freq. Length
1 DUE TO THE FACT THAT 95 5
2 AWARE OF THE FACT THAT 62 5
3 IN SPITE OF 39 5
4 SPITE OF THE FACT THAT 38 5
5 THE FACT THAT IT IS 35 5
Br-ICLEN Concordance
51 Unfortunately, they overlook the fact that our desire to have higher
52 Internet or communication satellites. The fact that globalization has brought
53 of the people meet. In that sense, the fact that television has taken the
54 will consider arguments for supporting the fact that dreams and imagination are
55 democratic way of entertainment due to the fact that there is a wide variety of
56 to watch TV the whole afternoon, due to the fact that their parents are out
57 to rehabilitate them? Mainly, due to the fact that law is not strictly obeyed:
58 which is not active anymore, due to the fact that there was a massacre there
59 and imagination. This is due to the fact that one feels constantly
60 “panis et circensis”? It refers to the fact that people in the great Roman
61 the course does not have value due to the fact that it does not focus on the real
62 are becoming lazy thinkers due to the fact that now we computers and
63 situation that needs attention, due to the fact that the people are
64 have reduced their value to zero, due to the fact that some of them are only
65 obviously decadent and outdated due to the fact that it can not deal with the
66 important tools, society must face up the fact that each year, larger numbers
67 and people in general, mainly when the fact that Brazilians spend long hours
68 in Brazil is the one related with the fact that all politicians are robbers
Resultados: expressões de julgamento Baixa frequência de expressões no
BR-ICLE Atenuadores e marcadores
epistêmicos Maior frequência de expressões
De obrigação e diretivas De habilidadade e possibilidade Avaliação
Há diferenças quanto à frequência
Diferenças quantitativas – expressões de julgamento (frequência bruta / frequência normalizada)
LOCNESS ICLE Br-ICLEseems to bemay not be
26 / 80,323 / 71,0
745 / 197,7134 / 35,6
21 / 56,54 / 12,6
according to
30 / 92,6 452 / 119,9 27 / 119,4
have to beit should be
51 / 157,424 / 74,1
574 / 152,3 325 / 86,2
19 / 119,49 / 56,5
be able to 95 / 293,2 1154 / 306,2 39 / 245,0
the most important
22 / 67,9 830 / 220,2 38 / 238,7
Resultados sobre os pacotes de organização discursiva
Mais marcados pragmaticamente Enfatizados em sala de aula
Diferenças quantitativas – expressões de julgamento (frequência bruta / frequência normalizada)
LOCNESS ICLE Br-ICLE
in order to 130 / 401,2 2272 / 602,9 167 / 1049,1
due to the 82 / 252,1 440 / 116,8 36 / 226,2
because of the
79 / 243 679 / 180,2 24 / 150,8
as a result 45 / 139,0 731 / 194,0 27 / 169,6
Conclusões Similaridades entre os corpora
Alta frequência de expressões referênciais Gênero
Diferenças Frequência das expressões de julgamento e de
organizadores discursivos Próximos passos
Ajustes Metodológicos Sobreposição de pacotes
Necessidade de considerar pacotes maiores (?) Recontagem
Corte de 10 por milhão Br-ICLE (pacotes que ocorrem em somente 2 redações)
Próximos passos Ajustes Metodológicos
Sobreposição de pacotes Necessidade de considerar pacotes maiores (?)
Classificação Manual de todos os pacotes de 3 e 4 palavras Distribuição e padrões de uso de cada categoria
Bundle analyzer Estudo da composição dos pacotes
Porque há dificuldades para classificá-los todos de acordo com a taxonomia pragmática/funcional
Estrutura dos pacotes – itens fixos e variáveis Produtividade dos pacotes apropriados e não
apropriados