sitemap VIII Encontro de Linguística de Corpus
 
 
 

Uso de for em corpus de aprendizes: análise de itens lingüísticos de um corpus pequeno


Deise Prina Dutra (UFMG)

Rejane Protzner Silero (IC-UFMG)


Este trabalho tem por objetivo de discutir como os recursos da Linguística de Corpus (LC) podem colaborar para melhor compreendermos a interlíngua de aprendizes brasileiros de inglês de nível universitário por meio da análise de textos argumentativos. Levando-se em consideração a freqüência e saliência de traços linguísticos, os dados da nossa pesquisa nos conduziram a analisar o uso da palavra for.

Os estudos da LC com foco em aprendizes de segunda língua (L2) ou língua estrangeira (LE) são recentes (GRANGER 1998; GRANGER, HUNG, PETCH-TYSON 2002; BERBER SARDINHA 2001; GRIES, 2005, LÚCIO 2006; PINTO 2008) e têm explorado como os aprendizes estruturam sua gramática, léxico e discurso. Impulsionadas principalmente pela formação do International Corpus of Learner English (ICLE), com textos escritos por aprendizes de inglês de diversos países, as pesquisas têm abordado, por exemplo, o uso de conectivos adverbiais (Latenberg, Tapper 1998), a freqüência de perguntas diretas (em textos de falantes nativos e não-nativos), a relexicalização de adjetivos (LÚCIO 2006), o uso de things, anything, something e everything (PINTOP 2008), dentre outros aspectos.

A pesquisa aqui apresentada baseia-se em dados de um corpus em formação (Corpus de Aprendizes Brasileiros do Inglês - CABrI) que se integrará ao Br-ICLE. Foram analisados 80 textos e um total de 40.808 palavras em comparação com o Louvain Corpus of Native English Essays (LOCNESS) e com o Corpus of Contemporary American English (COCA). Fizemos uma análise manual das redações dos aprendizes e, posteriormente, utilizamos os recursos do Word Smith Tools e do error tagger disponível no site

www.corpuslg.org (ver BERBER SARDINHA e SHEPHERD, 2008 para uma discussão sobre o programa). 

Os primeiros resultados, da análise manual dos dados, revelaram usos não apropriados de conjunções subordinadas, tais como after, before, since, while, whereas. Em segundo lugar, fizemos uma comparação com o LOCNESS utilizando os recursos do WordSmith Tools. A princípio, tal análise não demonstrou diferenças de frequência de uso.  Percebemos, então, que nossa análise estava sendo guiada mais pelo fator saliência do que pelo fator frequência, já que, como professoras da língua inglesa, temos observado o uso inapropriado de conjunções por alunos brasileiros.  Em terceiro lugar, resolvemos utilizar o error tagger, e as conjunções até então analisadas não apareciam como fortes candidatas a usos incorretos no nosso corpus. O error tagger gera uma lista das palavras que possuem maior tendência ao erro num determinado corpus. No caso do CABrI, as doze primeiras palavras foram: the, of, a, to, in, it, not, and, with, people, that, for. Entretanto, tem-se a impressão de que o critério para o destaque dessas palavras é muito influenciado pela frequência com a qual elas aparecem no corpus, e isso talvez possa acarretar em resultados tendenciosos. Outro ponto a ser ressaltado é que ao analisar, por exemplo, a palavra for, não é possível diferenciá-la entre o seu uso como preposição e o seu uso como conjunção coordenada. Para responder, portanto, a pergunta “qual desses dois usos atesta maior probabilidade de erro?”, uma análise manual se fez necessária. De qualquer maneira, o software confere ao pesquisador excelentes direções de análises, justamente por indicar palavras com tendência a serem usadas inadequadamente, além do fato de ter sinalizado um possível sobreuso (GRANGER e TRIBBLE 1998) de for. Os resultados apontam poucas ocorrências de for como conjunção (algumas apropriadas e outras não) e muitas ocorrências errôneas que advêm da utilização de for em verbos preposicionados que exigem outra preposição e em colocações. Por exemplo, o sobreuso mais identificado foi o de contribute for no CABrI, enquanto que no COCA ele ocorre somente 14 vezes. Por outro lado, contribute to aparece 7.038 vezes no COCA. Há também ocorrências de colocações como for the contrary ao invés de to the contrary.

Concluímos que a análise de um corpus de aprendizes deve centrar-se mais na frequência dos itens a serem observados do que no fator saliência. A utilização do error tagger levou-nos a investigar construções em sobreuso no CABrI que não pudemos detectar somente com os recursos do WordSmith Tools. O corpus analisado apresenta o sobreuso de for principalmente em ocorrências de verbos preposicionados.     


Palavras-chave: corpus de aprendizes, frequência, saliência, sobreuso   

 

Resumo