sitemap VIII Encontro de Linguística de Corpus
 
 
 

Corpobras:  um corpus representativo do português do Brasil


Lúcia Pacheco de Oliveira (PUC-Rio)

Rubiane Guilherme Valério (PUC-Rio)

Maria Geralda Pereira Lanziotti (FSB-RJ)

Renata Maria Cantanhede Amarante (PUC-Rio)


A Lingüística de Corpus tem sido considerada por alguns teóricos como a face moderna da lingüística empírica (Teubert, 1996) e pode ser caracterizada como uma área do conhecimento que se baseia no estudo de textos reais com o auxílio de programas computacionais, visando à extração de evidências lingüísticas a partir de um corpus. Estudos lingüísticos teóricos e aplicados vêm se beneficiando do uso de corpora para a descrição de fenômenos lingüísticos ou para a verificação de hipóteses acerca dos mesmos. Contudo, apesar de terem sido tomadas algumas iniciativas bem-sucedidas para a compilação de corpora em português, tais como as do NILC (USP-São Carlos/UFSCar/UNESP) e  PUC/SP, ainda não contamos com um corpus de dimensões abrangentes, que seja representativo e organizado de acordo com convenções aplicadas internacionalmente.

Neste trabalho, visa-se apresentar o CORPOBRAS, que é um corpus representativo do português do Brasil, contendo 27 (vinte e sete) gêneros discursivos, assim distribuídos: 20 (vinte) gêneros do discurso escrito, 5 (cinco) gêneros do discurso oral, e 2 (dois) gêneros do discurso escrito para ser falado. Para que o CORPOBRAS pudesse ser desenvolvido, contou com financiamento através do Edital Universal CNPQ (2004-2007), e, atualmente, tem apoio do Edital FAPERJ (2009-2010), na área de Humanidades, estando vinculado ao projeto ‘Escrita e inclusão social: análise de corpus e a metáfora gramatical no ensino médio’, o qual visa compilar e analisar  textos de alunos da rede pública e da rede privada  com o auxílio de ferramentas computacionais (Scott, 2004, Bick, 2002), tendo como base teórico-metodológica a Lingüística Sistêmico-Funcional (Halliday e Matthiessen, 2004).

Através da seleção e da compilação de textos, o CORPOBRAS ultrapassou, em 2008, a sua meta inicial de 1.000.000 (hum milhão) de palavras, totalizando, aproximadamente, 1.170.000 palavras, e equiparando-se a corpora internacionais médio-grandes (Sardinha, 2004).  Como uma das principais metas do CORPOBRAS é a sua representatividade, os textos selecionados são autênticos, refletindo o uso real da língua; produzidos por falantes nativos da língua, ou seja brasileiros; produzidos por falantes/escritores únicos, ou seja, cada texto deve ser de um autor/participante diferente; produzidos em diferentes regiões do país, para representar a variedade regional de forma abrangente; selecionados de forma não aleatória, tendo conteúdo variado; pertencentes a diferentes gêneros discursivos, para representar a maior variedade possível de ações sociais

No que tange à organização do corpus, após a sua digitalização, todos os textos são codificados com uma sigla que indica o gênero e o número do texto, e a língua na qual o mesmo foi produzido. Também foram elaborados relatórios detalhados que incluem a contagem de palavras, a origem e a descrição dos participantes de cada texto do corpus. Atualmente, os seguintes gêneros compõem o CORPOBRAS: artigo científico, carta ao editor, carta de reclamação, carta de recomendação, carta pessoal, carta profissional, carta profissional acadêmica, circular, conto, crônica, dissertação e tese, editorial, e-mail acadêmico, e-mail pessoal, notícia de jornal, redação de alunos de ensino médio, redação de alunos universitários, redação de vestibular, romance, conversa carioca, conversa de crianças, entrevista acadêmica, grupo de enfoque, atendimento ao cliente, discurso político e roteiro cinematográfico.

Partes do CORPOBRAS, já documentadas, têm sido utilizadas em diversos estudos acadêmicos (Lanziotti, 2002, Caldeira, 2006, Oliveira, 2006, Valério et al. 2007, Turunen, 2009). Algumas destas pesquisas, cujos resultados serão brevemente apresentados neste trabalho, utilizaram o CORPOBRAS em análises automáticas, com o auxílio de ferramentas computacionais, como o WordSmith Tools; outras pesquisas utilizaram coleções de textos extraídas do corpus, formando subcorpora, e fizeram uso menos intenso do computador para extrair as evidências lingüísticas. Contudo, ambos os grupos produziram resultados interessantes a partir do corpus.

Para finalizar a apresentação deste trabalho, serão discutidas questões relevantes quanto à compilação e organização de corpora, relacionadas à descrição de dados contextuais, à identificação precisa de fontes, e à dificuldade de liberação de autorizações autorais para que um corpus possa ser disponibilizado em sua totalidade para a comunidade acadêmica.


Palavras-chave:  CORPOBRAS, lingüística de corpus, gêneros discursivos,  representatividade.

Resumo