sitemap VIII Encontro de Linguística de Corpus
 
 
 

Corpora paralelos e concordanciadores alinhados: estado da questão


Alessandro Dalla Vecchia (Bolsista EAD - UFRGS)

Anna Maria Becker Maciel (UFRGS)


Cada vez mais a evolução da tecnologia computacional disponibiliza àqueles que se ocupam da pesquisa e do ensino da língua bem como aos profissionais que trabalham com o texto recursos on line para operacionalização de suas tarefas. Entre esses recursos estão os corpora, isto é, conjuntos de grandes extensões de textos autênticos preparados para a pesquisa lingüística informatizada. A utilização de corpora se divulgou de tal maneira que é hoje uma condição indispensável para um estudo criterioso do uso da língua. Dentre os vários tipos de corpora que podem ser construídos, destacam-se os corpora paralelos. São ferramentas de grande proveito para o ensino de línguas estrangeiras, línguas instrumentais e para o ensino e a prática da tradução. São utilizados ainda para o desenvolvimento de produtos lexicográficos, terminográficos bi e multilíngües, como glossários, dicionários, bases de dados bem como a construção de aplicações computacionais como tradução automática. Um corpus paralelo é um conjunto de textos alinhados em pares, tais pares são compostos pelo texto original e sua respectiva tradução. O alinhamento pode ser lexical, sentencial ou por blocos dependendo do desenho previsto pelo compilador de acordo com os propósitos visados. O corpus paralelo permite vários tipos de análises pela utilização do concordanciador alinhado. O concordanciador alinhado é a ferramenta que varre o corpus paralelo e indica onde estão as correspondências entre os itens solicitados pelo usuário. Trata-se de um recurso muito usado para comparar, analisar e validar a equivalência de traduções, terminologias, estruturas discursivas e estudar estratégias tradutórias. Não são muito numerosos os corpora paralelos encontrados na web, principalmente aqueles que contemplam a língua portuguesa e ainda menos aqueles que contém textos em português brasileiro. Os concordanciadores alinhados que possam ser utilizados em outros corpora paralelos compilados pelo usuário ainda são mais raros. Além disso, a maioria dos concordanciadores alinhados disponibilizados indicam, somente na língua escolhida pelo usuário, o item solicitado como chave de busca da concordância. Construir um corpus paralelo exige muito cuidado e esforço dos responsáveis desde a busca e seleção do texto na língua fonte e sua tradução na língua alvo até o alinhamento dos mesmos passando pela compatibilização de todos os detalhes de sua formatação. Além disso, não é fácil encontrar textos originais e traduzidos on line muito menos textos que não exijam a cessão de direitos autorais. Por essa razão, são muito poucos os corpora paralelos on line. Este trabalho tem por objetivo colaborar para a sua divulgação e seu aproveitamento. Para tanto, apresenta um levantamento dos sítios onde podem ser encontrados corpora paralelos bi e multilíngües e, ao mesmo tempo, faz uma análise e apreciação de suas potencialidades. Nesse sentido, recorre a tradutores alunos do PPG Letras e pesquisadores do Projeto Termisul, do Instituto de Letras, UFRGS, para testar a sua utilização. A avaliação é conduzida sob o ponto de vista do lingüista, de maneira especial do tradutor, de modo a sugerir ao informata funcionalidades relacionadas à utilização dos corpora paralelos e do concordanciador alinhado na pesquisa da tradução, lexicografia, terminologia e ensino. A metodologia adotada consta das seguintes etapas: 1) busca de corpora paralelos acessíveis on line; 2) descrição: a) registro dos dados de referência do sistema: nome, autor ou entidade responsável; b) conteúdo: tipo de texto, gênero e línguas contemplados; c) configuração da estrutura: mono ou bi-direcional; d) instruções de uso: língua das instruções; grau de dificuldade para entendê-las; 3) experimentação da ferramenta; 4) avaliação do uso: resultados alcançados, dificuldades encontradas na operação da ferramenta; 5) registro das lacunas encontradas; 6) sugestões do lingüista. Espera-se, como resultado deste trabalho, sugerir melhorias para os atuais padrões de pesquisa em corpora paralelos. As sugestões visam a tornar a ferramenta acessível ao usuário não especializado e as buscas mais produtivas para aquele que, proficiente na língua fonte, dispõe de reduzido conhecimento na língua alvo. Desse modo, os corpora paralelos, especialmente através da ferramenta concordanciador alinhado, poderão atender com mais eficiência também o aprendiz de língua estrangeira.


Palavras-chave: corpora paralelos; tradução; pesquisa lingüística.

 

Resumo