sitemap VIII Encontro de Linguística de Corpus
 
 
 

Parâmetros para a anotação de unidades de alinhamento em córpus paralelos


Marco Rocha (UFSC)


O desenvolvimento de projetos cujo objetivo é a criação e utilização sistemática de córpus de textos originais e suas traduções para uma ou mais línguas vem crescendo em número e importância no contexto das abordagens de base em córpus. Córpus deste tipo, chamados frequentemente de córpus paralelos, são particularmente úteis quando os textos originais e suas traduções são segmentados e alinhados segundo algum tipo de unidade linguisticamente fundamentada, como a oração ou a sentença. A partir desta definição de unidade, os procedimentos metodológicos característicos da linguística de córpus podem ser aplicados a estes córpus paralelos, como, por exemplo, a anotação de córpus. Porém, a anotação de fenômenos linguísticos percebidos em cada uma das línguas em isolamento não estabelece a relação entre o texto original e sua retextualização em outra língua, o que seria naturalmente de interesse para os estudos da tradução de base em córpus e suas possíveis aplicações no treinamento de tradutores e como subsídio para a tradução de máquina, para citar apenas duas. Parece desejável, portanto, estabelecer parâmetros para a anotação de cada par de unidades de alinhamento que possam expressar uma classificação das correspondências tradutórias conforme percebidas por pesquisadores que se dediquem à análise deste tipo de córpus, independentemente das línguas que integram o córpus. Os parâmetros poderiam ser definidos segundo a proposta de classificação conhecida como universais da tradução (Blum-Kulka 1986, Baker 1993), um conjunto de características presentes no texto traduzido em contraste com o texto original, sobretudo: explicitação, simplificação, normalização, desambiguação e redução ou eliminação de repetições. Tendo em vista as críticas de natureza teórica (House 2008) e metodológica (Hansen-Schirra et al. 2006), duas outras abordagens possíveis para a parametrização em questão foram consideradas: a apresentada em Hansen-Schirra et al. (2006), baseada em uma anotação multidimensional que inclui etiquetagem de classe de palavras, categorias morfológicas como gênero e número, e funções gramaticais; e os tipos de correspondência tradutória de Thunes (1998), os quais utilizam a noção de complexidade da tradução, baseada nas exigências de conhecimento linguístico do tradutor em relação a cada uma das línguas em questão para a realização da tradução em cada par alinhado. Foram coletadas 450 unidades de alinhamento em três córpus distintos (150 em cada córpus) contendo textos em inglês e suas traduções para o português: COMPARA; OEA; e manuais KDE. A amostra de unidades coletadas foi obtida através de buscas que utilizaram a palavra inglesa which, tanto como pronome relativo quanto como interrogativo. Os resultados apontam para uma inadequação dos universais da tradução para fins de classificação sistemática de unidades de alinhamento em um córpus paralelo, já que o conceito não é facilmente mapeado sob forma de indicadores sintáticos e semânticos textualmente identificáveis, levando a problemas graves para a classificação de um número significativo de pares de alinhamento. A anotação de Hansen-Schirra utiliza uma marcação XML que se mostra particularmente adequada para um tratamento sistemático de grandes quantidades de texto alinhado, devido à sua funcionalidade computacional. Por outro lado, as correspondências tradutórias de Thunes demonstram uma funcionalidade no que diz respeito a uma capacidade de expressar fenômenos relacionados aos aspectos cognitivos da tradução, a qual pode ser útil em abordagens nas quais uma consciência do processamento linguístico seja importante. O trabalho conclui com uma proposta inicial de integração destas duas formas de parametrização em um anotação multidimensional que viesse a aproveitar as virtudes de ambas as abordagens. Deste modo, a anotação teria a capacidade de associar aspectos morfológicos, sintáticos e semânticos dos originais e suas traduções às complexidades cognitivas do processo tradutório, conforme definidas pelos tipos de correspondência de tradutória de Thunes. Acredita-se que esta associação permitiria o desenvolvimento de estudos da tradução solidamente enraizados em dados reais, permitindo inclusive a criação de soluções adequadamente fundamentadas para o treinamento de tradutores e de concepções linguisticamente mais apropriadas para sistemas de tradução de máquina.


Palavras-chave: Estudos da tradução de base em córpus; anotação de córpus paralelos; unidade de alinhamento; classificação de correspondências tradutórias.

 

Resumo