sitemap VIII Encontro de Linguística de Corpus
 
 
 

Identificação de espressões fixas em corpora: Até onde podem ir os métodos estatísticos?


Jorge Baptista (UAlg)

Oto Araújo Vale (UFSCar)


Neste trabalho estuda-se a questão da identificação de expressões fixas em grandes corpora. As expressões fixas tem constituído um desafio no processamento de linguagem natural, tanto no aspecto lexicográfico quanto no sintático.

Sua identificação em corpora de grandes dimensões ainda é um problema não resolvido, tanto pelas questões linguísticas (Mel’cuk, 1995; Gross, 1996) como pelos problemas computacionais (Manning & Schütze 1999; Caseli et al. 2009, Dias 2005) que levanta. De um lado, sua baixa ocorrência em textos escritos num registro mais próximo da normatividade é mascarada pelo fato de manuais do “bem escrever” desaconselharem explicitamente o seu uso. De outro lado, a ocorrência de tais expressões na oralidade é evidente para qualquer falante que se disponha a analisar conversações correntes entre falantes do português.

Assim, a busca automática deste tipo de expressões em grandes corpora, que são constituídos sobretudo por textos de língua escrita, acaba sendo um problema maior, que tem motivado vários trabalhos de pesquisa (Caminada et al, 2008; Freitas et al 2004, entre outros).

Nesta comunicação é feita uma revisão dos principais resultados de trabalhos recentes que abordam estatisticamente o problema da identificação de expressões idiomáticas, em particular, aqueles obtidos com medidas genéricas como o t-test, X2, PMI (pointwise mutual information), log liklelyhood ou os problemas de adaptar as diferente medidas à especificidade dos fenômenos linguísticos a detectar (Caseli et al. 2008). Com base nos problemas identificados, procurou-se abordar a questão de num ângulo diferente: considerando um conjunto de expressões fixas idiomáticas já recenseadas, em listagens sistematicamente elaboradas com vista a estarem próximas da exaustividade, constituindo um único tipo formal, aferir a adequação desses métodos, em particular a sua cobertura lexical.

Tanto para o Português do Brasil (PB) como no Português Europeu (PE) estão já disponíveis listagens de expressões fixas e idiomáticas (Vale, 2001; Fernades 2007, Fernandes e Baptista 2007), organizadas com base na estrutura interna, isto é na sequência de categorias gramaticais, e recorrendo a uma grande diversidade de fontes, de forma sistemática e visando a exaustividade.

Procurou-se concentrar a busca a partir de uma única classe formal, a classe CP1, definida pela estrutura sintática N0 V Prep C1, isto é, um sujeito distribucionalmente livre, o verbo e um único complemento preposicional fixo (PB-CP1: aprox. 1000 entradas; PP-CP1: aprox. 700 entradas). A busca sistemática foi realizada usando os corpora CETENFolha e CETEMPúblico, aplicando-se as diferentes medidas estatísticas acima referidas a fim de verificar a cobertura de cada uma.

O teste foi realizado buscando-se apenas as sequências que contivessem o verbo e o substantivo fixo, independemente da preposição ou do determinante, e com uma janela de zero a três vocábulos entre eles.

Após todos os testes realizados, dois fatos são notáveis: mais de 50% das expressões listadas não são reconhecidas e um bom número de sequências reconhecidas são falsos positivos, problema suplementar colocado quando da ocorrência de expressões ambíguas (entre uma leitura literal e outra idiomática) ou de componentes dessas mesmas expressões em construções composicionais. Compare-se, por exemplo, a expressão ambígua: São muito violentos e sempre entram atirando para todos os lados, com a ocorrência da expressão idiomática presente em: As escolas particulares estão atirando para todos os lados na tentativa de reverter a forma de conversão das mensalidades (exemplos retirados do CETENFolha).

É possível atribuir o não reconhecimento de expressões listadas a diversos fatores, como o tipo de gênero textual que compõe os dois corpora. No que diz respeito às sequências ambíguas, o que se nota é que não é possível tratá-las de uma maneira puramente automática. Além disso, esse tipo de fenômeno acaba por minar a interpretação dos resultados obtidos a partir das abordagens predominantemente estatísticas.

Verificou-se que, graças à sua robustez, os métodos estatísticos reconhecem efetivamente e com um elevado grau de precisão um número razoável de expressões multipalavra, contudo deixam de fora numerosas expressões e variantes, cuja baixa frequência em corpora de textos as impede atingir os limiares definidos para cada uma dessas medidas. O que se pode notar, portanto, é que esse tipo de abordagem não permite solucionar problema da cobertura lexical dos recursos linguísticos construídos especificamente para processamento computacional.


Palavras chave: Métodos estatísticos; Expressões fixas; Português do Brasil; Português Europeu

 

Resumo