VIII Encontro de Linguística de Corpus

E-dictor: Novas perspectivas na codificação e edição de corpora de textos históricos

Maria Clara Paixão de Souza (USP)

Fábio Natanael Kepler (USP/PG)

Pablo Picasso Feliciano de Faria (UNICAMP/PG)

Contextualização. A construção de corpora de textos históricos do português é umas das metas do Projeto Tycho Brahe (http://www.tycho.iel.unicamp.br/). O Corpus Tycho Brahe é um corpus eletrônico anotado, composto por 52 textos em português (totalizando mais de dois milhões de palavras) escritos por autores nascidos entre 1380 e 1845. Os anos de experiência mostraram que a codificação em XML (eXtended Markup Language) é um processo muito trabalhoso e sujeito a falhas, se feito com intervenção direta sobre o documento XML, o que demanda extensa e incessante revisão da codificação. Além do mais, dificulta bastante o treinamento de codificadores, visto que além da tarefa filológica e linguística é preciso aprender a manipular a linguagem XML. A importância, reconhecida, da codificação eletrônica está no fato de permitir uma variedade de manipulações das informações codificadas, por exemplo, através de transformações utilizando a tecnologia XSLT, que permitem gerar “versões” do documento (como a lista de palavras, a exibição do texto original ou do editado, a lista de edições, a conversão para PDF, etc.)

Ferramentas existentes. Até onde conhecemos, não há ferramenta específica voltada a este fim. Como os documentos XML são documentos em formato texto, qualquer editor comum, a priori, é capaz de manipulá-los diretamente. Por razões de codificação de caracteres (adotamos o padrão UTF-8), alguns editores de destacam nessa tarefa, como, por exemplo, o Emacs, o Kate Editor e o EditPlus. Assim, o trabalho se resumia basicamente a codificar os textos diretamente nesses editores, inserindo-os juntamente com a marcação da estrutura XML. A verificação de problemas na codificação era feita principalmente com base na exibição do documento XML em navegadores web (como Internet Explorer ou Firefox) que são capazes de indicar erros na estrutura do documento. A revisão da edição em si era feita através da geração de transformações do documento (utilizando a tecnologia XSLT), que permitia acessar diferentes “versões” do texto codificado, como uma versão “original” e outra “modernizada”, por exemplo.

Objetivo. Desenvolver uma ferramenta capaz de facilitar o processo de transcrição e codificação de textos, em formato XML, e que permita realizar a edição do texto para fins filológicos (como modernização de grafia, por exemplo) e lingüísticos (análise sintática, morfossintática, entre outras). A ferramenta visa a evitar o contato direto entre o codificador e a estrutura XML subjacente. A estrutura XML adotada para a ferramenta permite codificar informações sobre a edição das palavras, a etiquetagem (morfossintática), além de parte da apresentação do texto original (títulos, quebras de linha, página, etc.). A idéia que guiou a definição dessa estrutura foi a de permitir a maior flexibilidade possível quanto às necessidades específicas de cada corpus. Assim, a especificação traz estruturas “neutras”, que são: texto, seção, parágrafo, sentença, palavra, quebras (de página, linha ou coluna), cabeçalho e rodapé. A ferramenta deve permitir, ainda, que suas funcionalidades sejam ampliadas sem maiores impedimentos, além de ser portável para diferentes sistemas operacionais.

Metodologia. Por razões de portabilidade, poder de expressão e acesso à documentação, escolhemos a linguagem de programação Python. O ambiente preferido para o desenvolvimento foi o ambiente Linux, utilizando a plataforma Eclipse. A hospedagem do projeto foi feita na USP, utilizando o ambiente Trac, que disponibiliza uma série de ferramentas para a gerência de projetos de software, como painel de discussão, página de downloads, estabelecimento de metas de desenvolvimentos, tarefas, listagem de bugs, etc., além de funcionar em conjunto com o Eclipse, através de plugins. Optou-se pelo desenvolvimento inicial de versões do E-Dictor para dois sistemas operacionais: Linux e Windows (XP/Vista). O processo de desenvolvimento foi incremental, com versões de testes sendo geradas e testadas semanalmente, por bolsistas atuando no Projeto Tycho Brahe, até ser atingida a versão 1.0, que passará pelas versões alpha e beta, antes de ser considerada estável.

Resultados. A ferramenta, como se esperava, realmente tornou muito mais amigável o processo de codificação de texto, ao fornecer uma interface visual voltada para tal fim. Com isso, permite-se ao codificador se concentrar no que realmente importa: a edição filológica e a análise linguística (no momento, apenas morfossintática). O seu uso no ambiente de produção do Projeto Tycho Brahe tem mostrado ganhos de mais de 50% no tempo de codificação e revisão, esta última também facilitada, visto que os erros na estrutura XML não são mais possíveis.

Conclusão. Se já estava evidente – com a codificação dos textos em editores comuns – a necessidade de uma ferramenta que tornasse o processo mais eficiente e amigável, a partir dos resultados verificados com o uso do E-Dictor não há mais dúvidas da importância de uma tal ferramenta. Certamente, ela necessitará de melhorias e as idéias virão a partir da difusão da mesma e de seu uso intenso. A meta ideal para o E-Dictor é a de que ele seja capaz de abarcar todo o fluxo de atividades lingüísticas e filológicas sobre um texto qualquer: a transcrição, edição, análise morfossintática e sintática.

corpora de textos históricos – filologia – processamento eletrônico – análise linguística

Resumo

Voltar/Back