sitemap VIII Encontro de Linguística de Corpus
 
 
 

Construção de uma ontologia de domínio e a busca da solução do tennis problem


Erasmo Roberto Marcellino (UNESP - PPG em Linguística e Língua Portuguesa)

Bento Carlos Dias da Silva (UNESP Araraquara - Departamento de Letras Modernas)


1. Contextualização

A arte do bordado tem sido o foco da cidade de Ibitinga desde a primeira metade do século XX, quando começaram a se desenvolver e aprimorar as técnicas relativas à produção do bordado, desde aquele confeccionado artesanalmente até o que atualmente envolve tecnologias projetadas para o setor. A indústria do bordado envolve, por exemplo, técnicas, agentes, materiais, instrumentos, processos, suportes e produtos que são discursivizados num universo vocabular rico e específico. Por trás desse universo existe todo um domínio conceitual delimitado que ainda não foi estudado, o que justifica a proposição deste trabalho. Nossa discussão principal foca uma proposta para a sistematização, em termos de uma ontologia completa, dos itens lexicais do domínio conceitual denominado INDÚSTRIA DO BORDADO (IB), sendo que esse domínio não abarca toda a indústria desse ramo, mas, por razões operacionais e de tempo disponível para a pesquisa no nível de mestrado, se restringe ao universo da indústria ibitinguense e suas eventuais peculiaridades.   O trabalho visa popular essa ontologia e projetá-la sobre as bases da WordNet.Pr  (WN.Pr),  wordnet pioneira desenvolvida para o inglês norte-americano, e da WordNet.Br (WN.Br), base análoga à da WN.Pr em construção para o português brasileiro. Será apresentada também uma proposta para a indexação semântica dos synsets (constructos apresentados futuramente) a serem analisados no domínio IB, abordando, assim, um dos problemas detectados nas wordnets: o tennis problem, descrito na seção 5.


2. Objetivos

Este trabalho propõe um estudo linguístico-cognitivo e linguístico-computacional que abarca dois objetivos principais: (a) coletar unidades e expressões lexicais do português e inglês do domínio IB e (b) selecionar, descrever e organizar esses itens em termos da ontologia que deles se depreende e “projetar” a estrutura dessa ontologia sobre as bases das wordnets acima mencionadas, solucionando assim o tennis problem, inerente a essas bases.


3. Revisão da literatura

A definição de ontologia adotada neste trabalho – uma representação formal do conhecimento conceitual compartilhado em alguns domínios de interesse que se estrutura por meio de relações e funções – está fundamentada em Ding e Foo (2002), com complementação nos estudos das relações entre ontologias e léxicos presentes em Handke (1995) e também em Hirst (2004), que discute a possibilidade de léxicos semanticamente hierarquizados, como um dicionário, poderem servir de base a uma ontologia.      

A estruturação das redes – a WN.Pr (FELLBAUM, 1998), que representa os conceitos expressos no léxico do inglês por meio de synsets, a EuroWordNet (VOSSEN et al., 1998), uma multiwordnet em desenvolvimento para línguas da União Europeia e a WN.Br (DIAS-DA-SILVA, 2008) – fornece a estrutura taxonômica e interlíngue do domínio IB, posto que os synsets constituem os nós dessas redes e as relações de antonímia, hiponímia/hiperonímia, meronímia/holonímia e causa/acarretamento, que se estabelecem entre os synsets, constituem as conexões entre esses nós. A ontologia, por sua vez, fornecerá a estrutura do domínio, organizando a rede de relações entre os conceitos do domínio IB, que, por sua vez, subsidiará a estruturação dos synsets em termos dessas relações.


4. Metodologia

O estudo abrange, pois, dois domínios complementares: (i) o linguístico, em que se investigam e se sistematizam as informações sobre o domínio da IB e sobre os dados lexicais do português e do inglês coletados do corpus linguístico de referência do projeto, e (ii) o linguístico-computacional, em que se representam, de modo formal, toda a descrição construída no domínio anterior de uma maneira que o computador possa processar. A coleta citada em (a) e (i) dá-se no corpus de referência em construção para o projeto, que engloba principalmente: materiais impressos referentes à indústria do bordado (manuais, catálogos, teses, dissertações, entre outros); inquéritos de informantes; informações, nas duas línguas, localizáveis em textos pelo motor de busca Google; definições e abonações de dicionários; exemplos das gramáticas e informações lexicais contidas nas bases da WN.Br e da WN.Pr. Embora parte desse corpus contemple principalmente textos circunscritos ao universo urbano da indústria de Ibitinga, a ontologia inferida dele poderá, oportunamente, ser ampliada para o domínio mais geral da indústria do bordado nacional ou mundial.  


5. Resultados parciais

O fato de uma wordnet apresentar unidades ou expressões lexicais de um mesmo domínio distribuídas por toda a rede sem que nada as co-relacione é denominado pela literatura especializada de tennis problem (FELLBAUM, 1998). Na WN.Pr, por exemplo, os profissionais que trabalham com bordado reúnem-se sob a etiquetação genérica noun.person, enquanto uma outra, noun.artifact, abarca os maquinários e instrumentos da produção. Vários estudos e medidas vêm buscando remediar esse problema; nossa proposta é a de indexar semanticamente os synsets em análise no domínio IB que serão acrescentados às bases da WN.Br e WN.Pr e aqueles que já existem, agrupando, assim, informações relativas a esse domínio que estão espalhadas por regiões distintas das redes.

A sistematização dos dados lexicais coletados tem sido feita em termos de uma ontologia de conceitos que fornece a estrutura para as diferentes categorias conceituais do domínio. Neste estágio inicial das investigações, foram propostas as seguintes macrocategorias: TIPOS DE SUPORTES PARA OS BORDADOS (guardanapo; toalha; colcha; etc.), PROFISSIONAIS DA ÁREA (bordadeira; riscadeira; overloquista; etc.), MAQUINÁRIOS E INSTRUMENTOS ENVOLVIDOS (máquina de bordar; bastidor; agulha; etc.), TIPOS DE MATERIAIS EMPREGADOS (linha; codornê; lantejoula; etc.) e PROCEDIMENTOS E PROCESSOS ENVOLVIDOS NA PRODUÇÃO DAS CONFECÇÕES (riscagem; bordadura; arrematação; etc.).


6. Conclusão

O desenvolvimento deste trabalho, além de contribuir com a especificação de conhecimentos léxico-conceituais nas duas línguas em foco para o domínio IB, terá também o potencial para gerar aplicações lexicográficas para acesso gratuito na Internet, como dicionários e glossários bilíngues, que podem auxiliar a comunicação de estudantes e profissionais desse setor, além de contribuir como recurso léxico-conceitual para sistemas de PLN. Para isso, prevêem-se estudos sobre o léxico, enquanto recurso central para sistemas de PLN, focando sua composição e sua interação com outros componentes desses sistemas (como a gramática, por exemplo); sobre a estruturação do conhecimento lexical em termos de ontologias e as relações entre estas e aquele; sobre fronteiras entre as unidades lexicais e entre o léxico e a gramática; e sobre a montagem da WN.Pr e da EuroWordNet e outras redes similares.


Palavras-chave: léxico; ontologia; rede semântica; wordnet.

Resumo