Resumo |
Anotar amostras em um corpus é inserir códigos de categorias gramaticais e semânticas junto a palavras ou frases, a fim de facilitar a manipulação do corpus e auxiliar no aprendizado de máquinas. Certos tipos de anotação ainda requerem trabalho manual. Acreditamos ser esse o caso da expressão de eventos de movimento porque esta envolve padrões léxico-gramaticais complexos, isto é, componentes semânticos expressos por mais de um tipo de componente sintático. A lexicalização de eventos de movimento foi sistematizada por Talmy (1991; 2000), que identificou línguas de moldura verbal, entre as quais estão as neolatinas, e de moldura de satélite, que incorporam as germânicas, entre outras. A diferença essencial entre esses grupos é a expressão do trajeto, que tipicamente aparece no verbo principal no primeiro grupo, e, numa partícula ou satélite, no segundo grupo. Outros elementos secundários no movimento, como a maneira e a causa, também tendem a ser codificados por componentes diferentes entre os grupos. Como foi observado em uma fase anterior da pesquisa, essa diferença afeta a qualidade da tradução automática, especialmente porque os tradutores automáticos muitas vezes não realizam a mudança de padrão de lexicalização e produzem traduções aberrantes ou pouco naturais. Nosso objeto de estudo são amostras de cenas de movimento expressas em português do Brasil que serão incorporadas a um algoritmo para treinamento de tradutores automáticos em um projeto maior, cujo objetivo é criar um corpus paralelo (original e tradução) para aprendizado de máquinas. Aqui, buscamos realizar a anotação semântica e morfossintática de amostras de traduções adequadas para o português, de cenas de movimento do romance Tom Sawyer (M. Twain). Como metodologia, identificamos amostras que foram traduzidas com erro por algum dos 5 tradutores automáticos (Google, Systran, Bing, Reverso e DeepL) em 2 coletas realizadas em um intervalo de 6 meses. Traduções aprimoradas foram feitas por pessoas com bom conhecimento das duas línguas. Essas traduções contendo uma cena de movimento foram analisadas e receberam anotações morfossintáticas e semânticas. Para a análise semântica, usamos as categorias conceituais empregadas por Slobin (2006), como g (terreno); m (maneira do movimento do protagonista); d (direção do movimento), x (extensão do trajeto) etc. Também foram empregadas etiquetas de marcação morfossintática, do mesmo autor, como V= verbo intransitivo de movimento, VT=verbo transitivo de movimento (causado), VN=substantivo deverbal de movimento (ex. “voo”), N=substantivo, P=partícula (morfema livre ou afixo), A=advérbio ou adjetivo, PP=sintagma preposicional, etc. Como resultado, foi possível anotar 50 amostras como esta: O menino V:md=escalar escalou PP:m=<a>as pressas N:g[x]=a cerca [alta] de tábuas. |