Resumo |
Um corpus paralelo é formado por amostras de texto em pelo menos duas línguas e é empregado para o estudo de tradução. Uma etapa na elaboração de um corpus como esse é a anotação das amostras com códigos de categorias sintáticas e semânticas. Certos tipos de anotação semântica já são feitas automaticamente. Porém, o caso da expressão de eventos de movimento exige anotação manual devido à sua complexidade, visto que os componentes semânticos podem ser expressos por mais de um tipo de componente sintático. Além disso, a expressão desses eventos segue padrões léxico-gramaticais que podem variar de um idioma para outro, como no caso do inglês e do português. A lexicalização desses eventos foi sistematizada por Talmy (1991; 2000). Ele identificou as línguas de moldura verbal, dentre as quais estão as neolatinas, que tipicamente codificam o trajeto no radical do verbo, e as de moldura de satélite, como as germânicas entre outras, que codificam o trajeto em satélites (partículas ou prefixos). Outros elementos secundários no movimento são, por exemplo, a maneira e a causa, que também tendem a ser codificados por componentes diferentes entre os grupos. Em uma pesquisa que vimos realizando com tradutores automáticos, observou-se que essa diferença entre o inglês e o português afetou a qualidade da tradução automática, especialmente porque, muitas vezes, as máquinas mantêm o mesmo padrão de lexicalização da língua fonte, enquanto os tradutores humanos tendem a preservar o padrão da língua alvo. Por isso, foram encontradas traduções aberrantes ou pouco naturais executadas por um ou mais de 5 tradutores automáticos (Google, Systran, Bing, Reverso e DeepL). Nosso objetivo neste estudo foi analisar e anotar as amostras do inglês para compor o corpus paralelo para efeito de aprendizado de máquina. Para a análise e codificação semântica, usamos as categorias conceituais empregadas por Slobin (2006), como g (terreno); m (maneira do movimento do protagonista); d (direção do movimento), x (extensão do trajeto) etc. Também usamos etiquetas de marcação morfossintática, como V= verbo intransitivo de movimento, VT=verbo transitivo de movimento (causado), VN=substantivo deverbal de movimento (ex. “corrida”), N=substantivo, P=partícula (morfema livre ou afixo), A=advérbio ou adjetivo, PP=sintagma preposicional, etc. Como resultado, foi possível anotar 50 amostras como esta do romance The Secret Agent (Joseph Conrad): She said nothing, V:m=glide glided PP:gd <across> the room A:m=swiftly. |