"Ciências Básicas para o Desenvolvimento Sustentável"

24 a 26 de outubro de 2023

Trabalho 18738

ISSN 2237-9045
Instituição Universidade Federal de Viçosa
Nível Graduação
Modalidade Pesquisa
Área de conhecimento Ciências Humanas e Sociais
Área temática Linguística
Setor Departamento de Letras
Bolsa FAPEMIG
Conclusão de bolsa Sim
Apoio financeiro FAPEMIG
Primeiro autor Flavianne Ignêz Correia de Oliveira
Orientador APARECIDA DE ARAUJO OLIVEIRA
Outros membros Fernanda Mola Bechelli, Suellen Alayde da Rocha Matos, Tharles Alberto de Carvalho
Título Construindo um corpus paralelo de cenas de movimento: anotação semântica e morfossintática de amostras em inglês
Resumo Um corpus paralelo é formado por amostras de texto em pelo menos duas línguas e é empregado para o estudo de tradução. Uma etapa na elaboração de um corpus como esse é a anotação das amostras com códigos de categorias sintáticas e semânticas. Certos tipos de anotação semântica já são feitas automaticamente. Porém, o caso da expressão de eventos de movimento exige anotação manual devido à sua complexidade, visto que os componentes semânticos podem ser expressos por mais de um tipo de componente sintático. Além disso, a expressão desses eventos segue padrões léxico-gramaticais que podem variar de um idioma para outro, como no caso do inglês e do português. A lexicalização desses eventos foi sistematizada por Talmy (1991; 2000). Ele identificou as línguas de moldura verbal, dentre as quais estão as neolatinas, que tipicamente codificam o trajeto no radical do verbo, e as de moldura de satélite, como as germânicas entre outras, que codificam o trajeto em satélites (partículas ou prefixos). Outros elementos secundários no movimento são, por exemplo, a maneira e a causa, que também tendem a ser codificados por componentes diferentes entre os grupos. Em uma pesquisa que vimos realizando com tradutores automáticos, observou-se que essa diferença entre o inglês e o português afetou a qualidade da tradução automática, especialmente porque, muitas vezes, as máquinas mantêm o mesmo padrão de lexicalização da língua fonte, enquanto os tradutores humanos tendem a preservar o padrão da língua alvo. Por isso, foram encontradas traduções aberrantes ou pouco naturais executadas por um ou mais de 5 tradutores automáticos (Google, Systran, Bing, Reverso e DeepL). Nosso objetivo neste estudo foi analisar e anotar as amostras do inglês para compor o corpus paralelo para efeito de aprendizado de máquina. Para a análise e codificação semântica, usamos as categorias conceituais empregadas por Slobin (2006), como g (terreno); m (maneira do movimento do protagonista); d (direção do movimento), x (extensão do trajeto) etc. Também usamos etiquetas de marcação morfossintática, como V= verbo intransitivo de movimento, VT=verbo transitivo de movimento (causado), VN=substantivo deverbal de movimento (ex. “corrida”), N=substantivo, P=partícula (morfema livre ou afixo), A=advérbio ou adjetivo, PP=sintagma preposicional, etc. Como resultado, foi possível anotar 50 amostras como esta do romance The Secret Agent (Joseph Conrad): She said nothing, V:m=glide glided PP:gd <across> the room A:m=swiftly.
Palavras-chave movimento, anotação, inglês
Forma de apresentação..... Vídeo
Link para apresentação Vídeo
Gerado em 0,66 segundos.