"Ciências Básicas para o Desenvolvimento Sustentável"

24 a 26 de outubro de 2023

Trabalho 18719

ISSN 2237-9045
Instituição Universidade Federal de Viçosa
Nível Graduação
Modalidade Pesquisa
Área de conhecimento Ciências Humanas e Sociais
Área temática Linguística
Setor Departamento de Letras
Bolsa FAPEMIG
Conclusão de bolsa Não
Apoio financeiro FAPEMIG
Primeiro autor Suellen Alayde da Rocha Matos
Orientador APARECIDA DE ARAUJO OLIVEIRA
Outros membros Fernanda Mola Bechelli, Flavianne Ignêz Correia de Oliveira, Tharles Alberto de Carvalho
Título Anotação semântica e morfossintática de amostras descritivas de cenas de movimento no português do Brasil
Resumo Anotar amostras em um corpus é inserir códigos de categorias gramaticais e semânticas junto a palavras ou frases, a fim de facilitar a manipulação do corpus e auxiliar no aprendizado de máquinas. Certos tipos de anotação ainda requerem trabalho manual. Acreditamos ser esse o caso da expressão de eventos de movimento porque esta envolve padrões léxico-gramaticais complexos, isto é, componentes semânticos expressos por mais de um tipo de componente sintático. A lexicalização de eventos de movimento foi sistematizada por Talmy (1991; 2000), que identificou línguas de moldura verbal, entre as quais estão as neolatinas, e de moldura de satélite, que incorporam as germânicas, entre outras. A diferença essencial entre esses grupos é a expressão do trajeto, que tipicamente aparece no verbo principal no primeiro grupo, e, numa partícula ou satélite, no segundo grupo. Outros elementos secundários no movimento, como a maneira e a causa, também tendem a ser codificados por componentes diferentes entre os grupos. Como foi observado em uma fase anterior da pesquisa, essa diferença afeta a qualidade da tradução automática, especialmente porque os tradutores automáticos muitas vezes não realizam a mudança de padrão de lexicalização e produzem traduções aberrantes ou pouco naturais. Nosso objeto de estudo são amostras de cenas de movimento expressas em português do Brasil que serão incorporadas a um algoritmo para treinamento de tradutores automáticos em um projeto maior, cujo objetivo é criar um corpus paralelo (original e tradução) para aprendizado de máquinas. Aqui, buscamos realizar a anotação semântica e morfossintática de amostras de traduções adequadas para o português, de cenas de movimento do romance Tom Sawyer (M. Twain). Como metodologia, identificamos amostras que foram traduzidas com erro por algum dos 5 tradutores automáticos (Google, Systran, Bing, Reverso e DeepL) em 2 coletas realizadas em um intervalo de 6 meses. Traduções aprimoradas foram feitas por pessoas com bom conhecimento das duas línguas. Essas traduções contendo uma cena de movimento foram analisadas e receberam anotações morfossintáticas e semânticas. Para a análise semântica, usamos as categorias conceituais empregadas por Slobin (2006), como g (terreno); m (maneira do movimento do protagonista); d (direção do movimento), x (extensão do trajeto) etc. Também foram empregadas etiquetas de marcação morfossintática, do mesmo autor, como V= verbo intransitivo de movimento, VT=verbo transitivo de movimento (causado), VN=substantivo deverbal de movimento (ex. “voo”), N=substantivo, P=partícula (morfema livre ou afixo), A=advérbio ou adjetivo, PP=sintagma preposicional, etc. Como resultado, foi possível anotar 50 amostras como esta: O menino V:md=escalar escalou PP:m=<a>as pressas N:g[x]=a cerca [alta] de tábuas.
Palavras-chave Anotação, Tipologia do Movimento, Português do Brasil
Forma de apresentação..... Vídeo
Link para apresentação Vídeo
Gerado em 0,64 segundos.