Do Lógico ao Abstrato: A Ciência no Cotidiano

23 a 28 de outubro de 2017

Trabalho 8919

ISSN 2237-9045
Instituição Universidade Federal de Viçosa
Nível Graduação
Modalidade Pesquisa
Área de conhecimento Ciências Exatas e Tecnológicas
Área temática Ciência da Computação
Setor Departamento de Informática
Bolsa FAPEMIG
Conclusão de bolsa Não
Apoio financeiro FAPEMIG
Primeiro autor Samuel da Silva Guimarães
Orientador SABRINA DE AZEVEDO SILVEIRA
Outros membros Socrates Soares Araujo Junior
Título E.C. by numbers: uma avaliação da classificação enzimática atual
Resumo Por muito tempo os enzimologistas, especialistas na área de enzimas, as nomeavam caoticamente. Felizmente, nos anos 50 nasceu o Enzyme Commission number (E.C. number), que era um dicionário controlado para nomeá-las. Essa codificação é um simples sistema numérico e hierárquico, onde 4 números separados por ponto representam diferentes níveis de informações a respeito da reação enzimática. Todavia, esse sistema sofreu mudanças para incorporar o que foi descoberto sobre novas enzimas e o papel que elas desempenham, surgindo então a notação histórica do que ocorreu com um EC number. Partindo dessa nova notação avaliamos as mudanças ocorridas. O objetivo principal então era propor e implementar estratégias interativas de representação visual para tal sistema mostrando as alterações sofridas e um panorama completo, além de evidenciar tendências e anomalias presentes. Os principais tipos de análises foram: semântica, estrutural, temporal e das transferências internas. De início, tendo os dados extraídos do site oficial através de um script em Python, foi feita a análise semântica do que chamaremos de tags. Tais tags são termos para representar eventos ocorridos a um dos números. “Created 1975” ou “Transferred 1972 to EC 1.14.99.11” são bons exemplos. Foi feita então uma nuvem de palavras contendo todas as tags mais comuns tendo seu tamanho dado pela frequência em que apareciam, para o exame da sintaxe. A conclusão que encontramos foi de que existiam 5 eventos comuns (criação, modificação, deleção, transferência e incorporação), e mais alguns raros. Um exemplo de um evento raro é a descrição única “withdrawn at public-review stage” dada ao EC 3.2.1.155. Com essa exploração pronta, foi possível usar as tags para avaliar as mudanças através dos anos. De forma bem simples, foi feito um gráfico de linha contendo a ocorrência de cada evento comum ao longo do tempo, além de um gráfico de área interativo para cada evento, permitindo a análise individual. Em seguida, uma árvore circular, um gráfico de bolhas e dois treemaps foram feitos para analisar a estrutura do dicionário, focando em distribuição e quantidade. Por fim, mais dois tipos de visualizações foram feitas: um grafo das mudanças internas, mostrando quais enzimas tiveram seus números trocados ou subdivididos, e três gráficos de barras para o panorama quantitativo. Em resumo, o que descobrimos foi que: os eventos ao longo do tempo indicam que as mudanças são sugeridas e depois aprovadas periodicamente; A árvore e um dos treemaps mostraram facilmente quais grupos tinham uma maior variedade de subgrupos, enquanto o gráfico de bolhas e o outro treemap mostraram quais tinham o maior número geral de enzimas; Vários erros de digitação sugerem que os dados são inseridos manualmente, e sem um padrão formal; E por fim, o grafo de transferências mostra que a maior causa de mudanças são grupos enzimáticos muito amplos e com sobreposição, onde a mudança era necessária para clarear o significado da classificação.
Palavras-chave Visualização de Dados, Bioinformática, Enzimologia
Forma de apresentação..... Oral, Painel
Gerado em 0,63 segundos.