Simpósio de Integração Acadêmica - Universidade Federal de Viçosa

Do Lógico ao Abstrato: A Ciência no Cotidiano

23 a 28 de outubro de 2017

Trabalho 8272

ISSN	2237-9045
Instituição	Universidade Federal de Viçosa
Nível	Pós-graduação
Modalidade	Pesquisa
Área de conhecimento	Ciências Agrárias
Área temática	Outros
Setor	Departamento de Estatística
Bolsa	CAPES
Conclusão de bolsa	Não
Apoio financeiro	CAPES
Primeiro autor	Cristiano Ferreira de Oliveira
Orientador	COSME DAMIAO CRUZ
Outros membros	Emilly Ruas Alkimim, Eveline Teixeira Caixeta, Ithalo Coêlho de Sousa, Tiago Vieira Sousa
Título	Linguagem Julia: Alto desempenho e performance superior para o tratamento de grandes conjuntos de dados.
Resumo	Big Data é um termo utilizado para se referir a grandes conjuntos de dados que, na maioria das vezes, não podem ser processados por meio das técnicas tradicionais, porém estão cada vez mais presentes em atividades da pesquisa demandando processamento, análise e interpretação adequada. Na área de genética e melhoramento, formação de grandes bancos de dados são consequências dos avanços nas tecnologias de sequenciamento de DNA que passaram por vários ciclos de renovação. Houve considerável redução no custo de genotipagem, viabilizando número expressivo de dados genômicos. Dessa forma, houve mudança de paradigmas, sobretudo, na dimensão dos conjuntos de dados em análises. Neste cenário, uma recente linguagem de programação, linguagem Julia, tem se destacado por associar alta performance e possuir fácil sintaxe. Julia iniciou no MIT (Massachusetts Institute of Technology) em agosto de 2009 e tornou-se open source em fevereiro de 2012. Na sua origem, destaca-se o trabalho de três pesquisadores: Stefan Karpinski, Jeff Bezanson, e Viral Shah. Diante do exposto, realizou-se este trabalho com o objetivo de verificar o desempenho da linguagem Julia em relação à linguagem convencional R, no descarte de variáveis via Análise de Componentes Principais (PCA) em grande conjunto de dados reais obtidos pela genotipagem de cafeeiros arábica. As análises foram realizadas em conjunto de dados reais composto pela genotipagem de 72 cafeeiros arábica com 49.567 marcadores moleculares SNP (single nucleotide polymorphism). SNP é marcador bi alélico e codominante. Assim, os dados foram codificados em 0, 1, 2 e -1 para genótipos A1A1, A1A2, A2A2 e para dados perdidos, respectivamente. A técnica de PCA foi aplicada a subconjuntos deste banco de dados, descartando marcadores pouco informativos. O tempo gasto para executar o procedimento, bem como o número de marcadores excluídos foram medidos em subconjuntos contendo 1000, 2000, 3000, 5000, 10000, 13000, 15000 18000 e 20000 marcadores. Todas as análises foram realizadas em um mesmo computador com sistema operacional de 64 bits Windows 10 Home, Processador Intel® Core™ i7-65000, placa de vídeo NVIDIA GeForce 930M, e memória RAM de 8 GB. A linguagem Julia mostrou-se, em média, 6.6 vezes mais rápida que a linguagem R para realizar o procedimento. Na linguagem Julia foi suportado a análise de até 18000 marcadores, no R até 13000. Embora o R, já consolidado na área acadêmica, apresente boa performance e capacidade de processamento, no presente estudo a linguagem Julia mostrou-se mais eficiente e robusta. Julia realizou análise de PCA com conjunto de dados não suportado pelo R. O uso dessa linguagem é promissor para o processamento de grandes conjuntos de dados, nos quais procedimentos tradicionais sejam inviáveis ou não suportados pelas linguagens tradicionais.
Palavras-chave	Linguagem Julia, Análise de Componentes Principais, Descarte de variáveis
Forma de apresentação.....	Painel

Universidade Federal de Viçosa

Gerado em 0,63 segundos.