Resumo |
Big Data é um termo utilizado para se referir a grandes conjuntos de dados que, na maioria das vezes, não podem ser processados por meio das técnicas tradicionais, porém estão cada vez mais presentes em atividades da pesquisa demandando processamento, análise e interpretação adequada. Na área de genética e melhoramento, formação de grandes bancos de dados são consequências dos avanços nas tecnologias de sequenciamento de DNA que passaram por vários ciclos de renovação. Houve considerável redução no custo de genotipagem, viabilizando número expressivo de dados genômicos. Dessa forma, houve mudança de paradigmas, sobretudo, na dimensão dos conjuntos de dados em análises. Neste cenário, uma recente linguagem de programação, linguagem Julia, tem se destacado por associar alta performance e possuir fácil sintaxe. Julia iniciou no MIT (Massachusetts Institute of Technology) em agosto de 2009 e tornou-se open source em fevereiro de 2012. Na sua origem, destaca-se o trabalho de três pesquisadores: Stefan Karpinski, Jeff Bezanson, e Viral Shah. Diante do exposto, realizou-se este trabalho com o objetivo de verificar o desempenho da linguagem Julia em relação à linguagem convencional R, no descarte de variáveis via Análise de Componentes Principais (PCA) em grande conjunto de dados reais obtidos pela genotipagem de cafeeiros arábica. As análises foram realizadas em conjunto de dados reais composto pela genotipagem de 72 cafeeiros arábica com 49.567 marcadores moleculares SNP (single nucleotide polymorphism). SNP é marcador bi alélico e codominante. Assim, os dados foram codificados em 0, 1, 2 e -1 para genótipos A1A1, A1A2, A2A2 e para dados perdidos, respectivamente. A técnica de PCA foi aplicada a subconjuntos deste banco de dados, descartando marcadores pouco informativos. O tempo gasto para executar o procedimento, bem como o número de marcadores excluídos foram medidos em subconjuntos contendo 1000, 2000, 3000, 5000, 10000, 13000, 15000 18000 e 20000 marcadores. Todas as análises foram realizadas em um mesmo computador com sistema operacional de 64 bits Windows 10 Home, Processador Intel® Core™ i7-65000, placa de vídeo NVIDIA GeForce 930M, e memória RAM de 8 GB. A linguagem Julia mostrou-se, em média, 6.6 vezes mais rápida que a linguagem R para realizar o procedimento. Na linguagem Julia foi suportado a análise de até 18000 marcadores, no R até 13000. Embora o R, já consolidado na área acadêmica, apresente boa performance e capacidade de processamento, no presente estudo a linguagem Julia mostrou-se mais eficiente e robusta. Julia realizou análise de PCA com conjunto de dados não suportado pelo R. O uso dessa linguagem é promissor para o processamento de grandes conjuntos de dados, nos quais procedimentos tradicionais sejam inviáveis ou não suportados pelas linguagens tradicionais. |