Do Lógico ao Abstrato: A Ciência no Cotidiano

23 a 28 de outubro de 2017

Trabalho 8730

ISSN 2237-9045
Instituição Universidade Federal de Viçosa
Nível Pós-graduação
Modalidade Pesquisa
Área de conhecimento Ciências Agrárias
Área temática Outros
Setor Departamento de Estatística
Bolsa CAPES
Conclusão de bolsa Não
Apoio financeiro CAPES
Primeiro autor Ithalo Coêlho de Sousa
Orientador ANA CAROLINA CAMPANA NASCIMENTO
Outros membros Cristiano Ferreira de Oliveira, Ivan de Paiva Barbosa, Márcia Elaine Guimarães Lana, MOYSES NASCIMENTO
Título Predição de variáveis binárias por meio de métodos de aprendizado estatístico
Resumo A correta classificação de indivíduos possui grande importância em diversas áreas, dentre elas podemos citar o marketing direto (se a resposta do cliente será “sim” ou “não” à oferta de um novo produto), análise de crédito (se o indivíduo é “bom” ou “mau” pagador), detecção de fraudes (se transações são “regulares” ou “fraudulentas”), no melhoramento (se uma cultura é “resistente” ou “não” a uma determinada doença) e etc., sendo estes, problemas de classificação binária. Para este fim, diversas metodologias têm sido utilizadas, dentre as quais, pode-se citar os modelos lineares generalizados (MLG). Estes modelos são uma generalização dos modelos lineares clássicos sobre dois aspectos fundamentais: i) a distribuição de probabilidades associada à variável resposta já não se restringe à Normal, podendo ser qualquer distribuição numa classe designada família exponencial de distribuições; ii) a relação entre a combinação linear das variáveis explicativas e a variável resposta pode ser mais geral do que no Modelo Linear. Entretanto, a qualidade do ajuste destes modelos depende da correta escolha da distribuição para a variável resposta, das variáveis explicativas e da função de ligação a ser utilizada. Neste sentido, algumas metodologias de aprendizado estatístico surgem como alternativa, uma vez que essas suposições não são requeridas. Desta forma, o objetivo desse trabalho foi avaliar diferentes metodologias, a saber – regressão logística, árvore de classificação, tree bagging e random forest– para predição de uma variável dicotômica (variável dummy). A escolha do modelo logístico se deve ao fato de que, para análises de variáveis do tipo binárias, este é um modelo bastante difundido, cuja distribuição assumida para a variável dependente é binomial e função de ligação logit. Os dados utilizados referem-se a informações de 11 variáveis independentes, sendo 4 variáveis quantitativas e 7 variáveis dummies, mensuradas em 595 indivíduos. As metodologias foram comparadas com base na taxa de erro aparente (TEA), estimada por meio de validação cruzada 5-folds. Como resultados, observou-se a existência de certo grau de correlação entre as variáveis, sendo duas delas consideradas negativas moderada e forte, enquanto as demais correlações são fracas e bem fracas. Além disso, tem-se que o bagging e o random forest foram as metodologias que obtiveram os melhores resultados em relação a TEA (22,52% e 22,68% respectivamente), obtendo valores bastante similares. Sabe-se que, o random forest apresenta diferença significativa em relação ao bagging apenas quando se tem um grande número de variáveis preditoras correlacionadas, o que não foi o caso. Na regressão logística a TEA foi de 25,04%, enquanto que a árvore de classificação obteve a TEA de 27,06%, apresentando um resultado inferior aos apresentados pelos demais métodos. Desta forma, tem-se que as metodologias de aprendizado se mostraram adequadas ao problema de classificação ou predição de variáveis binárias.
Palavras-chave Árvore de Classificação, bagging, regressão logística
Forma de apresentação..... Painel
Gerado em 0,67 segundos.