Resumo |
A correta classificação de indivíduos possui grande importância em diversas áreas, dentre elas podemos citar o marketing direto (se a resposta do cliente será “sim” ou “não” à oferta de um novo produto), análise de crédito (se o indivíduo é “bom” ou “mau” pagador), detecção de fraudes (se transações são “regulares” ou “fraudulentas”), no melhoramento (se uma cultura é “resistente” ou “não” a uma determinada doença) e etc., sendo estes, problemas de classificação binária. Para este fim, diversas metodologias têm sido utilizadas, dentre as quais, pode-se citar os modelos lineares generalizados (MLG). Estes modelos são uma generalização dos modelos lineares clássicos sobre dois aspectos fundamentais: i) a distribuição de probabilidades associada à variável resposta já não se restringe à Normal, podendo ser qualquer distribuição numa classe designada família exponencial de distribuições; ii) a relação entre a combinação linear das variáveis explicativas e a variável resposta pode ser mais geral do que no Modelo Linear. Entretanto, a qualidade do ajuste destes modelos depende da correta escolha da distribuição para a variável resposta, das variáveis explicativas e da função de ligação a ser utilizada. Neste sentido, algumas metodologias de aprendizado estatístico surgem como alternativa, uma vez que essas suposições não são requeridas. Desta forma, o objetivo desse trabalho foi avaliar diferentes metodologias, a saber – regressão logística, árvore de classificação, tree bagging e random forest– para predição de uma variável dicotômica (variável dummy). A escolha do modelo logístico se deve ao fato de que, para análises de variáveis do tipo binárias, este é um modelo bastante difundido, cuja distribuição assumida para a variável dependente é binomial e função de ligação logit. Os dados utilizados referem-se a informações de 11 variáveis independentes, sendo 4 variáveis quantitativas e 7 variáveis dummies, mensuradas em 595 indivíduos. As metodologias foram comparadas com base na taxa de erro aparente (TEA), estimada por meio de validação cruzada 5-folds. Como resultados, observou-se a existência de certo grau de correlação entre as variáveis, sendo duas delas consideradas negativas moderada e forte, enquanto as demais correlações são fracas e bem fracas. Além disso, tem-se que o bagging e o random forest foram as metodologias que obtiveram os melhores resultados em relação a TEA (22,52% e 22,68% respectivamente), obtendo valores bastante similares. Sabe-se que, o random forest apresenta diferença significativa em relação ao bagging apenas quando se tem um grande número de variáveis preditoras correlacionadas, o que não foi o caso. Na regressão logística a TEA foi de 25,04%, enquanto que a árvore de classificação obteve a TEA de 27,06%, apresentando um resultado inferior aos apresentados pelos demais métodos. Desta forma, tem-se que as metodologias de aprendizado se mostraram adequadas ao problema de classificação ou predição de variáveis binárias. |