Resumo |
Introdução: O sistema de saúde brasileiro enfrenta diversas dificuldades para se manter sustentável em seus processos de gestão. Economicamente, a maior parte dos custos de saúde é resultante de procedimentos de internação como partos, cirurgias ortopédicas e terapia intensiva. Na literatura internacional, pesquisas com algoritmos de inteligência artificial apresentam possibilidades promissoras para nortear previsões de custos e alocação de recursos. Objetivos: Prever a probabilidade de hospitalização para o ano seguinte, utilizando algoritmos de aprendizagem de máquinas. Métodos: Este foi um estudo retrospectivo, de prognóstico. Participaram do estudo 932 colaboradores de uma rede de hospitais privada de São Paulo, SP. Os critérios de inclusão foram: ser maior de 18 anos; ser titular do plano; ter completado o inquérito de saúde. Os critérios de exclusão foram não estar trabalhando no período do estudo e não responder todas as perguntas do questionário. As seguintes informações foram coletadas: consumo do plano de saúde nos doze meses anteriores e posteriores a um inquérito de saúde. O inquérito de saúde continha informações demográficas (sexo, idade), prevalência de condições de saúde na vida e comportamentos em saúde. As variáveis do inquérito e as de consumo em saúde nos 12 meses anteriores foram usadas para o treinamento dos seguintes algoritmos: GLM (Mínimos quadrados), Lasso, Random Forests, CatBoost, XGBoost. Para testar o modelo foram usados os dados de internação no período de 12 meses posteriores ao inquérito de saúde e as métricas: área sobre a curva (AUC) e F1-score. Os dados foram balanceados e separados em banco de treino, validação e teste. O treinamento foi realizado usando validação cruzada k-fold (k=5). Analisamos os dados usando Python. Resultados: A amostra era composta majoritariamente por mulheres (76,4%). A idade dos participantes variou entre 18 e 70 anos e cerca de 83.4% das pessoas haviam usado o plano no ano anterior. Em relação às condições de saúde, as que tiveram as maiores ocorrências entre os participantes foram rinite ou sinusite (39,5%), enxaquecas ou dores de cabeça (25,0%) e alergias (18,1%). Comparando os resultados dos cinco modelos após reamostragem por Bootstrap, obteve-se que Random Forests exibiu o melhor resultado, apresentando um AUC de 0,71 e F1-score de 0,74. Em seguida, vieram os modelos Lasso e GLM, ambos com AUC de 0,68 e F1-score de 0.73. Os algoritmos de boosting (CatBoost e XGBoost) apresentaram o pior desempenho, com AUC de 0,66 e 0,65 respectivamente e F1-score de 0,79 e 0.78 respectivamente. Conclusões: Como resultado, observamos que algoritmos de aprendizagem de máquinas são bastante úteis para prever internação. Dentre todos os modelos usados, Random Forests apresentou a melhor capacidade preditiva para esse tipo de procedimento. |