| Resumo |
A área de aprendizado de máquina tem se expandido significativamente em diversos setores, incluindo a gestão de dados de Recursos Humanos (RH). Este projeto de pesquisa tem como objetivo a aplicação de técnicas de aprendizado de máquina em dados de RH de uma empresa parceira para identificar anomalias, sejam elas erros nos dados ou padrões comportamentais atípicos de funcionários. O foco principal foi a análise de um conjunto de dados sobre atestados médicos, um contexto sensível que exigiu validação dos resultados por especialistas da empresa. O uso dessas técnicas demonstrou ser uma ferramenta eficaz para otimizar o processo de análise de dados. Inicialmente, o repositório de dados, que continha informações como data do atestado, número de dias e ID do funcionário, foi submetido a uma análise exploratória para compreensão geral do seu comportamento, utilizando gráficos da biblioteca Seaborn do Python. Em seguida, realizou-se um pré-processamento para criar uma nova representação dos dados: para cada funcionário, foram geradas entradas com valores zerados para todos os dias entre janeiro de 2022 e agosto de 2023 (período de análise), e os atestados foram representados como acréscimos de 1 em seus respectivos dias. Esse repositório de dados foi então utilizado como entrada para o algoritmo não supervisionado Isolation Forest, da biblioteca Scikit-learn, ideal para a detecção de anomalias. Os hiperparâmetros configurados foram 1000 estimadores e uma taxa de contaminação de 0.01, o que resultou na identificação de 248 funcionários como potenciais anomalias. Os dados de atestados desses funcionários foram analisados de forma detalhada, em conjunto com outras informações destes funcionários disponibilizadas pela empresa, e os resultados foram apresentados aos especialistas para verificação. Esta análise aprofundada permitiu a identificação de sete possíveis "classes" de anomalias, abrangendo tanto erros de registro quanto comportamentos fora do padrão. Para cada classe, foram estabelecidas regras e um fator de intensidade, facilitando a captura e o ranqueamento das ocorrências. Além disso, esses dados anômalos estão sendo armazenados com o objetivo de treinar um futuro modelo de aprendizado de máquina para automatizar a identificação dessas classes. Em conclusão, este projeto obteve sucesso na aplicação de técnicas de aprendizado de máquina para otimizar a análise e a extração de informações valiosas sobre os dados de atestados da empresa, evidenciando a eficácia desses algoritmos, mesmo em cenários de dados sensíveis. |