Resumo |
Introdução: A eficiência operacional está diretamente ligada à competitividade e desempenho financeiro das empresas. O Planejamento e Controle da Produção (PCP), aliado à logística, é essencial para otimizar recursos, reduzir custos e melhorar o atendimento ao cliente. O sequenciamento da produção é um fator chave nesse processo. Diante disso, este estudo propõe a aplicação de técnicas de Inteligência Artificial, com foco no algoritmo de aprendizado por reforço Proximal Policy Optimization (PPO), para solucionar o problema de sequenciamento em máquina única, classificado como NP-Hard. Objetivos: Comparar a eficiência do algoritmo PPO com a metaheurística Greedy Randomized Adaptive Search Procedure (GRASP) no problema de sequenciamento de máquina única, avaliando a qualidade das soluções, tempo de conclusão das tarefas e desempenho em diferentes tamanhos de instância. Material e Métodos: Utilizou-se um modelo matemático baseado nos estudos de Araújo et al. (2022), Nogueira et al. (2020) e Wang et al. (2023), formulado como um problema de programação inteira mista. Foram criadas instâncias com 15, 20, 25 e 30 tarefas. O PPO foi implementado com técnicas como mascaramento de ações inválidas e funções de refinamento e perturbação, enquanto o GRASP foi usado como comparativo. Os algoritmos foram executados em 50 instâncias, e os resultados foram analisados por meio de métricas estatísticas, curvas de aprendizado e testes de hipótese. Resultados: O algoritmo PPO superou o GRASP em todos os tamanhos testados, apresentando menores tempos de conclusão e menores gaps em relação ao melhor resultado possível. Os gráficos demonstraram que, quanto maior a instância, mais tempo o PPO leva para estabilizar o aprendizado. O Teste T evidenciou diferença estatística significativa entre os métodos, favorecendo o PPO. As funções de refinamento e perturbação contribuíram para evitar mínimos locais e ampliar a busca por soluções. Apesar disso, para instâncias maiores, é necessário mais episódios de treinamento para alcançar bons resultados. Conclusões: O estudo demonstrou que o PPO é uma abordagem promissora para o problema de sequenciamento de máquina única, apresentando melhor desempenho que a heurística GRASP. A aprendizagem por reforço mostrou-se eficaz, especialmente quando associada ao mascaramento de ações inválidas e estratégias de otimização local. A escolha adequada dos hiperparâmetros e o número de treinamentos influenciam significativamente os resultados. Como proposta futura, sugere-se expandir o número de treinamentos e ajustar penalizações para melhorar ainda mais a performance em problemas maiores. |