OTIMIZAÇÃO DO CORTE GUILHOTINADO NÃO-ESTAGIADO ATRAVÉS DE APRENDIZAGEM POR REFORÇO COM FUNÇÃO RECOMPENSA TARDIA
CSP. Corte Guilhotinado. Q-Learning. Aprendezagem de Máquina.
O Problema de Corte de Estoque (CSP - Cutting Stock Problem) é um conhecido desafio de otimização combinatória com grande relevância industrial, especialmente na redução do desperdício de material durante o processo de corte. Métodos tradicionais frequentemente enfrentam dificuldades em se adaptar e manter eficiência em ambientes dinâmicos. Este estudo propõe reavaliar estratégias de resolução do problema e uma versão aprimorada do algoritmo Q-learning adaptada para o Problema de Corte Guilhotinado de Estoque (GCSP - Guilhotine Cutting Stock Problem), uma variante do CSP. Introduzindo uma função de recompensa que avalia a diferença entre áreas remanescentes sucessivas em relação à área da chapa, penalizando, dessa forma, ações que exigem a utilização de novas chapas. Além disso, para promover a convergência, a taxa de aprendizado ($alpha$) é reduzida adaptativamente quando a taxa de exploração atinge um limiar predefinido, conforme especificado pelos parâmetros do problema. Os resultados empíricos demonstram que a abordagem proposta anteriormente não aproveita bem a aprendizagem de máquina e que é possível entregar melhores soluções utilizando o Q-learning para padrões de corte mais eficientes.