arXiv논문2026. 05. 20. 12:04

선견지명을 통한 학습: 다중 노드 앞서보기 예측(Multi-Node Lookahead Prediction)을 통한 신경망 라우팅 정책 강화

요약

기존의 신경망 정책이 다음 노드 예측에만 집중하여 발생하는 근시안적 의사결정 문제를 해결하기 위해 '다중 노드 앞서보기 예측(MnLP)' 전략을 제안합니다. MnLP는 학습 과정에서 여러 미래 노드를 동시에 예측하도록 하여 모델이 장기적인 계획 능력을 갖추게 하며, 추론 시에는 추가적인 오버헤드 없이 효율성을 유지합니다.

핵심 포인트

기존의 단일 노드 예측 방식이 가진 근시안적 의사결정 한계 극복
학습 시에만 작동하는 인과적 및 폐기 가능한 MnLP 모듈 도입
다중 깊이 보조 감독을 통한 신경망의 장거리 문맥 이해 능력 강화
추론 효율성을 유지하면서 다양한 신경망 구조에 원활한 통합 가능
다양한 규모와 분포의 벤치마크에서 일반화 성능 향상 입증

신경망 정책(Neural policies)은 수작업으로 제작된 휴리스틱(heuristics)에 대한 의존도를 낮춤으로써 차량 경로 문제(vehicle routing problems)를 해결하는 데 있어 유망한 가능성을 보여주었습니다. 그러나 현재의 학습 패러다임은 근본적인 한계를 가지고 있습니다. 즉, 솔루션 구축을 위해 주로 다음 노드 예측(next-node prediction)에만 집중하기 때문에, 장기적인 계획 능력을 저해하는 근시안적인 의사결정(myopic decision-making)을 초래한다는 점입니다. 이를 위해, 우리는 지도 학습(supervised learning) 패러다임을 확장하여 여러 개의 미래 노드를 동시에 예측하는 새로운 학습 전략인 다중 노드 앞서보기 예측(Multi-node Lookahead Prediction, MnLP)을 소개합니다. 우리는 학습 과정에서만 독점적으로 작동하는 인과적(causal) 및 폐기 가능한(discardable) MnLP 모듈을 통합하여, 추론 시의 효율성(inference-time efficiency)을 유지하면서도 모델이 다단계 의사결정을 예측할 수 있도록 촉진합니다. 손실 함수(loss function)에 다중 깊이 보조 감독(multi-depth auxiliary supervision)을 통합함으로써, MnLP는 신경망 정책에 장거리 문맥 이해(long-range contextual understanding) 능력을 부여합니다. 실험적으로 MnLP는 기존 학습 방법들을 능가하며, 다양한 문제 규모, 분포 및 실제 벤치마크 전반에서 신경망 정책의 일반화 능력(generalization capability)을 향상시킵니다. 또한, MnLP는 추가적인 추론 오버헤드(inference overhead)를 발생시키지 않고 다양한 신경망 구조(neural architectures)에 원활하게 통합될 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

선견지명을 통한 학습: 다중 노드 앞서보기 예측(Multi-Node Lookahead Prediction)을 통한 신경망 라우팅 정책 강화

요약

핵심 포인트

댓글