arXiv논문2026. 05. 19. 17:27

행동 및 상태에 대한 최소한의 정보만을 가진 트레이스로부터 Lifted Action Model 학습하기

요약

본 연구는 행동과 상태에 대한 정보가 제한적인 트레이스(trace)로부터 STRIPS+ 행동 도메인을 학습하는 방법을 제안합니다. 기존 모델들이 상태의 완전한 관찰 가능성을 가정했던 한계를 넘어, 선택된 행동 인자의 관찰 가능성에 따라 세 가지 일반화된 시나리오를 정의하고 알고리즘과 완전성 결과를 도출했습니다.

핵심 포인트

상태 정보가 불완전한 상황에서도 STRIPS+ 행동 도메인을 학습할 수 있는 프레임워크 제안
행동 인자의 관찰 가능성에 따른 세 가지 일반적인 사례(상태 미관찰, 일부 술어 관찰, 국소적 관찰) 공식화
트레이스로부터 동등한 도메인을 학습할 수 있는 조건 규명
기존 STRIPS 모델의 인자 불필요성 문제를 STRIPS+ 모델을 통해 해결 시도

최근 Lifted STRIPS 모델이 행동 트레이스(action traces), 즉 숨겨진 STRIPS 모델로부터 적용 가능한 행동 시퀀스만으로도 정확하고 효율적으로 학습될 수 있음이 밝혀졌습니다. 상태(states)가 전혀 관찰 가능하다고 가정하지 않음에도 불구하고 이러한 결과가 도출되었다는 점은 매우 놀랍습니다. 하지만 STRIPS 행동에는 행동을 선택하는 데 필요하지 않은 인자(arguments)들이 포함되어 있어 충분히 실용적이지는 않습니다. 이러한 단점은 행동 트레이스가 대신 숨겨진 STRIPS+ 모델로부터 나온다고 가정함으로써 해결되었습니다. 이 모델에서는 일부 행동 인자들이 숨겨진 행동 전제 조건(preconditions) 내에 암시적으로 포함됩니다. 그러나 이 접근 방식의 한계는 상태가 완전히 관찰 가능하다(fully observable)고 가정한다는 점입니다. 본 연구에서는 이러한 제약 조건을 완화하여, 트레이스가 행동과 상태 모두에 대해 부분적인 정보만을 전달하는 더 일반적인 맥락에서 STRIPS+ 행동 도메인을 학습하는 문제를 고려합니다. 구체적으로, 우리는 선택된 행동 인자들의 완전한 관찰 가능성을 가정하는 세 가지 일반적인 사례에 대해 알고리즘과 완전성(completeness) 결과를 공식화합니다. 첫 번째 사례에서는 상태의 관찰 가능성을 가정하지 않으며, 두 번째 사례에서는 일부 상태 술어(state predicates)의 완전한 관찰 가능성을 가정하고, 세 번째 사례에서는 대신 일부 상태 술어의 국소적 관찰 가능성(local observability)을 가정합니다. STRIPS+ 도메인이 주어졌을 때, 이러한 결과들은 트레이스로부터 동등한 도메인을 학습할 수 있는 조건을 규명합니다. 실험 결과가 보고됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

행동 및 상태에 대한 최소한의 정보만을 가진 트레이스로부터 Lifted Action Model 학습하기

요약

핵심 포인트

댓글