arXiv논문2026. 05. 18. 20:02

Q-learning을 이용한 난류 내 시계 상태 후각 탐색: 플룸 회복의 기하학적 구조

요약

본 연구는 난류 환경에서 냄새 근원을 찾기 위해 최소한의 과거 관찰 메모리만을 사용하는 Q-learning 기반의 후각 탐색 에이전트를 제안합니다. 에이전트는 서징, 캐스팅, 풍하측 회귀와 같은 곤충의 행동 패턴을 결합하여 플룸을 회복하는 해석 가능한 전략을 학습합니다. 수치 모사 데이터에서 우수한 성능을 보였으나, 국부적 간헐성 변화에 따른 전략 적응력에는 한계가 있음이 확인되었습니다.

핵심 포인트

Tabular Q-learning을 활용하여 최소한의 메모리(경과 시간)만으로 효율적인 탐색 수행
곤충의 행동 양식(Surging, Casting, Return downwind)을 결합한 해석 가능한 전략 학습
난류 내 플룸(Plume) 회복을 위한 효과적인 항법 전략 제시
국부적 간헐성(Local intermittency)에 따른 전략 적응력 부족이라는 한계점 식별

난류 (Turbulent flow) 내에서 냄새 근원을 찾는 것은 후각 관찰의 이력을 견고한 항법 전략 (Navigation strategy)으로 효과적으로 활용하는 것을 요구합니다. 본 연구에서는 테이블 기반 Q-learning (Tabular Q-learning)을 사용하여, 마지막 냄새를 맡은 시점부터 경과된 시간(Running clock)만을 기억하는 최소한의 과거 관찰 메모리를 가진 후각 탐색 에이전트 (Olfactory search agent)를 학습시킵니다. 이 에이전트는 곤충에게서 관찰되는 잘 알려진 행동들인 서징 (Surging), 캐스팅 (Casting), 그리고 풍하측 회귀 (Return downwind)를 결합하여 플룸 (Plume)을 회복하는 해석 가능한 전략을 학습합니다. 난류의 직접 수치 모사 (Direct numerical simulations) 데이터를 통해 우수한 성능을 달성하였으나, 에이전트는 국부적 간헐성 (Local intermittency) 수준에 따라 전략을 적응시키지 못한다는 한계가 있습니다. 우리는 더 많은 유연성을 제공하는 것이 강건성 (Robustness)을 향상시킨다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Q-learning을 이용한 난류 내 시계 상태 후각 탐색: 플룸 회복의 기하학적 구조

요약

핵심 포인트

댓글