arXiv논문2026. 06. 29. 11:51

DexCompose: 단일 손을 이용한 다중 작업 조작을 위한 숙련된 정책 재사용

요약

DexCompose는 사전 학습된 숙련된 조작 정책을 재사용하여 단일 손으로 다중 작업을 수행할 수 있게 하는 새로운 프레임워크입니다. 손가락 수준의 행동 소유권을 통해 기존 기술을 유지하면서도 새로운 작업을 수행할 수 있도록 잔차 구성 방식을 제안합니다.

핵심 포인트

손가락 수준의 행동 소유권을 통한 정책 재사용 기술 제안
기존 기술 유지와 새로운 작업 수행 간의 간섭 문제 해결
유계 잔차 안정기와 문맥 인식 잔차를 활용한 비대칭 모듈 학습
16가지 복합 조작 작업에서 평균 77.4%의 성공률 달성

숙련된 조작 정책 (Dexterous manipulation policies)은 개별 기술을 해결할 수 있지만, 이를 조합하여 단일 손으로 여러 작업을 수행하는 것은 여전히 어려운 과제로 남아 있습니다. 기존의 조작 기술 위에 새로운 작업을 추가하면 중첩되는 손가락과 접촉 모드 (contact modes)에 상충되는 요구 사항을 부과하는 경우가 많으며, 이는 기존의 조작 결과를 유지하는 것과 새로운 결과를 실행하는 것 사이에 파괴적인 간섭을 일으킵니다. 우리는 명시적인 손가락 수준의 행동 소유권 (finger-level action ownership)을 통해 사전 학습된 숙련된 정책을 다중 작업 조작에 재사용하는 역할 인식 잔차 구성 프레임워크 (role-aware residual composition framework)인 DexCompose를 제안합니다. 두 개의 사전 학습된 전손 (full-hand) 정책이 주어지면, DexCompose는 먼저 첫 번째 기술로부터 성공적인 작업 후 상태 (post-task states)를 수집하고, 후보 손가락 마스크 (finger masks)에 대해 해제 테스트 (release tests)를 수행하여 확립된 기술 상태를 유지하는 데 어떤 손가락이 필요한지 식별합니다. 그런 다음 두 가지 비대칭 잔차 모듈 (asymmetric residual modules)을 학습시킵니다: 작업 보존을 위한 유계 잔차 안정기 (bounded residual stabilizer)와, 새로운 작업에 할당된 행동 부분 공간 (action subspace) 내에서만 동결된 다운스트림 정책을 적응시키는 문맥 인식 잔차 (context-aware residual)입니다. 우리는 4가지 물체 유지 기술과 4가지 다운스트림 상호작용을 아우르는 16가지 복합 숙련 조작 작업에서 이 프레임워크를 평가합니다. DexCompose는 평균 77.4%의 복합 성공률을 달성하였으며, 이는 이중 잔차를 갖춘 구조적 행동 소유권이 기존의 정책 체이닝 (policy chaining)을 넘어 숙련된 기술을 구성하는 유망한 방향임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

DexCompose: 단일 손을 이용한 다중 작업 조작을 위한 숙련된 정책 재사용

요약

핵심 포인트

댓글