접는 법 배우기: LeHome Challenge 2026 우승 솔루션 (온라인 1위, 오프라인 2위)
요약
LeHome Challenge 2026에서 우승한 양손 의류 접기(bimanual garment folding) 솔루션을 소개합니다. 강화학습(RL)과 시각-언어-행동(VLA) 정책을 결합하여 시뮬레이션 1위 및 실환경 2위를 달성한 기술적 방법론을 다룹니다.
핵심 포인트
- VLA 정책 내 가치 함수를 통한 실시간 실패 감지 및 후보 선택
- flow-matching VLA를 위한 AWR + RECAP 결합 기술 적용
- HuggingFace Hub 기반의 비동기 분산 학습 파이프라인 구축
- Thompson sampling을 활용한 추론 시간 하이퍼파라미터 최적화
- Sim-to-Real 전이를 위한 데이터 증강 및 HIL 수집 레시피
저는 양손 의류 접기(bimanual garment folding)에 관한 ICRA 2026 경진대회인 LeHome Challenge 2026에 대한 저의 솔루션을 설명합니다. 이 시스템은 온라인(시뮬레이션) 라운드에서 62개 팀 중 1위를 차지했으며, 실제 환경(real-world) 결선에서는 2위를 기록했습니다. 이 시스템은 강화학습 (RL) 루프를 통해 시각-언어-행동 (VLA) 정책을 개선합니다. 이 정책은 자체적인 가치 함수 (value function) 역할을 합니다. 즉, 행동을 예측하는 동일한 네트워크가 성공 여부, 진행 상황, 그리고 몇 가지 작업 관련 미래 수치들을 함께 예측하며, 이러한 예측값들은 이득 추정 (advantage estimation), 실시간 실패 감지 (live failure detection), 그리고 후보 선택 (candidate selection)을 구동합니다. 이 연구는 주로 기존의 RL 아이디어들을 엔지니어링 및 최적화 기여분과 결합하여 하나의 레시피로 혹은 개별적으로 사용할 수 있도록 재구성한 것입니다: flow-matching VLA를 위해 결합된 AWR + RECAP; HuggingFace Hub를 통한 비동기 분산 학습 / 롤아웃 (rollout) 파이프라인; Thompson sampling을 통한 추론 시간 하이퍼파라미터 최적화; 카메라 정렬 도구, 강력한 증강 (augmentation), 그리고 DAgger 스타일의 HIL 데이터 수집을 포함한 sim-to-real 레시피가 포함됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기