LLawCo: 체화된 다중 에이전트 행동 모델링을 위한 협력 법칙 학습
요약
LLawCo는 체화된 다중 에이전트가 파트너 및 환경과 정렬될 수 있도록 협력 법칙을 학습하는 새로운 프레임워크입니다. 에이전트가 과거 실패를 분석하여 상위 수준의 행동 법칙을 도출하고, 이를 사고 사슬(CoT)에 통합하여 협력 효율성을 높입니다.
핵심 포인트
- 에이전트 간 정렬 문제를 해결하기 위한 LLawCo 프레임워크 제안
- 과거 실패 사례를 통해 '대화하기' 등 상위 행동 법칙 도출
- 지도 미세 조정을 통해 사고 사슬(CoT)에 협력 법칙 통합
- 새로운 벤치마크 PARTNR-Dialog 도입 및 성능 향상 입증
분산되어 있고 부분적으로 관찰 가능한 (partially observable) 환경에서 작동하는 체화된 에이전트 (Embodied agents)들은 최근 몇 년 동안 점점 더 많은 관심을 끌고 있습니다. 그러나 기존의 대규모 언어 모델 (LLM) 기반 에이전트들은 종종 파트너와 일치하지 않거나 환경 상태와 일치하지 않는 행동을 보여, 비효율적인 협력과 낮은 작업 성공률로 이어지곤 합니다. 이러한 문제를 해결하기 위해, 우리는 체화된 에이전트가 파트너 및 작업 목표 모두와 자율적으로 정렬될 수 있도록 하는 새로운 프레임워크인 협력 법칙 학습 (Learning Laws of Cooperation, LLawCo)을 제안합니다. 우리의 프레임워크는 에이전트가 과거의 실패를 반추하여 잘못 정렬된 행동 패턴을 추출할 수 있게 하며, 이는 "필요할 때 대화하기" 또는 "파트너를 기다리기"와 같은 상위 수준의 행동 법칙을 도출하는 데 사용됩니다. 이러한 법칙들은 지도 미세 조정 (supervised fine-tuning)을 통해 에이전트의 사고 사슬 (chains of thought)에 명시적으로 통합되어, 에이전트의 추론을 작업 요구 사항 및 다른 에이전트의 행동과 정렬시킵니다. 우리의 접근 방식을 평가하기 위해, 우리는 PARTNR 환경을 기반으로 구축된 대규모 다중 에이전트 의사소통 및 협력 계획 벤치마크인 PARTNR-Dialog를 도입합니다. 기존 작업 및 새로운 벤치마크에 대한 실험 결과, 협력 효율성과 작업 성공률이 크게 향상됨을 입증했습니다. 4개의 백본 (backbone) LLM에 걸쳐, 우리의 방법은 최첨단 오픈 소스 의사소통 에이전트 프레임워크 대비 PARTNR-Dialog 벤치마크에서 평균 4.5%, TDW-MAT 벤치마크에서 6.8%의 성공률 향상을 달성했습니다. 자세한 내용은 LLawCo 프로젝트 페이지를 참조하십시오: https://www.merl.com/research/highlights/LLawCo
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기