본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 11. 09:08

Microsoft Research, 레이블 없이 에이전트를 진화시키다

요약

Microsoft Research가 레이블링 없이 에이전트의 성능을 최적화하는 새로운 방법을 제시했습니다. 이 방법은 오직 자체 과거 궤적만을 사용하여 에이전트 하네스를 개선하며, 검증 세트 없이도 SWE-Bench Pro 점수를 크게 향상시켰습니다.

핵심 포인트

  • 레이블링 없이 에이전트 최적화 가능
  • 자체 과거 궤적만으로 성능 향상
  • 검증 세트 없이 SWE-Bench Pro 점수 개선 (59% -> 78%)

RHO는 오직 자체 과거 궤적만을 사용하여 에이전트의 하네스(harness)를 최적화합니다. 단 한 번의 라운드만으로 검증 세트 없이 SWE-Bench Pro 점수를 59%에서 78%로 향상시켰습니다. https://t.co/kz5nrFlq2F

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0