
LongTraceRL
요약
LongTraceRL은 검색 에이전트의 궤적과 엔티티 수준의 보상을 활용하여 LLM의 128K 컨텍스트 추론 능력을 향상시키는 연구입니다. 4B, 8B, 30B 규모의 모델과 학습 데이터가 함께 공개되었습니다.
핵심 포인트
- 검색 에이전트 궤적 및 엔티티 수준 루브릭 보상 학습
- LLM의 128K 컨텍스트 내 추론 능력 강화
- 4B, 8B, 30B 모델 및 학습 데이터 공개
LongTraceRL
검색 에이전트 (search agent)의 궤적 (trajectories)과 세밀한 엔티티 수준의 루브릭 보상 (entity-level rubric rewards) 학습을 통해, LLM (Large Language Models)이 128K 컨텍스트 (contexts) 내에서 추론할 수 있도록 가르칩니다.
논문:
https://huggingface.co/papers/2605.31584
…
컬렉션:
https://huggingface.co/collections/THU-KEG/longtracerl
…
4B, 8B, 30B 모델 및 학습 데이터가 공개되었습니다.
이번 주의 주요 AI 논문 (5월 25일-31일):
- Gamma-World: 두 명의 플레이어를 넘어선 생성적 멀티 에이전트 월드 모델링 (Generative Multi-Agent World Modeling Beyond Two Players)
- SkillOpt: 자기 진화형 에이전트 기술을 위한 실행 전략 (Executive Strategy for Self-Evolving Agent Skills)
- Qwen-VLA: 작업, 환경 및 로봇 구현 전반에 걸친 시각-언어-행동 모델링 통합 (Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments by)
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기