본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 01. 19:34

LongTraceRL

요약

LongTraceRL은 검색 에이전트의 궤적과 엔티티 수준의 보상을 활용하여 LLM의 128K 컨텍스트 추론 능력을 향상시키는 연구입니다. 4B, 8B, 30B 규모의 모델과 학습 데이터가 함께 공개되었습니다.

핵심 포인트

  • 검색 에이전트 궤적 및 엔티티 수준 루브릭 보상 학습
  • LLM의 128K 컨텍스트 내 추론 능력 강화
  • 4B, 8B, 30B 모델 및 학습 데이터 공개

LongTraceRL

검색 에이전트 (search agent)의 궤적 (trajectories)과 세밀한 엔티티 수준의 루브릭 보상 (entity-level rubric rewards) 학습을 통해, LLM (Large Language Models)이 128K 컨텍스트 (contexts) 내에서 추론할 수 있도록 가르칩니다.

논문:
https://huggingface.co/papers/2605.31584

컬렉션:
https://huggingface.co/collections/THU-KEG/longtracerl

4B, 8B, 30B 모델 및 학습 데이터가 공개되었습니다.

이번 주의 주요 AI 논문 (5월 25일-31일):

  • Gamma-World: 두 명의 플레이어를 넘어선 생성적 멀티 에이전트 월드 모델링 (Generative Multi-Agent World Modeling Beyond Two Players)
  • SkillOpt: 자기 진화형 에이전트 기술을 위한 실행 전략 (Executive Strategy for Self-Evolving Agent Skills)
  • Qwen-VLA: 작업, 환경 및 로봇 구현 전반에 걸친 시각-언어-행동 모델링 통합 (Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments by)

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0