X요약2026. 06. 01. 19:34

LongTraceRL

요약

LongTraceRL은 검색 에이전트의 궤적과 엔티티 수준의 보상을 활용하여 LLM의 128K 컨텍스트 추론 능력을 향상시키는 연구입니다. 4B, 8B, 30B 규모의 모델과 학습 데이터가 함께 공개되었습니다.

핵심 포인트

검색 에이전트 궤적 및 엔티티 수준 루브릭 보상 학습
LLM의 128K 컨텍스트 내 추론 능력 강화
4B, 8B, 30B 모델 및 학습 데이터 공개

LongTraceRL

검색 에이전트 (search agent)의 궤적 (trajectories)과 세밀한 엔티티 수준의 루브릭 보상 (entity-level rubric rewards) 학습을 통해, LLM (Large Language Models)이 128K 컨텍스트 (contexts) 내에서 추론할 수 있도록 가르칩니다.

논문:
https://huggingface.co/papers/2605.31584
…
컬렉션:
https://huggingface.co/collections/THU-KEG/longtracerl
…
4B, 8B, 30B 모델 및 학습 데이터가 공개되었습니다.

이번 주의 주요 AI 논문 (5월 25일-31일):

Gamma-World: 두 명의 플레이어를 넘어선 생성적 멀티 에이전트 월드 모델링 (Generative Multi-Agent World Modeling Beyond Two Players)
SkillOpt: 자기 진화형 에이전트 기술을 위한 실행 전략 (Executive Strategy for Self-Evolving Agent Skills)
Qwen-VLA: 작업, 환경 및 로봇 구현 전반에 걸친 시각-언어-행동 모델링 통합 (Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments by)

AI 자동 생성 콘텐츠

원문 바로가기

LongTraceRL

요약

핵심 포인트

댓글