arXiv논문2026. 06. 19. 10:41

SoftSkill: 문맥 적응을 위한 행동 압축 (Behavioral Compression)

요약

SoftSkill은 에이전트의 행동 지침을 긴 자연어 마크다운 대신 압축된 연속적 문맥 객체(soft delta)로 변환하는 연구입니다. 동결된 모델의 백본을 유지하면서도 가상 토큰을 통해 작업 성능을 획기적으로 개선할 수 있음을 보여줍니다.

핵심 포인트

자연어 기술을 압축된 가상 토큰 형태의 SoftSkill로 대체
동결된 모델 백본을 유지하며 학습 가능한 소프트 델타 활용
Qwen3.5-4B 모델에서 SearchQA, LiveMath 등 주요 벤치마크 성능 대폭 향상
수천 개의 마크다운 토큰을 단 몇 개의 토큰으로 효율적 압축

에이전트 기술(Agent skills)은 일반적으로 답변 정책, 증거 사용 습관, 작업 절차를 인코딩하는 자연어 마크다운(Markdown) 파일 형태로 배포됩니다. 이러한 파일들은 읽기 쉽고 이식성이 높지만, 간접적으로 소비된다는 단점이 있습니다. 즉, 각 작업 인스턴스마다 동결된(frozen) 언어 모델이 긴 텍스트 결과물을 생성 시점의 행동으로 번역해야 합니다. 본 논문은 자연어 기술 대신, 베이스 모델은 동결된 상태를 유지하면서 학습 가능한 소프트 델타(soft delta)에 의해 정제되는 압축된 연속적 문맥 객체(compact continuous context object)를 초기화할 수 있는지 질문합니다. 우리는 다음 토큰 예측(next-token prediction)을 통해 이러한 소프트 기술을 튜닝하고, 추론 시점에 잠재적 행동 사전 지식(latent behavioral priors)으로 배포하는 동결 백본(frozen-backbone) 방식인 SoftSkill을 제안합니다. 주요 단일 라운드(single-round) 설정에서, Qwen3.5-4B에 적용된 길이 32의 SoftSkill 접두사(prefix)는 기술이 없는 프롬프팅(no-skill prompting) 대비 SearchQA에서 8.3포인트, LiveMath에서 42.1포인트, DocVQA에서 1.3포인트를 개선했습니다. SkillOpt와 비교했을 때, SoftSkill은 수백에서 수천 개의 마크다운 기술 토큰을 단 몇 개의 가상 토큰(virtual tokens)으로 대체하면서도 SearchQA에서 5.2포인트, LiveMath에서 12.5포인트의 정확도 향상을 보였습니다. 우리는 더 나아가 더 어려운 경계 사례(boundary case)로서 에이전트 실행(agentic execution)을 연구하였으며, 여기서 희소 궤적 모방(sparse trajectory imitation)은 유용한 신호를 제공하지만 아직 장기적 절차적 행동(long-horizon procedural behavior)을 견고하게 압축하지는 못함을 확인했습니다. 더 넓게는, 본 결과는 일부 작업 기술이 추론 시점에 재해석되어야 할 추가적인 마크다운이 아니라, 동결된 모델이 작업에 진입하는 방식을 제어하는 압축된 잠재적 제어 장치(compact latent controls)로 취급되는 것이 더 낫다는 점을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SoftSkill: 문맥 적응을 위한 행동 압축 (Behavioral Compression)

요약

핵심 포인트

댓글