arXiv논문2026. 06. 05. 14:06

LatentSkill: LLM 에이전트를 위한 인컨텍스트(In-Context) 텍스트 기술에서 가중치 기반(In-Weight) 잠재 기술로의

요약

LatentSkill은 LLM 에이전트의 작업 절차를 텍스트 프롬프트 대신 LoRA 어댑터 형태의 가중치 공간에 저장하는 프레임워크입니다. 이를 통해 컨텍스트 오버헤드를 획기적으로 줄이면서도 모듈화된 기술 활용과 성능 향상을 동시에 달성했습니다.

핵심 포인트

텍스트 기술을 LoRA 어댑터로 변환하여 컨텍스트 오버헤드 감소
ALFWorld 벤치마크에서 프리필 토큰 64.1% 절감 및 성공률 향상
Search-QA에서 토큰 오버헤드 72.2% 감소 및 정확도 개선
파라미터 공간 산술을 통한 기술 구성 요소의 정밀한 조합 가능

에이전트 시스템은 재사용 가능한 작업 절차를 인코딩하기 위해 텍스트 기술(textual skills)을 점점 더 많이 사용하고 있지만, 매 단계마다 이러한 기술을 프롬프트(prompt)에 주입하는 것은 상당한 컨텍스트 오버헤드(context overhead)를 발생시키고 기술 내용을 평문(plaintext)으로 노출시킵니다. 우리는 사전 학습된 하이퍼네트워크(hypernetwork)를 통해 텍스트 기술을 플러그 앤 플레이(plug-and-play) 방식의 LoRA 어댑터(adapters)로 변환하는 프레임워크인 LatentSkill을 제시합니다. LatentSkill은 기술 지식을 컨텍스트 공간(context space)이 아닌 가중치 공간(weight space)에 저장하여, 모듈형 로딩(loading), 스케일링(scaling), 조합(composition) 기능을 유지하면서도 단계별 기술 토큰(skill tokens)을 제거합니다. ALFWorld 및 Search-QA 벤치마크에서 LatentSkill은 훨씬 적은 프리필(prefill) 토큰을 사용하면서도 상응하는 인컨텍스트(in-context) 기술 베이스라인보다 뛰어난 성능을 보였습니다. 구체적으로, ALFWorld에서는 프리필 토큰을 64.1% 적게 사용하면서도 학습된(seen) 데이터와 미학습(unseen) 데이터 분할에서 각각 21.4포인트와 13.4포인트의 성공률을 향상시켰으며, Search-QA에서는 기술 토큰 오버헤드를 72.2% 낮추면서도 정확도(exact match)를 3.0포인트 향상시켰습니다. 추가 분석 결과, 생성된 기술 LoRA는 구조화된 의미론적 기하학(semantic geometry)을 형성하며, LoRA 스케일링 계수(scaling coefficient)를 통해 정밀하게 제어될 수 있고, 기술 구성 요소가 정렬(aligned)되었을 때 파라미터 공간 산술(parameter-space arithmetic)을 통해 조합될 수 있음을 보여줍니다. 이러한 발견은 가중치 공간 기술이 LLM 에이전트를 확장하기 위한 효율적이고 모듈화되었으며 노출이 적은 기질(substrate)을 제공함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LatentSkill: LLM 에이전트를 위한 인컨텍스트(In-Context) 텍스트 기술에서 가중치 기반(In-Weight) 잠재 기술로의

요약

핵심 포인트

댓글