본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 25. 16:47

X로서 Y를 수행하라: 지시어 튜닝된 LLM에서 페르소나와 태스크가 결합하는 방식

요약

역할 프롬프트에서 페르소나와 태스크가 잔차 스트림 내에서 선형적으로 분해된다는 사실을 발견했습니다. 하지만 페르소나 효과는 단일 벡터로 압축될 수 없으며, 생성 과정 전반에 걸쳐 어텐션 메커니즘을 통해 분산되어 작용함을 증명했습니다.

핵심 포인트

  • 페르소나와 태스크는 특정 레이어에서 선형 분해 가능
  • Gemma-2, Qwen-2.5 모델을 통해 가산 구조 검증
  • 단일 잔차 벡터를 통한 프롬프트 압축은 불가능함
  • 페르소나는 어텐션을 통한 분산된 메커니즘에 의존

“X로서 Y를 수행하라” 형태의 역할 프롬프트(Role prompts)는 잔차 스트림(residual stream) 내의 특정 지점, 즉 초기/중기 레이어 대역에 위치한 프롬프트-답변 전환 지점(prompt-to-answer transition; 마지막 프롬프트 토큰과 생성된 첫 두 토큰의 결합)에서 깔끔한 선형 분해(linear decomposition)를 허용합니다. 이 지점에서 페르소나(persona)와 태스크(task)는 부분적으로 직교하는 가산 방향(additive directions)을 통해 기여합니다. 순수 페르소나 효과 $Δ_X$와 순수 태스크 효과 $Δ_Y$를 형성하고, 깨끗한 잔차(clean residual)를 $h_{BB} + Δ_X + Δ_Y$로 대체하면, Gemma-2-2B-IT 및 Qwen-2.5-{1.5B, 3B}-Instruct 모델에서 12-셀 단기 그리드(short grid)와 48-셀 장기 페르소나 그리드(long-persona grid) 전반에 걸쳐 페르소나 특유의 행동 마커를 보존하면서 깨끗한 결과값과 작은 KL 발산(KL divergence) 내의 하류 출력(downstream output)을 생성합니다. 이러한 가산 구조(additive structure)로부터 도출할 수 있는 자연스러운 추론은 역할 프롬프트가 단일 캐시된 잔차 벡터(cached residual vector)로 압축될 수 있다는 것입니다. extit{하지만 우리는 그것이 불가능함을 보여줍니다.} 페르소나 텍스트가 제거된 베이스라인 호스트 프롬프트에 캐시된 가산 예측값(cached additive prediction) 또는 심지어 오라클 깨끗한 잔차(oracle clean residual) $h_{XY}$를 주입하더라도, 단일 지점이나 여러 레이어에 걸쳐 깨끗한 장기 페르소나 목표치에 도달하지 못합니다. 페르소나 조건부 다중 토큰 생성(Persona-conditioned multi-token generation)은 프롬프트 전반에 걸쳐 페르소나 텍스트 위치로 어텐션(attention)을 통해 다시 흐르며, 이는 단일 지점의 잔차로는 재현할 수 없습니다. 잔차 스트림에서의 국소적 가산성(Local additivity)이 프롬프트 압축 가능성을 의미하지는 않습니다. 프롬프트-답변 전환에서의 가산 구조는 페르소나 또는 태스크 기여도에 대한 해석 가능성(interpretability)과 미세 조정 제어(fine-grained steering)를 지원하지만, 전체 문맥에 걸친 페르소나 조건부 행동은 국소적 활성화 산술(local activation arithmetic)이 대체할 수 없는 분산된 프롬프트/KV 메커니즘(distributed prompt/KV mechanism)에 의존합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0