X로서 Y를 수행하라: 지시어 튜닝된 LLM에서 페르소나와 태스크가 결합하는 방식

“X로서 Y를 수행하라” 형태의 역할 프롬프트(Role prompts)는 잔차 스트림(residual stream) 내의 특정 지점, 즉 초기/중기 레이어 대역에 위치한 프롬프트-답변 전환 지점(prompt-to-answer transition; 마지막 프롬프트 토큰과 생성된 첫 두 토큰의 결합)에서 깔끔한 선형 분해(linear decomposition)를 허용합니다. 이 지점에서 페르소나(persona)와 태스크(task)는 부분적으로 직교하는 가산 방향(additive directions)을 통해 기여합니다. 순수 페르소나 효과 $Δ_X$와 순수 태스크 효과 $Δ_Y$를 형성하고, 깨끗한 잔차(clean residual)를 $h_{BB} + Δ_X + Δ_Y$로 대체하면, Gemma-2-2B-IT 및 Qwen-2.5-{1.5B, 3B}-Instruct 모델에서 12-셀 단기 그리드(short grid)와 48-셀 장기 페르소나 그리드(long-persona grid) 전반에 걸쳐 페르소나 특유의 행동 마커를 보존하면서 깨끗한 결과값과 작은 KL 발산(KL divergence) 내의 하류 출력(downstream output)을 생성합니다. 이러한 가산 구조(additive structure)로부터 도출할 수 있는 자연스러운 추론은 역할 프롬프트가 단일 캐시된 잔차 벡터(cached residual vector)로 압축될 수 있다는 것입니다. extit{하지만 우리는 그것이 불가능함을 보여줍니다.} 페르소나 텍스트가 제거된 베이스라인 호스트 프롬프트에 캐시된 가산 예측값(cached additive prediction) 또는 심지어 오라클 깨끗한 잔차(oracle clean residual) $h_{XY}$를 주입하더라도, 단일 지점이나 여러 레이어에 걸쳐 깨끗한 장기 페르소나 목표치에 도달하지 못합니다. 페르소나 조건부 다중 토큰 생성(Persona-conditioned multi-token generation)은 프롬프트 전반에 걸쳐 페르소나 텍스트 위치로 어텐션(attention)을 통해 다시 흐르며, 이는 단일 지점의 잔차로는 재현할 수 없습니다. 잔차 스트림에서의 국소적 가산성(Local additivity)이 프롬프트 압축 가능성을 의미하지는 않습니다. 프롬프트-답변 전환에서의 가산 구조는 페르소나 또는 태스크 기여도에 대한 해석 가능성(interpretability)과 미세 조정 제어(fine-grained steering)를 지원하지만, 전체 문맥에 걸친 페르소나 조건부 행동은 국소적 활성화 산술(local activation arithmetic)이 대체할 수 없는 분산된 프롬프트/KV 메커니즘(distributed prompt/KV mechanism)에 의존합니다.

Insights

X로서 Y를 수행하라: 지시어 튜닝된 LLM에서 페르소나와 태스크가 결합하는 방식

요약

핵심 포인트

댓글

일주일 동안 AI에게 내 앱을 55번 테스트하게 했다. 무엇이 망가졌고, 내가 무엇을 망가뜨렸는가

Viatris 분기 실적 전망: 알아야 할 사항

복리적 코드(Compounding Code)를 위한 신경계로서의 GitHub: 변화의 속도에서 살아남기

KPMG, AI 네이티브 기업 시스템 개발을 위해 OpenAI와 파트너십 체결

Viatris 분기 실적 전망: 알아야 할 사항

복리적 코드(Compounding Code)를 위한 신경계로서의 GitHub: 변화의 속도에서 살아남기

KPMG, AI 네이티브 기업 시스템 개발을 위해 OpenAI와 파트너십 체결