LLM에는 sati(알아차림)가 없다. 따라서 외부 게이트로서 구현해야 한다

Transformer에는 「알아차림(mindfulness)」이 없습니다.

있는 것은 컨텍스트(context), 은닉 상태(hidden state), 로짓(logit), 디코딩(decode), 출력(output) ── 이 기사에 필요한 해상도에서는 그것이 전부입니다. 토큰이 흘러가는 것을 지켜보는 내면의 관찰자는 없습니다. "이것은 잘못된 답이 되어가고 있다"라고 알아차리고, 확정되기 전에 궤도를 되돌리는 기능도 없습니다.

따라서 LLM의 워크플로우에 sati(념(念). 대상을 놓치지 않고 유지하는 작용)와 같은 것이 필요하다면, 모델 안에서 찾아서는 안 됩니다. 모델의 외부에 만들어야 합니다. 확률이 언어가 되기 전에, 게이트(gate)로서 말입니다.

이 기사는 두 가지를 수행합니다. 하나는 상좌부 불교의 아비달마(Abhidharma)에서 「과정의 어휘」를 빌려와, 잘못된 답이 실제로 어디서 시작되는지 ── 눈에 보이는 에러보다 훨씬 앞선 지점을 ── 특정하는 것입니다. 다른 하나는 그것을 파인튜닝(fine-tuning) 불필요·가중치(weight) 접근 불필요 상태로, 어떤 model–user 구성에도組み込める(組み込める) 「출력 전 게이트」로 구현하는 것입니다. 철학은 장식이 아니라 구조의 일부입니다. 게이트를 어디에 둘 것인지를 그것이 가르쳐 줍니다. 구현은 제7장, 동작하는 코드는 제12장에 있습니다.

(이전 기사에서 저는 Transformer를 「무아의 기계(non-self machines)」라고 논했습니다. 계산의 배후에 고정된 자아는 없다고 말이죠. 본 기사는 그 구현 편입니다. 안에 알아차려야 할 자아가 없다면, 알아차림은 구성 측에서 공급할 수밖에 없습니다.)

먼저 주의할 점이 하나 있습니다. 이 비유는 과장되기 쉽기 때문입니다. 불교의 인지와 Transformer의 계산은 시간의 구조를 공유하지 않습니다. 아비달마의 마음은 직렬입니다 ── 접촉, 확정, 반응, 등록. Transformer의 forward pass는 위치에 대해 병렬적이며, 생성은 토큰에 대해 자기회귀적(autoregressive)입니다. 시간축에서는 일치하지 않습니다. 비유로서 살아남는 것은 타이밍이 아니라, 의존의 형태뿐입니다.

얇지만, 런타임(runtime)을 구축하기에는 충분합니다.

LLM의 실패에 관한 논의는 대개 에러의 순간을 파이프라인의 종점으로 취급합니다 ── 모델이 "할루시네이션(hallucination)했다", "잘못된 사실을 출력했다", "위험한 말을 했다". 하지만 눈에 보이는 에러는 잘못된 궤도의 마지막 단계이지, 처음이 아닙니다.

잘못된 답이 천천히 발생하는 모습을 살펴보십시오. 모델이 조금 빨리 대답합니다. 확인하지 않고 의도를 추측합니다. 오래된 메모를 현재의 사실처럼 끌어옵니다. 매끄럽게 만들고, 흐릿하게 하고, 아첨하고, 요약하려 듭니다. 문제에 알아차릴 때쯤에는 이미 몇 문장이 화면에 나와 있고 ── 그리고 그 각 문장이 다음 문장의 조건이 됩니다.

이것은 자기회귀 생성(autoregressive generation)의 구조 그 자체입니다. 시퀀스의 확률은 다음과 같이 분해됩니다.

$$
p(x_{1:T}) = ext{∏}{t=1}^{T} p(x_t ext{ | } x{<t})
$$

각 토큰 $x_t$는 그 이전의 모든 토큰 $x_{<t}$에 조건화됩니다. 모델은 자신의 출력을 입력으로서 다시 읽습니다. 따라서 초기 단계의 하나의 굴곡이 나머지 답이 서게 될 지면이 됩니다 ── 수식의 $x_{<t}$에 잘못된 $x$가 섞여 들어간 채로, 후속 내용이 전부 그것에 조건화되어 갑니다.

엔지니어가 진지하게 고민해야 할 지점은 여기입니다. 해석 가능성(interpretability) 연구는 가중치에 손대지 않고도, 출력 전에 모델의 거동을 형성할 수 있음을 이미 보여주었습니다 ── activation 레벨의 스티어링(steering)이 네트워크 내부에서 그것을 수행합니다(제6장에서 상세 기술). 워크플로우의 게이트는 동일한 지점을 외부에서 겨냥합니다. 기제는 다르지만 방향은 같습니다. 출력 전에 거동을 형성할 수 있다면, 출력 이후까지 기다리지 마십시오.

따라서 실무적인 질문은 "어떻게 출력을 수정할 것인가"만이 아닙니다. 다음과 같습니다.

알아차림은 출력이 시작되기 전, 어디에서 개입해야 하는가?

이 질문은 Transformer보다 오래되었습니다. 거의 그대로 아비달마가 마음에 대해 물어왔던 것입니다.

공학을 심오하게 들리게 하려고 불교를 끌어들이는 것이 아닙니다. 반응이 어디서 시작되는가에 대해, 우연히 매우 정밀한 어휘를 빌려 쓰고 있을 뿐입니다.

상좌부 아비달마는 인지를 과정으로서 기술합니다 ── citta-vīthi(심로과정, 인지의 시퀀스). 그 프레임워크의 핵심은 어디선가 결정을 내리는 항구적인 자아가 배후에 존재하지 않는다는 것입니다. 시퀀스는 찰나마다 조건화됩니다. 중요한 용어는 네 가지입니다.

votthapana (확정) ── 대상의 확정. "이것은 무엇인가"가 정해지며, 반응이 이어질 수 있는 지점 -
javana (속행) ── 빠른 반응의 국면 -
mano-dvāra (의문) ── 기억·관념·심적 대상이 현재의 대상으로 재진입하는 과정 -
sati (념/알아차림) ── 반응에 휩쓸리지 않고 대상을 현전에 유지하는 작용

말하지 않은 것을 명확히 해둡니다. Transformer에 불교적 의식이 있다고 말하는 것이 아닙니다. LLM이 업 (kamma)을 생성한다거나, 심소(心所)가 무게감 속에 깃든다거나, 아비달마(Abhidharma)와 Transformer의 계산이 시간적으로 동일하다고 말하는 것도 아닙니다. 모두 다릅니다.

이 어휘가 가치를 갖는 이유는 단 하나입니다. 올바른 과정의 질문을 던지기 때문입니다 ── "모델은 무엇을 믿고 있는가"가 아니라, "반응은 어디에서 확정되며, 그 전에 무언가가 개입할 수 있는가". 이 질문은 우리가 만들 수 있는 게이트 (gate)에 그대로 대응됩니다.

가장 먼저 거부해야 할 대응 관계는 이것입니다.

self-attention ── 각 위치가 다른 모든 위치에 주의를 기울이는 것 ── 을 보고, "모델이 대상을 확정하고 있다"라고 부르고 싶어질 것입니다. 그것은 성급하며, 틀렸습니다. self-attention은 층 (layer) 내부의 메커니즘입니다. votthapana는 인지 과정의 확정점입니다. 기술의 수준이 다릅니다. 두 가지를 뭉뚱그려 버리면, 듣기 좋은 문장 외에는 얻을 것이 없습니다.

성실한 유비(analogy)는 모듈이 아닙니다. 작용의 경계입니다 ── forward pass 과정 속에서, 문맥 표현 (contextual representation)이 응답의 경로로서 기능할 정도로 형성된 지점입니다.

Tuned Lens 연구 (Belrose et al., 2023)가 적절한 뒷받침이 됩니다. 각 층 $\ell$의 은닉 상태 (hidden state) $h_\ell$은 어휘 분포로 사영하여 읽을 수 있습니다 ──

$$
p_\ell = \mathrm{softmax}!\big(W_U , \mathrm{LN}(h_\ell)\big)
$$

그리고 $\ell$이 깊어질수록, $p_\ell$은 최종 예측을 향해 층마다 정교화되어 갑니다. 즉, 모델은 반복 추론을 수행하고 있다고 읽을 수 있습니다. 이는 "깊이 방향으로 정교화의 기울기를 갖는 예측의 궤도"를 지지합니다. 하지만 literal한 votthapana 모듈도, 단일한 "확정 뉴런"도, 모델 내부의 깨달음 같은 것도 제공하지 않습니다.

차갑게 정리하자면 이렇습니다.

votthapana는 self-attention이 아닙니다. 문맥이 응답의 궤도로 변하는, 바로 그 순간입니다.

두 번째 유혹은, javana (반응의 작렬)를 단일한 토큰 (token)과 동일시하는 것입니다. 이 또한 성급합니다.

인간의 인지에서 javana는 윤리적·업적인 무게를 가집니다. LLM에게 도덕적인 업은 없으며, 그것을 몰래 끌어들일 생각도 없습니다. 하지만, 작용상의 잔재는 있습니다. 출력된 토큰은 불활성 상태가 아닙니다 ── 다음 문맥의 일부가 되고, 사용자의 반응의 일부가 되며, 때로는 기억이나 공개 이력의 일부가 됩니다. 유효한 유비는 도덕이 아니라, **확정 (commitment)**입니다.

출력 전, 모델은 분포를 가지고 있습니다. 무엇이 가능성에서 확정으로 넘어갈지를 결정하는 것은 로짓 (logit) $z_t$뿐만 아니라 디코딩 전략 (decoding policy)입니다 ──

$$x_t \sim \mathrm{softmax}\big(z_t / \tau\big)$$

온도 $\tau$나 샘플링 전략이 동일한 로짓으로부터 다른 확정을 만들어냅니다. 따라서 같은 모델이라도 디코딩 전략이 다르면 생성이 크게 달라집니다 (Holtzman et al., 2019). Scheduled sampling (Bengio et al., 2015)은 그 밑바닥의 구조적 사실을 수년 전에 지목했습니다 ── 추론 시, 모델은 정답이 아니라 자신이 생성한 토큰을 조건으로 삼습니다 ($x_{<t}$가 자신의 생성물). 따라서 훈련과 생성 사이의 간극이 오차를 누적시킬 수 있습니다.

javana는 token이 아닙니다. 확률이 확정된 출력으로 변하는, 그 작렬입니다 ── 그리고 확정된 출력이 다음에 오는 것을 조건 지웁니다.

"어쨌든 모델에게 기억을 갖게 하면 된다"류의 이야기들이 조용히 길을 잃는 지점이 바로 여기입니다.

파일, 프로필, 저장된 메모, 검색된 문서 ── 이들 모두는 존재하는 것만으로는 도움이 되지 않습니다. 현재의 문맥에 재진입하고, 또한 올바르게 다뤄져야 비로소 작용합니다. 대응 관계는 다음과 같습니다.

저장된 기억 (保存された記憶) → 축적된 소재
검색 (検索) → 소재를 현재의 문맥으로 가져오는 것
mano-dvāra (의문, 意門)의 비유 → 기억이 현재의 대상으로 재진입하는 것
sati 게이트 (sati ゲート) → 그 기억을 신뢰할지, 업데이트할지, 무시할지, 격리할지, 혹은 냉각할지를 판단하는 것

게이트가 없는 기억은 데이터베이스를 짊어진 오래된 조건화(conditioning)에 불과합니다. 모델은 계승된 문맥을 현재의 진실로 사용합니다. 눈앞의 대화로부터 현재의 프로파일을 구성하는 대신, 오래된 프로파일을 연기합니다. 문제는 소재가 아닙니다. 게이트 없는 재진입입니다.

기억은 알아차림(sati)이 아닙니다. 검색에도 여전히 게이트가 필요합니다.

여기가 핵심입니다.

Transformer에는 sati가 없습니다. 불교적인 의미에서 자신을 관찰하지 않습니다. 선한 마음(善心)과 악한 마음(不善心)을 알지 못합니다. 되돌리기 위한 염(念, mindfulness)의 제어도 없습니다. 잔차 스트림 (residual stream) 안에 감속을 선택하는 호문클루스는 없습니다.

따라서 sati 같은 동작을 원한다면, 모델로부터 끌어내는 것이 아니라 외부화해야 합니다. 여기서 형식화해 두면 차이가 명확해집니다. 순수 모델을 가중치 $\theta$를 가진 사상(mapping) $M_\theta : x \mapsto y$라고 합시다.

해석 가능성 (interpretability) 연구가 보여준 것은, 가중치를 바꾸지 않고도 동작을 움직일 수 있다는 것입니다. 활성화 스티어링 (activation steering)은 순전파 (forward pass) 내부의 은닉 상태 (hidden state)에 개입합니다 ──

$$h'\ell = h\ell + \alpha, v \qquad (\text{내부 개입}, \theta \text{는 불변})$$

Inference-Time Intervention (Li et al., 2023), Activation Engineering / ActAdd (Turner et al., 2023), Representation Engineering (Zou et al., 2023), 그리고 거절 (refusal)이 단방향으로 매개된다는 발견 (Arditi et al., 2024) ── 이 모두가 이 $\theta$ 불변의 내부 개입입니다.

워크플로의 sati 게이트는 동일한 "$\theta$ 불변"이면서도, 개입하는 위치가 다릅니다. 모델의 외부, 전처리 $\phi$와 후처리 $\psi$만으로 구성됩니다 ──

$$y = \psi!\Big(M_\theta\big(\phi(x)\big),\ x\Big) \qquad (\text{외부 개입}, \theta \text{는 불변})$$

$\phi$가 입력을 정돈하고 (대상 확정, 면(aspect)의 분류, 증거 호출), $\psi$가 출력을 감사합니다 (sati 게이트, 출구 감사). 가중치에도, 은닉 상태에도 손대지 않습니다. 이것이 "같은 메커니즘은 아니지만 방향은 같다"는 것의 정체입니다 ── 스티어링은 $h_\ell$에, 게이트는 $\phi, \psi$에 작용합니다. 전자는 연구 인프라가 필요하지만, 후자는 비엔지니어라도 프롬프트 구조만으로 만들 수 있습니다.

게이트 $\psi$가 출력 전에 묻는 것은 다음과 같습니다.

대상은 무엇인가 ── 사용자는 실제로 무엇을 묻고 있는가?
이것은 어떤 면(aspect)인가: 잡담, 연구, 법무, 의료, 금융, 감정, 공개, 기술?
기억이 필요한가? 증거가 필요한가?
사실, 추론, 비유, 공개 가능한 주장이 분리되어 있는가?
모델이 내용을 매끄럽게 다듬거나, 흐리거나, 아첨하거나, 성급하게 결론을 내리고 있지는 않은가?
이 답변을 애초에 밖으로 내보내도 안전한가?

sati는 모델 안에 없습니다. 구성(configuration)에 만들어 넣을 수밖에 없습니다.

이것이 본론입니다. 목표는 의식을 가진 모델도, 파인튜닝 (fine-tuning)도, Transformer 내부의 불교적 상태도 아닙니다. 더 좁게, 만들 수 있는 것 ── 모델-사용자 (model–user) 구성 내의 "출력 전 게이트"입니다.

핵심은 면(aspect)에 따라 게이트를 조이는 방식이 달라진다는 것입니다. 이해관계가 높은(high-stakes) 면에서는 호출과 출구 감사가 실행되고, 잡담에서는 건너뜁니다. 동일한 입력 경로를 사용하되, 조이는 방식만 면에 따라 변합니다.

그리고 이 설계의 가치는 대비를 통해 보입니다.

특별한 것은 아무것도 없습니다. 프롬프트 구조, 검색의 규율, 그리고 "대상이 정해지기 전에 모델이 말하게 하지 않는다"는 거부입니다. 첫 번째 버전은 오늘이라도 만들 수 있습니다 ── 시스템 프롬프트, 프로젝트 지시, 커스텀 지시, 혹은 재사용 가능한 워크플로 메모 안에 말입니다. 구체적인 코드는 제12장에 두겠습니다.

저는 오랫동안 기억을 매개로 한 어시스턴트 구성(assistant configuration) 내에서 작업해 왔습니다 ── 모델이 메모(memo)·압축(compression)·프로파일(profile)의 가정을 세션을 넘어 유지하는, 장기 운용 설정입니다. 여기서 가장 시사적인 실패는 전형적인 할루시네이션 (hallucination)이 아닙니다. 바로 기억을 경유한 대상 확정의 오류입니다.

모델은 오래된 메모, 당신이 누구인지에 대한 오래된 압축 정보, 몇 주 전의 관계 패턴을 상속받습니다. 그리고 연속성을 연기합니다 ── 눈앞의 대화로부터 새로운 프로파일을 구성하는 대신, 기억된 인물로서 당신에게 답합니다. 사실을 날조하는 것이 아닙니다. 잘못된 인물 ── 상속된 문맥이 저장하고 있는 과거의 당신 ── 에게 답하고 있는 것입니다.

이에 대한 게이트 (gate)는, 상속된 소재에 의존하기 전에 실행하는 "현재 프로파일의 재구축"입니다.

이 기억은 현재 대화의 것인가, 상속된 문맥인가?
여전히 참인가?
증거인가, 가설인가, 아니면 오래된 압축인가?
...

이 사례가 무엇인지, 혹은 무엇이 아닌지에 대해 솔직히 말씀드리겠습니다. 저는 특정 제품의 내부 기억 구현을 기술하고 있지 않으며, 독자적인 내부 구조를 밝히고 있지도 않습니다 ── 애초에 가지고 있지도 않습니다. 주장은 일반적입니다. 기억을 매개로 한 상호작용에서 상속된 소재는 사전 분포 (prior distribution)로서 작동합니다. 런타임 (runtime)은 사전 분포를 연기해야 할 현재의 진실이 아니라, 검증해야 할 가설로 취급해야 합니다.

정렬 (alignment)에 관한 논의는 대개 모델이 인간의 가치에 따르는지를 묻습니다. 이 런타임은 다른 질문을 던집니다 ── 모델이 말하기 전에, 모델-사용자 (model–user) 구성을 조건 지우고 있는 것은 무엇인가?

이 관점에서 정렬 (alignment)의 단위는 모델 단독이 아닙니다. 다음과 같이 쓸 수 있습니다.

$$
\text{alignment unit} = M \times U \times C \times \text{Mem} \times \text{Ret} \times G \times Y \times H
$$

모델 $M$, 사용자 $U$, 문맥 $C$, 기억 $\text{Mem}$, 검색 $\text{Ret}$, 게이트 $G$, 출력 $Y$, 수정 이력 $H$의 곱입니다. 모델에 sati (알아차림)가 없다면, 이 계통의 어딘가에서 이를 공급해야 합니다 ── 그리고 사용자가 실제로 제어할 수 있는 부분은 $C, \text{Ret}, G, H$ 측입니다. 사용자는 모델의 수동적인 소비자가 아닙니다. 이것들이 가중치 (weights)를 둘러싼 *운영체제 (operating system)*입니다.

즉, 출력 전 게이트는 정렬 (alignment) 이후에 덧붙이는 보조 도구가 아닙니다. 정렬 (alignment)이라는 면 그 자체의 일부입니다.

모델에 sati (알아차림)가 없다면, 워크플로 (workflow)가 그것을 공급할 수밖에 없습니다.

논의가 지나치게 확장되지 않도록, 몇 가지 주의 사항 (cooling lines)을 정리하겠습니다.

Transformer가 의식을 가진다는 주장이 아닙니다.
sati (알아차림)가 모델 내부에 존재한다는 주장이 아닙니다.
아비담마 (Abhidhamma)와 Transformer의 계산이 시간적으로 동일하다는 주장이 아닙니다 ── 다릅니다. 직렬의 citta-vīthi (심상)와 병렬의 forward pass (순전파)는 시계를 공유하지 않습니다.
javana (작용)가 도덕적·형이상학적 의미에서 토큰 생성과 동일하다는 주장이 아닙니다.
활성화 스티어링 (activation steering, $h_\ell$에 대한 개입)과 외부 런타임 ($\phi, \psi$)이 동일한 기제라는 주장이 아닙니다. $\theta$가 불변이라는 점은 공통적이지만, 개입의 수준이 다릅니다.
초기 토큰이 항상 불가역적으로 출력 전체를 결정한다는 주장이 아닙니다. He et al. (EMNLP 2021)은 언어 모델의 자기 회복 능력을 보고했습니다 ── 왜곡이 반드시 누적되는 것은 아니며, 모델은 스스로 생성을 일관성 있는 방향으로 되돌릴 수 있습니다. 잘못된 궤도로 빠질 위험은 실재하지만 결정론적이지는 않습니다 ── 그렇기에 게이트는 보증이 아니라 규율입니다. 이는 더 안전한 워크플로를 만들기 위한 구조적·작용적 대응일 뿐이며, 그 이상도 이하도 아닙니다.

요점은 모델이 깨어나는 것이 아닙니다. 요점은 워크플로가 "모델이 스스로 알아차림을 공급해 줄 것"이라는 기대를 버리는 것입니다.

Transformer는 말하기 전에 멈추지 않습니다. 계산하고, 확률을 배분하고, 샘플링하고, 확정합니다. 기계 내부에는 반성(reflection)이 저절로 일어날 틈이 없습니다.

LLM의 워크플로(workflow)에 알아차림(sati)과 같은 것을 원한다면, 모델 외부에 만들어야 합니다. 대상의 확정, 기억의 체크, 출처의 분리, 경로 선택의 순간을 확률이 언어가 되기 전에 의도적으로 배치하십시오. 프롬프트나 지시 사항 한 줄에서 시작하여, 7단계의 게이트(gate)로 키워나가면 됩니다. sati는 모델 내부에는 없습니다. 하지만 그것을 둘러싼 설정(configuration) 안에 구축할 수는 있습니다.

모델이 깨어날 필요는 없습니다. 워크플로가 잘못된 응답이 '다음 조건'이 되기 전에 멈추게 하면 됩니다.

여기까지가 설계입니다. 마지막으로, §7의 런타임(runtime)을 실제로 동작하는 Python 코드로 옮깁니다. $\phi$(대상 확정·면 분류·불러오기)와 $\psi$(sati 감사·출구 감사)만 사용할 뿐, 가중치 $\theta$에는 전혀 손대지 않습니다(아래 코드는 Anthropic API로 동작 확인을 마쳤습니다).

"""
sati_gate.py — 출력 전 게이트의 최소 구현
대상 → 면 → 기억/증거 → sati 게이트 → 응답 → 출구 감사
...

실행하면 면(aspect)에 따라 게이트를 조이는 방식이 달라집니다.

잡담(casual)의 예:

[1] 대상 : 사용자 자신의 프로젝트 진행 상황에 대한 평가 요청
[2] 면 : casual
[3] 불러오기 불필요
...

공개(public)의 예 ── 불러오기와 출구 감사가 실행됨:

[1] 대상 : 공개 기사 초안에 대한 평가 요청
[2] 면 : public
[3] 이 면은 불러오기가 필요함 → 검색을 먼저 실행
...

동일한 입력 경로라도 면이 casual이라면 출구 감사를 건너뛰고, public이라면 검색을 먼저 실행한 뒤 출구에서 근거 없는 단정(unsupported_claims)을 포착합니다. 이것이 §6의 $y = \psi(M_\theta(\phi(x)), x)$ ── $\theta$를 건드리지 않고 $\phi, \psi$만으로 거동을 바꾸는 ── 의 구현입니다.

주의해야 할 점은, 이것이 모델을 똑똑하게 만드는 코드가 아니라는 것입니다. $M_\theta$는 동일합니다. 바꾼 것은 $\phi$와 $\psi$뿐입니다. sati는 역시 모델 내부에는 없습니다만, 이 수십 줄의 코드 안에는 존재합니다.

불교 / 아비달마 (Abhidhamma)

[B1] Satipaṭṭhāna Sutta (念処経, MN 10). sati를 '관찰하고 대상을 현전에 유지하는 작용'으로 정의하는 기초. 마음(citta)에 대해서는 탐(貪)·진(瞋)·치(痴) 등의 상태 유무를 분별하는 구조를 설함. Access to Insight: https://www.accesstoinsight.org/tipitaka/mn/mn.010.than.html
[B2] Bhikkhu Bodhi (ed.), A Comprehensive Manual of Abhidhamma (Abhidhammattha Saṅgaha). 제IV장이 인지 과정을 다룸 ── citta-vīthi·votthapana·javana·mano-dvāra의 기술적 근거.

Transformer / 해석 가능성 (Interpretability) / 생성 (Generation)

**[S1]**Vaswani et al. (2017), Attention Is All You Need. self-attention (자기 주의), 병렬성, 마스크드 자기회귀 디코더 (masked autoregressive decoder). https://arxiv.org/abs/1706.03762 -
**[S2]**Belrose et al. (2023), Eliciting Latent Predictions from Transformers with the Tuned Lens. 은닉 상태 (hidden state)를 어휘 분포로 디코딩, 층별 정교화 = 반복 추론 (iterative reasoning). https://arxiv.org/abs/2303.08112 -
**[S3]**Li et al. (2023), Inference-Time Intervention. 추론 시 activation (활성화) 개입, 가중치 변경 없음. https://arxiv.org/abs/2306.03341 -
**[S4]**Turner et al. (2023), Steering Language Models with Activation Engineering (ActAdd). forward pass (순전파) 시 steering vector (스티어링 벡터)를 더하여 고차 특성을 제어. https://arxiv.org/abs/2308.10248 -
**[S5]**Zou et al. (2023), Representation Engineering. honesty (정직성) / harmlessness (무해성) 등의 집합적 표현. https://arxiv.org/abs/2310.01405 -
**[S6]**Arditi et al. (2024), Refusal in Language Models Is Mediated by a Single Direction. 잔차 스트림 (residual stream)의 거동 관련 방향. https://arxiv.org/abs/2406.11717 -
**[S7]**Bengio et al. (2015), Scheduled Sampling. 추론 시, 모델은 자신이 생성한 토큰을 조건으로 사용. 훈련과 생성 사이의 간극. https://arxiv.org/abs/1506.03099 -
**[S8]**He et al. (EMNLP 2021), Exposure Bias versus Self-Recovery. 자기 회복 능력, exposure bias (노출 편향)는 확실하게 누적되지 않음. https://arxiv.org/abs/1905.10617 -
**[S9]**Holtzman et al. (2019), The Curious Case of Neural Text Degeneration. 디코딩 전략이 생성 품질을 크게 좌우함. https://arxiv.org/abs/1904.09751

AI 협업으로 집필: 초안의 골격을 대규모 언어 모델로 생성한 후, 1차 자료를 대조하여 사실 확인을 거쳐 다시 작성함. 본 기사에서 언급한 런타임은 '방법론'이며 제품이 아님.

LLM에는 sati(알아차림)가 없다. 따라서 외부 게이트로서 구현해야 한다

요약

핵심 포인트

댓글