순서는 제어가 아니다
요약
AI 정렬 및 해석 가능성 연구에서 다루는 '순서'가 단순한 제어가 아님을 물리적 응답 법칙을 통해 증명합니다. LLM과 생물학적 시스템을 포함한 다양한 패널을 통해 구동-소산 응답 시스템으로서의 메커니즘을 분석합니다.
핵심 포인트
- 순서는 제어가 아닌 수신자 게이트형 응답 법칙을 따름
- LLM의 출력 응답 벡터는 높은 정확도로 예측 가능함
- 생물학적 및 확률적 연산자 패널을 통한 물리적 증거 제시
- 중간 규모 제어 수준에서의 구동-소산 응답 시스템 설명
AI 정렬 (alignment), 해석 가능성 (interpretability), 스티어링 (steering), 그리고 신경 섭동 (neural perturbation) 연구들은 순서를 유도하는 객체들을 식별합니다. 우리는 순서가 제어가 아니라고 주장합니다. 제어는 수신자 게이트형 응답 법칙 (receiver-gated response law)을 필요로 합니다: 즉, 물질 상태 (material state), 행동/구동 (action/drive), 환경 (bath), 그리고 수신자 상태 (receiver state)를 응답 변위 (response displacement), 싱크 (sinks), 노력 (effort), 그리고 분지 투영 (basin projection)으로 매핑하는 분모 인덱스 연산자 (denominator-indexed operator)입니다. 우리는 생물학적, LLM, 어댑터 (adapter), 그리고 확률적 연산자 (stochastic-operator) 패널 전반에서 이를 식별합니다. 이러한 법칙들은 국소적 (local)입니다: 개입 (intervention)은 매질 (medium), 환경 (bath), 수신자 상태 (receiver state), 행동 포트 (action port), 그리고 비교기 (comparator)에 따라 허용 (admitted), 포화 (saturated), 부호 변경 (sign-changing), 누출 (leaky), 또는 과구동 (overdriven)될 수 있습니다. 제어는 동일한 분모 하에서 유한한 노력 (finite effort)이 대상 또는 결과-판독 클래스 (outcome-readout class)를 이동시키는 동시에, 손상 (damage), 무효/회피 (null/evasive), 잘못된 형식 (invalid format), 과구동 (overdrive), 그리고 불필요한 노력 (unnecessary effort)이 유계 (bounded)로 유지될 때 할당됩니다. 생쥐 ALM, 예쁜꼬마선충 (C. elegans), 그리고 제브라피시 (zebrafish) 패널은 좌표 동일성 (coordinate identity)과 제어기 (controller) 결론을 배제하면서 물리적 응답-연산자 (response-operator) 증거를 제공합니다. LLM 패널은 생성된 출력 응답 법칙을 보여줍니다: 네 가지 물질 조건 전반에서, 응답 벡터는 성분 부호 정확도 (component-sign accuracy) 72.8-73.7%에서 예측 가능하며, 0이 아닌 성분에서는 84.3-84.8%까지 상승합니다; 홀드아웃 관찰자 (held-out observers)는 시스템 효과 (system-effect)와 대상/오라클 (target/oracle) 계열을 각각 93.6%와 91.7%의 정확도로 예측합니다. 헌법 조건부 어댑터 (Constitution-conditioned adapters)는 준비된 매질 (prepared media)로서 민감도 (susceptibility)를 재형성하며, 확률적 연산자 패널은 측정된 기회 (measured opportunity)와 배치 가능한 행동 정책 (deployable action policies)을 분리합니다. 이는 중간 규모 제어 수준 (mesoscopic control level)에서 구동-소산 응답 시스템 (driven-dissipative response-system) 설명을 제공합니다: 구동 (drives)은 준비된 매질, 환경, 그리고 수신자를 통해 작용하여, 허용된 움직임 (admitted movement), 임피던스 (impedance), 싱크 (sinks), 또는 과구동 (overdrive)을 생성합니다. 이 증거는 국소적 허용 제어 (local admitted control)와 측정 가능한 확률적 응답 연산자 (measurable stochastic response operators)를 지지하는 한편, 배치 가능한 생성 전 제어 (deployable pre-generation control), 숨겨진/로짓 인과적 충분성 (hidden/logit causal sufficiency), 생물학적-LLM 좌표 동일성 (biological-to-LLM coordinate identity), 그리고 문자 그대로의 열역학적 양 (literal thermodynamic quantities)은 범위 외로 남겨둡니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기