개념적 스티어링을 위한 Conceptors

활성 기반 스티어링 (Activation-based steering) 은 추론 시간 (inference time) 에서 LLM 의 행동을 제어할 수 있지만, 지배적인 패러다임은 각 개념을 하나의 방향 (single direction) 으로 축소하며 그 기하학적 구조는 거의 검토되지 않습니다. 단일 스티어링 방향을 선택하는 대신, 우리는 Conceptors 를 사용합니다: 양극 (poles) 에서 풀어진 활성화 (activations) 로 추정된 부드러운 투영 행렬 (soft projection matrices) 이며, 이는 개념의 전체 다차원 부분공간 (multidimensional subspace) 을 보존합니다. 기하학적 분석은 양극 부분공간이 단일 벡터 베이스라인을 엄격히 포함 (strictly subsumes) 함을 보여줍니다. 또한, Conceptors 쿼타는 파라미터 없는 레이어 선택 진단 (parameter-free layer-selection diagnostic) 으로 제공하며, 세 개의 인스트럭션 튜닝 모델과 세 개의 의미론적 차원 (semantic dimensions) 에서 피어슨 상관관계 (Pearson correlations) 를 통해 개념 분리성 (concept separability) 을 예측합니다. 선택을 넘어선 Conceptors 는 닫힌 형태의 보울 진법 (Boolean algebra: AND, OR, NOT) 을 허용하며, 주제 관련 하개념 (sub-concepts) 에 대해 Conceptors 구성성 (compositional) 을 평가했습니다. 체계적인 5 축 디자인 스페이스 평가 (five-axis design-space evaluation) 에서, 개념 부분공간이 다차원인 레이어에서 Conceptors 는 가산적 베이스라인과 일치하거나 초과하며, 본질적으로 더 적은 퇴화 출력 (degenerate outputs) 을 생성합니다. Conceptors 스티어링은 제한된 수의 대비 쌍 (contrastive pairs) 에서 단일 방향 스티어링에 비해 기하학적으로 원칙적이고 구성성 있으며 실용적으로 안전한 대안입니다.

Insights

개념적 스티어링을 위한 Conceptors

요약

핵심 포인트

댓글

General Motors의 CFO는 GM 주식이 저렴하다고 말합니다. 그 이유를 알아봅니다.

정신 건강 피해로 Meta를 고소했던 십 대 원고, 재판 며칠 전 회사에 대한 청구 취하

Microsoft, AI 거물 Mistral과의 관계 심화. 이것이 MSFT 주식 투자자들에게 실제로 의미하는 것.

Anthropic과의 계약으로 AMD 주가 10% 급등: Nvidia의 선두를 유지할 수 있을까?

General Motors의 CFO는 GM 주식이 저렴하다고 말합니다. 그 이유를 알아봅니다.

정신 건강 피해로 Meta를 고소했던 십 대 원고, 재판 며칠 전 회사에 대한 청구 취하

Microsoft, AI 거물 Mistral과의 관계 심화. 이것이 MSFT 주식 투자자들에게 실제로 의미하는 것.

Anthropic과의 계약으로 AMD 주가 10% 급등: Nvidia의 선두를 유지할 수 있을까?