본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 07. 17:23

개념적 스티어링을 위한 Conceptors

요약

Conceptors는 기존 LLM 제어 방식인 활성화 기반 스티어링의 한계를 극복하기 위해 제안된 새로운 개념적 스티어링 방법론입니다. 이는 단일 방향 대신, 개념 전체의 다차원 부분공간을 보존하는 부드러운 투영 행렬(soft projection matrices)을 사용하여 LLM의 행동을 제어합니다. Conceptors는 닫힌 형태의 논리 연산(AND, OR, NOT)을 지원하며, 여러 의미론적 차원에서 개념 분리성을 평가하고 다차원 레이어에서 높은 성능과 안정성을 입증했습니다.

핵심 포인트

  • Conceptors는 LLM 제어 시 단일 방향 스티어링의 한계를 극복하고, 개념 전체의 다차원 부분공간을 보존합니다.
  • 이 방법론은 닫힌 형태의 논리 연산(AND, OR, NOT)을 지원하여 복잡한 주제 관련 하개념 간의 구성성 평가가 가능합니다.
  • Conceptors는 파라미터 없이 레이어 선택 진단 및 개념 분리성을 예측할 수 있는 도구를 제공합니다.
  • 다차원 디자인 스페이스에서 Conceptors는 기존 방식보다 기하학적으로 원칙적이며, 퇴화 출력(degenerate outputs)을 줄여 실용적인 안정성을 높입니다.

활성 기반 스티어링 (Activation-based steering) 은 추론 시간 (inference time) 에서 LLM 의 행동을 제어할 수 있지만, 지배적인 패러다임은 각 개념을 하나의 방향 (single direction) 으로 축소하며 그 기하학적 구조는 거의 검토되지 않습니다. 단일 스티어링 방향을 선택하는 대신, 우리는 Conceptors 를 사용합니다: 양극 (poles) 에서 풀어진 활성화 (activations) 로 추정된 부드러운 투영 행렬 (soft projection matrices) 이며, 이는 개념의 전체 다차원 부분공간 (multidimensional subspace) 을 보존합니다. 기하학적 분석은 양극 부분공간이 단일 벡터 베이스라인을 엄격히 포함 (strictly subsumes) 함을 보여줍니다. 또한, Conceptors 쿼타는 파라미터 없는 레이어 선택 진단 (parameter-free layer-selection diagnostic) 으로 제공하며, 세 개의 인스트럭션 튜닝 모델과 세 개의 의미론적 차원 (semantic dimensions) 에서 피어슨 상관관계 (Pearson correlations) 를 통해 개념 분리성 (concept separability) 을 예측합니다. 선택을 넘어선 Conceptors 는 닫힌 형태의 보울 진법 (Boolean algebra: AND, OR, NOT) 을 허용하며, 주제 관련 하개념 (sub-concepts) 에 대해 Conceptors 구성성 (compositional) 을 평가했습니다. 체계적인 5 축 디자인 스페이스 평가 (five-axis design-space evaluation) 에서, 개념 부분공간이 다차원인 레이어에서 Conceptors 는 가산적 베이스라인과 일치하거나 초과하며, 본질적으로 더 적은 퇴화 출력 (degenerate outputs) 을 생성합니다. Conceptors 스티어링은 제한된 수의 대비 쌍 (contrastive pairs) 에서 단일 방향 스티어링에 비해 기하학적으로 원칙적이고 구성성 있으며 실용적으로 안전한 대안입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0