RFM-AGOP를 통한 빠른 다차원 거절 서브스페이스(Refusal Subspaces) 식별

대규모 언어 모델 (LLMs)에서 활성화 값(activations)을 조종(steering)하고 모니터링하는 것은 안전성과 해석 가능성(interpretability) 모두를 위해 점점 더 많이 사용되고 있습니다. 초기 연구들은 행동이 단일 선형 방향을 따라 인코딩된다고 가정했으나, 최근의 연구 결과들은 유해한 질문에 대한 답변 거부와 같은 복잡한 행동들이 다차원 서브스페이스 (multi-dimensional subspaces)에 존재함을 시사합니다. 그러나 이러한 서브스페이스를 추출하는 기존 방법들은 계산 비용이 많이 들며, 이는 긴 추론 흔적(reasoning traces)을 생성하는 추론 모델(reasoning models)에서는 실행하기가 매우 어렵습니다. 효율적으로 계산될 수 있는 재귀적 특징 머신 (Recursive Feature Machine, RFM) 알고리즘을 프로브 정보 기반 초기화(probe-informed initialization)와 결합하여 적응시킴으로써, 우리는 추론 모델 (Qwen 3) 및 비추론 모델 (Qwen 2.5)에서 수 초 내에 다차원 거절 서브스페이스를 식별할 수 있습니다. RFM은 더 빠른 서브스페이스 식별을 가능하게 할 뿐만 아니라, 절제 연구 (ablation task)에서도 다른 대안들보다 더 나은 성능을 보여주었습니다. 서로 다른 방법들에 의해 발견된 서브스페이스 간의 관계를 더 잘 이해하기 위한 추가 연구가 계획되어 있습니다. 만약 이것이 확인된다면, RFM은 LLM의 기존 서브스페이스 추출 방법들을 보완할 수 있는 저렴하고 확장 가능한 수단이 될 수 있습니다.

Insights

RFM-AGOP를 통한 빠른 다차원 거절 서브스페이스(Refusal Subspaces) 식별

요약

핵심 포인트

댓글

SelectTSL: 복잡한 시나리오에서의 프롬프트 유도 선택적 타겟 음원 위치 추적

컴파일러의 최적화 누락에 대한 에이전트 기반 패칭(Patching) 이해

VisionAId: 개인화된 객체 검색 기능을 갖춘 시각 장애인을 위한 오프라인 우선 멀티모달 Android 어시스턴트

DRIFTLENS: 개인화된 언어 모델에서 메모리로 유발되는 추론 드리프트(Reasoning Drift) 측정

컴파일러의 최적화 누락에 대한 에이전트 기반 패칭(Patching) 이해

VisionAId: 개인화된 객체 검색 기능을 갖춘 시각 장애인을 위한 오프라인 우선 멀티모달 Android 어시스턴트

DRIFTLENS: 개인화된 언어 모델에서 메모리로 유발되는 추론 드리프트(Reasoning Drift) 측정