RFM-AGOP를 통한 빠른 다차원 거절 서브스페이스(Refusal Subspaces) 식별
요약
LLM의 유해 답변 거부 행동이 다차원 서브스페이스에 존재한다는 점에 착안하여, RFM-AGOP 알고리즘을 통해 이를 빠르게 식별하는 연구를 소개합니다. 기존 방식보다 계산 비용이 낮아 Qwen 2.5 및 Qwen 3와 같은 모델에서도 수 초 내에 효율적인 추출이 가능합니다.
핵심 포인트
- 거절 행동이 단일 방향이 아닌 다차원 서브스페이스에 존재함을 확인
- RFM 알고리즘을 활용해 계산 비용을 획기적으로 절감
- Qwen 2.5 및 Qwen 3 모델에서 수 초 내에 서브스페이스 식별 성공
- 기존 서브스페이스 추출 방법보다 뛰어난 절제 연구 성능 입증
대규모 언어 모델 (LLMs)에서 활성화 값(activations)을 조종(steering)하고 모니터링하는 것은 안전성과 해석 가능성(interpretability) 모두를 위해 점점 더 많이 사용되고 있습니다. 초기 연구들은 행동이 단일 선형 방향을 따라 인코딩된다고 가정했으나, 최근의 연구 결과들은 유해한 질문에 대한 답변 거부와 같은 복잡한 행동들이 다차원 서브스페이스 (multi-dimensional subspaces)에 존재함을 시사합니다. 그러나 이러한 서브스페이스를 추출하는 기존 방법들은 계산 비용이 많이 들며, 이는 긴 추론 흔적(reasoning traces)을 생성하는 추론 모델(reasoning models)에서는 실행하기가 매우 어렵습니다. 효율적으로 계산될 수 있는 재귀적 특징 머신 (Recursive Feature Machine, RFM) 알고리즘을 프로브 정보 기반 초기화(probe-informed initialization)와 결합하여 적응시킴으로써, 우리는 추론 모델 (Qwen 3) 및 비추론 모델 (Qwen 2.5)에서 수 초 내에 다차원 거절 서브스페이스를 식별할 수 있습니다. RFM은 더 빠른 서브스페이스 식별을 가능하게 할 뿐만 아니라, 절제 연구 (ablation task)에서도 다른 대안들보다 더 나은 성능을 보여주었습니다. 서로 다른 방법들에 의해 발견된 서브스페이스 간의 관계를 더 잘 이해하기 위한 추가 연구가 계획되어 있습니다. 만약 이것이 확인된다면, RFM은 LLM의 기존 서브스페이스 추출 방법들을 보완할 수 있는 저렴하고 확장 가능한 수단이 될 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기