arXiv논문2026. 06. 15. 08:26

당신의 LLM은 제어 가능한가?

요약

활성화 스티어링(Activation steering)의 성공 여부를 생성 초기 단계의 은닉 상태를 통해 예측하는 연구를 소개합니다. 새로운 테스트베드 ASTEER을 통해 모델의 내부 역학을 분석하고, GBDT 분류기를 활용해 적은 비용으로 최적의 스티어링 강도를 찾아내는 방법을 제안합니다.

핵심 포인트

생성 초기 토큰의 은닉 상태로 스티어링 성공 여부 예측 가능
새로운 테스트베드 ASTEER(150개 개념, 140만 개 데이터) 도입
GBDT 분류기를 통해 언더스티어링, 성공, 오버스티어링 분류
초기 예측기를 가이드로 활용하여 디코딩 비용 절감 및 성능 최적화

활성화 스티어링 (Activation steering)은 추론 시점에 언어 모델의 동작을 제어하는 가벼운 접근 방식을 제공하지만, 이것이 성공할지 실패할지는 프롬프트, 개념, 모델 및 스티어링 설정에 크게 좌우됩니다. 성공적인 스티어링의 영역과 경계를 찾는 것은 일반적으로 비용이 많이 드는 그리드 탐색 (grid searches)과 전체 자기회귀 롤아웃 (autoregressive rollouts)에 대한 사후 평가를 필요로 합니다. 본 연구에서는 생성 프로세스의 시작 단계(예: 처음 몇 개의 토큰을 생성한 후)에서 모델의 내부 상태로부터 제어 가능성 (steerability)을 예측할 수 있는지, 그리고 이러한 예측기를 활용하여 스티어링 성공률을 어떻게 높일 수 있는지 조사합니다. 이를 위해, 우리는 먼저 각 스티어링의 성공/실패가 라벨링된 150개의 개념과 140만 개의 스티어링된 생성물을 포함하는 테스트베드인 ASTEER을 소개합니다. 이 테스트베드를 활용하여, 우리는 레이어 전반과 초기 디코딩 단계에 걸쳐 스티어링 전후의 은닉 상태 (hidden states)를 비교하는 특징 (features)을 추출함으로써 모델의 초기 디코딩 역학을 분석합니다. 이러한 특징들은 스티어링의 효과가 레이어와 토큰 위치를 따라 어떻게 전파되는지 이해하는 데 도움을 주며, 이는 제어 가능성 예측을 위한 핵심 정보를 제공합니다. 그런 다음, 우리는 전체 롤아웃을 요구하지 않고도 개입이 언더스티어링 (under-steer), 성공, 또는 오버스티어링 (over-steer)할지를 예측하기 위해 이러한 특징들로 그래디언트 부스팅 결정 트리 (Gradient Boosting Decision Trees, GBDT) 분류기를 학습시킵니다. 우리의 예측기는 학습되지 않은 개념에 대해 약 0.7의 macro-F1 점수를 달성하였으며, 이는 초기 은닉 상태가 최종적인 스티어링 효능에 대한 상당하고 구조화된 정보를 인코딩하고 있음을 입증합니다. 나아가 우리는 이 제어 가능성 예측기를 스티어링 강도 탐색을 위한 가이드로 활용하여, 매우 적은 디코딩 비용으로 최적에 가까운 성능을 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

당신의 LLM은 제어 가능한가?

요약

핵심 포인트

댓글