arXiv논문2026. 06. 10. 10:33

회복 가능하지만 정지해 있지 않음: 가중치 및 활성화(Activations) 내의 국소적 선형 구조

요약

학습된 모델의 가중치와 활성화 값 내에 존재하는 국소적 선형 구조를 연구한 논문입니다. 연구 결과, 유용한 선형 기저가 고정되지 않고 빠르게 변화하는 진화하는 국소적 기하 구조임을 밝혀냈습니다.

핵심 포인트

가중치 및 활성화 내에 국소적 저계수 태스크-그래디언트 구조 존재 확인
고정된 태스크 평면 가설을 거부하며 기저가 빠르게 표류함을 발견
무작위 파라미터 탐색의 효과를 정당화하는 가우시안 국소 선형 정리 개발
파라미터 섭동과 활성화 스티어링 사이의 밀접한 상관관계 입증

태스크 벡터(Task vectors), LoRA, 활성화 스티어링(activation steering), 그리고 사전 학습된 가중치(pretrained weights) 주변의 무작위 탐색(random search)은 모두 학습된 행동이 선형 방향(linear directions)에 의해 제어될 수 있음을 시사합니다. 우리는 어떤 선형 구조가 실제로 존재하며, 그것이 어느 규모로 존재하는지 질문합니다. 합성 멀티태스크 트랜스포머(synthetic multitask transformer)와 DistilGPT-2 / GPT-2 상의 LoRA 어댑터(adapters)를 통해 연구한 결과, 우리는 강력한 국소적 저계수 태스크-그래디언트 구조(local low-rank task-gradient structure)를 발견했지만, 고정된 태스크 평면 가설(fixed-task-plane hypothesis)은 거부했습니다. 즉, 정적인 기저(static bases)는 회복 방향(recovery direction)을 놓치며, 유용한 기저(useful basis)는 100 스텝 이내에 상당히 표류(drifts)합니다. 그러나 초기 회복 업데이트는 LoRA 회복 변위(LoRA recovery displacement)의 77%를 포착하는 궤적-접두사 기저(trajectory-prefix basis)를 형성합니다. 우리는 매우 높은 차원에서도 무작위 파라미터 탐색(random parameter search)의 효과를 정당화하는 가우시안 국소 선형 정리(Gaussian local-linear theorem)를 포함한 무작위 탐색 이론(random search theory)을 개발합니다. 또한 우리는 파라미터 섭동(parameter perturbations)과 활성화 스티어링(activation steering) 사이의 관계를 연구합니다. 단 한 번의 그래디언트 단계(gradient step)는 레이블이 지정된 대조 CAA 스티어링 벡터(labelled-contrast CAA steering vector)와 0.58의 코사인 유사도를 갖는 활성화 이동(activation shift)을 생성하며, Qwen-0.5B BoolQ 문장에서도 유사한 스티어링 효과를 보입니다. 우리는 합성 트랜스포머(Transformers) 및 LLM에 대한 실험을 통해 결과를 검증합니다. 우리의 결과는 학습된 네트워크 내의 선형 구조가 전역적인 태스크 방향(global task directions)이 아니라, 파라미터 및 활성화 공간 전반에 걸쳐 부분적으로 지속되는 진화하는 국소적 기하 구조(evolving local geometries)임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

회복 가능하지만 정지해 있지 않음: 가중치 및 활성화(Activations) 내의 국소적 선형 구조

요약

핵심 포인트

댓글