arXiv논문2026. 06. 16. 12:02

Greedy Coordinate Diffusion: 확산 가이던스(Diffusion Guidance)를 통한 효과적이고 의미론적으로 일관된

요약

미세 조정 과정에서 언어 모델의 안전 가드레일이 파괴되는 '정렬 붕괴' 현상을 기하학적 관점에서 분석한 연구입니다. 파라미터 공간의 곡률과 2차 드리프트가 정렬 저하를 유발함을 증명하고, 이를 예측할 수 있는 정렬 불안정성 조건(AIC)을 제안합니다.

핵심 포인트

미세 조정 시 발생하는 정렬 붕괴의 기하학적 원인 규명
1차 분석의 한계를 지적하고 2차 가속에 의한 드리프트 증명
정렬 불안정성 조건(AIC)을 통한 성능 저하 예측 프레임워크 개발
피셔 정보 행렬을 활용한 안전성 저하 대리 지표 검증

무해한 작업(예: 수학 튜터링)에 대해 정렬된 언어 모델(aligned language models)을 미세 조정(Fine-tuning)하는 것은, 훈련 데이터에 유해한 콘텐츠가 포함되어 있지 않더라도 체계적으로 안전 가드레일(safety guardrails)을 파괴합니다. 기계론적 접근 방식(mechanistic approaches)이 모델 가중치 내에서 정렬(alignment)이 어디에 위치하는지에 대해 밝혀내기는 했지만, 미세 조정이 언제 정렬을 저하시키는지에 대한 보장을 도출할 수 있는 일반적인 형식적 프레임워크(formal framework)를 제공하지는 못했습니다. 이는 해당 분야가 정렬 붕괴(alignment collapse)를 예측하거나 방지하기 위한 원칙적인 도구 없이 남겨지게 함을 의미합니다. 우리는 파라미터 공간 궤적(parameter-space trajectories)의 기하학적 분석을 통해 국소 기하학적 프레임워크(local geometric framework)를 개발하고, 이를 미세 조정 시 정렬의 취약성을 이해하는 데 적용합니다. 1차 분석(first-order analysis)은 직교 업데이트(orthogonal updates)가 안전하다고 제안하지만, 우리는 이것이 환상임을 증명합니다. 미세 조정 손실(fine-tuning loss)의 곡률(curvature)은 2차 가속(second-order acceleration)을 유도하며, 이는 정렬에 민감한 영역으로의 2차 드리프트(second-order drift)를 유발할 수 있습니다. 우리는 우리 프레임워크의 구조를 정렬 불안정성 조건(Alignment Instability Condition, AIC)으로 공식화하며, 이는 존재할 경우 성능 저하를 보장하기에 충분한 세 가지 기하학적 특성입니다. 우리의 주요 결과는 경사 흐름 궤적(gradient-flow trajectories)을 따라 정렬 저하가 4차적으로 시작됨을 증명하며, 이는 정렬이 특정 파라미터에 얼마나 급격하게 의존하는지와 작업(tasks)이 이러한 파라미터에 얼마나 강력하게 결합되는지에 의해 결정됩니다. 이러한 발견은 경사 하강법(gradient descent) 하에서 정적인 1차 보호(first-order protection)가 실패할 수 있는 공식적인 충분 조건들을 제공합니다. 나아가 우리는 피셔 정보 행렬(Fisher Information Matrix)이 다양한 미세 조정 전반에 걸쳐 안전성 저하 정도를 나타내는 대리 지표(proxy)를 제공함을 보여줌으로써 프레임워크의 기초를 경험적으로 검증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Greedy Coordinate Diffusion: 확산 가이던스(Diffusion Guidance)를 통한 효과적이고 의미론적으로 일관된

요약

핵심 포인트

댓글