arXiv논문2026. 06. 25. 11:43

자연스러운 언그로킹 (Natural Ungrokking): 사전 학습 중 어떤 규칙이 살아남는지에 대한 비대칭적 제어

요약

사전 학습 과정에서 특정 규칙이 학습되었다가 다시 사라지는 '자연스러운 언그로킹(Natural Ungrokking)' 현상을 분석한 연구입니다. 모델의 손실 곡선 변화 없이도 코퍼스의 통계적 빈도에 따라 규칙의 생존 여부가 결정됨을 밝혀냈습니다.

핵심 포인트

학습 중 특정 규칙이 나타났다가 사라지는 'emerge-then-collapse' 역학 발견
규칙의 생존은 학습 스트림 내 지지 빈도(support frequency)에 의해 결정됨
망각은 경쟁하는 표면 패턴이 기존 규칙을 압도하며 발생하는 전치 현상임
한번 파괴된 규칙은 대량의 데이터를 주입해도 복구하기 어려운 비대칭적 특성을 가짐

일반적인 사전 학습 (pretraining) 과정 중간에, 소규모 언어 모델은 대명사-성별 규칙을 학습합니다: 소녀의 이름(예: "Sue cried because")이 단서로 주어지면, 모델은 다음 대명사를 she로 해결하며, 평가되지 않은 프로브 (held-out probes)에 대해서도 일반화합니다 (925 단계에서 0.94 달성). 3,500 단계에 도달하면 동일한 모델이 동일한 프로브에서 거의 0에 가까운 점수를 기록하지만, 해당 규칙의 증거는 여전히 학습 데이터에 남아 있습니다. 우리는 이러한 학습 과정 내의 반전을 자연스러운 언그로킹 (natural ungrokking)이라고 부릅니다: 손실 곡선 (loss curve)에는 아무런 흔적 없이, 코퍼스 (corpus)가 모델이 유지할 학습 규칙을 결정합니다. 어떤 규칙이 살아남을지는 하나의 코퍼스 통계량, 즉 학습 스트림 (training stream)에서 해당 규칙이 승리하는 빈도로 예측 가능합니다. 개입하지 않은 실행들(두 개의 코퍼스, 세 개의 예산, 세 개의 시드) 전반에 걸쳐, 지지 빈도 (support frequency)가 규칙의 운명을 결정합니다; 데이터 대 파라미터 비율 (data-to-parameter ratio)은 단지 실패할 운명인 규칙이 얼마나 깊게 몰락하는지를 조절할 뿐입니다. 동일한 '출현 후 붕괴' (emerge-then-collapse) 역학이 공개된 Pythia 체크포인트에서도 나타나며, 붕괴의 깊이는 예측된 대로 모델 규모에 따라 정렬됩니다. 망각은 전치 (displacement)입니다: 경쟁하는 표면 패턴 (surface pattern)이 규칙을 압도하며, 이들 사이의 로그 확률 마진 (log-probability margin)은 행동적 붕괴가 일어난 후 100 학습 단계 이내에 0을 교차합니다. 이 운명에 대한 제어는 비대칭적입니다: 요구에 따라 규칙을 파괴하는 동일한 편집이 규칙을 복구할 수는 없습니다. 규칙을 대체하는 반대 증거로 지지를 뒤집는 것은 서로 관련 없는 두 규칙에서 단조로운 용량-반응 (dose-response)과 함께 규칙을 제거하지만, 자연적으로 유지되는 수준의 450배에 달하는 지지를 다시 주입하더라도 복구는 이루어지지 않습니다. 모든 확인 임계값과 예측은 해당 데이터를 읽기 전에 사전 등록되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

자연스러운 언그로킹 (Natural Ungrokking): 사전 학습 중 어떤 규칙이 살아남는지에 대한 비대칭적 제어

요약

핵심 포인트

댓글