arXiv논문2026. 06. 16. 12:09

Contrastive-Difference CKA를 통한 언어 모델 아키텍처 간 개념 특이적 구조적 정렬(Structural Alignment)

요약

Contrastive-Difference CKA(CKA_Delta)를 통해 서로 다른 LLM 아키텍처 간의 개념적 구조 정렬을 분석한 연구입니다. 기하학적 수렴과 기능적 전이 사이의 해리 현상을 규명하며, 훈련이 필요 없는 새로운 진단 도구를 제안합니다.

핵심 포인트

CKA_Delta를 통한 개념 특이적 구조적 정렬 분석
기하학적 수렴과 기능적 전이 사이의 해리 현상 발견
훈련이 필요 없는 아키텍처 이상치 탐지 및 진단 도구 제공
모델 규모가 커질수록 보편성이 강화될 가능성 시사

서로 다른 LLM 아키텍처들이 고차원 개념을 구조적으로 호환 가능한 방식으로 인코딩(encode)할까요? 우리는 기하학적-기능적 보편성 해리(geometric-functional universality dissociation)를 체계적으로 규명합니다. 즉, 여러 개념 영역과 아키텍처 계열에 걸쳐, 적당한 수준의 기하학적 수렴(geometric convergence)이 거의 완벽한 기능적 전이(functional transfer)와 공존한다는 점을 발견했습니다. 샘플별 대조적 차이(per-sample contrastive differences)에 대한 커널 정렬(kernel alignment)을 계산하는 훈련이 필요 없는 진단 도구인 Contrastive-Difference CKA (CKA_Delta)를 사용하여, 우리는 일반적인 유사성으로부터 개념 특이적 수렴을 분리해 냈으며, 표준 CKA가 수행하지 못하는 유의미한 판별력을 달성했습니다. 이러한 해리 현상은 우리가 테스트한 6개의 모든 개념 영역에서 재현되었습니다(5개 영역에서 기하학적 판별력 p <= 0.017, 안전성(safety)은 수렴-기능적 추세로 나타남, p = 0.08). 여기에는 시스템 프롬프트 없이 검증된 두 가지 비지시적(non-instruction) 개념(코드 vs 자연어(code-vs-NL), 추론 vs 회상(reasoning-vs-recall))이 포함됩니다. 단일 70B--70B 쌍의 사례는 보충적인 관찰 결과로서, 보편성이 규모(scale)에 따라 강화될 수 있음을 시사하며, 이는 70B 이상의 추가 모델을 통한 재현이 필요합니다. 우리는 CKA_Delta를 절대적인 전이-정확도 예측기라기보다는, 실용적인 체제 분류기(regime classifier) 및 아키텍처 이상치 탐지기(architectural outlier detector, Gemma: d = 1.08, AUC = 0.79)로 정의하며, 아키텍처 간 개념 모니터링을 위한 훈련이 필요 없는 진단 도구를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Contrastive-Difference CKA를 통한 언어 모델 아키텍처 간 개념 특이적 구조적 정렬(Structural Alignment)

요약

핵심 포인트

댓글