arXiv논문2026. 06. 02. 10:14

대규모 언어 모델의 파라미터 기반 지식 편집 재고: 이론적 한계와 실증적 증거

요약

파라미터 기반 지식 편집이 LLM의 추론 능력을 저해하는 이론적 한계를 분석합니다. 차원 붕괴 가설을 통해 국소적 수정이 전역적 간섭을 일으키는 과정을 설명하며, 검색 기반 방식이 파라미터 편집보다 우수함을 입증합니다.

핵심 포인트

차원 붕괴 가설을 통한 파라미터 편집의 이론적 한계 규명
국소적 가중치 수정이 전역적 간섭 및 추론 붕괴 유발
검색 기반(Retrieval-based) 방식이 파라미터 편집보다 성능 우위
지식 편집 시 모델의 핵심 능력 보존이 향후 핵심 과제

파라미터 기반 지식 편집 (Parameter-based knowledge editing)은 국소적인 가중치 수정 (localized weight modifications)을 통해 대규모 언어 모델 (LLMs)의 내부 지식을 업데이트하며 상당한 주목을 받아왔습니다. 그러나 기존의 대부분의 방법론은 근본적인 이론적 한계를 간과하고 있으며, 실제 실무 지향적인 설정 하에서 평가되는 경우가 드뭅니다. 본 논문에서 우리는 먼저 차원 붕괴 가설 (dimensional Collapse Hypothesis)에 기반한 이론적 분석을 제시하여, 국소적인 파라미터 편집이 표현 공간 (representation space) 내의 취약한 방향을 따라 어떻게 전파되어 전역적 간섭 (global interference)을 유도하고 궁극적으로 추론 붕괴 (reasoning collapse)를 일으키는지 설명합니다. 이러한 통찰을 바탕으로, 우리는 지식 복잡도 (knowledge complexity), 편집 횟수 (number of edits), 평가 차원 (evaluation dimensions) 및 베이스라인 방법론 (baseline methods)을 체계적으로 변화시키며 종합적인 실증적 평가를 수행합니다. 우리의 연구 결과는 파라미터 기반 편집 방법들이 LLM의 핵심 능력을 지속적으로 손상시킨다는 것을 보여줍니다. 이와 대조적으로, 단순한 검색 기반 (retrieval-based) 베이스라인은 평가된 모든 조건에서 모든 파라미터 편집 방법보다 일관되게 더 강력한 성능을 달성합니다. 이러한 발견은 지식 편집 후 LLM의 근본적인 능력을 보존하는 것이 향후 연구의 핵심 과제가 되어야 함을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델의 파라미터 기반 지식 편집 재고: 이론적 한계와 실증적 증거

요약

핵심 포인트

댓글