arXiv논문2026. 06. 26. 12:20

태스크 특화 지식 베이스로서의 언어 모델(LMs): 해석 가능성 분석

요약

언어 모델이 지식을 태스크 특화적인 방식으로 인코딩한다는 점을 행동적 및 기계론적 분석을 통해 규명합니다. 동일한 사실이라도 태스크에 따라 서로 다른 파라미터 서브셋을 사용함을 밝혀내어, 모델을 단순한 지식 베이스로 보는 관점에 의문을 제기합니다.

핵심 포인트

언어 모델은 지식을 태스크 특화적 방식으로 인코딩함
동일 사실에 대해서도 태스크별로 별개의 파라미터 서브셋 존재
CoT 추론은 태스크 특화적 파라미터를 활용하여 효과를 얻음
모델의 지식과 질문 방식이 파라미터 공간 내에서 뒤얽혀 있음

언어 모델(LMs)은 광범위한 작업에 적용 가능한 방대한 양의 사실적 지식을 포착하며, 이는 모델의 파라미터(parameters)를 지식 베이스(knowledge base)로 보는 관점을 뒷받침합니다. 지식 베이스의 중요한 속성은 동일한 사실에 대한 서로 다른 질의(queries)가 단일한 진실의 원천(single source of truth)을 바탕으로 일관된 결과를 반환한다는 점입니다. 본 연구에서는 행동적(behavioral) 및 기계론적(mechanistic) 분석을 통해 언어 모델이 이러한 속성을 충족하는지 조사합니다. 연구 결과, 언어 모델은 지식을 태스크 특화적(task-specific) 방식으로 인코딩(encode)한다는 점을 시사합니다. 행동적 측면에서, 한 태스크에서 습득된 사실은 훈련 과정 중 다른 태스크에서 함께 나타나지 못하는 경우가 빈번합니다. 파라미터 국소화(parameter localization) 실험은 이에 대한 기계론적 설명을 제시하며, 동일한 사실에 대해서도 서로 다른 태스크의 기저에는 별개의 파라미터 서브셋(parameter subsets)이 존재함을 밝혀냅니다. 마지막으로, 사고의 사슬(chain-of-thought) 추론이 평가 태스크와 연결된 파라미터를 넘어 태스크 특화적 파라미터를 활용함으로써 그 효과의 일부를 얻는다는 것을 보여줍니다. 우리의 연구 결과는 모델이 무엇을 아는지와 어떻게 질문하는지가 파라미터 공간(parameter space) 내에서 서로 뒤얽혀 있음을 시사하며, 이는 "지식 베이스" 비유를 약화시키고 언어 모델 내 사실적 지식의 신뢰성 및 제어 가능성에 시사점을 던집니다.

AI 자동 생성 콘텐츠

원문 바로가기

태스크 특화 지식 베이스로서의 언어 모델(LMs): 해석 가능성 분석

요약

핵심 포인트

댓글