본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 23. 11:04

LLM의 사실적 정보 검색은 중복적이고 분산적이며 비연속적인 과정이다

요약

LLM이 사실적 정보를 검색할 때 엔티티 표현이 변환되는 메커니즘을 '속성 계산 경로' 관점에서 분석한 연구입니다. LLaMA 3.1 및 Qwen2 모델 실험을 통해 지식 계산 과정이 비연속적이고 중복적이며 분산되어 있음을 밝혀냈습니다.

핵심 포인트

  • 속성 계산 경로(attribute-computation path) 개념 제안
  • 지식 계산 과정의 비연속성 및 레이어 건너뛰기 현상 발견
  • 동일 사실에 대해 기능적으로 동일한 여러 경로가 존재하는 중복성 확인
  • 지식 계산의 분산적 특성이 국소화-편집 불일치를 유발할 가능성 시사

대규모 언어 모델 (LLMs)은 사실적 지식을 저장하고 회상하지만, 특정 속성 검색 (attribute retrieval)을 가능하게 하기 위해 엔티티 표현 (entity representations)이 어떻게 변환되는지에 대한 정확한 메커니즘은 아직 충분히 연구되지 않았습니다. 본 연구에서는 타겟 속성을 이끌어내는 데 필요한 엔티티 표현상의 일련의 계산 단계인 "속성 계산 경로 (attribute-computation path)"라는 관점을 통해 이 메커니즘을 조사합니다. 그런 다음, 이 계산에 필요한 최소한의 레이어 (layers) 하위 집합을 식별하기 위한 반복적 패칭 프로토콜 (iterative patching protocol)을 제안합니다. LLaMA 3.1 8B 및 Qwen3 8B에 우리의 방법을 적용한 결과, 이러한 경로들은 비연속적(non-contiguous)이며 종종 레이어를 건너뛴다는 것을 발견했습니다. 또한 모델은 동일한 엔티티와 사실에 대해 기능적으로 동일한 여러 경로를 보유하고 있으며, 이는 속성 계산에서 높은 수준의 중복성 (redundancy)을 나타냅니다. 이는 지식 계산이 매우 분산되어 있음을 의미하며, 잠재적으로 국소화-편집 불일치 (localization-editing mismatch) 현상을 설명할 수 있습니다. 또한 LLM에서의 지식 저장 및 검색이 아직 제대로 이해되지 않았음을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0