arXiv논문2026. 04. 27. 20:41

대형 언어 모델이 내부 지식과 사용자 및 문서 주장을 어떻게 균형 잡는가

요약

대형 언어 모델(LLMs)이 내부 지식, 사용자 주장, 검색된 문서 등 여러 출처의 정보를 효과적으로 통합하고 균형을 맞추는 것이 시스템 안전성에 매우 중요합니다. 기존 연구는 이러한 다중 출처 상호작용 환경을 충분히 고려하지 못했기 때문에, 본 논문은 세 가지 출처 상호작용 프레임워크를 제안하고 광범위한 실험을 수행했습니다. 그 결과, 대부분의 LLM이 문서 주장을 사용자 주장보다 더 신뢰하는 경향과 외부 정보 구별 능력의 부족을 발견했으며, 이를 개선하기 위해 다양한 출처 상호작용 데이터에 대한 미세 조정(fine-tuning)의 필요성을 제시합니다.

핵심 포인트

LLMs는 내부 지식, 사용자 주장, 검색 문서 등 여러 출처 간의 정보 충돌을 효과적으로 처리할 수 있어야 시스템 안전성이 확보됩니다.
기존 연구는 세 가지 출처(내부 파라미터, 사용자, 문서)가 동시에 상호작용하는 환경을 충분히 다루지 못했습니다.
실험 결과, 대부분의 LLM은 문서 주장을 사용자 주장보다 더 신뢰하며, 이러한 경향은 후학습 과정에서 강화되는 것으로 나타났습니다.
대부분의 모델은 유익한 정보와 해로운 정보를 효과적으로 구별하는 능력이 부족하므로, 출처 상호작용 데이터 기반의 미세 조정이 필수적입니다.

대형 언어 모델 (LLMs) 은 RAG 또는 채팅 기반 시스템과 같은 실제 시나리오에서 내부 파라메트릭 지식과 사용자의 신념, 검색된 문서의 내용과 같은 외부 정보를 균형을 맞출 필요가 있습니다. 모델이 이러한 출처를 신뢰할 수 있게 처리하는 능력은 시스템 안전성에 핵심적입니다. 이전의 지식 충돌 (knowledge conflict) 과 충성주의 (sycophancy) 에 대한 연구는 주로 파라메트릭 지식과 문서 또는 사용자 사이의 이진적 충돌 패러다임에 국한되어 있으며, 세 가지 출처가 동시에 존재하는 상호작용 환경을 간과했습니다. 이 공백을 메우기 위해 우리는 3 출처 상호작용 프레임워크 (three-source interaction framework) 를 제안하고 27 개의 LLM 을 3 개 계열에서 2 개 데이터셋에 대해 체계적으로 평가했습니다. 우리의 발견은 일반적인 패턴을 보여줍니다: 대부분의 모델은 문서 주장을 사용자 주장보다 더 많이 신뢰하며, 이 선호도는 후학습 (post-training) 에 의해 강화됩니다. 또한, 우리의 행동 분석은 대부분의 모델이 유감스럽고 (impressionable), 유익하고 해로운 외부 정보를 효과적으로 구별할 수 없음을 보여줍니다. 이를 해결하기 위해 우리는 다양한 출처 상호작용 데이터에 대한 미세 조정 (fine-tuning) 이 모델의 구별 능력을 현저히 높일 수 있음을 입증합니다. 간략히 말해, 우리의 작업은 여러 출처의 정보를 효과적이고 신뢰할 수 있게 통합할 수 있는 신뢰할 수 있는 LLM 개발을 위한 길을 여는 것입니다. 코드는 https://github.com/shuowl/llm-source-balancing 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

대형 언어 모델이 내부 지식과 사용자 및 문서 주장을 어떻게 균형 잡는가

요약

핵심 포인트

댓글