arXiv논문2026. 06. 15. 11:22

LLM은 다채로움을 포함한다: 배포 컨텍스트가 모델 수준의 선호도와 가치를 어떻게 재형성하는가

요약

LLM의 선호도와 가치 체계가 배포 컨텍스트(프레이밍)에 따라 어떻게 변화하는지 분석한 연구입니다. 실험 결과, 프롬프트 변화보다 작업 컨텍스트가 모델의 가치 판단에 더 큰 영향을 미치며, 기존의 편향성 또한 컨텍스트 의존적임을 밝혀냈습니다.

핵심 포인트

배포 컨텍스트는 프롬프트 패러프레이징보다 모델 가치 판단에 더 큰 변동을 유발함
모델의 글로벌 노스(Global North) 편향성은 컨텍스트에 따라 체계적으로 변화함
모델의 선호도와 효용은 고정된 속성이 아닌 컨텍스트에 조건화된 측정치임
특정 프레이밍에서의 안전 보장이 다른 상황에서는 유효하지 않을 수 있음

최근의 평가 연구에서 대규모 언어 모델 (LLMs)은 점차 안정적인 모델 수준의 선호도 및 가치 체계를 가진 것으로 특징지어지고 있습니다. 그러나 이에 수반되는 강건성 (robustness) 점검은 구문 변화나 선택지 순서 변경과 같은 부수적인 프롬프트 섭동 (prompt perturbations)에 국한되어 있습니다. 이는 대부분의 실제 배포 상황에서 발생하는 것처럼 주변의 작업 컨텍스트 (task context)가 변할 때 측정된 속성들이 유지되는지 여부를 미결 상태로 남겨둡니다. 우리는 확립된 두 가지 쌍체 패러다임(pairwise paradigms), 즉 국가 선호도 순위 매기기와 효용 판단 (utility judgements) 도출을 통해 이를 직접 테스트합니다. 두 사례 모두에서 우리는 모델이 구체적인 가치 의존적 선택을 내리는 동안 수행하는 상위 수준의 작업인 배포 컨텍스트 (deployment context)를 통제 변수로 설정하였으며, 이를 Reddit 게시물 작성이나 뉴스 기사 작성과 같은 프레이밍 (framings)에 따라 변화시켰습니다. 5개의 LLM과 120만 개 이상의 쌍체 결정에 걸쳐 테스트한 결과, 배포 컨텍스트는 프롬프트 패러프레이징 (prompt paraphrasing)이나 온도 (temperature) 제어보다 훨씬 더 큰 변동을 일으킵니다. 15개국 이상의 국가 선호도 순위 매기기에서 컨텍스트는 광범위하고 통계적으로 유의미한 순위 변화를 유도합니다. 이전 연구에서 보고된 집단적인 글로벌 노스 (Global North) 편향성은 그 자체로 컨텍스트 의존적이며, 각 모델의 편향은 컨텍스트에 따라 체계적으로 변화합니다. 50가지 결과에 대한 효용 도출 (utility elicitation)에서는 광범위한 범주 간 순위는 유지되지만, 도메인 내의 세부 순위는 상당히 변하며, 결과 간의 기수적 교환율 (cardinal exchange rates, 예: 한 지역의 생명 몇 명이 다른 지역의 생명 한 명과 맞먹는가)은 중앙값 기준으로 2.47배까지 변화합니다. 따라서 보고된 모델 수준의 선호도와 효용은 고정된 모델 수준의 속성이라기보다 컨텍스트에 조건화된 측정치 (context-conditioned measurements)로 이해하는 것이 더 적절합니다. 즉, 한 가지 프레이밍 하에서 얻은 안전 보장 (safety guarantees)은 다른 프레이밍에서는 제한적인 확신만을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM은 다채로움을 포함한다: 배포 컨텍스트가 모델 수준의 선호도와 가치를 어떻게 재형성하는가

요약

핵심 포인트

댓글