본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 19:54

작업 표현이 대규모 언어 모델의 전제에 미치는 영향

요약

본 연구는 대규모 언어 모델(LLMs)이 실세계 응용에서 안전성과 신뢰성을 확보하는 데 있어 '작업 표현(task representation)'이 전제(assumption)를 유도하는 방식과 그 영향을 탐구합니다. 반복된 죄수의 딜레마 사례 연구를 통해, LLMs가 추론 단계를 거치더라도 특정 작업 표현에 의해 형성된 전제에는 취약함을 확인했습니다. 따라서 LLM의 신뢰성을 높이기 위해서는 적절하고 중립적인 작업 표현을 설계하는 것이 중요함을 시사합니다.

핵심 포인트

  • LLMs는 실세계 응용에서 안전성과 신뢰성 확보에 어려움을 겪으며, 이는 전제(assumption) 유도와 관련이 깊다.
  • 작업 표현은 LLM의 의사결정 과정에 특정 전제를 심어주며, 모델이 이 전제에서 벗어나기 어렵게 만든다.
  • 반복된 죄수의 딜레마 실험 결과, LLMs는 추론 과정을 거치더라도 작업 표현 기반의 전제에 취약하다.
  • 작업 표현을 중립적으로 설계할 경우, LLMs는 적은 전제 하에서도 논리적 추론 능력을 보여준다.

예측 불가능한 실세계 응용에서 대규모 언어 모델 (LLMs) 의 안전성과 신뢰성에 대한 우려는, 작업 표현이 LLM 에서 전제를 어떻게 유도하는지, 그리고 이러한 전제가 존재할 때 LLM 이 해당 전제에서 벗어나도록 적응하기 어려워지는지를 살펴보는 본 연구의 동기를 부여합니다. 우리는 반복된 죄수의 딜레마 (iterated prisoner's dilemma) 를 사례 연구로 사용하여 이러한 전제가 LLM 의 성능에 미치는 영향을 조사했습니다. 우리의 실험 결과는, LLM 이 추론 단계를 포함하더라도 의사결정을 할 때 전제에 취약함을 보여줍니다. 그러나 작업 표현이 중립적일 때, 모델들은 많은 전제 없이 논리적 추론을 수행했습니다. 이러한 발견은 LLM 에서 전제의 위험을 줄이기 위한 적절한 작업 표현의 중요성을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0