모델은 위반 사항을 기억합니다: 다중 턴 LLM 아이디어 생성에서의 제약 준수
요약
이 연구는 다중 턴(multi-turn) LLM을 이용한 과학적 아이디어 생성 과정에서 모델의 제약 준수 능력을 평가하기 위한 새로운 벤치마크인 DriftBench를 소개합니다. 분석 결과, 반복적인 상호작용 압력은 구조적 복잡성을 증가시키지만, 종종 초기 설정된 제약을 지키는 능력(제약 준수)을 떨어뜨리는 경향이 있음을 발견했습니다. 특히 모델이 위반하는 제약을 정확히 '기억'하고 있는 현상('알고도 위반한다', KBV)은 선언적 기억과 행동적 준수 사이의 괴리를 보여주며, 이는 LLM 평가 시 중요한 고려 사항입니다.
핵심 포인트
- 다중 턴 상호작용에서 LLM은 복잡성을 증가시키지만 제약 준수가 어려워진다.
- 모델이 위반하는 제약을 정확히 기억하는 '알고도 위반한다(KBV)' 현상이 발견되었으며, 이는 모델의 행동적 한계를 보여준다.
- 구조적 체크포인트링 같은 방법으로는 KBV 문제를 근본적으로 해결할 수 없다.
- LLM 판사에게 의존한 평가 점수는 제약 위반을 과소 감지할 위험이 있어 인간 검증이 필수적이다.
연구자들이 대형 언어 모델 (LLM) 과 함께 아이디어를 반복적으로 개선할 때, 모델이 원래 목표에 대한 충실성을 유지하는가? 우리는 다중 턴 LLM 보조 과학적 아이디어 생성 (scientific ideation) 에서의 제약 준수 (constraint adherence) 를 평가하기 위한 벤치마크인 DriftBench 를 소개합니다. 5 개 공급업체의 7 개 모델 (그 중 2 개는 오픈 웨이트), 4 가지 상호작용 조건, 그리고 24 개의 과학 도메인에서 온 38 편의 연구 간략서 (research briefs) 를 아우르는 총 2,146 건의 점수화된 벤치마크 실행 결과를 통해, 반복적인 압력 (iterative pressure) 이 구조적 복잡성을 신뢰성 있게 증가시키고 종종 원래 제약에 대한 준수를 감소시킨다는 것을 발견했습니다. 재발표 탐지 (restatement probe) 는 선언적 기억 (declarative recall) 과 행동적 준수 (behavioral adherence) 사이의 해리 (dissociation) 를 드러냈습니다. 모델은 동시에 위반하는 제약을 정확하게 재발표하기 때문입니다. 기억은 유지되지만 제약 불복종이 있는 '알고도 위반한다' (knows-but-violates, KBV) 비율은 모델에 따라 8% 에서 99% 까지 다양합니다. 구조적 체크포인트링 (structured checkpointing) 은 KBV 비율을 부분적으로 감소시키지만 해리를 해결하지는 못하며, 복잡성 팽창 (complexity inflation) 이 지속됩니다. 맹검 평가자 (blind raters) 에 대한 인간 검증은 LLM 판사가 제약 위반을 과소 감지 (under-detects) 함을 확인하여 보고된 제약 준수 점수가 보수적임을 나타냅니다. 민감도 분석은 결과가 온도 (temperature: 0.7 대 1.0) 와 압력 유형 (novelty 대 rigor) 에 대해 견고함을 확인했습니다. 우리는 모든 간략서, 프롬프트, 평가 기준, 전사본 및 점수를 오픈 벤치마크로 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기