"말하지 마세요!": 언어 모델이 Taboo 게임을 할 때의 제약, 준수 및 의사소통
요약
LLM이 금지어를 사용하지 않고 목표 단어를 설명하는 Taboo 게임을 통해 제약 조건 준수와 의사소통 효율성 사이의 트레이드오프를 연구했습니다. 프롬프팅부터 내부 표현 조작까지 다양한 개입 방식을 통해 오픈 웨이트 모델의 성능을 평가했습니다.
핵심 포인트
- 금지어 준수와 설명의 효과성 사이의 상충 관계 확인
- 프롬프팅, 생성 시점 제약, 내부 표현 조작 등 단계별 개입 분석
- 모델이 추측자로서 인간보다 성능이 낮음을 발견
- 제약 조건 하에서의 어휘적 접지(lexical grounding) 과제 제시
Taboo 게임은 다른 플레이어들이 목표 단어를 맞출 수 있도록, 정해진 금지어 세트를 사용하지 않고 목표 단어를 설명해야 합니다. 이 겉보기에 단순한 작업은 엄격한 어휘적 제약 (lexical constraints)과 의사소통 측면에서 효과적인 설명의 필요성을 결합하며, 이는 LLM (Large Language Models)이 추론 (inference) 시점에 상충하는 요구 사항을 어떻게 탐색하는지 조사하기 위한 매력적인 놀이터가 됩니다. 우리는 프롬프팅 (prompting)부터 생성 시점의 제약 (generation-time constraints), 그리고 내부 표현 조작 (internal representations manipulations)에 이르기까지, 생성 과정의 점진적으로 더 깊은 단계에서 개입하는 조건 하에 두 개의 오픈 웨이트 (open-weight) 모델을 평가합니다. 우리는 금지어 위반 탐지, 생성된 설명이 인간 및 기계 추측자 모두에게 목표 개념을 성공적으로 불러일으키는 정도를 측정하는 LLM-as-a-judge, 그리고 제약 조건 하에서 모델이 채택하는 전략이 인간 플레이어의 전략과 일치하는지 조사함으로써 출력을 평가합니다. 우리의 결과는 게임 규칙의 준수와 의사소통의 효과성이 조건에 따라 다르게 트레이드오프 (trade-off)된다는 것과, 모델이 추측자로서 인간보다 여전히 실질적으로 약하다는 것을 보여주며, 이는 제약 조건 하에서의 어휘적 접지 (lexical grounding)가 현재의 언어 모델들에게 여전히 해결해야 할 과제임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기