Rosetta에서 Match-Up까지: 인간 및 LLM 벤치마크를 포함한 언어 퍼즐 쌍 코퍼스
요약
본 논문은 고등학교 언어학 경시대회에서 사용되는 Rosetta Stone 및 Match-Up 형식의 언어 퍼즐 쌍 코퍼스를 구축하는 방법을 제시합니다. 기존 Rosetta Stone 퍼즐을 대응하는 Match-Up 형태로 변환하는 체계적인 절차를 제안하여, 새로운 퍼즐 생성 과정을 가속화합니다. 연구진은 이 쌍으로 이루어진 데이터셋을 인간 참가자와 대규모 언어 모델(LLMs) 모두에게 평가했으며, 해결사들은 전형적으로 '전부 아니면 전무' 패턴을 보인다는 것을 발견했습니다.
핵심 포인트
- Rosetta Stone과 Match-Up 형식의 언어 퍼즐 쌍 코퍼스를 구축하는 방법을 제시함.
- 기존 Rosetta Stone 퍼즐을 Match-Up 대응물로 변환하는 효율적인 절차를 개발하여 퍼즐 생성 속도를 높임.
- 인간 해결사와 LLMs 모두가 Match-Up 퍼즐에서 '전부 아니면 전무(all-or-nothing)' 패턴을 보임을 확인했습니다.
- 새로운 데이터셋과 형식별 난이도 평가를 제공함으로써 인간 및 기계의 언어적 추론에 대한 통찰을 제공합니다.
본 논문에서는 고등학교 언어학 경시대회에서 사용되는 언어 퍼즐을 조사하며, 두 가지 일반적인 형식인 Rosetta Stone과 Match-Up에 초점을 맞춥니다. 우리는 기존의 Rosetta Stone 퍼즐을 그에 상응하는 Match-Up 대응물로 변환하기 위한 체계적인 절차를 제안합니다. 언어 퍼즐 생성은 복잡하고 시간이 많이 소요되기 때문에, 우리의 방법은 새로운 퍼즐 생성을 가속화하는 효율적인 방법을 제공합니다. 우리는 결과물인 Rosetta Stone-Match-Up 쌍을 인간 참가자와 대규모 언어 모델 (LLMs) 모두를 통해 평가합니다. 연구 결과, 숙련된 인간 해결사와 LLM 모두 Match-Up 퍼즐에서 전부 아니면 전무 (all-or-nothing) 패턴을 보이며, 퍼즐을 완전히 해결하거나 완전히 실패하는 양상을 나타냅니다. 본 연구는 쌍을 이룬 퍼즐의 새로운 데이터셋을 기여하며, 형식에 따른 퍼즐 난이도에 대한 상세한 평가를 제공하여 인간과 기계의 언어적 추론 (linguistic reasoning) 모두에 대한 통찰을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기