arXiv논문2026. 05. 14. 13:31

Rosetta에서 Match-Up까지: 인간 및 LLM 벤치마크를 포함한 언어 퍼즐 쌍 코퍼스

요약

본 논문은 고등학교 언어학 경시대회에서 사용되는 Rosetta Stone 및 Match-Up 형식의 언어 퍼즐 쌍 코퍼스를 구축하는 방법을 제시합니다. 기존 Rosetta Stone 퍼즐을 대응하는 Match-Up 형태로 변환하는 체계적인 절차를 제안하여, 새로운 퍼즐 생성 과정을 가속화합니다. 연구진은 이 쌍으로 이루어진 데이터셋을 인간 참가자와 대규모 언어 모델(LLMs) 모두에게 평가했으며, 해결사들은 전형적으로 '전부 아니면 전무' 패턴을 보인다는 것을 발견했습니다.

핵심 포인트

Rosetta Stone과 Match-Up 형식의 언어 퍼즐 쌍 코퍼스를 구축하는 방법을 제시함.
기존 Rosetta Stone 퍼즐을 Match-Up 대응물로 변환하는 효율적인 절차를 개발하여 퍼즐 생성 속도를 높임.
인간 해결사와 LLMs 모두가 Match-Up 퍼즐에서 '전부 아니면 전무(all-or-nothing)' 패턴을 보임을 확인했습니다.
새로운 데이터셋과 형식별 난이도 평가를 제공함으로써 인간 및 기계의 언어적 추론에 대한 통찰을 제공합니다.

본 논문에서는 고등학교 언어학 경시대회에서 사용되는 언어 퍼즐을 조사하며, 두 가지 일반적인 형식인 Rosetta Stone과 Match-Up에 초점을 맞춥니다. 우리는 기존의 Rosetta Stone 퍼즐을 그에 상응하는 Match-Up 대응물로 변환하기 위한 체계적인 절차를 제안합니다. 언어 퍼즐 생성은 복잡하고 시간이 많이 소요되기 때문에, 우리의 방법은 새로운 퍼즐 생성을 가속화하는 효율적인 방법을 제공합니다. 우리는 결과물인 Rosetta Stone-Match-Up 쌍을 인간 참가자와 대규모 언어 모델 (LLMs) 모두를 통해 평가합니다. 연구 결과, 숙련된 인간 해결사와 LLM 모두 Match-Up 퍼즐에서 전부 아니면 전무 (all-or-nothing) 패턴을 보이며, 퍼즐을 완전히 해결하거나 완전히 실패하는 양상을 나타냅니다. 본 연구는 쌍을 이룬 퍼즐의 새로운 데이터셋을 기여하며, 형식에 따른 퍼즐 난이도에 대한 상세한 평가를 제공하여 인간과 기계의 언어적 추론 (linguistic reasoning) 모두에 대한 통찰을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Rosetta에서 Match-Up까지: 인간 및 LLM 벤치마크를 포함한 언어 퍼즐 쌍 코퍼스

요약

핵심 포인트

댓글