arXiv중요논문2026. 04. 23. 22:44

LLM의 문법 해석 능력 진단: RoboGrid 프레임워크 분석

요약

대규모 언어 모델(LLM)이 에이전트 시스템에 통합되면서, 동적으로 정의된 기계 해석 가능한 인터페이스를 준수하는 것이 중요해졌습니다. 본 연구는 LLM을 인-컨텍스트 인터프리터로 평가하며, 새로운 문맥 자유 문법(CFG)을 주어졌을 때 구문론적 유효성, 행동적 기능성, 의미론적 충실성을 갖춘 출력을 생성할 수 있는지 검증합니다. 'RoboGrid'라는 프레임워크를 통해 재귀 깊이, 표현 복잡도 등을 통제된 스트레스 테스트로 분리하여 평가한 결과, LLM은 표면적인 구문(surface syntax)은 유지하지만 구조적 의미론(sem

핵심 포인트

LLM의 문법 해석 능력은 재귀 깊이나 구조적 밀도가 높아지면 급격히 저하됩니다.
CoT (Chain-of-Thought) 추론이 일부 완화 효과를 주지만, 심층적인 구조적 복잡성 앞에서는 성능이 무너집니다.
LLM은 순수한 기호적 유도(symbolic induction)보다는 키워드를 통한 의미론적 부트스트래핑에 의존하는 경향을 보입니다.
신뢰할 수 있는 문법 독립적 에이전트를 위해서는 계층적 상태 추적 능력이 필수적으로 요구됩니다.

LLM이 에이전트 시스템의 핵심 요소로 자리 잡으면서, 동적으로 정의된 기계 해석 가능한 인터페이스를 준수하는 것이 중요해졌습니다. 본 연구는 LLM을 인-컨텍스트 인터프리터(in-context interpreter)로서 평가합니다. 즉, 새로운 문맥 자유 문법(CFG)이 주어졌을 때, 모델이 구문적으로 유효하고 행동적으로 기능하며 의미론적으로 충실한 출력을 생성할 수 있는지 검증하는 것입니다.

연구진은 'RoboGrid'라는 프레임워크를 도입하여 문법의 세 가지 측면(구문론, 행동성, 의미론)을 분리하여 테스트했습니다. 재귀 깊이와 표현 복잡도 등 통제된 스트레스 테스트를 통해 LLM의 성능을 측정했습니다.

실험 결과에 따르면, LLM은 일관되게 계층적 저하(hierarchical degradation) 패턴을 보였습니다. 모델들은 표면적인 구문 구조는 어느 정도 유지하지만, 핵심이 되는 구조적 의미론을 보존하는 데 어려움을 겪었습니다. 심지어 CoT (Chain-of-Thought) 추론과 같은 방법으로 부분적인 완화 효과를 얻었음에도 불구하고, 깊은 재귀나 높은 분기(branching)와 같은 구조적 밀도가 높아지면 성능이 급격히 저하되었으며, 극단적인 깊이에서는 의미론적 정렬(semantic alignment) 자체가 사라지는 현상이 관찰되었습니다.

또한 'Alien' 어휘를 사용한 테스트는 LLM이 순수한 기호적 유도보다는 키워드로부터의 의미론적 부트스트래핑에 의존한다는 점을 밝혀냈습니다. 이러한 결과들은 신뢰할 수 있고 문법 구조에 구애받지 않는 에이전트를 구축하기 위해 필수적인 '계층적 상태 추적(hierarchical state-tracking)' 능력에 심각한 격차가 있음을 지적합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM의 문법 해석 능력 진단: RoboGrid 프레임워크 분석

요약

핵심 포인트

댓글