(어떻게) 대규모 언어 모델(LLMs)은 고수준 메시지 시퀀스 차트(HMSCs)를 이해하는가?
요약
본 논문은 대규모 언어 모델(LLMs)이 소프트웨어 개발 산출물 중 하나인 고수준 메시지 시퀀스 차트(HMSCs)의 의미론을 얼마나 이해하는지 조사했습니다. 연구진은 세 가지 LLM(Gemini-3, GPT-5.4, Qwen-3.6)에 대해 129개의 다양한 의미론적 작업을 수행하게 했으며, 그 결과를 분석했습니다. 그 결과, LLMs는 HMSCs의 기본 개념은 어느 정도 이해하지만, 추상화, 합성, 트레이스 및 LTSs와 같은 복잡한 의미론적 추론 과정에서는 낮은 정확도를 보이며 한계가 명확히 드러났습니다.
핵심 포인트
- LLMs는 HMSCs의 기본적인 이벤트 순서 등 기초적인 의미론적 개념은 비교적 잘 이해하는 것으로 나타났다 (정확도 약 88%).
- 하지만, 의미를 보존하는 추상화(Abstraction) 및 합성(Composition), 트레이스(Traces)와 LTSs 계산과 같은 복잡한 의미론적 추론 작업에서는 성능이 크게 저하되었다 (정확도 약 36%~42%).
- 세 LLM 모두 공역(Co-region)이나 명시적 인과 관계(Explicit Causal Dependencies) 개념을 이해하는 데 어려움을 겪었다.
- LLMs는 의미를 보존하는 변환 과정에서 특정 고급 개념들을 사용하지 못하는 한계를 보여주었다.
대규모 언어 모델(LLMs)은 소프트웨어 개발 생명 주기(Software Development Life-cycle) 전반의 작업을 자동화하기 위해 널리 채택되고 있습니다. 그러나 이러한 작업들이 다루어지는 산출물(Artefacts)의 의미론(Semantics)과 관련하여 일관되게 수행되는지는 불분투합니다. 이 문제는 특히 아키텍처 설계 사양(Architectural Design Specification)과 관련하여 연구가 미진한 상태입니다. 본 논문에서 우리는 고수준 메시지 시퀀스 차트(High-Level Message Sequence Charts, HMSCs)에 대해 이 문제를 다룹니다. HMSCs는 엄격한 형식적 의미론(Formal Semantics)을 가진 시각적 모델로, 통합 모델링 언어(Unified Modelling Language, UML)의 시퀀스 다이어그램(Sequence Diagrams)을 위한 기초를 포함하여 다양한 목적으로 사용되어 왔습니다. 우리는 세 가지 LLM(Gemini-3, GPT-5.4, Qwen-3.6)을 대상으로 HMSCs의 기본 의미론적 구성 요소(즉, 이벤트 및 그 순서)에 대한 질의부터 의미를 보존하는 추상화(Abstraction) 및 합성(Composition), 그리고 트레이스(Traces) 집합과 트레이스 동등 레이블 지정 전이 시스템(Trace-equivalent Labelled Transition Systems, LTSs)의 계산에 이르기까지 129개의 의미론적 작업을 수행하게 함으로써 LLM이 HMSCs의 의미론을 "이해"하는지 조사합니다. 결과에 따르면 LLM은 HMSCs의 형식적 의미론에 대해 완만한 수준의 이해도(전체 정확도 약 52%)만을 가지고 있으며, 서로 다른 의미론적 개념에 따라 큰 변동성을 보였습니다. LLM은 MSCs의 기본 의미론적 개념은 이해하는 것으로 보이지만(정확도 약 88%), 추상화 및 합성이 포함된 작업에서의 의미론적 추론(정확도 약 36%)과 트레이스 및 LTSs(정확도 약 42%)에서는 어려움을 겪었습니다. 특히, 세 LLM 모두 공역(Co-region) 및 명시적 인과 관계(Explicit Causal Dependencies) 개념에 어려움을 겪었으며, 의미를 보존하는 변환(Semantic-preserving Transformations) 과정에서 이를 한 번도 사용하지 않았습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기