코드로부터의 요구사항 생성 가능성에 대하여: 경험 보고서
요약
소스 코드로부터 요구사항을 생성하여 데이터셋을 구축하려는 LLM 기반 접근 방식의 한계를 다룬 연구 보고서입니다. 실험 결과 LLM은 고품질 요구사항 생성 및 스멜 도입에 실패했으며, 인간의 감독이 필수적임을 시사합니다.
핵심 포인트
- LLM을 이용한 코드-요구사항 데이터셋 생성의 실효성 검증
- LLM의 고품질 요구사항 생성 및 미구현 요구사항 생성 능력 한계 확인
- 요구사항 스멜 탐지를 위한 LLM 및 인간 참여형 방식의 불충분함
- 품질 보증을 위한 인간 감독의 필요성 강조
요구사항 공학 (Requirements Engineering) 분야의 실증 연구는 소스 코드와 그에 대응하는 요구사항이 쌍을 이루는 적절한 데이터셋의 부족으로 인해 어려움을 겪고 있습니다. 이러한 부족함을 해결하기 위한 유혹적인 방법은 대규모 언어 모델 (Large Language Models, LLMs)을 사용하여 기존 코드베이스로부터 요구사항을 합성하는 것입니다. 본 연구에서는 소스 코드로부터 요구사항을 생성하고, 인간 참여형 (human-in-the-loop) 방식을 통해 구현 상태를 검증하며, 합성된 요구사항 스멜 (requirements smells) 및 미구현 요구사항을 인위적으로 도입하는 LLM 기반 및 검색 증강 생성 (RAG) 지원 에이전트 접근 방식을 평가함으로써 이 문제를 조사합니다. 우리의 목표는 현실을 모방하고 실증적인 RE 연구를 촉진할 수 있는 데이터셋을 만드는 것이었습니다. 그러나 연구 과정에서 다양한 문제들이 발생하였으며, 이에 따라 본 경험 보고서를 작성하게 되었습니다. 우리의 초기 가설과 달리, LLM은 (i) 미구현 요구사항을 신뢰성 있게 생성하거나, (ii) 고품질의 요구사항을 생성하거나, (iii) 합성된 요구사항 스멜을 신뢰성 있게 도입하는 데 실패했습니다. 또한, LLM이나 단일 인간 참여형 방식 모두 요구사항 스멜을 신뢰성 있게 탐지하기에는 충분하지 않았습니다. 이러한 결과는 LLM을 사용한 코드-to-요구사항 데이터셋 생성이 아직 실행 가능하지 않으며, 특히 품질 보증을 위해 인간의 감독이 필요함을 시사합니다. 우리는 학습한 교훈을 비판적으로 성찰하고 연구자와 실무자 모두를 위한 관련 결론을 도출합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기