arXiv논문2026. 04. 28. 14:44

LLM 을 활용한 다 파일 DSL 코드 생성: 산업 현장 사례 연구

요약

본 연구는 LLM을 활용하여 다수의 파일과 복잡한 폴더 구조를 아우르는 도메인 특정 언어(DSL) 코드를 생성하고 수정하는 엔드투엔드 파이프라인을 개발했습니다. BMW 현장 사례 연구를 기반으로, Xtext 기반 DSL 아티팩트 생성을 목표로 코드 중심 LLM을 적응시켰습니다. 이 과정에서 DSL 폴더 계층 구조는 경로가 보존된 JSON 형태로 인코딩되어 저장소 규모의 단일 응답 생성과 교차 파일 의존성 학습이 가능하게 했습니다. 파인튜닝(QLoRA)을 적용한 모델들이 가장 높은 정확도와 구조적 충실도를 보여주었으며, 이는 LLM이 복잡한 산업 현장의 코드 생성 작업에 실질적인 유용성을 가짐을 입증했습니다.

핵심 포인트

LLMs를 활용하여 다중 파일 및 폴더 구조의 DSL 코드를 생성하는 엔드투엔드 파이프라인 개발.
DSL 아티팩트 생성을 위해 폴더 계층 구조를 경로가 보존된 JSON으로 인코딩하여 모델 학습에 사용함.
QLoRA와 같은 파인튜닝 기법이 베이스라인 프롬프팅 대비 가장 큰 성능 향상을 가져옴.
표준 지표 외에 '편집 정확도' 및 '저장소 구조 충실도' 등 작업 특화 평가 지표를 도입하여 실용성을 검증함.

대형 언어 모델 (LLMs) 은 범용 코드 생성에서 강력한 성능을 보이지만, 기업용 도메인 특정 언어 (DSLs) 에 대한 적용 가능성은 여전히 탐구되지 않았으며, 특히 단일 자연어 (NL) 지시사항으로부터 여러 파일과 폴더 구조를 아우르는 저장소 규모 변경 생성에 대해서는 더욱 그러하다. 우리는 BMW 에서 수행한 산업 현장 사례 연구를 보고한다. 이 연구에서는 Xtext 기반 DSL 이 하류 Java/TypeScript 코드 생성을 주도하는 프로젝트 루트 DSL 아티팩트를 생성 및 수정하도록 코드 중심의 LLM 을 적응시켰다. 우리는 데이터셋 구축, 다 파일 작업 표현, 모델 적응, 평가에 이르는 엔드투엔드 파이프라인을 개발하였다. 우리는 DSL 폴더 계층 구조를 경로가 보존된 구조화된 JSON 으로 인코딩하여 저장소 규모에서 단일 응답 생성과 교차 파일 의존성 학습을 가능하게 했다. 우리는 베이스라인 프롬프팅, 원샷 인컨텍스트 러닝, 파라미터 효율적 파인튜닝 (QLoRA) 이라는 세 가지 구성 하에서 두 개의 지시사항 튜닝 코드 LLM(Qwen2.5-Coder 와 DeepSeek-Coder, 7B) 을 평가하였다. 표준 유사도 지표 외에도 편집 정확도와 저장소 구조 충실도를 평가하는 작업 특화 지표를 도입하였다. 파인튜닝은 모든 모델과 지표에서 가장 큰 향상을 가져왔으며, 보유 집합의 다 파일 출력에 대해 높은 정확한 일치 정확도, 상당한 편집 유사도, 그리고 1.00 의 구조적 충실도를 달성하였다. 동시에, 원샷 인컨텍스트 러닝은 베이스라인 프롬프팅 대비 작지만 일관된 향상을 제공한다. 우리는 또한 기존 코드 생성기를 활용한 실행 기반 검사와 전문가 개발자 설문 조사를 통해 실용적 유용성을 추가로 검증하였다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 을 활용한 다 파일 DSL 코드 생성: 산업 현장 사례 연구

요약

핵심 포인트

댓글