arXiv논문2026. 06. 23. 12:10

건축 규정의 자동 코드 준수 (ACC)를 개선하기 위한 강화학습 (Reinforcement Learning)

요약

건축 규정 자동 준수(ACC)를 위해 LLM의 환각 현상을 줄이는 2단계 프레임워크 P4IR을 제안합니다. SFT로 도메인 지식을 주입한 후 GRPO를 통해 코드 스켈레톤의 정확도를 높여, 기존 선도 모델들보다 뛰어난 성능을 입증했습니다.

핵심 포인트

SFT와 GRPO를 결합한 2단계 프레임워크 P4IR 제안
코드 스켈레톤 생성 시 트리 편집 거리 최대 23.8% 감소
Claude, GPT, Qwen 등 주요 LLM 대비 우수한 코드 구조 및 의미론적 성능
도메인 특화 목표 최적화를 통한 LLM 기반 ACC 시스템의 신뢰성 향상

건축 규정의 자동 코드 준수 (Automated Code Compliance, ACC)를 위한 대규모 언어 모델 (Large Language Model, LLM) 기반 접근 방식은 컴퓨터가 처리 가능한 규칙을 생성할 때 부정확하거나 환각 (Hallucination) 현상을 일으키기 쉽습니다. 본 논문은 P4IR을 소개합니다. 이는 지도 미세 조정 (Supervised Fine-Tuning, SFT)을 사용하여 LLM에 도메인 지식을 주입한 후, 고수준 코드 스켈레톤 (High-level code skeletons) 형태의 생성된 중간 표현 (Intermediate representations)의 정확도를 향상시키기 위해 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO)를 사용하는 2단계 프레임워크입니다. 이 프레임워크는 SFT 베이스라인과 비교하여 트리 편집 거리 (Tree edit distance)와 토큰 수준 레벤슈타인 거리 (Token-level Levenshtein distance)에서 각각 최대 23.8%와 38.6%의 감소를 달성했습니다. 비교 분석 결과, 제로샷 (Zero-shot) 설정에서의 이 접근 방식은 퓨샷 프롬프팅 (Few-shot prompting)을 통해 평가된 Claude Opus 및 Sonnet 4.5, GPT-5.2, Qwen-3-Max, GLM-4.7과 같은 선도적인 LLM들보다 코드 구조와 의미론(Semantics) 모두에서 더 뛰어난 성능을 보였습니다. 또한, GRPO 단계는 작지만 통계적으로 유의미한 거짓 양성 (False positives) 감소를 생성했습니다. SFT와 GRPO를 결합하여 도메인 특화 목표를 직접 최적화함으로써, 이 접근 방식은 더욱 정확하고 신뢰할 수 있는 LLM 기반 ACC 시스템을 향한 경로를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

건축 규정의 자동 코드 준수 (ACC)를 개선하기 위한 강화학습 (Reinforcement Learning)

요약

핵심 포인트

댓글