arXiv논문2026. 06. 29. 11:22

BashCoder-R1: 강건성 인지 그룹 상대 정책 최적화(Robustness-Aware Group Relative Policy

요약

BashCoder-R1은 Bash 스크립트 생성의 블랙박스 추론과 강건성 문제를 해결하기 위한 새로운 프레임워크입니다. CPT, L-CoT SFT, 그리고 R-GRPO 강화 학습 기법을 결합하여 설명 가능하고 안전한 코드 생성을 목표로 합니다.

핵심 포인트

R-GRPO 강화 학습을 통한 강건성 및 구문 정확성 최적화
Bash 특화 지속적 사전 학습(CPT) 및 긴 사고 사슬(L-CoT) 적용
새로운 벤치마크 BashBench를 통한 성능 검증
DeepSeek-V3.2 대비 FullRate 기준 압도적 성능 향상

Bash 스크립트는 시스템 관리 및 DevOps 자동화의 초석이며, 여기서 코드 품질은 시스템 안정성과 보안에 직접적인 영향을 미칩니다. 대규모 언어 모델(LLMs)을 사용한 자동 Bash 스크립트 생성에서는 서로 연결된 두 가지 실패 사례가 나타납니다: 감사 불가능한 "블랙박스(black box)" 추론과 생성된 코드의 치명적인 강건성(robustness) 취약점입니다. 이 두 가지 문제를 해결하기 위해, 우리는 강건하고 설명 가능한 Bash 스크립트 생성을 위한 새로운 프레임워크인 BashCoder-R1을 제안합니다. 우리의 파이프라인은 다음을 결합합니다: (1) 모델을 Bash 패러다임에 특화시키기 위한 지속적 사전 학습(Continual Pre-training, CPT); (2) 선제적인 위험 인지 사고를 모방하기 위해 전문가가 검증한 추론 및 코드 샘플을 활용한 긴 사고 사슬 지도 미세 조정(Long Chain-of-Thought Supervised Fine-Tuning, L-CoT SFT); (3) 구문 정확성, 강건성(shellcheck을 통해 검증), 형식 정확성에 대한 가중치 보상을 최적화하는 강화 학습 단계인 강건성 인지 그룹 상대 정책 최적화(Robustness-Aware Group Relative Policy Optimization, R-GRPO)입니다. 우리는 952개의 실제 작업(단일 행 773개, 다중 행 179개)으로 구성된 새로운 벤치마크인 BashBench에서 평가를 수행합니다. BashCoder-R1은 단일 행/다중 행 작업에 대해 SyntaxPass(100.00%/94.97%), RobustWarnRate(4.01%/16.47%), RobustPass(95.99%/79.33%), FuncRate(93.01%/93.85%), FullRate(90.04%/73.18%)를 달성하였으며, 가장 강력한 베이스라인인 DeepSeek-V3.2 (Reasoning)를 FullRate 기준 37.82% 및 20.18% 차이로 앞질렀습니다. 기능성(Functionality), 강건성(Robustness), 명확성(Clarity)에 대한 인간 평가를 통해 BashCoder-R1이 가장 높은 품질 등급을 달성함을 추가로 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

BashCoder-R1: 강건성 인지 그룹 상대 정책 최적화(Robustness-Aware Group Relative Policy

요약

핵심 포인트

댓글