arXiv논문2026. 06. 04. 13:44

TeleSWEBench: 통신 분야에서의 LLM 기반 소프트웨어 엔지니어링 평가를 위한 커밋 기반 벤치마크

요약

통신 도메인의 복잡한 소프트웨어 엔지니어링 능력을 평가하기 위한 최초의 커밋 기반 벤치마크인 TeleSWEBench를 제안합니다. srsRAN 5G 저장소의 실제 커밋을 활용하며, LLM 기반 평가 프레임워크인 TeleJudge를 통해 에이전트의 성능을 다각도로 측정합니다.

핵심 포인트

통신 특화 소프트웨어 엔지니어링 평가를 위한 TeleSWEBench 공개
srsRAN 5G 기반 734개의 난이도별 테스트 케이스 구성
LLM as a Judge 방식인 TeleJudge 평가 프레임워크 제안
최신 에이전트 도구들의 통신 도메인 내 낮은 성능 확인

통신(telecommunications) 분야가 새로운 O-RAN 및 AI-RAN 프레임워크와 함께 제로 터치 관리(zero touch management)를 수용함에 따라, 현대의 통신 네트워크는 이제 매우 복잡하고 고도로 소프트웨어화된 코드베이스(codebase)로 작동합니다. 자동화된 소프트웨어 엔지니어링 (ASE) 도구와 소프트웨어 엔지니어링 (SWE) 에이전트가 이 영역의 심각한 코드 생성 병목 현상을 완화할 잠재력을 가지고 있지만, srsRAN 5G와 같이 수학적으로 엄격하고 특화된 무선 스택(wireless stacks)을 탐색하고 수정하는 능력은 아직 검증되지 않았습니다. 범용 코딩 벤치마크는 통신의 상태 유지 로직(stateful logic)과 엄격한 요구 사항을 포착하지 못하여 중요한 평가 공백을 남깁니다. 본 논문에서는 통신 도메인에서 에이전트의 성능을 측정하기 위해 특별히 설계된 최초의 커밋 기반(commit-driven) 벤치마크인 TeleSWEBench를 소개합니다. 우리는 srsRAN 5G 저장소(repository)에서 실제 개발자 커밋을 추출하여 세 가지 난이도 단계(Easy, Medium, Difficult)에 걸쳐 구조화된 테스트 케이스로 정제했습니다. 우리의 벤치마크는 실행 가능한 유닛 테스트(unit tests)가 동반된 734개의 질문으로 구성됩니다. 테스트 케이스의 경직성을 피하기 위해, 우리는 에이전트의 출력을 파일 수준에서 점수화하고 판결을 총체적으로 집계하는 TeleJudge라는 계층적 LLM as a Judge 프레임워크를 추가로 제안합니다. 이는 표준 유닛 테스트 기반 평가와 병행하여 문맥 및 의미적 유사성(semantic similarity)에 기반한 평가를 따릅니다. 이 벤치마크를 사용하여, 우리는 Qwen3, GPT OSS, Gemma 4, Kimi, Qwencoder 2.5를 포함한 최첨단 추론 LLM으로 구동되는 AIDER, OpenHands, ClaudeCode 프레임워크를 평가합니다. 우리의 2단계 평가 결과, 모델들은 위치 정확도(localization accuracy)와 기능적 정확성(functional correctness) 모두에서 부족함을 겪고 있으며, 가장 강력한 ASE 도구조차 배포 가능한 변경 사항(shippable changes)을 최대 25%까지만 달성하는 것으로 나타났습니다.

AI 자동 생성 콘텐츠

원문 바로가기

TeleSWEBench: 통신 분야에서의 LLM 기반 소프트웨어 엔지니어링 평가를 위한 커밋 기반 벤치마크

요약

핵심 포인트

댓글