arXiv논문2026. 06. 17. 12:40

LoopCoder-v2: 효율적인 테스트 시간 계산 스케일링을 위해 단 한 번만 루프 수행

요약

LoopCoder-v2는 순차적 루핑의 지연 시간과 메모리 문제를 해결하기 위해 Parallel loop Transformers(PLT) 구조를 제안합니다. 연구 결과, 2회의 루프를 수행할 때 코드 생성 및 소프트웨어 엔지니어링 성능이 최적화됨을 확인했습니다.

핵심 포인트

PLT 구조를 통해 루프 횟수에 따른 지연 시간 및 KV-캐시 비용 완화
2-루프 모델이 SWE-bench Verified에서 43.0에서 64.4로 성능 향상
루프 횟수가 증가할수록 이득-비용 트레이드오프에 의해 성능이 비단조적으로 변화
3회 이상의 루프는 표현 다양성 감소 및 위치 불일치 비용으로 인해 성능 퇴보

Looped Transformers는 공유된 블록을 반복적으로 적용하여 잠재 계산(latent computation)을 확장하지만, 순차적 루핑(sequential looping)은 루프 횟수에 따라 지연 시간(latency)과 KV-캐시(KV-cache) 메모리를 증가시킵니다. Parallel loop Transformers (PLT)는 교차 루프 위치 오프셋(cross-loop position offsets, CLP)과 공유-KV 게이트형 슬라이딩 윈도우 어텐션(shared-KV gated sliding-window attention)을 통해 이러한 비용을 완화하여, 루프 횟수를 실질적인 설계 선택지로 만듭니다. 따라서 우리는 이득-비용(gain--cost) 관점을 통해 PLT 루프 횟수 선택을 연구합니다. 추가적인 루프는 표현(representations)을 정교화할 수 있지만, CLP는 각 루프 경계에서 위치 불일치(positional mismatch)를 유발하기도 합니다. 우리는 18T 토큰을 사용하여 서로 다른 루프 횟수를 가진 7B PLT 코더 제품군인 LoopCoder-v2를 처음부터 학습시킨 후, 이에 맞춘 지시어 튜닝(instruction tuning) 및 평가를 통해 이 연구를 구체화합니다. 경험적으로, 2-루프 변형 모델은 코드 생성, 코드 추론, 에이전트 기반 소프트웨어 엔지니어링(agentic software engineering) 및 도구 사용(tool-use) 벤치마크 전반에서 루프가 없는 베이스라인보다 폭넓은 이득을 제공하며, SWE-bench Verified를 43.0에서 64.4 포인트로, Multi-SWE를 14.0에서 31.0 포인트로 향상시켰습니다. 반면, 3회 이상의 루프를 가진 변형 모델들은 퇴보하며, 이는 루프 횟수 효과가 강한 비단조성(non-monotonic)을 띠고 있음을 보여줍니다. 우리의 진단 결과에 따르면, 루프 2는 주요한 생산적 정교화를 제공하는 반면, 이후의 루프들은 점차 감소하고 진동하는 업데이트와 감소된 표현 다양성(representational diversity)을 초래합니다. 정교화 이득이 줄어듦에 따라 CLP로 인한 불일치는 대략 일정하게 유지되기 때문에, 오프셋 비용이 점점 더 지배적이게 됩니다. 이러한 이득-비용 트레이드오프(gain--cost trade-off)는 PLT가 2개의 루프에서 포화되는 이유를 설명하며, 루프 횟수 선택을 위한 진단 근거를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LoopCoder-v2: 효율적인 테스트 시간 계산 스케일링을 위해 단 한 번만 루프 수행

요약

핵심 포인트

댓글