다회차 LLM 프로그래밍 대화에서의 회귀 누적 (Regression Accumulation)

LLM 지원 소프트웨어 개발에서 코딩은 종종 반복적으로 이루어집니다. 우리는 다회차 LLM 프로그래밍 대화에서 발생하는 회귀 누적 (Regression Accumulation)을 연구하며, 여기서 나중에 제안된 코드가 이전 회차에서 도입된 요구사항을 깨뜨릴 수 있습니다. 따라서 신뢰성은 현재의 요청을 충족하는 것뿐만 아니라, 이전에 충족된 동작을 보존하는 데에도 달려 있습니다. 우리는 HumanEval+ 및 MBPP+로부터 542개의 태스크를 구성하고, 각 태스크를 8회차의 요구사항 진화 체인 (requirement-evolution chain)으로 확장했습니다. 우리는 26,016개의 회차 인스턴스 (542 x 6 x 8)에 대해 6개의 LLM을 평가합니다. 각 회차마다 현재 코드가 이전 벤치마크 테스트를 여전히 통과하는지 테스트합니다. 또한 실패 집단에서 384개의 실패 사례를 분석하고, 4명의 독립적인 어노테이터 (annotator) 라벨링을 통해 다회차 회귀 버그 (multi-turn regression bugs)의 분류 체계를 구축합니다. 우리의 결과에 따르면, 회귀 누적은 6개 모델 모두에서 나타납니다: 태스크의 40%에서 73%가 전체 대화 과정에서 이전에 올바랐던 동작을 상실합니다. 최종 회차의 품질은 모든 모델에서 초기 회차의 품질보다 낮으며, 특히 나중 회차에서 입력 검증 (input validation)이나 더 넓은 입력 유형을 추가할 때 더욱 그러합니다. 수동 분석 결과, 나중 코드가 이전 요구사항과 충돌하는 교차 회차 충돌 (Cross-Turn Conflict)이 주요 실패 클래스임을 보여줍니다. 우리는 더 나아가, 새로운 코드를 이전 테스트와 대조하여 롤백 (rollback) 및 재시도 (retry)를 트리거하는 검증 게이트 (Verification Gate)가 모든 모델을 일관되게 개선하는 유일한 전략임을 발견했습니다. 이는 DeepSeek-V3의 최종 회차 품질을 75.8%에서 87.9%로, Llama-3.1-8B의 품질을 31.6%에서 47.3%로 높였습니다. 이러한 발견은 강력한 단일 회차 성능이 다회차 코딩 대화에서의 신뢰성을 과대평가할 수 있음을 시사합니다. 향후 평가 및 도구 설계는 나중 코드 제안이 이전 요구사항을 보존하는지 테스트해야 하며, 검증 게이트 (Verification Gate) 메커니즘을 포함해야 합니다.

Insights

다회차 LLM 프로그래밍 대화에서의 회귀 누적 (Regression Accumulation)

요약

핵심 포인트

댓글

아무도 지켜보지 않을 때 LLM 에이전트가 말하는 것: 멀티 에이전트 토론에서의 사회적 구조와 잠재적 목표의 출현

Program-as-Weights: 퍼지 함수(Fuzzy Functions)를 위한 프로그래밍 패러다임

Adam을 넘어서: 머신러닝 원자간 포텐셜(MLIP)의 더 빠르고 라벨 효율적인 학습을 위한 SOAP 및 Muon

LLM을 위한 온라인 안전 모니터링 (Online Safety Monitoring for LLMs)

아무도 지켜보지 않을 때 LLM 에이전트가 말하는 것: 멀티 에이전트 토론에서의 사회적 구조와 잠재적 목표의 출현

Program-as-Weights: 퍼지 함수(Fuzzy Functions)를 위한 프로그래밍 패러다임

Adam을 넘어서: 머신러닝 원자간 포텐셜(MLIP)의 더 빠르고 라벨 효율적인 학습을 위한 SOAP 및 Muon

LLM을 위한 온라인 안전 모니터링 (Online Safety Monitoring for LLMs)