신호 없는 선택, 표현을 통한 복구: 동결된 소형 코드 모델을 위한 사후 반증 연산자(Post-Hoc Falsification
요약
동결된 소형 코드 모델의 성능을 개선하기 위한 다양한 사후 연산자(post-hoc operators)의 효용성을 연구했습니다. 실험 결과 대부분의 의미론적 연산자가 Best-of-N보다 성능이 낮았으나, 표현 계층 복구(M1) 방식은 DeepSeek-Coder-1.3B의 성능을 유의미하게 향상시켰습니다.
핵심 포인트
- 소형 코드 모델의 오류를 수정하기 위한 26개 사후 연산자 평가
- 대부분의 의미론적 연산자가 Best-of-N보다 정확도 향상에 실패함
- 커버리지 벽, 능력의 가위, 합의 함정 등 부정적 결과의 원인 분석
- 표현 계층 복구(M1) 연산자는 HumanEval+ 성능을 크게 향상시킴
- 적응형 합의 조기 종료(ACE)를 통한 컴퓨팅 자원 약 19% 절약 가능
동결된 소형 코드 모델(Frozen small code models, 파라미터 1.5B 이하, 미세 조정(fine-tuning) 없이 로컬에서 실행)은 오프라인 및 개인정보 보호가 제한된 환경에 적합하지만, 그럴듯해 보이지만 틀린 프로그램을 생성하는 경우가 많습니다. 자연스러운 해결책은 재학습 없이 모델의 샘플을 선택, 검증, 수리 또는 재처리하는 사후 연산자(post-hoc operator)입니다. 원칙적인 형태에서 이는 포퍼적(Popperian)입니다: 각 후보를 엄격한 테스트로 공격하고, 살아남는 것을 유지하는 방식입니다. 우리는 이러한 연산자들이 도움이 되는지 측정합니다. 하나의 결정론적 실행 오라클(deterministic execution oracle)과 누출 없는(leakage-free) 매칭 컴퓨팅 프로토콜 하에서, 26개의 의미론적 사후 연산자(selection, verification, repair, elimination, portfolios, sound vetoes, generation conditioning)를 Best-of-N (BoN)과 비교 평가했습니다. 테스트된 셀(cells)과 벤치마크에서, 그 어떤 것도 BoN보다 홀드아웃 정확도(held-out accuracy)를 향상시키지 못했습니다. 부정적인 결과는 기계론적입니다: 커버리지 벽(coverage wall, 더 깊은 샘플링으로도 구제할 수 없는 체계적인 어려운 작업 실패), 능력의 가위(capability scissors, 유능한 생성기는 가시적 테스트 통과자들 사이에서 구별 가능한 오류를 거의 남기지 않음), 그리고 거의 비어 있는 합의 함정(near-empty consensus trap, 누출 없는 선택기가 필요로 하는 '가시적으로는 통과하지만 숨겨진 오류가 있는 다수'가 올바른 대안과 거의 동시에 발생하지 않음)이 나타났습니다. 분포가 없는(distribution-free) '해를 끼치지 않음(do-no-harm)' 경계는 관찰된 해가 0일 때 n >= 45가 아닌 한 해 발생률 <= alpha를 보증할 수 없습니다. 두 가지 연산자는 의미론적 출력 공간 외부의 다른 축에서 도움이 됩니다. 표현 계층 복구(expression-layer recovery, M1)는 여기서 유일한 정확도 향상을 보였으며, 표준 추출기(standard extractor)가 버리는 올바른 프로그램을 복구합니다(강건한 추출 및 공개 테스트 시그니처 정렬). 이는 해를 끼치지 않으며(b10=0), 누출이 없고(leakage-free), DeepSeek-Coder-1.3B의 HumanEval+ 성능을 +12 태스크만큼 높였습니다(p=2.4e-4). 적응형 합의 조기 종료(adaptive consensus early-stop, ACE)는 보정된 컴퓨팅 절약 제어 장치입니다(~19% 절약, 해 없음). M1과 선택의 부정적 결과는 세 가지 모델 셀에 걸쳐 HumanEval+ 및 MBPP+에서 재현되었습니다. 교훈: 의미론적 사후 추론을 탓하기 전에 하네스(harness)를 고치고 커버리지를 측정하십시오.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기