노출이 아닌 반증: 동결된 소규모 코드 모델의 자기 수정 피드백에 대한 내부 사전 등록된 위약 대조 분해 연구
요약
동결된 소규모 코드 모델의 자기 수정 성능을 평가하기 위해 반증 가능성을 기반으로 한 새로운 방법론을 제안합니다. 단순 재시도와 피드백의 효과를 구분하기 위해 위약 대조 도구를 구축하여 실험적 검증을 수행했습니다.
핵심 포인트
- 피드백의 가치는 단순 노출이 아닌 실행 가능한 반례와의 비교에 있음
- 위약 대조 도구를 통해 피드백 내용의 실제 효과를 정밀하게 분해
- 블라인드 재샘플링과 코드+사실 피드백이 단순 재시도보다 우수한 성능 입증
- 모델의 추측과 연구자의 주장을 모두 반증 가능하게 만드는 방법론 제시
재학습이 불가능한 배포 환경에서, 소규모 동결 코드 모델(small frozen code models)은 일반적으로 자신의 실패한 출력을 확인한 후 실패한 프로그램을 수정하도록 요구받으며, 이는 대개 재시도(retry) 메커니즘으로 취급됩니다. Popper(포퍼)의 관점에서 볼 때, 생성된 프로그램은 추측(conjecture)이며, 테스트 실행 위반은 오라클(oracle) 상대적인 실행 가능한 반례(counterexample)입니다. 따라서 피드백의 가치는 실패한 코드에 다시 노출되는 것이 아니라, 해당 추측이 외부의 실행 가능한 비판에 열려 있는지 여부에 기인해야 합니다. 반증 중심 측정 프로그램의 세 번째 단계로서, 본 연구는 일치하는 출력 생성 예산(output-generation budget)을 가진 블라인드 재샘플링(blind-resampling) 기준선 및 내용이 없는 형태 일치 위약(content-free, shape-matched placebos)에 대해 피드백 패킷을 분해하는 위약 대조 도구(placebo-controlled instrument)를 구축합니다. 본 연구의 기여는 새로운 수정 알고리즘이 아니라, 모델의 프로그램 추측과 연구자의 "피드백 내용이 효과가 있다"라는 주장을 모두 반증 가능하게 만드는 성찰적 방법론(패킷 분해, 위약 미러링, 일치 예산 불일치 쌍 테스트, 신규 생성 확인, 실행 가능한 감사)입니다. 세 개의 0.5B-1.5B 동결 모델을 사용하여 HumanEval+/MBPP+의 6개 셀(cell)에 걸쳐 290개의 데드 태스크-셀 단위(best-of-8 후보 중 공개 티어를 통과하는 것이 없음)를 평가했습니다. 메인 실행에서는 7,000개의 신규 생성을 수행하였고, 사전 등록된 후속 연구에서 1,400개를 추가로 수행했습니다. 블라인드 재샘플링은 단순 코드 재시도(bare-code retry)보다 순수하게 +18개의 잠금 해제(unlocks)를 초과했습니다 (25/7, Holm p=0.0021). 코드+사실(Code-plus-facts)은 단순 코드 대비 +18개를 회복했으며 (21/3, p=0.00042), 일반적인 불렛 형태의 위약 대비 +15개를 회복했습니다 (p=0.0041). 지시문 전용 효과(instruction-only effect)는 구별되지 않았습니다 (+3, p=0.36). 코드+사실과 블라인드 재샘플링은 각각 26개의 잠금 해제로 동일한 수치를 기록했습니다 (동등성을 의미하지는 않음). 6개의 외부 컨트롤러 후속 연구는 내용이 없는 형태 위약과 동일한 수치를 기록했습니다. 이 체제에서 반증은 어휘력이나 자기 비판으로서가 아니라, 외부의 실행 가능한 반례와의 비교로서 도움을 주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기