노출이 아닌 반증: 동결된 소규모 코드 모델의 자기 수정 피드백에 대한 내부 사전 등록된 위약 대조 분해 연구

재학습이 불가능한 배포 환경에서, 소규모 동결 코드 모델(small frozen code models)은 일반적으로 자신의 실패한 출력을 확인한 후 실패한 프로그램을 수정하도록 요구받으며, 이는 대개 재시도(retry) 메커니즘으로 취급됩니다. Popper(포퍼)의 관점에서 볼 때, 생성된 프로그램은 추측(conjecture)이며, 테스트 실행 위반은 오라클(oracle) 상대적인 실행 가능한 반례(counterexample)입니다. 따라서 피드백의 가치는 실패한 코드에 다시 노출되는 것이 아니라, 해당 추측이 외부의 실행 가능한 비판에 열려 있는지 여부에 기인해야 합니다. 반증 중심 측정 프로그램의 세 번째 단계로서, 본 연구는 일치하는 출력 생성 예산(output-generation budget)을 가진 블라인드 재샘플링(blind-resampling) 기준선 및 내용이 없는 형태 일치 위약(content-free, shape-matched placebos)에 대해 피드백 패킷을 분해하는 위약 대조 도구(placebo-controlled instrument)를 구축합니다. 본 연구의 기여는 새로운 수정 알고리즘이 아니라, 모델의 프로그램 추측과 연구자의 "피드백 내용이 효과가 있다"라는 주장을 모두 반증 가능하게 만드는 성찰적 방법론(패킷 분해, 위약 미러링, 일치 예산 불일치 쌍 테스트, 신규 생성 확인, 실행 가능한 감사)입니다. 세 개의 0.5B-1.5B 동결 모델을 사용하여 HumanEval+/MBPP+의 6개 셀(cell)에 걸쳐 290개의 데드 태스크-셀 단위(best-of-8 후보 중 공개 티어를 통과하는 것이 없음)를 평가했습니다. 메인 실행에서는 7,000개의 신규 생성을 수행하였고, 사전 등록된 후속 연구에서 1,400개를 추가로 수행했습니다. 블라인드 재샘플링은 단순 코드 재시도(bare-code retry)보다 순수하게 +18개의 잠금 해제(unlocks)를 초과했습니다 (25/7, Holm p=0.0021). 코드+사실(Code-plus-facts)은 단순 코드 대비 +18개를 회복했으며 (21/3, p=0.00042), 일반적인 불렛 형태의 위약 대비 +15개를 회복했습니다 (p=0.0041). 지시문 전용 효과(instruction-only effect)는 구별되지 않았습니다 (+3, p=0.36). 코드+사실과 블라인드 재샘플링은 각각 26개의 잠금 해제로 동일한 수치를 기록했습니다 (동등성을 의미하지는 않음). 6개의 외부 컨트롤러 후속 연구는 내용이 없는 형태 위약과 동일한 수치를 기록했습니다. 이 체제에서 반증은 어휘력이나 자기 비판으로서가 아니라, 외부의 실행 가능한 반례와의 비교로서 도움을 주었습니다.

Insights

노출이 아닌 반증: 동결된 소규모 코드 모델의 자기 수정 피드백에 대한 내부 사전 등록된 위약 대조 분해 연구

요약

핵심 포인트

댓글

이번 분기에 AI가 현실적으로 대신 처리해 줄 수 있는 반복적인 행정 업무는 무엇인가?

Claude Sonnet 5가 동아프리카 AI 인프라에 의미하는 것

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Claude Sonnet 5가 동아프리카 AI 인프라에 의미하는 것

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유