「약한 AI로 강한 AI와 싸운다」는 기합이 아니었다 — 기권·교정·루브릭의 학술적 뒷받침을 찾아 나서다

서론: 전편에 남아있던 두 가지 숙제

전편 「약한 AI로 강한 AI와 싸우는 방법」에서는 정적 분석 도구인 Semgrep의 AI 검증 파이프라인을 단서로, 저자본 개인 개발이 취해야 할 설계를 다음과 같이 정리했습니다.

판단 기준의 고정 (헌법) — 합격/불합격의 척도를 모델 외부에 둠 -
기권 (abstention)의 규율 — AI는 확신이 있는 안건만 처리하고, 나머지는 인간이나 강한 모델로 넘김 -
교정 루프 (calibration loop) — 실측 합격률로 자동화 범위를 기계적으로 증감함 -

글을 다 쓰고 난 뒤, 스스로도 걸렸던 점이 두 가지 있었습니다. 기술 기사로서 성실하기 위해, 이것은 방치할 수 없는 숙제입니다.

숙제 1: 이 설계, 정말 새로운 것인가? 단순히 떠오른 생각을 그럴싸하게 말한 것뿐은 아닌가? -
숙제 2: 약한 LLM에게 「합격/불합격 판정」을 시켰을 때, 그 판정 자체는 신뢰할 수 있는가? 전편에서는 "k회 투표로 확신도를 측정하라"고 썼지만, _판정자 자체의 편향 (bias)_에 대해서는 언급하지 않았습니다. 이 부분이 무너지면 설계 전체가 사상누각이 됩니다.

이 속편은 이 두 가지에 정면으로 답하기 위해, 선행 연구를 적대적으로 —— 즉, "부정할 수 없는가"를 시험하면서 —— 다시 조사한 기록입니다. 결론부터 말씀하자면, 설계는 단순한 아이디어가 아니라 55년 분량의 연구 위에 있으며, 숙제 2에는 「루브릭 (rubric)」이라는 구체적인 해답이 있었습니다.

숙제 1에 대한 답: 이 설계는 55년 전부터 연구되어 왔다

먼저 안심해도 좋을 소식부터 전합니다. 전편의 3원칙은 머신러닝 (machine learning)의 고전에 각각 이름과 이론을 가지고 있습니다. 바퀴를 재발명한 것이 아니었습니다.

「확신이 없으면 기권한다」 = reject option / selective classification. 기원은 Chow가 1970년에 정식화한 오류율과 기각률의 트레이드오프 (trade-off). 이를 El-Yaniv & Wiener가 2010년에 "selective classification"이라고 명명하였고 (분류기 f와 선택 함수 g의 쌍으로 정의), Geifman & El-Yaniv이 2017년에 딥러닝 (deep learning)으로 확장했습니다 (SGR 알고리즘: 목표 리스크를 지정하여 이를 보장하면서 수락률을 최대화함). 전편에서 「기권 임계값」이라고 불렀던 것에는 risk-coverage 트레이드오프라는 엄밀한 이름이 있습니다. -
「인간이나 강한 모델에 위임한다」 = learning to defer. "스스로 예측할지, 하류의 전문가에게 맡길지를 학습한다"는 프레임워크로, 명명은 Madras et al. (2018). Mozannar & Sontag (2020)는 「태스크를 푸는 분류기」와 「위임할지 결정하는 rejector」를 분리하고, 단순한 정식화가 "결코 위임하지 않음"으로 퇴화할 수 있는 문제를 지적하며 최초의 일관성 있는 손실 함수 (loss function)를 제시했습니다. 전편의 「판정」과 「기권의 판단」을 나눈 구조는 여기에 대응합니다. -
「고정 루브릭 + 확신도 게이트」 = LLM 시대의 기권 서베이. Wen et al.의 "Know Your Limits: A Survey of Abstention in LLMs" (TACL 2025)는 기권 함수를 세 가지 설계자 정의 함수의 연언 (conjunction)으로 정의합니다 —— 응답 가능성 a(x), 확신도 c(x,y), 인간적 가치와의 정합성 h(x,y). 이 중 하나라도 너무 낮으면 기권합니다. 전편의 「루브릭」은 a와 h에, 「확신도 게이트」는 c에 거의 그대로 대응합니다.

함의: 신규성을 올바른 곳으로 좁힐 수 있다. 이론적 부품은 빌려온 것이어도 괜찮으며, 우리의 공헌은 「약한 로컬 LLM + 고정 루브릭 + 다중 샘플 일치를 통한 기권 + 에스컬레이션 + 폐쇄형 교정 루프」라는

5요소를 하나의 파이프라인 (pipeline)으로 통합하여 구체적인 워크플로우 (workflow)에 적용한 것에 있다. 각 부품을 재발명할 필요는 없습니다.

솔직히 말하자면, "LLM의 기권은 Chow의 reject option의 현대판이다"라고 한 논문이 명시하고 있는 것은 아닙니다. 이 연결 고리는 저의 해석입니다. 그렇기에 이곳은 "○○가 말했다"가 아니라 "계보를 잇는다고 나는 본다"라고 써야 할 곳입니다.

숙제 2에 대한 답: 약한 LLM의 「판정」은 신뢰할 수 있는가

이것이 본론입니다. 순서대로 나쁜 소식 → 더욱 나쁜 소식 → 그것을 뒤집는 좋은 소식 순으로 진행하겠습니다.

나쁜 소식 ①: 자기 보고식 확신도는 신뢰할 수 없다

LLM에게 "자신 있습니까?"라고 물었을 때 돌아오는 숫자(verbalized confidence)는 **과신(overconfidence)**합니다. Xiong et al. (ICLR 2024)은 언어화된 확신도가 "tend to be overconfident"라고 보고했으며, Zhou et al. (ACL 2024)은 오답 시에도 모델이 불확실성을 표명하기를 꺼리며 사용자는 그 생성물을 과신한다는 점을 보여주었습니다.

그래서 전편에서 "자기 신고가 아니라, 동일한 판정을 여러 번 샘플링하여 일치 여부를 확인하라(k회 투표)"라고 쓴 것입니다. 이는 방향성 측면에서 옳습니다. 다수 샘플 일치는 확립된, 보다 교정(calibration)이 잘 된 확신도의 대리 지표(proxy)입니다.

다만 중요한 단서가 하나 있습니다. 일치가 곧 정답을 의미하지는 않습니다. 모델은 일관되게 틀릴 수도 있습니다. 즉, k회의 만장일치는 "채택해도 좋다"는 근거가 아니라, "기권해서는 안 된다"는 근거로만 사용해야 합니다. 이 구분은 사소해 보이지만 설계의 안전성을 좌우합니다.

나쁜 소식 ②: 판정자(judge) 자체에 편향(bias)이 있다

이 부분이 전편에서 다루지 못한 허점입니다. LLM을 "심판"으로 사용하는 연구——LLM-as-a-judge——에는 실측된 세 가지 계통적 편향(systematic bias)이 존재합니다. Zheng et al.의 "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena" (NeurIPS 2023)에서 생생한 수치를 인용하겠습니다.

위치 편향 (Position bias): 두 답변의 제시 순서를 바꿨을 때, 일관된 판정을 내리는 비율은 GPT-4조차 65.0%에 불과합니다 (Claude-v1은 23.8%, GPT-3.5는 46.2%). 즉, "어느 쪽이 더 좋은가?"라고 물으면 _나열된 순서_에 휘둘립니다. -
冗長性 편향 (Verbosity bias): 내용의 변화 없이 분량만 늘린 답변에 judge가 속을 확률은 Claude-v1과 GPT-3.5에서 91.3%였습니다. GPT-4만이 8.7%로 견고했습니다. -
자기 선호 편향 (Self-preference bias): 자신의 답변에 높은 점수를 주는 경향 (GPT-4에서 +10%, Claude-v1에서 +25%의 징후). 다만 저자 스스로가 "데이터가 제한적이고 차이가 작기 때문에 유무를 단정할 수 없다"며 유보했습니다. 그래서 저 역시 이 부분은 "징후가 있다" 수준까지만 기술하겠습니다.

약한 모델에게 판정을 맡기려는 우리에게 이는 남의 일이 아닙니다. GPT-4조차 위치 일관성이 65%라면, 로컬의 약한 모델에서는 이보다 훨씬 더 무너질 것이라는 전제하에 설계해야 합니다.

좋은 소식: 편향은 "루브릭(rubric)"으로 완화할 수 있다

이 부분이 이 글을 쓰길 잘했다고 느끼게 해준 발견입니다. 이러한 편향들은 고정된 결함이 아니라, 평가 방식에 따라 정량적으로 완화할 수 있습니다——그리고 그 완화의 방향이 전편의 설계와 정확히 일치했습니다.

Zheng et al.이 제시한 완화책: 순서를 바꾸어 두 번 호출한 뒤 불일치하면 무승부로 처리하기 (위치 편향 대책), Few-shot을 제공하면 GPT-4의 일관성이 65.0% $\rightarrow$ 77.5%로 상승, judge에게 먼저 독립적으로 풀게 한 답을 참조 해답으로 전달하는 reference-guided 방식 사용 시 수학 채점 실패율이 70% $\rightarrow$ 15%로 감소. (단, 저자는 "일관성이 높아진다고 해서 반드시 정확하다는 뜻은 아니다", "Few-shot이 새로운 편향을 낳을 수 있다", "프롬프트가 길어져 API 비용이 4배 증가한다"는 점도 병기했습니다. 만능약은 아닙니다.)

더욱 결정적인 것은 평가를 구조화 및 항목별로 분해하는 방법론들입니다.

CheckEval: 평가 기준을 "예/아니오"로 답하는 이진 질문(binary question) 체크리스트로 분해하면, 평가기 모델 간의 평균 일치도가 0.45 향상되고 점수의 분산이 낮아집니다. -
FLASK: 종합 점수가 아닌 **스킬셋 단위의 세밀한 루브릭(fine-grained rubric)**으로 평가하면, 인간 평가와 모델 평가의 상관관계가 높아지며 모델 기반 평가의 편향이 완화됩니다. -

이는 전편의 "합격/불합격을 항목별로 고정된 기준으로 판정한다"는 내용을 평가 편향 연구 측면에서 뒷받침해 줍니다.

최악의 방법은 "이거 좋아?"라고 종합 점수로 묻는 것입니다. 위치,冗長性, 자기 선호 편향이 모두 가중됩니다. 정답은 항목별로 제가 설계에서 "종합 점수가 아닌 항목별 3단계 판정"이라고 쓴 것인데, 이는 감각적인 선택이었으나 연구 결과가 이를 지지하고 있었습니다. pass / fail / cannot_determine을 묻는 것입니다.

결정타: 약한 모델 + 시스템은 거대 모델을 이길 수 있다

「약한 AI로 강한 AI와 싸운다」는 것은 단순한 바람이 아닐까——그 불안에 대해, Google의 ASPIRE가 실례로 답합니다. selective prediction (확신이 낮을 때 기권하는 메커니즘)을 LLM에 사후 학습시키는 기법을 통해, CoQA 벤치마크에서 기권의 적절성을 측정하는 AUROC를 **51.3%→80.3%**로 개선했습니다.

그리고 핵심적인 한 문장. ASPIRE로 적응시킨 소형 OPT-2.7B가 사전 학습된 더 큰 OPT-30B를 능가했습니다. 10배 이상의 크기 차이를 기권 메커니즘이 역전시킨 것입니다. 「약한 모델이라도 기권을 올바르게 설계하면, 거대 모델을 넘어서는 영역이 있다」——이것이 우리의 전략에 대한 학술적인 뒷받침입니다.

교정(Calibration)에 대해, 전편보다 정확하게 다시 말하기

전편의 「교정 루프 (Calibration Loop)」를 연구를 바탕으로 한 단계 더 정밀하게 다듬습니다.

질문: LLM의 확신도 교정은 애초에 개선할 수 있는가? 답은 YES (훈련한다면) / NO (기성 API 그대로라면) 입니다.

SaySelf (EMNLP 2024)는 자기 성찰(Self-reflection) 데이터의 지도 미세 조정(Supervised Fine-tuning) + 보상 함수를 통한 강화학습으로, 확신도의 교정 오차를 낮추면서 성능을 유지할 수 있음을 보여주었습니다.
PPO-M/PPO-C (2024)는 보상을 교정하는 RLHF를 통해, 표준 PPO와 동등한 성능을 유지하면서 교정 오차를 낮출 수 있음을 보여주었습니다.

둘 다 훌륭합니다. 하지만 둘 다 모델의 가중치(Weight)에 손을 대는 훈련 시점의 개입입니다. GX10 상의 기성 qwen과 같이 가중치를 업데이트할 수 없는 모델을 사용하는 개인 개발자에게는 그대로 적용할 수 없습니다.

여기서 결론이 나옵니다. 기성 모델을 사용하는 우리는 교정을 "모델 내부"에서 기대할 수 없다. 그러므로 교정을 "외부"에 만든다——정기적인 샘플 감사, 다중 샘플 일치, 후속 기계 검증을 통해서 말입니다. 전편에서 「교정 루프」라고 불렀던 것의 정체는 이것입니다. 모델이 정직해지기를 기다리는 것이 아니라, 외부의 메커니즘으로 정직함을 _강제_하는 것입니다.

산업계의 참조점으로 Semgrep을 든다면, 공칭 인간 일치율은 96%(2025년 8월 기준)입니다. 다만——이 부분은 솔직히 말씀드리면——그 96%가 어떤 모집단의 수치인지는 표를 읽는 방식에 따라 흔들립니다. Semgrep은 두 가지 측정을 구분하여 공개하고 있는데, 하나는 650만 건 규모의 사용자 피드백이고, 다른 하나는 보안 엔지니어 로테이션 팀이 2,000건 이상을 정기적으로 리뷰하는 내부 벤치마크입니다. 96%는 내부 벤치마크 쪽에 위치한 것으로 읽히지만, 단정은 피하고 「공칭 96%」라고 인용하는 것이 성실한 태도일 것입니다. (이 신중함 자체가 다음 절의 복선입니다.)

메타적인 이야기: 이 기사는 「기권하는 시스템」으로 작성되었다

마지막으로, 글쓰기 방식 자체에 대해 말씀드리고 싶습니다. 이 속편의 사실 확인(Fact-check)은 전편에서 설계한 사상을 그대로 기사 제작에 적용하여 수행했습니다. 여러 조사 에이전트에게 주장을 추출하게 하고, 각 주장에 대해 3표의 적대적 검증을 실시하여, 2표 이상이 「반증 가능하다」고 판단한 것은 기각합니다. 확신이 있는 것만 채택하고, 의심스러운 것은 버린다——그야말로 기권입니다.

실제로 몇몇 주장들이 이 과정에서 탈락했습니다. 예를 들어:

「Semgrep의 96%는 단순한 사용자 피드백률이다」→ 실제로는 전문가 리뷰인 내부 벤치마크도 병기되어 있으므로, 피드백률이라고 단정 짓는 것은 기각 (본문에서는 두 가지 측정이 모두 있다는 사실만을 정확히 기술함).
「RLHF의 보상 모델이 고확신도에 계통적 편향(Systematic Bias)을 가지므로 자기 보고는 신뢰할 수 없다」→ 인과 관계에 대한 주장이 출처를 넘어선 것이므로 기각.
「자기 선호 편향(Self-preference Bias)은 확실히 존재한다」→ 저자 스스로 유보하고 있으므로 채택하지 않음.

탈락시킨 주장을 본문에 섞지 않은 것——그것이 이 기사의 품질입니다. 강한 결론을 하나 더하는 것보다, 약한 근거를 하나 버리는 것이 문장을 더 강하게 만듭니다. 약한 AI에게 기권을 설계하는 가치는 아마도 이것과 같을 것입니다.

결론: 기권은 기합이 아니라 도구로 만들 수 있다

전편은 이렇게 끝맺었습니다.

똑똑한 AI를 사는 것이 아니라, 약한 AI가 정직하게 기권할 수 있는 시스템을 설계한다.

속편은 여기에 한 줄을 더합니다.

그 기권은 기합이 아니다.

55년 분량의 이론 (selective classification / learning to defer)과, 루브릭(Rubric)이라는 구체적인 도구로 만들 수 있다.

약한 모델에게 「이거 좋아?」라고 종합 점수를 묻는 것을 그만두고, 항목별로 pass / fail / cannot_determine을 묻는 것입니다.

묻는 것입니다. 일치(Agreement)는 「기권하지 말아야 할 근거」로만 사용합니다. 교정(Calibration)은 모델 내부에서 기대하지 말고, 외부 감사(Audit)를 통해 만듭니다. 프론티어 모델(Frontier Model)은 상시 베이스가 아니라, 기권이 필요한 사안을 전문적으로 처리하는 에스컬레이션(Escalation) 대상으로 둡니다.

확대 경쟁에 자본으로 참여할 수 없다면, 참여하지 않아도 됩니다. **기준·기권·교정의 세트(Three-piece set)**는 이제 정신력으로 버틸 필요가 없습니다. 이론과 도구가 있습니다.

참고

Wen et al., "Know Your Limits: A Survey of Abstention in LLMs", TACL 2025 — https://aclanthology.org/2025.tacl-1.26.pdf
Zheng et al., "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena", NeurIPS 2023 — https://arxiv.org/abs/2306.05685
"CheckEval" (평가 기준의 이진 체크리스트 분해), EMNLP 2025 — https://aclanthology.org/2025.emnlp-main.796.pdf
Ye et al., "FLASK: Fine-grained Language Model Evaluation based on Skill Sets", ICLR 2024 — https://arxiv.org/abs/2307.10928
Google Research, "Introducing ASPIRE for selective prediction in LLMs" — https://research.google/blog/introducing-aspire-for-selective-prediction-in-llms/
"SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales", EMNLP 2024 — https://aclanthology.org/2024.emnlp-main.343/
"Taming Overconfidence in LLMs: Reward Calibration in RLHF" (PPO-M/PPO-C), 2024 — https://arxiv.org/abs/2410.09724
Xiong et al., "Can LLMs Express Their Uncertainty?", ICLR 2024 — https://arxiv.org/abs/2306.13063
Geifman & El-Yaniv, "Selective Classification for Deep Neural Networks", NeurIPS 2017 — https://arxiv.org/abs/1705.08500
Madras, Pitassi & Zemel, "Predict Responsibly", NeurIPS 2018
Mozannar & Sontag, "Consistent Estimators for Learning to Defer", ICML 2020 — https://arxiv.org/abs/2006.01862
Semgrep Docs, "Semgrep Assistant metrics" — https://docs.semgrep.dev/semgrep-assistant/metrics

약한 AI로 강한 AI와 싸우는 방법·실증편 — 그 설계는 55년 전부터 있었고, '약한 AI의 판정을 신뢰할 수 있는가'에 대한 해답

요약

핵심 포인트