작업 검증 가능성(Task Verifiability)에 따른 LLM 라우팅: Karpathy의 프레임워크에서 영감을 받은 소규모 실험

요약

Karpathy의 프레임워크를 바탕으로 작업의 검증 가능성에 따른 LLM 성능 격차를 실험했습니다. 코드 테스트나 JSON 추출처럼 검증 가능한 작업은 소규모 모델도 프런티어 모델에 근접하는 성능을 보였습니다.

핵심 포인트

검증 가능성이 높은 작업은 검증기(verifier)를 통해 소형 모델의 성능을 극대화할 수 있음
다단계 추론이나 창의적 요약 등 검증이 어려운 작업은 모델 간 성능 격차가 뚜렷함
검증기의 성능은 입력되는 스키마나 규칙의 정확도에 크게 의존함

전체 공개: 이 내용은 방향성을 제시하는 것이지 논문이 아닙니다. n=120개의 작업, 하나의 내부 평가자(internal evaluator)를 사용했으며, 동료 검토(peer review)를 거치지 않았습니다. 저는 LLM 인프라 기업에서 근무하고 있습니다. 이 실험은 개인적인 시간에 수행되었으며 회사의 공식 주장이 아닙니다.

Karpathy의 프레임워크는 작업(task)을 검증 가능성(verifiability)에 따라 분류합니다. 출력을 기계적으로 확인할 수 있는가? 코드 컴파일(code compilation)이나 구조화된 JSON 추출(structured JSON extraction)과 같이 검증 가능성이 높은 작업은 검증기(verifier)가 오류를 잡아낼 수 있기 때문에 더 안전합니다. 창의적 글쓰기(creative writing)와 같이 검증 가능성이 낮은 작업은 더 위험합니다.

저는 검증 가능성이 높은 작업이 실제로는 더 쉬운지 궁금했습니다. 검증기가 실수를 잡아낼 수 있다면, 성능이 낮은 모델이 프런티어 모델(frontier model)만큼 그 작업을 잘 수행할 수 있을까요?

설정은 네 가지 카테고리에 걸친 120개의 작업이었습니다. 코드 단위 테스트(Code unit tests), 구조화된 추출(structured extraction), 다단계 추론(multi-hop reasoning), 창의적 요약(creative summarization). 세 가지 모델: Claude Sonnet 4.6, GPT 5.5, vLLM 0.6.3을 통한 로컬 Mistral 3 8B. 처음 두 카테고리는 통과율(Pass rate)을, 나머지 두 카테고리는 인간 평가(human rating) 1~5점을 사용했습니다.

결과는 복잡했습니다.

코드 단위 테스트: Sonnet 4.6 94%, GPT 5.5 91%, Mistral 3 8B 87%. 한 번의 재시도(retry)를 통해 Mistral 3는 95%에 도달했습니다. 이는 저를 놀라게 했습니다. 저는 격차가 더 클 것이라고 예상했습니다.

구조화된 추출: Sonnet 4.6 97%, GPT 5.5 94%, Mistral 3 8B 89%. 재시도 시 96%. 이 또한 예상보다 격차가 적었습니다.

하지만 여기서 이상한 점이 발견되었습니다. Sonnet 4.6이 구조화된 추출에서 처음에 GPT 5.5보다 낮은 점수를 기록했는데, 이는 말이 되지 않았습니다. 알고 보니 우리의 JSON 스키마(schema)에 모호한 중첩 배열(nested array)이 있어 Claude의 도구 사용 파서(tool use parser)를 혼란스럽게 만들었습니다. 스키마를 수정하자 Sonnet은 98%까지 올라갔지만, 그 실수가 이야기의 일부이기 때문에 표에는 원래 숫자를 유지했습니다. 여러분의 검증기(verifier)는 여러분의 스키마만큼만 성능을 발휘합니다.

다단계 추론: Sonnet 4.6 78%, GPT 5.5 71%, Mistral 3 8B 51%. 재시도는 도움이 되지 않았습니다. 모델이 추론 경로를 지속적으로 환각(hallucinate)했습니다. 이 부분에서 성능 격차가 실재했습니다.

창의적 요약: Sonnet 4.6 5점 만점에 4.2점, GPT 5.5 5점 만점에 3.9점, Mistral 3 8B 5점 만점에 3.1점. 예상했던 결과입니다.

해석: 검증 가능성(verifiability)이 높은 작업은 성능이 낮은 모델에 검증기(verifier)를 결합했을 때 최첨단(frontier) 성능에 근접할 수 있다는 점에서 더 단순해 보입니다. 검증 가능성이 낮은 작업에서는 예상했던 격차가 나타납니다.
한계점: n=120은 매우 작은 표본입니다. 신뢰도를 확보하려면 10배 더 많은 데이터가 필요합니다. 우리의 검증기는 단순히 JSON Schema와 정규 표현식(regexes)을 사용했습니다. 제약 조건이 있는 디코딩(Constrained decoding) 방식은 계산 결과(calculus)를 완전히 바꿀 수도 있습니다. 또한 프롬프트 길이(prompt length)를 제대로 통제하지 못했습니다. Mistral 3 8B 모델이 한계치 근처에서 성능이 저하되기 때문에 8k 토큰을 초과하는 프롬프트는 모두 제외했으며, 이로 인해 샘플이 왜곡되었을 가능성이 있습니다.
제출자: /u/DragonfruitAlone4497 to r/MachineLearning
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

작업 검증 가능성(Task Verifiability)에 따른 LLM 라우팅: Karpathy의 프레임워크에서 영감을 받은 소규모 실험

요약

핵심 포인트

댓글