동일 품질 대비 추론 비용을 절반으로 줄일 수 있는 소스 공개형 LLM 신뢰성 라이브러리 개발 (연구/개인/내부 평가용 무료)

요약(TL;DR): 신뢰성 기술(Reliability techniques, 예: 피드백을 통한 재시도, 앙상블, 생성자/비판자 정교화, 검증 패스, 난이도 인지 라우팅 등 추가 추론을 통해 LLM의 정확도를 높이는 방법들)은 문헌 곳곳에 흩어져 있으며, 각각 논문마다 고유한 코드베이스를 가지고 있습니다. 우리는 28가지 신뢰성 기술(6개 제품군에 걸친 21가지 통신 이론 기반 방법론 및 7가지 기존 방법론 베이스라인: Self-Consistency, Self-Refine, CoVe, BoN, Weighted BoN, CISC, MoA)을 단일 API 아래 통합하였으며, 각 기술을 코딩되지 않은 단일 패스(single-pass) 베이스라인과 비교 측정했습니다. 또한 그 상단에 3개의 적응형 라우터(SemKNN + 2개의 로컬 ACM 라우터)를 배치하여, 프롬프트별로 기술을 적응적으로 라우팅함으로써 품질/비용 프런티어(quality/cost frontier)를 따라 이동할 수 있음을 보여주었습니다. Nemotron + Devstral을 두 생성자로, GLM-5.1을 판사(judge)로 사용하는 특정 라인업의 논문 벤치마크에서, 적응형 라우터는 동일한 라인업의 비교 대상 중 가장 우수한 고정 방식(fixed method) 대비 동일 품질에서 약 56%의 비용 절감을 달성하거나, 동일 비용에서 약 7%의 품질 향상을 달성했습니다. 하나의 조절 노브(λ)가 이 이동을 수행합니다. 정성적인 패턴(적응형이 고정형을 이김)은 일반화될 수 있지만, 절대적인 수치는 라인업에 따라 다르며, 아직 다른 모델 조합에 대해 전체 스윕(full sweep)을 실행하지는 않았습니다.

도입 방법은 임포트(import) 하나만 바꾸면 됩니다:
python - from openai import OpenAI + from agentcodec.openai import OpenAI
reliability="harq_ir" (또는 28가지 기술 중 하나)를 전달하면, 기존의 client.chat.completions.create(...) 호출은 OpenAI 고유의 응답 형태를 그대로 유지합니다. Anthropic 및 Ollama에 대해서도 동일한 드롭인 심(drop-in shims)을 제공합니다.

GitHub: https://github.com/intellerce/agentcodec
작업 중인 논문(Working paper): https://arxiv.org/abs/2605.09121

논문들로부터 신뢰성 방법론을 연구하며 한동안 시간을 보낸 결과, 우리는 항상 똑같은 벽에 부딪혔습니다. 모든 논문이 자신만의 프롬프트 형식, 자신만의 채점 기준, 자신만의 모델 래퍼(wrapper)를 가진 일회성 코드베이스를 배포한다는 점입니다. "여기서 Self-Refine을 써야 할까, 아니면 Best-of-N을 써야 할까?"를 벤치마킹하는 작업은 비교 한 번을 할 때마다 일주일간의 배관 작업(plumbing)으로 변해버렸습니다.

이 모든 것을 하나로 묶어주는 것은 통신 이론 (communication-theory) 프레임워크였습니다. 즉, LLM은 확률적 채널 $Y = A(X) + N$이며, 무선 통신 (wireless) 세계의 모든 신뢰성 기술은 에이전트 영역 (agent-land)에서 직접적인 대응 관계를 가집니다.

무선 통신 (Wireless)	에이전트 영역 (Agent-land)
ARQ / HARQ	피드백을 포함한 재시도 루프 (retry-with-feedback loops)
다이버시티 결합 (Diversity combining, MRC/SC/EGC)	여러 모델의 앙상블 (ensemble multiple models)
터보 디코딩 (Turbo decoding)	생성기/비판자 간의 반복적 상호 정제 (iterative generator/critic mutual refinement)
파운틴 코드 (Fountain codes)	레이트리스 샘플링 (rateless sampling), 판정자 (judge)가 확신할 때 중단
FEC	답변 + 구조화된 패리티 전달 (재도출, 검증, 대안), 교차 검증을 통한 디코딩
ACM (적응형 부호화 및 변조)	난이도에 따른 경로 선택 (route by difficulty)

우리는 이 모든 것을 하나의 라이브러리에 담았습니다. 28가지의 신뢰성 기술 (이전 7가지 베이스라인 방법론은 이 28가지에 포함되어 있으며, 별도로 추가된 것이 아님)과, 이 모든 것의 비교 기준이 되는 부호화되지 않은 단일 패스 베이스라인 (uncoded single-pass baseline), 그리고 프롬프트별로 기술을 선택하는 3가지 적응형 라우터 (SemKNN + 2개의 로컬 ACM 라우터)를 제공합니다. 자세한 분석 내용은 README를 참조하세요.

최소 버전

from agentcodec import ReliabilityModule

mod = ReliabilityModule.from_dict({
    "models": [
        # 공간 다이버시티 (Spatial diversity): 서로 다른 두 계열 = 상관관계가 없는 오류
        {"model": "qwen3:8b", "base_url": "http://localhost:11434/v1", "api_key": "ollama"},
        {"model": "llama3.1:8b", "base_url": "http://localhost:11434/v1", "api_key": "ollama"},
    ],
    "judge": {"model": "gemma3:12b", "base_url": "http://localhost:11434/v1", "api_key": "ollama"},
    "critic": {"same": True},
    "strategy": {"type": "fixed", "technique": "harq_ir", "params": {"max_rounds": 4}},
})

result = mod.run("Prove the sum of the first n odd integers is n2.", category="reasoning")
print(result.text, result.cost_usd, result.cost_source, result.technique_used)

"harq_ir"를 "diversity_mrc", "turbo", "fountain" 등으로 교체하기만 하면 됩니다. API는 동일하며, ReliabilityResult의 형태와 모든 출력의 비용 출처 (cost-source) 계층도 동일합니다. 프로덕션 환경에서는 전략 (strategy)을 routed로 전환하면 라이브러리가 프롬프트별로 기술을 선택합니다 (쉬운 프롬프트에는 저렴한 베이스라인을, 어려운 프롬프트에는 diversity_mrc를 사용).

언급할 만한 세 가지 사항

기술 카탈로그 외에도, 실제 많은 노력이 투입된 구현상의 세 가지 요소가 있습니다:

2가지 기술(acm_soft, acm_learned)을 제외한 모든 기술에 대한 네이티브 비동기 스트리밍 (Native async streaming) 및 역할 태그가 지정된 이벤트 (role-tagged events). mod.astream()은 AsyncOpenAI / AsyncAnthropic / httpx.AsyncClient를 엔드 투 엔드(end-to-end)로 구동하며 (워커 스레드 브릿지 없이), "answer", "thinking", "draft", "critique", "verification", "candidate", "synthesis"라는 역할(role)이 태그된 TokenEvents를 방출합니다. 따라서 HARQ-IR 실행을 스트리밍할 때, 최종 답변뿐만 아니라 라운드별 초안(drafts)과 비판(critiques)을 실시간으로 렌더링할 수 있습니다:

async for ev in mod.astream("Explain QUIC vs TCP."):
    if isinstance(ev, TokenEvent):
        if ev.role == "answer":
            print(ev.text, end="", flush=True)
        elif ev.role == "draft":
            print(f"\n[draft] {ev.text}")
        elif ev.role == "critique":
            print(f"\n[CRITIC] {ev.text}")
        elif ev.role == "thinking":
            pass # result.thinking_text로 캡처됨
    elif isinstance(ev, FinalEvent):
        print(f"\ndone — {ev.result.technique_used}, "
              f"thinking_cost=${ev.result.thinking_cost_usd:.4f}")

병렬 분기 기술(Parallel-branch techniques)은 asyncio.gather를 통해 동시적으로 확장됩니다. 두 개의 모델을 사용하는 diversity_mrc는 실제로 이들을 병렬로 실행하며, 각 분기가 완료될 때마다 분기별 ProgressEvents를 확인할 수 있습니다.

모든 백엔드에 걸친 사고 텍스트(Thinking-text) 캡처. Anthropic의 ThinkingBlock, OpenAI의 reasoning_content (+ usage.completion_tokens_details에서 가져온 정확한 reasoning_tokens), Ollama의 msg.thinking, 그리고 인라인 <think>...</think> 태그 제거(DeepSeek-R1, Qwen3, GLM-4.5+, Nemotron) 기능이 모두 result.thinking_text를 채우고 result.cost_usd를 thinking_cost_usd + answer_cost_usd로 분리합니다. 이를 통해 o-series / Claude / DeepSeek가 실제로 사용자에게 무엇에 대해 비용을 청구하고 있는지 마침내 확인할 수 있습니다.
expose_reliability_stream=True를 통한 즉시 사용 가능한 호환성 심(Drop-in compat shims). 기본적으로, 이 심(shim)은 네이티브 SDK와 동일하게 보이며, 답변에는 delta.content를, 사고(thinking)에는 delta.reasoning_content를 사용합니다. 초안(Drafts)과 비판(critiques)은 숨겨져 있으므로 기존 코드가 변경 없이 그대로 작동합니다.

플래그를 설정하면, 기존 소비자(consumers)들이 해롭지 않게 무시할 수 있는 센티넬 필드(sentinel fields, delta.agentcodec_role, delta.agentcodec_call_id)를 통해 심(shim) 레이어가 내부 역할을 노출합니다:

from agentcodec.openai import AsyncOpenAI
client = AsyncOpenAI(api_key=KEY, reliability="harq_ir", expose_reliability_stream=True)

이제 초안(drafts)과 비판(critiques)은 센티넬과 함께 네이티브 OpenAI 스트림(stream)을 통해 흐릅니다.

agentcodec.anthropic.AsyncAnthropic 및 agentcodec.ollama.AsyncClient에서도 동일한 플래그와 동일한 의미론(semantics)이 적용됩니다.

기타 유용한 기능들

비용 투명성 내장: 모든 결과에는 가격이 어떻게 산출되었는지를 나타내는 cost_source 티어(tier)가 포함됩니다. 이는 사용자가 직접 제공한 exact_user_rate부터 openrouter_rate / exact_table_rate / inferred_table_rate를 거쳐 default_fallback에 이르기까지 다양하며, 문자 수(character counts)만 사용 가능할 때를 위한 토큰 추정(token-estimation) 플래그도 포함됩니다. 가격 정보는 OpenRouter에서 실시간으로 가져오며, 7일 동안 로컬에 캐싱됩니다. 더 이상 "이번 실행에 아마 40달러 정도 들었을까요?"라고 추측할 필요가 없습니다.
사용 중인 모든 환경에서 작동: OpenAI, Anthropic (네이티브 SDK), Ollama (네이티브 + python 라이브러리 + OpenAI 호환), vLLM, OpenRouter, LM Studio, Together 등에서 작동합니다. Docker, 별도의 추론 서버(inference server), LangChain이 필요하지 않습니다.
엄격한 설정 스키마(config schema): YAML 또는 딕셔너리(dict) 설정의 오타는 첫 번째 .run() 호출 시가 아니라 로드(load) 시점에 에러를 발생시킵니다.
195개의 테스트와 examples/ 디렉토리 아래 25개의 실행 가능한 예제: 비동기 스트리밍(async streaming), 사고 과정 캡처(thinking capture), 세 가지 백엔드 모두에 대한 즉시 교체 가능한 호환성(drop-in compat), 그리고 주석이 상세히 달린 YAML 설정이 포함되어 있습니다.

주의 사항

헤드라인 수치는 특정 모델 라인업을 기준으로 한 것입니다. 약 56%의 비용 절감 및 약 7%의 품질 향상 수치는 Nemotron과 Devstral을 두 생성기(generators)로 사용하고 GLM-5.1을 판사(judge)로 사용한 단일 벤치마크 실행 결과에서 도출되었습니다. 프레임워크의 핵심 목적이 (고정된 방식보다 적응형 라우팅(adaptive routing)이 우세하다는) 질적 패턴을 유지하는 것이므로 다른 모델 조합에서도 이 패턴은 유지될 것으로 예상하지만, 절대적인 수치는 라인업에 따라 달라질 것이며 아직 라인업 간 전수 조사(cross-lineup sweep)를 수행하지는 않았습니다.

다른 생성기(generator)로 교체할 경우 절대적인 절감액은 달라질 것이라고 예상해야 합니다. 올바른 비교 방법은 귀하의 라인업에서 사용 중인 '적응형(adaptive)' 방식과 '최상의 고정 베이스라인(best fixed baseline)'을 비교하는 것입니다.

라이선스는 PolyForm Noncommercial 1.0.0입니다: 연구, 교육, 개인/내부 평가용으로는 무료입니다. 상업적 이용을 위해서는 별도의 라이선스가 필요합니다.

학습된 SemKNN 라우팅 아티팩트(SemKNN routing artifacts, 즉 학습된 라우터 매핑 프롬프트 임베딩 → 최적의 기술, 헤드라인에 언급된 비용 수치를 제공하는 요소)는 재배포되지 않습니다. 클라이언트는 원격 SemKNN 서비스와 통신합니다. 다른 모든 라우터(fixed, acm_table, acm_linear)는 완전히 로컬에서 실행되지만, 마지막 방식(acm_linear)은 직접 학습이 필요합니다.

2가지 기술(acm_soft, acm_learned)은 비동기 스트리밍(async streaming) 경로의 실행기(executor) 내에서 여전히 동기식 디스패치(sync dispatch)로 폴백(fallback)됩니다. 이들은 정확한 최종 이벤트(FinalEvents)를 생성하지만, 중간 스트림 토큰(mid-stream tokens)은 생성하지 않습니다. 로드맵(Roadmap).

이것은 연구용 코드입니다. 덜 사용되는 경로(soft-output diversity 변형, 학습된 ACM 라우터)에서는 다소 거친 부분이 있을 수 있음을 예상해 주세요.

특정 기술, 라우팅 접근 방식, 새로운 기술을 추가하는 방법, 또는 스트리밍/사고(thinking)/호환성 작업에 대해 자유롭게 질문해 주세요. 다음에 무엇을 출시할지에 대한 제안도 환영합니다.

/u/Intellerce 님이 r/MachineLearning 에 제출함
[link] [comments]

동일 품질 대비 추론 비용을 절반으로 줄일 수 있는 소스 공개형 LLM 신뢰성 라이브러리 개발 (연구/개인/내부 평가용 무료)

요약

핵심 포인트

댓글