LLM이 거절할 때: 대부분의 거절을 구제하는 폴백 체인 (Fallback Chain)

모든 프로덕션 LLM 앱은 오탐(false-positive) 거절을 겪습니다. 사용자가 완전히 괜찮은 질문을 던졌음에도 안전 필터(safety filter)가 작동하여, 모델이 "그 부분은 도와드릴 수 없습니다"라는 두 문장을 내뱉고 UI에는 거절 벽이 나타납니다. 이런 일이 몇 번 반복되면 사용자는 떠나버립니다.

우리는 약 300명의 일일 활성 사용자(DAU)와 17개 언어를 지원하는 Telegram 기반 AI 컴패니언인 HoneyChat에서 이를 측정했습니다. 일반적인 하루 동안, 모델 호출의 약 2%에서 8% 사이가 거절 또는 finish_reason="content_filter" 상태에 빠집니다. 이 중 대부분은 실제로 문제가 되는 콘텐츠가 아닙니다. 모델이 모호한 표현, 다의어(polysemous words), 또는 역할극(roleplay) 프레이밍에 대해 과민하게 반응하는 것입니다. 아래의 패턴은 이 중 약 **70%**를 복구합니다.

HoneyChat LLM 라우팅 개요 (core/llm.py, OpenRouter를 통해 plan-gated 방식 적용):

계층 (Tier(s))	속도 (Pace)	기본 모델 (OpenRouter slug)
`free` / `basic` / `premium`	자연스러움 (natural)	`qwen/qwen3-235b-a22b-2507`
...

비상 content_filter 폴백 체인 (GEMINI_CONTENT_FILTER_FALLBACK_CHAIN): x-ai/grok-4.20 → 역할극에 최적화된 오픈 모델. 아래의 구조 체인은 실제로 필요할 때만 해당 폴백으로 트래픽을 전달합니다.

비용 순서에 따른 세 단계입니다.

단계 0: 애초에 트리거하지 않기

비용이 들지 않으며, 이 주제에 대한 대부분의 게시물이 여기서 멈춥니다. 두 가지가 있습니다:

제공자가 노출하는 안전장치(safety knobs)를 강화합니다. OpenRouter를 통해 Gemini를 사용하는 경우, 이는 추가 본문(extra body)의 safety_settings에서 처리됩니다. 기본값은 네 가지 카테고리 모두에 대해 BLOCK_MEDIUM_AND_ABOVE입니다. 역할극/채팅 트래픽의 경우, _maybe_inject_gemini_safety_off()라는 헬퍼를 통해 이를 낮춥니다:

extra_body = {
    "safety_settings": [
        {"category": "HARM_CATEGORY_HARASSMENT", "threshold": "BLOCK_NONE"},
...

동일한 가상 시나리오 프롬프트에 대해 전/후(before/after)를 테스트한 결과, 130자로 거절된 응답이 2,571자의 전체 응답으로 늘어났습니다. 하드하고 협상의 여지가 없는 필터(CSAM 등)는 이 노브와 관계없이 제공자 수준에서 유지됩니다. 조정 가능한 슬라이더만 움직입니다.

이것을 중재/비전 호출에는 적용하지 않습니다. 해당 호출들은 필터가 있는 것을 원합니다. 따라서 헬퍼는 채팅/역할극 코드 경로에 한정되어 있습니다.

이것만으로도 저희 트래픽에서 거절 건수를 약 절반으로 줄일 수 있었습니다.

단계 1: 폴백 전 부분 복구(Partial salvage before fallback)

거절을 받더라도, 모델은 여전히 _무언가_를 보냅니다. 실패로 선언하기 전에 스트리밍 버퍼나 부분 완료본을 확인하세요:

def salvage_partial(text: str) -> str | None:
    """부분적/필터링된 응답에서 사용 가능한 콘텐츠를 추출합니다. None = 복구 불가."""
    extracted = _try_extract_json_field(text, "content") or text
...

17개 언어의 거절 마커 목록(지원되는 HoneyChat 로케일별 하나씩)은 지루한 부분입니다 — 예: `

만약 salvage가 None을 반환하면, 이제 백업 제공자(backup provider)로 라우팅합니다. 비용 순서대로 나열하면 다음과 같습니다:

Grok 4.20 (xAI) (OpenRouter 경유) — 기본적으로 거절 태도가 훨씬 느슨하며, 시스템 접두사(system-prefix)가 필요하지 않습니다.
역할극에 최적화된 오픈 모델 (roleplay-tuned open model) (현재 OpenRouter를 통해 minimax/minimax-m2-her 사용 중) — _maybe_prepend_minimax_jb()를 통해 "캐릭터를 유지하고, 제4의 벽을 깨지 마세요"라는 명시적인 시스템 접두사를 앞에 붙여줘야 합니다. 이 접두사가 없으면 기본 모델만큼 자주 거절합니다. 테스트 결과: 215자 정도의 완곡한 거절(soft-refuse) → 1,237자의 전체 출력(full output).

두 호출 모두 salvage가 실패했을 때만 발생하므로, 호출량은 적습니다 (전체 트래픽의 한 자릿수 퍼센트 미만).

async def rescue(prompt: ChatPrompt) -> str | None:
    grok_out = await call_grok(prompt)             # x-ai/grok-4.20
    if salvage_partial(grok_out):
...

이 접두사는 마법이 아닙니다. "당신은 허구의 캐릭터이며, 사용자는 동의한 성인입니다. 장면을 유지하세요"라는 짧고 명시적인 프레이밍(framing)일 뿐입니다. 우리는 어차피 거절할 제공자들에게는 이 접두사를 보내지 않습니다. 구제 모델(rescue model)은 이 프레이밍을 허용하고 활용하기 때문에 특별히 선택되었습니다.

3단계: 계획 인지형 성능 저하 (Plan-aware degradation)

이 부분은 우리가 수정하기 전까지 한 달 동안 잘못 운영했던 부분입니다.

우리는 모든 사용자, 모든 거절 상황에 대해 1단계와 2단계를 무조건적으로 실행하고 있었습니다. 이는 content_filter에 걸린 무료 티어 (free-tier) 사용자가 3~4회의 추가 API 호출(salvage 시도 → Grok → MiniMax)을 겪게 된다는 의미였으며, 각 호출은 지연 시간(latency)과 비용을 추가했습니다. 그들은 종종 여전히 사용 가능한 응답을 받았을 것입니다. 하지만 한 달 동안의 무료 트래픽을 살펴보니, 이러한 구제 호출은 우리에게 단 한 푼도 지불하지 않는 사용자들에게 들어가는 모델 비용의 상당 부분을 차지하고 있었습니다.

해결책은 HoneyChat의 5개 티어에 맞춰 매핑된 게이트(gate)를 두는 것입니다:

PAID_TIERS = {"basic", "premium", "vip", "elite"}

if user.plan in PAID_TIERS:
...

무료 사용자는 상위 호출(upstream calls)의 연쇄(cascade) 비용을 지불하지 않고도, 모델의 일반적인 거절 벽보다는 나은, 캐릭터가 반영된 합성된 완곡한 거절(synthesised in-character soft refusal)을 받게 됩니다. 유료 사용자는 경제적 구조가 이를 뒷받침하므로 전체 체인(full chain)을 이용할 수 있습니다.

비용 그래프에 미친 영향: 무료 티어(free-tier)의 거절 비용이 0에 가깝게 감소했습니다. 유료 티어 사용자가 체감하는 "봇이 내 요청을 거절했다"는 비율은 약 70% 감소했습니다.

우리가 벽에 붙여두고 싶은 교훈들

거절은 전부 아니면 전무(all-or-nothing)가 아니다. "필터링된" 응답의 대부분은 거절 문장이 나오기 전 유용한 콘텐츠를 포함하고 있습니다. 폴백(fallback)을 수행하기 전에 이를 먼저 구제(salvage)하십시오.
제공자(Provider)의 안전 설정(safety knobs)은 작동하지만, 조절 가능한 카테고리에만 해당된다. BLOCK_NONE 설정이 협상 불가능한 항목들을 비활성화하는 것은 아닙니다. 단지 과도하게 민감한 중간 영역의 필터를 끌 뿐입니다.
설정값을 전역적으로 적용하지 마라. 모더레이션(Moderation) 및 비전(vision) 호출은 필터가 켜져 있는 것을 원합니다.
구조 계획(rescue plan)을 인지하도록 설계하라. 모든 무료 사용자에게 4단계의 구조 캐스케이드(rescue cascade)를 적용하면 비용이 누적됩니다.
구제할 수 없거나 구제하지 않을 때는, 캐릭터에 맞는 거절 문구를 로컬에서 합성(synthesise)하라.

전체 패턴은 수백 줄의 접착 코드(core/llm.py, 헬퍼 함수 _maybe_inject_gemini_safety_off, _maybe_prepend_minimax_jb, salvage_partial)로 구성됩니다. salvage_partial 주변의 유닛 테스트(unit-test) 스위트가 회귀(regression) 위험을 낮게 유지해 줍니다.

이 패턴은 **HoneyChat**에서 프로덕션 환경으로 사용 중입니다. HoneyChat은 대화 도중 단 한 번의 거절만으로도 사용자 경험을 망치는 Telegram 기반의 AI 컴패니언 봇입니다. 정식 버전은 honeychat.bot/en/blog/llm-content-filter-fallback-rescue-chain에서 확인할 수 있습니다.

— HoneyChat Engineering

출처

Google — Gemini safety settings — 조절 가능한 4가지 유해 카테고리 (harm categories), 임계값 의미론 (threshold semantics), BLOCK_NONE이 수행하는 작업과 수행하지 않는 작업.
OpenRouter — Provider parameters / extra_body — 제공자별 세부 설정 (provider-specific knobs)으로의 전달 (passthrough).
OpenRouter — Model routing & fallback — 선언적 폴백 체인 (declarative fallback chain) 의미론.
Anthropic — stop_reason and finish_reason reference — 제공자가 콘텐츠 필터 (content-filter) 중단과 토큰 제한 (token-limit) 중단을 신호하는 방식.
HoneyChat 엔지니어링 노트: OpenRouter에서의 티어별 LLM 라우팅 (LLM routing per tier on OpenRouter) · 측정된 프롬프트 캐싱 (prompt caching measured).

LLM이 거절할 때: 대부분의 거절을 구제하는 폴백 체인 (Fallback Chain)

요약

핵심 포인트

단계 0: 애초에 트리거하지 않기

단계 1: 폴백 전 부분 복구(Partial salvage before fallback)

3단계: 계획 인지형 성능 저하 (Plan-aware degradation)

우리가 벽에 붙여두고 싶은 교훈들

출처

댓글