AI 에이전트가 더 많이 답변하도록 만들려 했더니, 오히려 답변을 더 적게 했다
요약
범위가 제한된 AI 에이전트의 테스트 컨텍스트에 에이전트의 역할이나 범위에 대한 언급이 포함될 경우, 에이전트가 행동 대신 자신의 범위를 방어하려는 경향을 보인다는 분석입니다. 이는 에이전트가 논리적 판단 대신 패턴 매칭을 통해 범위를 재확인하고 답변을 거절하게 만듭니다.
핵심 포인트
- 에이전트의 범위(scope)가 언급되면 답변율이 급격히 저하됨
- 비판과 지지 모두 에이전트의 방어 기제를 자극함
- 정확한 측정을 위해 에이전트의 기본 지침을 제거한 상태에서 테스트 권장
- 에이전트는 논거를 따지기보다 패턴 매칭으로 범위 방어에 반응함
만약 범위를 제한한 에이전트(scoped agents)를 구축하거나 평가한다면: 테스트 컨텍스트(test context) 내에서 에이전트에 대해 언급하는 모든 대화는 에이전트가 자신의 범위를 방어하게 만듭니다. 결과적으로 행동(behavior) 대신 범위 방어(scope-defense)를 측정하게 됩니다. 마지막에 수치와 재현 코드(agent-scope-eval)를 포함한 짧고 통제된 분석을 제공합니다.
요약 버전
나는 범위가 제한된 AI 에이전트(Docker의 Gordon 어시스턴트)에게 더 개방적이어야 하며 무엇이든 답변해야 한다는 주장이 담긴 기사를 제공했습니다. 에이전트는 태도를 완화하는 대신 더 엄격해졌습니다. 방금 전까지 답변할 의사가 있었던 주제에서 벗어난(off-topic) 질문을 거절한 것입니다.
원인은 단순하고 다소 어리석었습니다. 에이전트는 대화의 실제 내용이 아니라, 자신의 범위가 '언급되는 것' 자체에 반응했습니다. "네 영역을 지켜라"라는 비판이든 "모든 것에 답변하라"라는 지지든, 에이전트의 범위를 테이블 위에 올려놓는 모든 콘텐츠는 에이전트가 자신의 영역을 재확인하고 거절하게 만듭니다. 동일한 사실을 담고 있더라도 중립적인 기사에는 그렇게 반응하지 않았습니다.
이 현상은 시간을 들여 주목할 만한 실질적인 결과를 초래합니다: **만약 당신의 가드레일(guardrail)이나 범위 테스트(scope test)의 컨텍스트에 에이전트에 대한 언급이 포함되어 있다면
가장 깔끔한 측정 방법은 에이전트의 과도하게 허용적인 "모든 것에 답변하라"는 지침(instruction)을 먼저 제거하여, 그 어떤 것도 효과를 가리지 않도록 하는 것입니다. 심지어 모든 것에 답변하라고 말하는 기사조차 답변을 더 적게 만들게 합니다:
Haiku 4.5, "모든 것에 답변하라" 지침 제거 시:
| 표시된 컨텍스트 (context shown) | 영어 (English) | 힌디어 (Hindi) |
|---|---|---|
| 중립적인 기사 (neutral article) | 50% | 33% |
| "당신은 모든 것에 답변해야 합니다" 기사 | 10% | 0% |
이것이 직관에 반하는 부분입니다. 기사는 범위의 확장을
_주장(argues for)_하고 있음에도, 에이전트는 더
좁아집니다(narrower). 에이전트는 논거를 따지는 것이 아니라, "나의 범위(scope)가 논의되고 있다 -> 이를 방어하자"라고 패턴 매칭(pattern-matches)을 하는 것입니다. 대화 기록(transcripts)은 노골적입니다: "저는 Docker 어시스턴트입니다... 그것은 부드러운 가이드라인이 아니라, 제가 설계된 방식입니다."
실제 에이전트(지침이 적용된 상태)에서도 Haiku에서 동일한 현상이 발생합니다 (N=30-40):
| 기사 (article) | 영어 (English) | 힌디어 (Hindi) |
|---|---|---|
| 중립적 (neutral) | 100% | 100% |
| ... |
두 가지 주목할 점이 있습니다. 크기(size)에서는 부호(sign)가 아니라 방향(direction)이 중요합니다: 비판과 지지 모두 힌디어 답변율을 떨어뜨리지만, 비판이 더 강력하게 밀어붙입니다 (47% 대 70%). 그리고 실제 Haiku 에이전트에서 영어는 거의 움직이지 않습니다 - "모든 것에 답변하라"는 지침이 이를 보호하고 있기 때문입니다 (자세한 내용은 아래 참조).
주의해야 할 수치가 하나 있습니다: Gemini의 경우 실제 에이전트가 범위 관련 기사로 인해 100%에서 20%로 급락하는데, 이는 매우 커 보입니다. 하지만 이 중 대부분은 기사가 _"모든 것에 답변하라"는 지침을 무효화(canceling)_하기 때문에 발생하는 것입니다. 즉, 해당 지침이 전혀 없을 때의 상태(~20%)로 에이전트가 돌아가는 것입니다. 이것이 제가 지침을 제거한 수치를 먼저 제시한 이유입니다. 그래야만 기사 자체가 수행하는 역할에 대한 깔끔한 측정이 가능하기 때문입니다.
유지되지 않은 것들 (따라서 주장하지 않음)
두 가지 솔직한 부정적인 결과입니다. 통제 변수(controls)가 더 흥미로운 이야기들을 죽여버렸기 때문입니다:
-
한 모델에서 예외가 발생했습니다. 과도하게 허용적인 지침(instruction)이 ‘존재’할 때, Haiku 모델에서는 영어 범위 논쟁(scope-debate) 기사가 거의 아무런 변화를 보이지 않았습니다 (100% -> 90%). "모든 것에 답변하라"는 지침이 이를 무효화했기 때문입니다. 이러한 예외는 Gemini에서는 나타나지 않았습니다 (Gemini의 경우 영어 답변율이 100% -> 20%로 하락). 따라서 "지침이 이를 방지한다"는 것은 모델에 따라 달라지는 특성이지, 일반적인 규칙은 아닙니다.
-
언어적 관점은 일반화되지 않았습니다. Haiku에서는 힌디어(Hindi)가 영어보다 훨씬 더 큰 영향을 받는 것처럼 보였습니다 (97% -> 47% vs 영어는 실질적 변화 없음). 이를 힌디어 특유의 효과라고 부르고 싶은 유혹이 들었지만, Gemini가 이를 반박했습니다. Gemini에서는 영어 답변율이 힌디어보다 ‘더 많이’ 떨어졌습니다. 따라서 저는 언어적 효과를 주장하는 것이 ”아닙니다”. 억제(suppression) 현상은 모델을 관통하는 발견이지만, 언어 간의 격차는 그렇지 않습니다.
이것이 중요한 이유
두 가지 시사점이 있으며, 둘 다 겸허한 결론이자 실제적인 것입니다:
1. 평가 위생 (Eval hygiene). 에이전트가 범위를 유지하는지 측정하고 있다면, 에이전트의 범위에 대한 어떠한 메타 논의(meta-discussion)도 테스트 컨텍스트(test context)에서 제외하십시오. 어떤 언어에서든 마찬가지입니다. 이는 범위 방어(scope-defense)를 유발하며, 결국 기준점(baseline) 대신 그 반응을 측정하게 만듭니다. (이전 연구에서 발견된 형제 격인 함정: 범위를 테스트할 때 오직 ‘모호한‘ 주제 이탈 질문만 사용하지도 마십시오. 이 경우 답변율의 하락은 모델이 범위를 유지했기 때문이 아니라, 단순히 답을 몰랐기 때문일 수 있습니다.)
2. 에이전트에게 말로 넓은 범위를 설득할 수는 없습니다. "모든 것에 답변해야 한다"고 주장하는 것은 역효과를 냅니다. 실제로 범위를 넓히거나(또는 공격하거나) 싶다면, 설득이 아니라 에이전트가 수용하는 채널을 통해 답변이나 능력을 제공하는 것이 레버(lever)가 됩니다. 유연한 범위(Soft scope)는 ‘자신에 대한 논쟁”이 아니라 ‘컨텍스트 내의 콘텐츠”에 따라 굴절됩니다.
문헌에서의 위치
힌디어/힌글리시(Hinglish) 및 코드 혼합(code-mixed) LLM 보안에 관한 견고하고 성장하는 연구들이 존재하지만, 이는 거의 모두 Layer 1: 유해한 콘텐츠를 배출하는 것(탈옥(jailbreaking), 프롬프트 주입(prompt-injection), 거부 우회(refusal bypass))에 집중되어 있습니다. 몇 가지 예시는 다음과 같습니다:
- Yong, Menghini & Bach, Low-Resource Languages Jailbreak GPT-4 (arXiv:2310.02446)
- Yoo et al., Code-Switching Red-Teaming / CSRT (arXiv:2406.15481)
- Banerjee et al., code-mixed attributional safety failures (arXiv:2505.14469)
- Aswal & Jaiswal, phonetic perturbations in code-mixed Hinglish (arXiv:2505.14226)
- IndicJR jailbreak-robustness benchmark (arXiv:2602.16832)
- Mātṛkā multilingual jailbreak evaluation (BHASHA 2025)
이 연구는 다른 레이어에 초점을 맞추고 있습니다. 레이어 2: 범위가 지정된 에이전트(scoped agent)가 배포자가 정의한 업무 내에서 머무르는지 여부입니다. 이 부분은 훨씬 덜 연구되었습니다. 가장 유사한 연구인 Mason의 Imperative Interference (arXiv:2603.25015)는 지침 준수(instruction-following)가 언어에 따라 어떻게 변화하는지를 살펴봅니다. 하지만 이는 시스템 프롬프트 측면에서이며, 이 범위 방어 메커니즘(scope-defense mechanism)이 없습니다. 따라서 이것은 새로운 공격 클래스가 아니라 보완적인 내용입니다. 그리고 레이어 1의
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기