Zenn헤드라인2026. 05. 09. 19:46

探索しない AI エージェントは、効く施策ではなく「見たことがある施策」を選ぶ

요약

AI 에이전트가 의사결정(施策選択)을 할 때, 과거 데이터에 편향되어 '효과적인' 정책보다는 '자주 본' 정책을 선택하는 경향이 있습니다. 따라서 AI 에이전트를 설계할 때는 단순히 현재의 최적화된 결과만 보는 것이 아니라, 미래에 다른 관점에서 평가할 수 있도록 '탐색률(exploration rate)', '선호도(propensity)', 그리고 '정책 버전(policy version)' 등의 메타데이터를 반드시 기록해야 합니다. 특히 과거 로그에 한 번도 등장하지 않은 행동(action)의 결과를 나중에 평가하는 것은 근본적으로 불가능하므로, 충분한 탐색 기회를 확보하는 것이 중요합니다.

핵심 포인트

AI 에이전트는 데이터 편향성 때문에 실제로 효과적인 정책보다 과거에 자주 관측된 정책을 선택하기 쉽습니다.
단순히 현재의 성과만 추적할 경우, '다른 방식으로 했으면 더 좋았을까?'라는 질문에 답할 수 없습니다.
AI 에이전트 설계 시에는 탐색률(exploration rate), 선호도(propensity), 정책 버전 등 메타데이터를 기록하여 미래 평가 가능성을 확보해야 합니다.
과거 로그에 한 번도 등장하지 않은 행동(action)의 결과는 나중에 아무리 정교한 모델을 사용해도 추정할 수 없습니다.

要旨

AI エージェントに施策選択を任せると、自然にこう考えたくなる。

過去に良かった施策を選ばせればよい。

これは半分正しい。

過去に良かった施策を無視する必要はない。

しかし、探索を入れないまま AI エージェントを動かすと、AI は 効く施策

ではなく、過去ログでたまたま見えている施策

を選び続けることがある。

さらに悪いことに、探索ログが残っていないと、あとから別の施策ルールを評価することも難しくなる。

この記事では、AI エージェントに施策を任せるときに、なぜ探索率、propensity、policy version を残す必要があるのかを整理する。

同じ内容を表にすると次の通りである。

段階	起きること
過去によく選ばれた施策がある	ログが多く、推定が安定する
...	...

先に結論

AI エージェントに施策を任せるなら、次の 3 つを最初に決める。

決めるもの	役割
探索率	どれくらい未知の施策を試すか
...	...
これらがないと、AI は短期的には賢く見える。

しかし、後から次の問いに答えにくくなる。

別の配り方なら、もっと良かったのか。

この問いに答えるには、過去に何をどの確率で選んだかが必要である。

なぜ「勝ちそうな施策だけ選ぶ」が危ないのか

施策候補が 3 つあるとする。

action	内容
A	通常案内
...	...
過去ログでは、A がほとんど選ばれていた。

action	過去に選んだ確率	ログ件数
A	90%	9000
...	...
この状態で平均成果を見ると、A は安定して見える。

B と C はログが少ないので、不確実性が大きい。

action	真の期待粗利	観測ログの安定性	AI からの見え方
A	30	高い	安全そう
...	...
本当は B が最も良い。

しかし、B のログが少なければ、AI は A を選び続けやすい。

これは AI が愚かだからではない。

データが A に偏っているからである。

表で言えば、こうである。

施策	ログ量	推定の安定性	採用されやすさ
A	多い	高い	高い
...	...
ログ量の偏りは、施策の良し悪しとは別の問題である。

探索と活用を分ける

bandit の基本的な問題は、exploration

と exploitation

のトレードオフである。

よくわかっている選択肢を使うことが exploitation で、まだ不確かな選択肢を試すことが exploration である。

Auer, Cesa-Bianchi, Fischer の UCB 系の研究は、この探索と活用のバランスを有限時間の regret として扱う代表的な仕事である。[1]

Lattimore and Szepesvari の Bandit Algorithms でも、bandit 問題は不確実な選択肢を試しながら価値を学ぶ枠組みとして整理されている。[2]

実務では、次のように考えるとよい。

| 動き | 目的 | やりすぎると |
|---|---|
| 探索 | まだ不確かな施策の情報を得る | 短期成果が落ちる |
| 活用 | 現時点で良さそうな施策を使う | 既知の施策に固定される |

探索は無駄打ちではない。

未来の意思決定に必要な情報を買っている。

小さな解析

過去 policy と、新しく試したい policy を比べる。

過去 policy は A に偏っていた。

新 policy は B と C をもっと試したい。

| action | 過去 policy の確率 | 新 policy の確率 | 重み |
|---|---|---|
| A | 0.90 | 0.00 | 0.00 |
| ... | ...
off-policy evaluation では、過去 policy で選ばれた確率に応じて重みを使う。

ここでは C の重みが 50.00

になる。

これは危ない。

C のログが少ないのに、新 policy では C を大きく使おうとしているからである。

状況	何が起きるか
過去 policy でほぼ選んでいない action を新 policy が多く選ぶ	評価の分散が大きくなる
...	...
Dudik, Langford, Li は、過去ログから新しい policy を評価する問題で、過去 policy と新 policy の行動分布がずれることを中心的な難しさとして扱っている。[3]

Swaminathan and Joachims も、logged bandit feedback から学習する問題で propensity scoring を明示的に扱っている。[4]

0 は後から救えない

いちばん危ないのは、ある action が過去に一度も選ばれていない場合である。

| action | 過去 policy の確率 | 新 policy の確率 | 評価できるか |
|---|---|---|
| A | 0.80 | 0.20 | できる |
| ... | ...
C の過去確率が 0.00

なら、C を出したときの outcome は観測されていない。

이 상태에서 새로운 정책 (policy) 이 C 를 크게 사용한다면, 과거 로그만으로는 평가할 수 없습니다.

이는 나중에 고급 모델을 사용하더라도 근본적으로는 해결하기 어렵습니다.

관측하지 않은 action 의 결과를, 로그만으로 확인하는 것은 불가능하기 때문입니다.

AI 에이전트에 남겨두어야 할 로그

AI 에이전트를 작동시키려면, 최소한 다음을 남겨둡니다.

로그 항목	왜 필요한가
user_id 또는 unit_id	대상 (target) 을 추적하기 위해
...
특히 `candidate actions`는 중요합니다.

선택되지 않은 정책 (policy) 도, 그時点で 후보였는지 여부를 남겨두어야 합니다.

탐색률은 고정값이 아닌 설계값입니다

탐색률 (exploration rate) 은 기분에 따라 결정되는 것이 아닙니다.

정책의 리스크, 사용자 영향, 학습하고 싶은 속도, 기존 지식의 강도로 변경합니다.

상황	탐색률에 대한 생각
새 정책으로 해가 작을 경우	조금 더 넓게 탐색할 수 있음
...

탐색률은 AI 에게 맡기기 전에 인간이 결정하는 제약입니다.

AI 가 자유롭게 최적화할수록, 탐색의 설계가 중요합니다.

AI 에게 전달하는 프롬프트

나쁜 질문 방식은 다음과 같습니다.

가장 좋은 정책을 선택해 주세요.

이는 탐색과 평가 모두 모호합니다.

좋은 질문 방식은 다음과 같습니다.

정책 선택 정책 (policy) 을 설계하는 보조를 수행합니다.
후보 action 은 A, B, C 입니다.
목표는 14 일 후의 총이익이며, 해지율과配信停止率을 악화시켜서는 안 됩니다.
...

이 질문 방식이라면, AI 는 어느 것이 가장 좋은가
뿐만 아니라, 지금의 로그에서 무엇이 평가할 수 없는가
를 정리할 수 있습니다.

책과의 연결

이 기사의 이야기는, 책 정책의 효과를 측정하고, 다음 한手を 결정하기 위한 인과 설계
의 Chapter 10 과 직접적으로 연결됩니다.

책에서 다루는 것	이번 기사와의 관계
정책 가치 (policy value)	다른 정책 규칙이라면 기대치가 어떻게 변하는가
...

AI 에이전트에 정책을 맡기는ほど, 로그 설계는 중요합니다.

책에서는, 그 전제 조건이 되는 인과 설계를, 식별, 추정, 발견, 의사결정의 순서로 정리하고 있습니다.

요약

탐색하지 않는 AI 에이전트는, 효과가 있는 정책이 아닌, 과거에 본 적이 있는 정책을 계속 선택할 수 있습니다.

원인은 간단합니다.

로그가 편향되어 있기 때문입니다.

AI 에이전트를 정책 운영에 사용하려면, 최소한 이것을 결정해야 합니다.

얼마나 탐색하는가.
어떤 확률로 action 을 선택하는가.
어떤 정책 버전으로 선택한가.
...

AI 를 작동시키기 전에 탐색률을 설계합니다.

propensity 를 남겨둡니다.

policy version 을 남겨둡니다.

이를 하지 않으면, AI 는 똑똑해 보입니다.

하지만 다음 한手を 평가하기 위한 로그는 남지 않습니다.

Auer P, Cesa-Bianchi N, Fischer P. Finite-time Analysis of the Multiarmed Bandit Problem. Machine Learning. 2002;47:235-256. https://doi.org/10.1023/A:1013689704352 ↩︎
Lattimore T, Szepesvari C. Bandit Algorithms. Cambridge University Press. 2020. https://doi.org/10.1017/9781108571401 ↩︎
Dudík M, Langford J, Li L. Doubly Robust Policy Evaluation and Learning. ICML 2011. arXiv:1103.4601. https://arxiv.org/abs/1103.4601 ↩︎
Swaminathan A, Joachims T. Counterfactual Risk Minimization: Learning from Logged Bandit Feedback. ICML 2015. Proceedings of Machine Learning Research 37:814-823. https://proceedings.mlr.press/v37/swaminathan15.html ↩︎
title": "다음 본문을 이어서 번역해주세요"

AI 자동 생성 콘텐츠

원문 바로가기