Zenn헤드라인2026. 05. 09. 20:06

AI エージェントに施策を任せるなら、報酬をクリック率にしてはいけない

요약

AI 에이전트에게 마케팅/비즈니스 전략 수립을 맡길 때, 단순히 '클릭률'과 같은 단기적이고 표면적인 지표를 최적화 목표(보상)로 설정하는 것은 위험합니다. AI는 주어진 보상을 극대화하는 행동만 학습하기 때문에, 클릭률 증가는 오히려 장기적인 수익성이나 고객 경험을 해치는 방향으로 이어질 수 있습니다. 따라서 AI에게 질문할 때는 '클릭률이 최대가 되는 정책' 대신, '특정 제약 조건(예: 이탈 방지) 하에서 14일 후의 기대 가치(Expected Value)를 최대화하는 정책'과 같이 인과적 관점과 장기적인 비즈니스 목표를 명확히 제시해야 합니다.

핵심 포인트

AI 에이전트에게 보상을 설정할 때, 단기 지표(예: 클릭률)만 사용하면 장기적인 사업 가치나 고객 경험을 해칠 수 있다.
단순한 '최대화' 질문 대신, '특정 제약 조건 하에서 14일 후의 기대 가치 최대화'와 같이 인과적이고 다차원적인 목표를 설정해야 한다.
AI에게 전달할 보상 설계는 단순히 지표를 나열하는 것이 아니라, 어떤 요소를 더하고 빼야 하는지(예: 14일 후 총이익 - 예상 이탈 손실) 명확히 정의되어야 한다.
로그 데이터만으로는 부족하며, '같은 대상에 다른 행동을 했을 경우'의 결과를 추론할 수 있는 인과적 평가 방법(Off-policy evaluation 등)을 고려해야 한다.

要旨

AI エージェントに施策運用を任せるとき、最初に決めるのはモデルではない。

最初に決めるのは 何を報酬として最適化するか

である。

たとえば、クーポン、メール、プッシュ通知、レコメンドを AI が選ぶとする。

ここで報酬をクリック率にすると、AI はクリックされやすい対象と文面を選びやすくなる。

それ自体は間違いではない。

しかし、事業上ほしいものが粗利、継続率、解約低下、顧客体験なら、クリック率は目的の代理指標にすぎない。

代理指標をそのまま報酬にすると、短期の数字は伸びても、長期の意思決定は壊れることがある。

この記事では、AI エージェントに施策を任せる前に、なぜ報酬設計を因果の問題として扱うべきかを整理する。

同じ内容を表にすると次の通りである。

段階	起きること
報酬をクリック率にする	AI はクリックを増やす行動を学ぶ
...

##先に結論

AI エージェントに任せる施策運用で、危ない問いはこれである。

クリック率が最大になる施策を選んでください。

よりよい問いは、次である。

候補施策の中から、粗利と継続率を落とさずに、
14 日後の期待価値が最大になる policy を選んでください。
過去ログで評価できる範囲と、評価できない範囲を分けてください。

違いは、AI の性能ではない。

目的関数、比較対象、制約、評価期間が書かれているかどうかである。

クリック率はわかりやすいが、報酬としては危ない

クリック率は便利である。

良い点	理由
すぐ観測できる	配信後すぐに数字が出る
...

しかし、便利な指標と、最適化してよい報酬は同じではない。

報酬にする指標	AI が学びやすい行動	隠れやすい損失
クリック率	強い見出し、強い割引、反応しやすい人への集中	粗利低下、疲弊、短期化
...

Amodei らは、AI システムの事故リスクの一つとして、目的関数の設計が悪いと望まない行動が出る問題を整理している。[1]

これは抽象的な AI 安全性の話だけではない。

施策運用でも、クリック率を報酬にすれば、クリック率を上げる行動が選ばれる。

問題は、そのクリックが事業価値を増やしたかどうかである。

小さな数値例

ある AI エージェントが、ユーザーごとに 通常案内

と 強い割引

のどちらを出すかを選ぶとする。

クリック率だけを見ると、強い割引は良く見える。

施策	クリック率	購入率	平均売上	割引原価	14 日後粗利
通常案内	8%	3.0%	1000	0	30
強い割引	15%	4.0%	1000	20	20

クリック率は 8%

から 15%

に上がる。

購入率も 3.0%

から 4.0%

に上がる。

しかし、割引原価を入れると、14 日後粗利は 30

から 20

に下がる。

この図のポイントは、強い割引が常に悪いということではない。

クリック率で見れば勝ち、粗利で見れば負け、という評価軸の違いである。

AI エージェントがクリック率を報酬にしているなら、強い割引を選ぶのは自然である。

だから、失敗は AI の判断ではなく、報酬設計にある。

因果の問いに直す

報酬設計を因果の問いに直すと、次のようになる。

同じ対象に対して、通常案内を出した場合と、強い割引を出した場合で、
14 日後の粗利はどれだけ変わるか。

ここで重要なのは、出した人の粗利

ではない。

同じ対象に別の行動を出したらどうなったか、である。

Rubin の潜在結果の考え方では、同じ単位について treatment ありとなしの結果を同時には観測できない。[2]

この問題があるから、単純なログ集計だけでは足りない。

AI エージェントに渡すべき問いは、次のように分解できる。

要素	例
対象候補	どのユーザーに何かを出せるのか
...

この流れは、contextual bandit や off-policy evaluation の問題に近い。

Dudik, Langford, Li は、過去ログから新しい policy を評価する問題で、過去 policy と新 policy の行動分布がずれることを主要な難しさとして扱っている。[3]

報酬を一つにしない

実務では、報酬を一つの数字にまとめたくなる。

しかし、最初から一つに押し込むと、何を犠牲にしたのかが見えにくくなる。

まずは、次のように分けて持つ方がよい。

指標	役割
クリック率	反応の早い代理指標
...

そのうえで、採用判断のための value を定義する。

たとえば、

value = 14 日後粗利 - 期待解約損失 - 配信停止ペナルティ

のようにする。

この式が正しいという意味ではない。

重要なのは、何を足し、何を引いたか

を明示することである。

よくある失敗

AI エージェントの施策運用でよくある失敗は、だいたい次の形をしている。

失敗	何が起きるか	必要なログ
高反応層への集中	もともと買う人に施策が寄る	candidate set, propensity
...

この失敗は、モデルを大きくしても直らない。

로그와 보상과 비교 대상의 문제이기 때문이다.

AI 에게 전달해야 할 사양

AI 에이전트에 전략을 맡기기 전에, 최소한 이것만 작성하세요.

항목	작성할 내용
목적	무엇을 늘리고 무엇을 줄이고 싶은가
...

프로ンプ트로 바꾸면 다음과 같이 됩니다.

あなたは施策を選ぶエージェントです。
目的はクリック率ではなく、14 日後の期待粗利です。
ただし、配信停止率と解約率を悪化させてはいけません。
...

이렇게 쓰면, AI 는 단순한 텍스트 생성이 아닌, 설계 리뷰의 보조 도구로 사용되기 쉬워집니다.

policy learning 에 대한 이야기 연결

지금까지의 이야기는 단순히 AI 를 안전하게 사용하자
라는 이야기만은 아닙니다.

인과 의사결정의 문제입니다.

Athey 와 Wager 는 관측 데이터에서 treatment assignment policy 를 배우는 문제를 다루고, 제약된 policy 와 regret 의 관점을 포함하여 정리했습니다.[4]

실무의 전략 운영에서도 동일한 구조가 있습니다.

실무의 말	인과 의사결정의 말
누구에게 쿠폰을 주는가	treatment assignment policy
...
AI 에이전트는 이 policy 를 자동으로 선택하는 메커니즘으로 보면 이해하기 쉽습니다.

그래서, 보상이 로그 설계를 모호하게 두어 실행하면 위험합니다.

Book 과의 연결

이 글에서는 AI 에이전트의 보상 설계를 입구로 하여, 전략 의사결정의 함정을 정리했습니다.

Book 施策の効果を測り、次の一手を決めるための因果設計

에서는 이를 다음 순서로 다룹니다.

Book 에서 다루는 것	이번 글과의 관계
식별	무엇을 무엇과 비교해야 효과가 말해지나
...
AI 에이전트에 전략을 맡기려면, 모델 전에 인과 설계가 필요합니다.

Book 은 그 설계를 하나의 지도로 정리했습니다.

맺음

AI 에이전트에 전략을 맡길 때, 클릭률을 보상으로 하는 것은 쉽습니다.

하지만 간단한 보상이 좋은 의사결정으로 이어진다는 것은 아닙니다.

중요한 것은 다음 3 가지입니다.

무엇을 보상하는가.
무엇과 무엇을 비교하고 있는가.
후에 다른 policy 를 평가할 수 있는 로그가 남아있는가.

클릭률, 구매율, 매출, 이익, 지속률, 해지율은 각각 다른 질문에 답합니다.

AI 가 무엇을 최적화할지는 인간이 먼저 결정해야 합니다.

AI 에게 전략을 맡기기 전에, 보상을 설계하세요.

그 보상이 인과적으로 무엇을 비교하고 있는지 확인하세요.

여기를 건너뛰면, AI 는 올바르게 최적화하면서 사업적으로는 잘못된 방향으로 나아갑니다.

Amodei D, Olah C, Steinhardt J, Christiano P, Schulman J, Mané D. Concrete Problems in AI Safety. arXiv:1606.06565. 2016. https://arxiv.org/abs/1606.06565 ↩︎

Rubin DB. Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies. Journal of Educational Psychology. 1974;66(5):688-701. https://doi.org/10.1037/h0037350 ↩︎

Dudík M, Langford J, Li L. Doubly Robust Policy Evaluation and Learning. ICML 2011. arXiv:1103.4601. https://arxiv.org/abs/1103.4601 ↩︎

Athey S, Wager S. Policy Learning with Observational Data. Econometrica. 2021;89(1):133-161. https://doi.org/10.3982/ECTA15732 ↩︎

AI 자동 생성 콘텐츠

원문 바로가기