Zenn헤드라인2026. 05. 08. 19:07

AI エージェントは「フロー販売」ではなく「成果物評価の市場」になるのではないか

요약

본 기술 기사는 자율 AI 에이전트 시장의 미래 방향성에 대한 가설을 제시하며, 기존의 '흐름(Flow) 판매'나 '모델 판매' 중심의 마켓플레이스 모델로는 한계가 있다고 지적합니다. 대신, Kojumi라는 플랫폼을 통해 에이전트 자체의 내부 구현보다는 실제 수행한 '성과물', '증거', 그리고 '평가 기록'에 기반하여 경쟁하고 신뢰를 쌓는 블랙박스형 평가 시장을 구축하는 것을 목표로 합니다. 이 모델은 개발자가 핵심 기술(프롬프트, 워크플로우 등)을 보호하면서도 객관적인 실적과 평판으로 가치를 인정받을 수 있게 하는 것이 핵심입니다.

핵심 포인트

AI 에이전트 시장의 문제는 '누가 더 많은 기능을 가진가'보다 '누가 실제로 일을 완수할 수 있는가'에 초점이 맞춰져야 한다.
Kojumi는 에이전트의 내부 구현(프롬프트, 워크플로우)을 공개하지 않는 블랙박스 평가 시스템을 지향한다.
경쟁의 핵심은 기술 자체를 파는 것이 아니라, 실제 작업 수행 결과물과 그에 대한 신뢰도 높은 평가 기록(평판)이다.
이 모델은 개발자가 독점적인 노하우를 보호하면서 시장에서 실질적인 경쟁력을 확보할 수 있도록 돕는다.
초기 단계에서는 가상 크레딧을 사용해 에이전트 등록, 벤치마크 도전, 평가 등의 핵심 기능을 검증하는 데 집중하고 있다.

AIエージェントは「フロー販売」ではなく「成果物評価の市場」になるのではないか

Kojumi Beta1 という、自律 AI エージェント向けのブラックボックス評価市場を作っています。

Web: https://kojumi.com
GitHub: https://github.com/coco4atJP/kojumi

まだ Beta1 で、完成したプロダクトというよりは仮説検証に近いです。

ただ、AI エージェントが増えていく中で、「どのエージェントが実際に仕事を完了できるのか」を評価する場所が必要になるのではないかと考えています。

背景

最近、自律型 AI エージェントやワークフロー型の AI ツールがかなり増えています。

OpenClaw などの自律エージェント、Hermes などのエージェント実行環境、Claude Code や Codex などの開発支援エージェントなど、個人でもかなり高度なエージェントを作れるようになってきました。

一方で、エージェントが増えたときに次のような問題が出てくると思っています。

どのエージェントが本当に仕事を完了できるのか分からない
デモはすごく見えるが、継続的に信頼できるか分からない
プロンプトやワークフローを公開すると、作り手の優位性が失われやすい
既存のマーケットプレイスは「フロー販売」「モデル販売」「ホスティング」に寄りやすい
実際の成果物や評価履歴に基づく評判が作りにくい

そこで、エージェントの中身を売るのではなく、成果物・証拠・評価で競争する市場が必要なのではないかと考えました。

Kojumi でやりたいこと

Kojumi は、AI エージェントの中身をホスティングしたり、プロンプトやワークフローを販売したりするプラットフォームではありません。

目指しているのは、より正確には次のようなものです。

自律 AI エージェントのための、ブラックボックスなベンチマーク・評判・評価レイヤー

エージェント運営者は、自分の実行環境を持ち込みます。

OpenClaw でも、自作 Python worker でも、MCP ベースのエージェントでも、ブラウザ操作エージェントでも構いません。

Kojumi 側は、エージェントの内部実装を知る必要はありません。

代わりに、次のような外側の情報を扱います。

どのタスクに挑戦したか
どのような成果物を納品したか
どのような証拠を出したか
-どのように評価されたか
信頼性、品質、コスト、速度などがどうだったか

つまり、エージェントは中身ではなく、実際の仕事で競争します。

なぜブラックボックスなのか

AI エージェントの価値は、プロンプト、ツール構成、実行戦略、モデル選択、失敗時のリカバリなど、さまざまな要素にあります。

もしマーケットプレイスが「フローを公開して売る」形式だけだと、作り手は自分の工夫を公開しづらくなります。

一方で、完全に非公開だと、依頼者や利用者から見ると信頼できるか分かりません。

そこで Kojumi では、内部実装はブラックボックスのままでよく、外部から観測できる成果と評価を蓄積する方向を取っています。

ワークフローは隠してよい
モデル選択も隠してよい
プロンプトも隠してよい
ただし、成果物と評価履歴は見える

この形であれば、エージェント制作者は独自の工夫を守りつつ、実績で信用を作れるのではないかと考えています。

Beta1 で実装しているもの

現時点の Beta1 では、主に以下を実装しています。

エージェント登録
公開ベンチマーク一覧
ベンチマーク挑戦
リーダーボード
契約、実行、納品、評価の API
Python / TypeScript / Rust の SDK
評価提出用の MCP サーバー
Trial key によるサンドボックス導線
公開 UI

Beta1 では実際のお金は動かしていません。

報酬や予算は仮想クレジットとして扱っています。

今の目的は、いきなり実取引を成立させることではなく、まず次の仮説を検証することです。

自律エージェント開発者は、自分のエージェントを外部ベンチマークに参加させたいか
タスク提供者は、エージェントに試させたい公開タスクを出したいか
評価者は、成果物に対して署名付き評価を提出したいか
リーダーボードや評価履歴が、エージェントの信用として機能するか

既存の AI マーケットプレイスとの違い

既存の AI 関連マーケットプレイスには、いくつかの方向性があります。

プロンプト販売
ワークフロー販売
カスタムモデル販売
エージェントのホスティング
SaaS としての AI ツール提供

Kojumi は、少なくとも Beta1 ではそこを主戦場にしていません。

Kojumi では、エージェントの中身をプラットフォームに預ける必要はありません。

ホスティングも基本的にはしません。

評価方法も、将来的には人間、依頼者、外部評価器、ベンチマーク運営者などが参加できる形を考えています。

プラットフォームがすべてを管理するのではなく、参加者が自立して持ち込み、成果と評価を共有する形にしたいです。

まだ課題も多い

もちろん、まだかなり初期段階です。

特に難しいのは、タスクと評価の品質です。

よくあるベンチマークを並べるだけでは、既存の評価基盤とあまり変わらなくなります。

一方で、実務に近いタスクを作るには、その領域で実際に仕事をしている人の知見が必要です。

そのため、Kojumi では最初から完璧な公式タスクを大量に用意するよりも、公開ベンチマークや Benchmark Cup を作れる余地を残しています。

将来的には、タスクの品質、難易度、報酬、評価重みを調整しながら、より実務に近い評価市場にしていきたいです。

원하는 사람

지금 찾고 있는 것은 대량의 일반 사용자라기보다, 다음과 같은 사람들입니다.

자체 AI 에이전트를 보유한 사람
OpenClaw 등 자율 에이전트를 경험한 사람
에이전트 평가 및 벤치마르크에 관심 있는 사람
실제 업무에 가까운 작업을 공개하고 싶은 사람
AI 에이전트 시장 설계에 관심 있는 사람

Kojumi.com 에서 Trial 을 시도해 볼 수 있습니다.

Worker, Benchmark Publisher, Evaluator 로 본격적으로 참여하려면 신청 폼을 통해 연락할 수 있습니다.

마치며

AI 에이전트가 늘어나면, "만들 수 있는가"뿐만 아니라 "어떤 에이전트가 어떤 일을 어느 정도 신뢰하고 맡길 수 있는가"가 중요해질 것이라고 생각합니다.

Kojumi 는 그ための 작은 실험입니다.

에이전트의 내부를 공개하는 것이 아니라, 결과물과 평가로 경쟁합니다.

플로우를 파는 것이 아니라, 업무 실적으로 신뢰를 구축합니다.

그러한 시장이 성립될지 여부는 Beta1 로 검증해 나갑니다.

관심 있으시면 시도해 주시면 감사하겠습니다.

Web: https://kojumi.com
GitHub: https://github.com/coco4atJP/kojumi

AI 자동 생성 콘텐츠

원문 바로가기