AIエージェントまとめ

AI エージェントを勉強するために、用語についてまとめる。

気になる章だけ解説を記載している状態であるため、解説は随時更新する。

1. AI エージェントの基礎

AI Agent（AI エージェント）
Agentic AI（エージェント型 AI）
Autonomous Agent（自律エージェント）
Agent Loop（エージェントループ）
Perception-Action Loop（知覚 - 行動ループ）
Goal（ゴール）
Environment（環境）
Observation（観察）
Action（行動）
State（状態）
Policy（方策）
Reward（報酬）
Rational Agent（合理的エージェント）
Reactive Agent（反応型エージェント）
Deliberative Agent（熟慮型エージェント）
BDI Agent (Belief-Desire-Intention)（信念 - 欲求 - 意図型エージェント）
Embodied Agent（身体化エージェント）
Conversational Agent（対話型エージェント）
Task-Oriented Agent（タスク指向型エージェント）

2. エージェントの構成要素

Perception Module（知覚モジュール）
Memory Module（メモリモジュール）
Planning Module（計画モジュール）
Action Module（行動モジュール）
Profile / Persona（プロファイル / ペルソナ）
Scratchpad（スクラッチパッド）
Inner Monologue（内的独白）
Tool Registry（ツールレジストリ）
Task Description（タスク説明）
Instruction Following（指示追従）
Cognitive Architecture（認知アーキテクチャ）

3. メモリシステム

Working Memory（ワーキングメモリ）
Short-term Memory（短期記憶）
Long-term Memory（長期記憶）
Episodic Memory（エピソード記憶）
Semantic Memory（意味記憶）
Procedural Memory（手続き記憶）
External Memory（外部記憶）
In-context Storage（インコンテキストストレージ）
External Storage（外部ストレージ）
Memory Retrieval（記憶検索）
Memory Consolidation（記憶統合）
Memory Update（記憶更新）
Memory Compression（記憶圧縮）
Associative Memory（連想記憶）
Knowledge Graph（知識グラフ）
Entity（エンティティ）
Relation（関係）
Memory Decay（記憶減衰）
Persistent Memory（永続的記憶）

4. 計画・推論

Planning（プランニング）
Task Decomposition（タスク分解）
Subgoal（サブゴール）
Task Graph（タスクグラフ）
Dependency Resolution（依存関係解決）
Hierarchical Planning（階層的計画）
Dynamic Planning（動的計画）
Replanning（再計画）
Backtracking（バックトラッキング）
Lookahead（先読み）
Plan-and-Execute（計画と実行）
ReAct (Reasoning + Acting)（推論と行動）
Interleaved Task Planning（インターリーブタスク計画）
Constraint Satisfaction（制約充足）
Tree Search（木探索）
Monte Carlo Tree Search / MCTS（モンテカルロ木探索）
Beam Search Planning（ビームサーチ計画）
Subgraph Traversal（サブグラフ探索）
Goal Decomposition（ゴール分解）
Means-Ends Analysis（手段 - 目的分析）

5. ツール使用・環境インタラクション

Tool Use（ツール使用）
Function Calling（ファンクションコールリング）
API Calling（APIコール）
Tool Schema（ツールスキーマ）
Tool Selection（ツール選択）
Tool Registration（ツール登録）
Web Search（ウェブ検索）
Web Browsing（ウェブブラウジング）
Computer Use（コンピュータ使用）
GUI Agent（GUIエージェント）
Code Execution（コード実行）
Code Interpreter（コードインタープリタ）
File System Access（ファイルシステムアクセス）
Database Query（データベースクエリ）
Grounding（グラウンディング）
Environment Feedback（環境フィードバック）
Actuator（アクチュエータ）
Sensor（センサー）
MCP (Model Context Protocol)（モデルコンテキストプロトコル）
Sandbox（サンドボックス）
Containerization（コンテナ化）
Action Space（行動空間）
Observation Space（観察空間）
Embodied Interaction（身体的インタラクション）

6. エージェントアーキテクチャの種類

クラシック分類

Simple Reflex Agent（単純反射型エージェント）
Model-Based Reflex Agent（モデルベース反射型エージェント）
Goal-Based Agent（ゴールベース型エージェント）
Utility-Based Agent（効用ベース型エージェント）
Learning Agent（学習型エージェント）

LLM ベース分類

Single Agent（シングルエージェント）
Multi-Agent System / MAS（マルチエージェントシステム）
Vertical Agent（垂直型エージェント）
Horizontal Agent（水平型エージェント）
Agentic Workflow（エージェティックワークフロー）
Pipeline Agent（パイプライン型エージェント）
Routing Agent（ルーティング型エージェント）
Generalist Agent（汎用型エージェント）
Specialist Agent（専門型エージェント）
Hybrid Agent（ハイブリッド型エージェント）

自律度による分類

Fully Autonomous Agent（完全自律型エージェント）
Semi-Autonomous Agent（半自律型エージェント）
Human-in-the-loop Agent（ヒューマンインザループ型エージェント）
Copilot（コパイロット）
Assistant Agent（アシスタント型エージェント）

7. マルチエージェントシステム（解説付き）

構造・役割

Multi-Agent System / MAS（マルチエージェントシステム）

複数の自律エージェントが共有環境の中で相互作用するシステムの総称。Wooldridge（2002 年，An Introduction to MultiAgent Systems）は、MAS を「複数のエージェントが存在し、各エージェントが自律性・社会性・反応性・能動性を持ちながら協調または競争するシステム」と定義している。Russell & Norvig（Artificial Intelligence: A Modern Approach）においても、マルチエージェント環境は単一エージェント設計とは根本的に異なる設計原則を要求するとされる。近年では LLM をエージェントの中核に据えた LLM-MAS が急速に発展しており、AutoGen・MetaGPT・CAMEL など複数のフレームワークが 2023 年以降に提案されている。IJCAI 2024 でのサーベイ論文（guo et al., 2024）は LLM-MAS を「プロファイル・知覚・自己行動・相互作用・進化」の 5 要素で体系化している。

Orchestrator（オーケストレーター）

マルチエージェントシステム全体のタスク制御を担う中心的なエージェントまたはコンポーネント。ユーザーの入力を受け取り、タスクを分解して各ワーカーエージェントに割り当て、結果を統合する役割を持つ。Anthropic（2024 年，Building Effective Agents）はオーケストレーター - ワーカーパターンを、サブタスクの数や内容が事前に確定できない複雑なタスクに特に有効なアーキテクチャとして位置付けている。このパターンでは全ての調整がオーケストレーターを介して行われるため、エラーのトレースや品質管理が容易になる一方、レイテンシや単一障害点（SPOF）のリスクが生じる。LangGraph の Supervisor パターンや AutoGen の GroupChat セレクター実装がこのアーキテクチャの代表的な実装例とされる。

Orchestration（オーケストレーション）

複数のエージェントやツールをタスクの達成に向けて協調させるプロセス全体を指す概念。静的な実行順序を定義するパイプライン型と、実行時に動的にタスクを割り当てる適応型の2種類に大別される。Kore.ai（2024年）は、オーケストレーションパターンの選択がシステムの拡張性・コスト・応答速度・信頼性に直接影響すると述べており、ユースケースに応じた設計判断が重要であると指摘する。LLMを用いたオーケストレーションでは、中央のLLMがタスクを動的に分割しワーカーに委譲する「ハブ・アンド・スポーク型トポロジー」が広く採用されている。階層が深くなるほどレイテンシが累積するトレードオフも知られており、3層の階層構造では最小でも各LLM呼び出し時間の合計分の遅延が発生する。

Supervisor Agent（スーパーバイザーエージェント）

ワーカーエージェントの進捗を監視し、品質検証・タスク再割り当て・エスカレーションを行う上位エージェント。Orchestratorと近い概念だが、Supervisorは特に実行中の品質保証と動的な判断を強調する役割として使われる。LangGraphではSupervisorパターンとして実装されており、中央のLLMが各ワーカーエージェントの出力を検証してタスクの成否を判定する構造が取られる。MetaGPT（Hong et al., 2023, arXiv:2308.00352）においても、各ロール（ProductManager・Architect・Engineerなど）の出力を別のロールが検証する連鎖構造が採用されており、これはSupervisor的な品質管理機能を担う。複数階層の監督構造では、各Supervisorが担当する専門ドメインを限定することで、スケーラビリティと精度のバランスをとることが推奨されている。

Worker Agent（ワーカーエージェント）

Orchestratorまたは Supervisorからタスクを受け取り、具体的な処理（情報検索・コード生成・分析など）を実行する専門化されたエージェント。Orchestratorとは異なり、他エージェントとは直接通信せず、割り当てられたサブタスクのみに集中する設計が基本とされる。専門化されたワーカーは汎用エージェントに比べてシステムプロンプトが最適化しやすく、タスク精度が向上しやすい。AutoGen（Wu et al., 2023, arXiv:2308.08155）ではカスタマイズ可能な会話型エージェントとしてワーカーが実装されており、LLM・ツール・人間入力の組み合わせを柔軟に選択できる。ワーカー間の役割分担（Role Specialization）は、MetaGPTが「ソフトウェア企業のアセンブリライン」として体系化した概念と親和性が高い。

Subagent（サブエージェント）

上位エージェントから呼び出されて特定のサブタスクを実行するエージェントで、Worker Agentと同義的に使われることが多いが、特に階層的な委譲関係を強調する文脈で使用される。Amazon Bedrock AgentCoreなどのマネージドサービスでは、メインエージェントがサブエージェントをAPIとして呼び出す設計が標準的なパターンとなっている。LLMベースのシステムでは、サブエージェントは独立したLLMインスタンスを持つ場合と、ツール呼び出しとして実装される場合の両方が存在する。Wooldridgeの古典的MASにおける「エージェント委任（agent delegation）」の概念がLLMエージェントでも継承されており、タスク委譲時の情報伝達（コンテキストの引き渡し）がシステム品質の重要な決定因子となっている。サブエージェントへのコンテキスト渡しの粒度設計（全履歴渡し vs 要約渡し）はトークンコストとタスク継続性のトレードオフを生む実務上の重要課題でもある。

Handoff（ハンドオフ）

あるエージェントから別のエージェントへ、制御・責任・会話コンテキストを引き渡すプロセス。OpenAI Agents SDK・AutoGen・LangChainなどの主要フレームワークでは、ハンドオフをLLMから見た「ツール呼び出し」として実装し、たとえば transfer_to_refund_agent
のような関数として表現する。XTrace（2024年）はエージェントハンドオフを「マルチエージェントワークフローにおける最大の未解決課題の一つ」と指摘しており、引き継ぎ時の文脈損失がシステム品質の大きなボトルネックとなることを示している。コンテキスト引き渡し方式としては、全会話履歴の転送・型付き構造化オブジェクトの渡し・LLMによる要約圧縮の3方式が実務上比較されており、要約圧縮はトークン量を70〜90%削減できるとされる。一方で、要約によって失われる詳細情報がダウンストリームのエージェントに与える影響も研究上の課題となっている。

Role Assignment（役割割り当て）

멀티 에이전트 시스템에서 각 에이전트에 특정 전문적 역할·페르소나·책임 범위를 부여하는 과정. 주요 구현 방식은 시스템 프롬프트를 통한 역할 정의 (페르сона 설계) 와 도구 세트의 제한 (도구 레벨 전문화) 의 2 가지로 분류된다. MetaGPT(Hong et al., 2023) 는 ProductManager·Architect·ProjectManager·Engineer·QA Engineer 의 5 역할을 해당하는 SOP 를 각 에이전트에 부여함으로써 소프트웨어 개발 프로세스를 모방한 협력을 실현하고 있다. CAMEL(Li et al., 2023, NeurIPS 2023) 은 '인셉션 프롬프팅'을 통해 AI 간의 역할 플레이를 유도하며, 작업 지향 대화 데이터 생성에서의 역할 고정 효과를 입증했다. 전문화된 롤을 가진 에이전트 팀은 단일 일반적 에이전트보다 복잡한 작업에서의 성공률이 높다는 것이 여러 연구에서 증명되었다.

Agent Specialization(에이전트 전문화)

에이전트의 지식·도구·추론 스타일을 특정 도메인이나 기능에 특화시켜, 일반적 에이전트보다 높은 정밀도를 달성하는 설계 원칙. 전문화는 프롬프트 레벨 (시스템 프롬프트에서의 상세한 페르сона 정의) 과 도구 레벨 (특정 도구 접근 제한) 의 2 층으로 시행된다. MetaGPT 가 제안한 어셈블리 라인형 패러다임에서는 역할별 전문 지식을 SOP 로 인코딩함으로써 각 에이전트의 판단 정밀도를 유지하면서 병렬 처리를 가능하게 하고 있다. LLM-based multi-agent systems for software engineering(Rasheed et al., arXiv:2404.04834) 에 따르면, 에이전트의 전문화는 모듈성·협조성·스케일러빌리티의 향상을 가져오지만, 과도한 전문화는 에이전트 간의 조정 비용을 증가시키는 위험도 내포한다. Agentic AI 의 서베이 (2025 년, arXiv:2601.12560) 는 Perception·Brain·Planning·Action·Tool Use·Collaboration 의 6 차원에서 에이전트 능력을 분석하고 있으며, 전문화의 정도는 각 차원의 스펙 설정으로 간주된다.

협력·통신

Agent Communication(에이전트 간 통신)

멀티 에이전트 시스템에서 에이전트들이 정보를 교환하는 메커니즘 전반. 통신 방식은 직접 통신 (에이전트 간의 메시지 송수신) 과 간접 통신 (공유 환경이나 공유 메모리への 읽기·쓰기) 으로 분류된다. Wooldridge(2002 년) 는 에이전트 통신 언어 (ACL: Agent Communication Language) 의 개념을 제안하며, KQML 나 FIPA-ACL 등 표준화된 통신 프로토콜의 중요성을 논했다. LLM 기반 시스템에서는 자연어가 통신의 주요 매체로 되어 있으며, MCP(Model Context Protocol) 등의 표준화된 인터페이스도 등장하고 있다. Communication-Centric Survey(arXiv:2502.14321) 는 LLM-MAS 의 통신을 매크로 (시스템 전체의 워크플로우) 에서 미크로 (개별 메시지의 내용) 까지 체계적으로 분석하는 프레임워크를 제안하고 있다.

Message Passing(메시지 패싱)

에이전트들 사이에서 구조화 또는 비구조화된 메시지를 송수신함으로써 정보·명령·결과를 전달하는 기구. AutoGen(Wu et al., 2023) 은 이를 '대화형 에이전트 (conversable agent)'로 구현하며, 에이전트 간의 메시지 교환을 중심으로 한 협력 패턴을 제공한다. 병렬 에이전트 실행 시에는 메시지의 순서 제어·경쟁 상태 (race condition) 의 방지가 구현상의 과제로 된다. LangGraph에서는 그래프의 에지로 메시지 흐름을 정의하고, 상태 관리와 메시지 패싱을 통합하고 있다. 고전적 MAS 의 FIPA(Foundation for Intelligent Physical Agents) 의 메시지 규격이 LLM 에이전트에도 부분적으로 계승되어 있으며, Performative(발언 의도)·Sender·Receiver·Content 의 구조가 현대의 프레임워크의 메시지 설계에 영향을 미치고 있다.

Shared Memory(공유 메모리)

여러 에이전트가 동일한 메모리 영역 (데이터베이스·벡터 스토어·캐시 등) 에 접근하여 정보를 읽기·쓰기함으로써, 명시적인 메시지 교환 없이 협력을 실현하는 기구. 직접 통신에 비해 에이전트 간의 밀접 결합을 피할 수 있는 장점이 있으나, 경쟁 접근의 제어와 데이터 일관성의 관리가 과제로 된다. Blackboard System(후술) 은 공유 메모리의 고전적인 구현 패턴이며, LLM 에이전트への 응용이 2024 년 이후에 연구되고 있다 (bMAS, EmergentMind 2024). Google(2024 년, Developers Blog) 은 프로덕션용 멀티 에이전트 프레임워크에서 컨텍스트 효율의 최대화가 설계상의 가장 중요한 과제라고 말하며, 공유 메모리의 설계가 그 열쇠를 쥐고 있다고 지적하고 있다. 공유 메모리는 에이전트가 실시간으로 상태를 참조·업데이트할 수 있으므로, 장기적 작업이나 비동기 워크플로우에서 특히 유용한 패턴으로 간주된다.

Shared Context(공유 컨텍스트)

複数のエージェントがタスク実行中に参照する共通の文脈情報（会話履歴・タスク状態・中間成果物など）の総称。エージェントハンドオフ時の情報伝達の核心であり、共有コンテキストの設計品質がシステム全体の一貫性に直結する。全履歴を全エージェントに渡す方式・型付き構造化オブジェクトとして必要フィールドのみを渡す方式・LLMで要約圧縮して渡す方式の 3 アプローチが実務上比較されており、トークン効率と情報保全のトレードオフが生じる。コンテキストの劣化（Context Rot）は長時間タスクにおける信頼性低下の主要因とされており、コンテキスト圧縮（Context Compaction）や選択的引き渡しがその対策として研究されている。AutoGen v0.4（Microsoft Research, 2024 年）ではスケーラビリティと堅牢性を意識したコンテキスト管理の再設計が行われており、共有コンテキストの扱いはフレームワーク設計の中心的課題となっている。

Broadcast（ブロードキャスト）

1 つのエージェントから複数のエージェントへ同時に同一メッセージや指示を送信する通信パターン。Orchestrator が複数のワーカーに並列タスクを割り当てる際や、全エージェントに共通の前提情報を配布する際に使用される。イベント駆動型のマルチエージェントアーキテクチャ（Confluent, 2024 年）では、ブロードキャストはイベントバス（Kafka 等）を介した非同期配信として実装されることが多い。全エージェントへの一律配信は実装がシンプルだが、受信エージェントが処理すべき情報の選別をエージェント側で行う必要があるため、不要な情報処理によるトークンコストの増大を招くリスクがある。フィルタリング機能付きのブロードキャスト（Selective Broadcast）は、エージェントの役割に応じて配信先を限定することでこの問題を軽減する設計として注目されている。

Blackboard System（ブラックボードシステム）

共有の黒板（Blackboard）と呼ばれるデータ構造に複数のエージェントが書き込み・読み出しを行うことで、直接通信なしに協調を実現するアーキテクチャパターン。1970〜80 年代の AI 研究（Hearsay-II システム等）で提案された古典的な概念であり、知識ソース（Knowledge Sources）が黒板の状態変化に反応して逐次的に問題を解く構造を持つ。近年、LLM エージェントへの応用として bMAS（Blackboard-based LLM Multi-Agent System）が提案されており、共有黒板を唯一の通信・記憶基盤としてエージェントが反復的に協調・議論しながら解を収束させる仕組みが研究されている。エージェント間の明示的なメッセージ交換を排除できるため、システムの疎結合性が高まり、新たなエージェントの追加・削除が容易になる利点がある。マルチエージェント協調のサーベイ（arXiv:2501.06322）でもブラックボードは分散型協調の主要パターンとして分類されている。

Consensus（コンセンサス）

複数のエージェントが互いの見解を交換・調整することで、共通の判断・答え・行動方針に合意に至るプロセス。Multi-Agent Consensus Seeking via Large Language Models（arXiv:2310.20151）では、LLM エージェントが反復的な対話を通じてコンセンサスを形成するプロセスが数理的に分析されている。コンセンサス形成は多数決・ベイズ更新・討論（Debate）など複数のメカニズムで実装できる。ReConcile（Chen et al., 2024）は、多様な LLM が円卓会議形式で議論することでコンセンサスに達し、推論精度が向上することを示した論文として注目されている。コンセンサスの収束速度・品質はエージェントの多様性と議論ラウンド数に依存し、計算コストとのトレードオフがある。

Negotiation（交渉）

複数のエージェントが互いに提案と反論を繰り返しながら、利害の一致する合意点を探索するプロセス。古典的 MAS 研究において交渉は合理的エージェント間の資源配分・タスク割り当て・契約形成の主要な手段として研究されてきた（Contract Net Protocol、Rosenschein & Zlotkin, 1994 年など）。SmythOS（2024 年）によれば、LLM ベースのマルチエージェントでは自然言語による交渉が可能となり、形式的なプロトコルへの依存を低減できる一方、交渉の終了条件設計とコスト管理が課題となる。交渉は協調（Collaboration）と競争（Competition）の中間的なインタラクション形態であり、ゲーム理論の枠組みで分析されることが多い。Multi-Agent Collaboration Mechanisms サーベイ（arXiv:2501.06322）では、Coopetition の具体的実装として交渉が位置付けられている。

AI エージェントの用語まとめ

요약

핵심 포인트