CoALA 이해하기: 언어 에이전트를 위한 인지 아키텍처 (2023)

참고: 이 글은 연구 논문의 요약 및 해석입니다.

언어 에이전트를 위한 인지 아키텍처 (Cognitive Architectures for Language Agents)
(2023) 저자: Michael Sumers, Shunyu Yao, Karthik Narasimhan, Thomas L. Griffiths. 새로운 아키텍처를 제안하기보다는, 이 논문의 핵심 아이디어를 이해하기 쉽게 설명하고 이것이 AI 메모리 시스템의 미래에 왜 중요한지 탐구하는 것이 목적입니다.

현대의 언어 에이전트(Language agents)들은 지능적으로 느껴지지만, 그 내부를 들여다보면 프롬프트(Prompts), 컨텍스트 윈도우(Context windows), 그리고 외부 도구(External tools)들로 짜 맞춰진 여전히 취약한 시스템입니다. CoALA 프레임워크(Cognitive Architectures for Language Agents)는 더 구조적인 관점을 제안합니다. 즉, LLM을 독립적인 추론기(Reasoners)로 취급하는 대신, 메모리(Memory), 행동(Actions), 그리고 결정 루프(Decision loops)를 가진 인지 시스템(Cognitive system) 내부의 구성 요소로 취급해야 한다는 것입니다.

이 프레임워크의 중심에는 인지 과학(Cognitive science)에서 빌려온 단순한 아이디어가 있습니다. 바로 지능은 메모리가 어떻게 구조화되어 있는지에 크게 의존한다는 점입니다.

CoALA는 메모리를 상호작용하는 네 가지 시스템으로 나눕니다: 작업 메모리 (Working memory), 일화 메모리 (Episodic memory), 의미 메모리 (Semantic memory), 그리고 절차 메모리 (Procedural memory).

작업 메모리 (Working Memory): 능동적인 연습장

작업 메모리는 에이전트의 현재 "정신적 작업 공간(Mental workspace)"입니다.

모델이 현재 활발하게 사용 중인 모든 것을 포함합니다:

현재 프롬프트(Prompt) 또는 대화
중간 추론 단계 (Intermediate reasoning steps)
도구 출력값 (Tool outputs)
단기적인 목표 및 제약 조건

CoALA의 관점에서 이는 현재의 결정 사이클(Decision cycle)에 사용되는 활성 상태(Active state)입니다. 이는 영구적이지 않습니다. 사이클이 종료되면 명시적으로 다른 곳에 저장되지 않는 한 사라집니다.

이를 에이전트의 RAM처럼 생각할 수 있습니다. 빠르고, 제한적이며, 끊임없이 덮어씌워집니다.

오늘날 대부분의 LLM 시스템은 여기서 멈춥니다. 이것이 그들이 지능적으로 느껴지면서도 일관성이 없는 이유입니다. 그들은 순간적으로는 추론을 잘하지만, 좋은 결정을 만들어냈던 구조를 잊어버립니다.

일화 메모리 (Episodic Memory): 이전에 일어났던 일

일화 메모리는 시간이 흐름에 따라 경험을 저장합니다.

추상적인 사실을 저장하는 대신, 다음을 저장합니다:

과거의 상호작용 (past interactions)
작업 궤적 (task trajectories)
실패 및 수정 사항 (failures and corrections)
특정 맥락에서 수행된 행동의 시퀀스 (sequences of actions taken in specific contexts)

예시 (Example):

에이전트가 서비스를 배포하려고 시도했으나, 데이터베이스 마이그레이션 (database migrations)을 잊어버려 롤백 (rollback)을 유발했고, 이후 배포 전 마이그레이션 체크를 추가함으로써 이를 해결했습니다.

이것이 중요한 이유는 지능이란 단순히 사실을 아는 것이 아니라, 일련의 사건들로부터 배우는 것이기 때문입니다.

CoALA에서 일화 메모리 (episodic memory)는 이력으로부터의 학습을 지원하며, 에이전트가 매 세션마다 초기화되는 대신 반복되는 작업 전반에 걸쳐 개선될 수 있도록 합니다.

일화 메모리가 없다면, 에이전트는 실수를 끝없이 반복하게 됩니다.

의미론적 메모리 (Semantic Memory): 에이전트가 알고 있는 것

의미론적 메모리 (semantic memory)는 시스템의 일반 지식 저장소입니다.

여기에는 다음이 포함됩니다:

세상에 대한 사실들 (facts about the world)
도메인 지식 (domain knowledge)
정의 및 관계 (definitions and relationships)
안정적인 추상화 (stable abstractions)

예시:

PostgreSQL은 운영 환경 (production systems)에 배포하기 전에 스키마 마이그레이션 (schema migrations)이 필요합니다.

일화 메모리와 달리, 의미론적 메모리는 특정 경험에 얽매이지 않습니다. 이는 다양한 상황에서 재사용될 수 있는 탈맥락화된 지식 (decontextualized knowledge)입니다.

현대적인 시스템에서 이는 주로 다음과 같은 방식으로 구현됩니다:

벡터 데이터베이스 (vector databases)
검색 증강 생성 (RAG, retrieval-augmented generation)
지식 그래프 (knowledge graphs)

의미론적 메모리는 에이전트가 직접 경험해 본 적이 없더라도 "무언가를 알 수 있게" 해주는 요소입니다.

절차적 메모리 (Procedural Memory): 일을 수행하는 방법

절차적 메모리 (procedural memory)는 기술과 행동 패턴을 저장합니다.

이는 사실이나 과거의 사건에 관한 것이 아닙니다. 이는 행동 구조 (behavioral structure)에 관한 것입니다:

단계별 워크플로 (step-by-step workflows)
도구 사용 패턴 (tool usage patterns)
의사결정 휴리스틱 (decision heuristics)
학습된 전략 (learned strategies)

예시 (Example):

안전한 배포를 위해: 테스트 실행 → 빌드 → 마이그레이션 적용 → 배포 → 상태 확인 (health checks) 검증.

이러한 유형의 메모리는 단순한 지식이 아닌 실행 능력 (execution ability)을 인코딩하기 때문에 매우 중요합니다.

CoALA에서 절차적 메모리는 다음 영역에 존재할 수 있습니다:

명시적 규칙 (explicit rules)
에이전트 코드 (agent code)
학습된 정책 (learned policies)
프롬프트 또는 미세 조정 (fine-tuning)에 내장된 도구 사용 패턴 (tool-use patterns)

절차적 메모리 (procedural memory)가 없다면, 에이전트는 무엇을 해야 할지는 "알고" 있을지 몰라도 이를 일관되게 실행하는 데 실패할 수 있습니다.

이 네 가지가 함께 중요한 이유

CoALA의 핵심 통찰은 지능이 단일 컨텍스트 윈도우 (context window)를 확장하는 것이 아니라, 메모리 유형 간의 조율 (coordination)에서 발생한다는 점입니다.

작업 메모리 (Working memory)는 현재를 처리합니다.
일화적 메모리 (Episodic memory)는 경험으로부터의 학습을 개선합니다.
의미적 메모리 (Semantic memory)는 지식의 근거 (knowledge grounding)를 제공합니다.
절차적 메모리 (Procedural memory)는 행동과 실행을 인코딩합니다.

대부분의 현재 LLM 시스템은 이 모든 것을 프롬프트 (prompt)라는 하나의 공간으로 통합해 버립니다. CoALA는 이것이 근본적으로 한계가 있다고 주장합니다.

대신, 메모리는 서로 다른 지속성 규칙 (persistence rules), 업데이트 메커니즘 (update mechanisms), 그리고 검색 전략 (retrieval strategies)을 가진 구조화된 시스템으로 다뤄져야 합니다.

맺음말

CoALA는 언어 에이전트를 단순한 채팅 모델이 아니라, 모듈형 메모리와 구조화된 의사결정 루프 (decision loops)를 가진 인지 시스템 (cognitive systems)으로 재정의합니다. 이는 현대의 LLM 툴링 (tooling)을 수십 년간의 인지 과학과 다시 연결하며, 우리가 언어 모델을 핵심 엔진으로 사용하여 기호주의 AI (symbolic AI)에서 이미 탐구되었던 아이디어들을 지금 다시 구축하고 있음을 보여줍니다.

이는 흥미로운 질문을 던집니다: 만약 AI가 인간처럼 메모리를 조직할 수 있다면, 메모리가 단순히 검색하는 것 이상의 역할을 할 수 있을까요?

참고 문헌:

Sumers, T. R., Yao, S., Narasimhan, K., & Griffiths, T. L. Cognitive Architectures for Language Agents. arXiv, 2023. https://arxiv.org/abs/2309.02427

CoALA 이해하기: 언어 에이전트를 위한 인지 아키텍처 (2023)

요약

핵심 포인트

댓글