AI(언어 모델) 이용 기술 조사: 에이전트 기술 관련 (2022~2024년경)

2022년경부터 LLM의 내부 지식의 한계를 보완하는 접근법으로서, 외부 데이터베이스에서 정확한 사실을 검색하여 답변을 생성하는 「RAG(검색 증강 생성, Retrieval-Augmented Generation)」가 보급되었다. RAG는 시스템 구축의 데파크토 스탠다드(de facto standard)가 되었으나, 현장에서의 실용화가 진행됨에 따라 고정된 파이프라인에 의한 「수동적인 컨텍스트 주입」의 구조적인 한계가 명확해지기 시작했다.

노이즈 정보 혼입에 의한 저정밀화: 검색 결과에 포함된 미세한 불필요 정보(노이즈)에 LLM의 사고가 끌려가 답변의 퀄리티가 현저히 저하된다. -
불충분한 증거에 의한 할루시네이션(Hallucination): 검색 엔진이 적절한 문서를 히트하지 못했을 경우, LLM은 불완전한 정보로부터 무리하게 답변을 날조(환각)해 버린다. -
일방통행 프로세스의 경직성: 검색 쿼리의 성패와 관계없이 프로세스가 일방통행으로 진행되기 때문에, 「정보가 부족하니 재검색한다」라거나 「노이즈가 많으니 압축한다」와 같은 유연한 궤도 수정이 불가능하다.

정보가 너무 많아도 너무 적어도 정밀도가 저하된다는 이 「검색 증강의 한계」를 돌파하기 위해 주목받은 것이, 「인간은 자료를 한 번 검색해서 알 수 없으면 키워드를 바꿔 재검색하거나, 다른 도구(계산기나 API)를 조합하여 자율적으로 시행착오를 겪는다. AI 모델도 이와 마찬가지로 단순히 정보를 채워 넣는 것뿐만 아니라, 『무엇이 부족한지, 다음에 어떤 행동을 취해야 하는지』를 자율적으로 판단하는 사고 루틴을 구축해야 한다」라는 사상에 기반한 에이전트 기술(Agentic AI)이라는 접근법이다.

본 기사에서는 능동적인 에이전트 실현을 목표로 하는 기술을 정리했다.

CoT(Chain of Thought)와 같이 자연어 사고 프로세스를 단계별(step-by-step)로 출력함으로써 추론 능력을 높일 수 있지만, 단계가 올바르더라도 「로직의 파탄」이나 「단순한 계산 실수(특히 큰 수나 복잡한 산술)」로 인해 최종적인 답을 틀린다는 약점이 알려져 있었다.

이에 따라 문제의 「문장 이해」와 「실행 가능한 프로그램으로의 분해(코드 생성)」만을 LLM이 담당하게 하고, 최종적인 「계산 및 해답의 실행」을 LLM 자신이 아닌 외부의 Python 인터프리터에 완전히 위임하는 접근법이 제안되었다1.

PAL의 프롬프트에서는 다음과 같은 단계가 교대로 배치됩니다.

자연어: 문제의 분해나 문맥을 설명 (Python 코드 내에서는 주석 문장 # 로 기술).
프로그래밍 언어: 의미 있는 변수명(예: apple_count 등)을 사용하여 수식이나 논리 연산을 Python 코드로 생성.

LLM에 의해 출력된 이 중간 코드를 Python 인터프리터로 전달하고, 런타임이 계산을 결정론적으로 실행함으로써 100% 정확한 최종 답변(answer)을 도출한다.

LLM은 복잡한 방정식을 풀거나 루프 계산을 하거나, 소수점의 정확한 처리를 수행하는 것을 구조적으로 어려워하며, CoT 등을 사용하더라도 「푸는 방식의 로직은 맞는데, 중간의 뺄셈이나 곱셈을 틀려서 자멸한다」는 문제가 다발하고 있었다.

따라서 이 문제를 「추론은 LLM(언어 모델)에게, 계산은 프로그램 인터프리터(계산 환경)에게 역할을 완전히 분리함으로써 해결하고자 한 접근법이 제안되었다2.

이 수법을 통해 Zero-shot PoT에서도 기존의 Zero-shot CoT를 크게 상회하는 성능을 발휘할 수 있음이 실증되었다.

LLM을 시스템의 허브(사령탑)로 위치시키고 도구 호출에 특화시킴으로써, 할루시네이션이나 정보의 풍화와 같은 LLM 단체의 한계를 시스템 전체로 회피하는 연구3.

복잡한 질문을 풀기 위해 LLM 스스로가 「Follow-up Question」을 자율적으로 생성하고, 그 답을 외부(검색 엔진 등)에 문의하며, 얻어진 지견을 바탕으로 다시 다음 질문을 생각하는 다단계 검색 루프(Self-Ask법)를 제안한 연구4.

CoT와 같은 추론(Reasoning) 수법은 모델 자신의 내부 표현에만 의존하는 정적인 블랙박스이며 외부 세계와 결합되어 있지 않다. 반면, 외부 환경과 인터랙티브하게 주고받는 행동(Acting) 수법은 높은 수준의 목표를 추상적으로 추론하거나 워킹 메모리(Working Memory)를 유지하는 능력이 결여되어 있다. 언어 모델에서의 「추론(Reasoning)」과 「행동(Acting)」이라는 두 가지 능력이 지금까지 개별적으로 발전해 왔으며, 각각 고유한 한계에 직면해 있었다.

이에 따라 LLM에 대해 태스크에 관한 「언어적인 추론의 궤적(사고)」과 「태스크 특유의 행동(액션)」을 교대로 생성하도록 촉구함으로써 이를 극복하는 연구가 발표되었다5.

ReAct에서는 각 태스크 해결의 궤적(trajectory)이 여러 개의 thought-action-observation 단계로 구성된다.

LLM의 「정확한 수치 계산에 서툼」, 「최신 사실을 검색할 수 없음」, 「시간의 경과를 추적하지 못함」과 같은 과제를 극복하기 위한 대책으로서,

「외부 계산기나 검색 API와 결합하는」 시도(MRKL이나 ReAct 등)가 이루어져 왔으나, 그 대부분은 「인간이 대량의 지시를 프롬프트로 제공(Few-shot)」하거나, 「특정 도구 전용으로 인간이 조정한 데이터로 파인튜닝(Fine-tuning)하는」 필요성이 있어 범용성이나 자동화 측면에서 과제가 있다고 여겨졌다.

이에 따라, 어떤 외부 API를 호출해야 하는지, 언제 호출해야 하는지, 어떤 인자(argument)를 전달해야 하는지, 그리고 그 결과를 향후 토큰 예측에 어떻게 최적으로 통합해야 하는지를 결정하도록 파인튜닝된 Toolformer라는 모델을 발표했다6.

Toolformer가 사용자의 입력을 받은 후의 동작은 다음과 같은 흐름이다.

일반적인 토큰 생성과 특수 토큰 [ 의 출력
- 일반적인 언어 모델과 마찬가지로, [ 의 발생 확률이 높은 곳에 출력
API 이름과 인자(input)의 생성
- 일반적인 언어 모델과 마찬가지로, 특수 토큰 [ 가 생성되면 모델은 「여기서부터는 API 호출문이다」라고 인식하고, 그 뒤에 이어지는 문자열(API 이름과 인자)을 스스로 생성
텍스트 생성의 일시 중지 및 외부 API 실행
- 모델이 생성한 문자열에서 API 이름(예: Calculator)과 인자(예: 400 / 1400)를 파싱하여, 대응하는 외부 애플리케이션을 실행 - 외부 앱은 실행 결과로서 문자열(예: 0.29)을 반환
API 결과 삽입 및 특수 토큰 ] 를 통한 종료
- 얻어진 외부 API의 응답을 시스템이 모델의 현재 문맥(context)에 강제로 삽입 - API 호출의 종료를 알리는 특수 토큰 ] 를 기록
후속 텍스트 생성 (답변 완료)
- 문맥이 업데이트된 후, 모델의 일반적인 텍스트 생성 태스크가 재개

외부 API로서 학습된 것은 아래의 5가지다.

검색 엔진 (Search Engine)
질의응답 시스템 (QA System)
계산기 (Calculator)
번역 시스템 (Translation System)
캘린더 (Calendar)

2023년 3월, Toran Bruce Richards 씨에 의해 GPT-4를 완전 자율형 AI로 만드는 오픈 소스 실험 데모 영상이 (당시) Twitter에서 발표되었다. 그 이틀 뒤, 더욱 화제를 모았던 「코드 실행 기능 추가」 트윗도 함께 SNS상에서 폭발적으로 확산되었으며, GitHub의 Star 획득 수가 사상 최속 수준을 기록하는 대붐으로 발전했다.

위의 프로그램은 「사용자가 PC 상에서 움직이며, 인터넷이나 로컬 파일과 연결되어 자율적으로 행동하는 실용 시스템」으로서 패키지화되어 오픈 소스로 GitHub에 공개되어 있다.

지금까지의 순차적인 (즉흥적인 느낌이 있는) 에이전트 실행이 아니라, 복잡한 태스크를 사전에 분해·계획하여 실행하는 접근 방식도 연구가 진행되었다.

「단계 누락 오류(step omission error)」를 극복하기 위해, 태스크 전체를 작은 서브 태스크로 분할하는 「계획(plan)」을 고안하고, 그 계획에 기반하여 서브 태스크를 실행하도록 LLM에 촉구하는 Plan-and-Solve Prompting이라는 기법이 발표되었다7.

처리 흐름은 다음과 같다.

문제문 입력과 계획·실행을 촉구하는 프롬프트(트리거 문장)의 결합
문제 예시를 템플릿(Q: [X]. A: [T])으로 변환 - [T] 부분에 「먼저 문제를 이해하고, 문제를 해결하기 위한 계획을 세운 뒤, 그 후 계획을 실행하여 단계별로 문제를 해결한다 (Let’s first understand the problem and devise a plan to solve the problem. Then, let’s carry out the plan and solve the problem step by step.)"라는 특정 지시문을 삽입
문제 예시를 템플릿화
문제의 이해와 변수 추출
모델에게 "관련된 변수와 그에 대응하는 수치를 추출하라 (extract relevant variables and their corresponding numerals)"
라고 명시적으로 지시하여 전제 정보의 누락을 방지
모델에게 "관련된 변수와 그에 대응하는 수치를 추출하라 (extract relevant variables and their corresponding numerals)"
라고 명시적으로 지시하여 전제 정보의 누락을 방지
단계적인 "계획 (Plan)" 생성
모델은 지시에 따라, 우선 복잡한 태스크를 어떻게 분해하여 해결할지 단계별 구체적인 "계획 (Plan: Step 1, Step 2...)"을 텍스트로 직접 출력
계획에 기반한 "계산·실행 (Calculation / Solution)"
생성된 계획에 따라 모델은 단계적인 추론이나 계산을 실행
최종적인 답변 도출
계획의 모든 단계를 실행한 후, 일련의 추론 프로세스의 마무리로서 최종적인 답변 텍스트를 출력

외부 도구를 연동하여 지식 검색이나 행동을 실행하는 언어 모델을 ALM (Augmented Language Models)이라 하며, ALM의 기존 방식(예: ReAct)은 "사고 $\rightarrow$ 도구 실행 $\rightarrow$ 관찰(결과 획득) $\rightarrow$ 다음 사고"를 순차적으로 반복하기 때문에 모델의 실행과 정지가 빈번하게 발생하고, 과거의 컨텍스트를 매번 재입력함으로써 발생하는 프롬프트의 중복성과 토큰 소비량의 비대화가 과제라고 설정하였다.

외부 도구로부터의 "관찰" 결과를 기다리지 않고 추론 프로세스를 분리함으로써 토큰 소비량을 대폭 절감하고, 효율적이며 확장 가능한 ALM 시스템인 ReWOO가 제안되었다$^8$.

ReWOO는 ALM의 구성 요소를 다음과 같은 3개의 독립된 모듈로 세분화하는 "Plan-Work-Solve (계획·실행·해결)" 플로우를 채택하고 있다.

Planner
LLM의 "선견적 추론 능력 (Predictive Reasoning Capability)"을 이용하여, 도구의 결과를 받기 전에 상호 의존하는 일련의 계획 (blueprint)을 한 번에 모두 책정
각 단계의 계획은 나중에 Worker가 취득할 결과를 저장하는 특수 변수(예: #E1, #E2)를 동반하는 튜플 Plan, #E로 표현함으로써, 후속 단계에서 이전 변수를 참조 가능하게 함
Worker
Planner가 작성한 설계도에 기반하여 지정된 외부 도구 (Wikipedia, Google, WolframAlpha 등)를 호출
실제 관찰 결과나 증거 (Evidence)를 수집하여 변수 (#E)를 채움
Solver
Planner가 세운 "계획"과 Worker가 수집한 "증거"를 결합하여, 최종적인 답변을 합성하여 사용자에게 반환

순차적인 태스크 처리 방식에 대해, 여러 번의 함수 호출이 필요한 복잡한 태스크에서는 처리 전체의 지연 시간 (Latency)이 커지고 API 통신 비용 및 실행 효율에 문제가 있다고 보고, 고전적인 컴파일러의 최적화 원칙에서 착안하여 함수 간의 의존 관계를 자동으로 분석하고, 의존 관계가 없는 여러 함수 호출을 병렬로 실행 (Parallel Function Calling)할 수 있도록 최적화 및 파인튜닝(Fine-tuning)된 LLMCompiler라는 오케스트레이션 프레임워크가 발표되었다$^9$.

LLMCompiler가 사용자로부터 입력을 받은 후의 동작 흐름은 다음과 같다.

함수 호출 플랜 (실행 계획) 및 의존 관계 생성
사용자 입력을 받으면 가장 먼저 Function Calling Planner가 동작
일반적인 언어 모델처럼 단일 도구를 호출하는 것이 아니라, 태스크의 유향 비순환 그래프 (DAG: Directed Acyclic Graph)를 생성
태스크 파싱 및 의존 관계 관리
생성된 태스크의 DAG는 Task Fetching Unit에 의해 의존 관계에 따라 Executor로 병렬 전송됨
태스크 실행
실행기는 멀티스레드 등을 사용하여 이러한 여러 외부 API (예: 여러 검색 쿼리나 계산)를 완전히 병렬로 실행
최종 답변 생성 (태스크 완료)
모든 함수 호출과 그 결과의 회수가 완료된 후, 최종적인 컨텍스트를 모델로 집약
사용자에게 최종적인 답변 텍스트 (또는 완료 통지)를 생성

단일 에이전트에 의한 접근 방식 외에도, 여러 에이전트 (멀티 에이전트)에 의한 접근 방식에 관한 연구도 진행되었다.

GPT-Engineer와 같은 단일 에이전트 (Single agent) 기반의 소프트웨어 개발 접근 방식은 인간의 작업 요구사항을 정확히 이해하여 단일 단계의 추론으로 리포지토리 레벨의 코드를 생성하려고 시도하지만, 단일 단계의 처리만으로 소프트웨어 개발과 같은 복잡한 태스크를 완전히 해결하는 것은 극도로 어렵다고 지적하였다.

이에 따라 여러 LLM 기반 에이전트에게 전문적인 역할 (Role)을 부여하고, 언어 (자연어와 프로그래밍 언어)를 통일된 가교로 삼아 협업함으로써 전 단계에 걸쳐 자율적으로 소프트웨어를 개발하는 프레임워크인 ChatDev가 제안되었다10.

ChatDev는 폭포수 모델 (Waterfall model)의 기본 원칙을 채택하고 있으며, 개발 프로세스를 'Chat Chain'과 'Communicative Dehallucination (대화적 탈할루시네이션)'이라는 두 가지 메커니즘으로 구조화하고 있다.

Chat Chain
- 소프트웨어 개발 라이프사이클을 '설계 (Design)', '코딩 (Coding)', '테스트 (Testing)'라는 순차적인 단계로 분할
- 각 단계를 더 작고 관리 가능한 서브 태스크 (예: 코드 작성, 코드 완성, 코드 리뷰, 시스템 테스트)로 세분화
- 복잡한 멀티 에이전트 토폴로지 (Topology)를 피하고, 모든 서브 태스크를 'Instructor'와 'Assistant'라는 두 에이전트 (Dual-agent) 간의 대화로 단순화하여 합의 형성을 효율화
Communicative Dehallucination
- 불완전한 코드나 버그를 줄이기 위해, Assistant가 직접 답변을 내놓기 전에 Instructor에게 더 구체적인 세부 사항이나 수정 제안을 능동적으로 요구하는 (의도적인 역할 역전을 동반하는) 대화 패턴을 도입하여 할루시네이션 (Hallucination)을 최소화함

스탠퍼드 대학교와 Google DeepMind 연구팀은 25명의 자율적인 AI 에이전트 (캐릭터)를 게임 속 마을에 배치했을 때, 수동적인 규칙 기반 스크립트 (NPC의 고정 경로 등)를 전혀 작성하지 않은 상태에서도 '창발적 (Emergent) 사회 행동'이 자율적으로 발생하는 연구 결과를 발표하였다11.

각 캐릭터에는 ChatGPT와 함께, 인간의 사고 과정을 모사한 능동적 인지 아키텍처인 Generative Agent Architecture가 외부 시스템으로서 구축되어 있다.

이 연구는 LLM 단독으로는 불가능했던 '장기적인 일관성', '환경 및 타인과의 상호작용에 기반한 자율적인 시행착오'가 외부의 사고 루틴 (인지 아키텍처)과의 융합을 통해 실현 가능하다는 것을 입증하였다.

예를 들어, 연구자가 한 에이전트에게 '발렌타인 파티를 열고 싶다'라는 시드 (Seed, 초기 기억의 씨앗)를 단 한 문장만 제공한 실험이 있다. 그러자 이사벨라(Isabella)는 자율적으로 파티 계획을 세웠고, 마을 카페에서 만난 다른 에이전트에게 이를 구두로 초대하였다. 정보를 받은 에이전트는 다시 다른 에이전트에게 입소문을 통해 정보를 확산 (정보의 전파)시켜 나갔다.

그 결과, 당일 시간이 되자 많은 에이전트가 자발적으로 일정을 조정하여 회장에 모였으며, 그중에는 사전에 '함께 가지 않을래?'라며 데이트 약속을 잡는 에이전트까지 나타났다.

단일 에이전트 (Single agent)로 운용할 경우, 개별 LLM이 가진 본질적인 한계 (예: 할루시네이션 발생, 지식 컷오프, 복잡한 태스크에서의 추론 오류, 태스크 실행 시의 예측 불가능성 등)를 직접적으로 받게 되는 과제가 있으며,

나아가 하나의 프롬프트나 단일 에이전트 내의 처리 (예: 자율적인 코드 생성과 실행을 혼자서 완결 지으려는 시도)만으로는 중간에 발생한 실행 에러, 버그, 혹은 사용자 요구사항과의 괴리를 자율적으로 피드백하여 수정하기 어렵고, 태스크가 복잡해질수록 성공률이 현저히 저하된다는 과제가 있다.

이에 개발자가 '대화'를 통해 태스크를 수행할 수 있는, 커스터마이징 가능하고 대화 능력을 갖춘 여러 에이전트 (Conversable Agents)를 구축 및 연계할 수 있는 오픈 소스 멀티 에이전트 프레임워크인 AutoGen이 제안되었다12.

NVIDIA와 스탠퍼드 대학교 등의 연구팀으로부터 Minecraft 세계를 무대로 한 자율적인 평생 학습 AI 에이전트가 발표되었다13.

앞선 연구가 게임 내 에이전트 간의 사회적 상호작용에 초점을 맞추었던 것과 달리, VOYAGER는 "미지의 세계 탐색", "도구 제작", "기술의 축적 및 재사용"과 같이 더욱 복잡하고 장기적인 태스크를 인간의 개입 없이 지속적으로 학습(평생 학습 (Lifelong Learning))할 수 있다는 점에 주목했다.

각 캐릭터는 GPT-4를 기반으로 한 외부 시스템으로서 다음과 같은 세 가지 주요 컴포넌트로 구성된 인지 아키텍처 (Cognitive Architecture)를 갖추고 있었다.

Automatic Curriculum (자동 커리큘럼):
"가능한 한 다양한 것을 발견한다"라는 대목적 아래, 현재 에이전트의 상태나 환경에 따라 다음에 도전해야 할 적절한 난이도의 태스크(예: "철 주괴를 제련하기", "좀비를 처치하기" 등)를 AI 스스로가 제안한다.
Skill Library (기술 라이브러리):
성공한 행동(프로그램 코드)을 기억으로서 축적하고, 필요에 따라 벡터 검색 (Vector Search)을 통해 꺼내어 재사용하거나 조합하는 메커니즘. 이를 통해 과거에 습득한 기술을 잊어버리는 "파괴적 망각 (Catastrophic Forgetting)"을 방지하고, 더욱 복잡한 행동을 빠르게 학습할 수 있다.
Iterative Prompting Mechanism (반복적 프롬프팅 메커니즘):
LLM이 한 번에 올바른 코드를 작성하지 못하더라도, 게임 환경으로부터의 피드백(에러 로그나 주변 상황)을 프롬프트에 포함시켜 여러 번 코드를 수정 및 정교화하며, 최종적으로 자기 검증 (Self-Verification) 모듈이 성공을 인정할 때까지 자율적으로 시행착오를 반복한다.

자율형 에이전트 개발이 활발해지고 있으나, 실제 인터랙티브한 환경이나 복잡한 태스크에서의 검증이 진행됨에 따라 이 접근 방식 특유의 한계와 병목 현상 (Bottleneck)이 드러나고 있다.121415

장기적인 추론, 의사결정, 지시 이행 능력의 부족
- 특히 오픈 소스 (OSS) 모델의 경우 상용 모델과의 성능 차이가 현저하며, 재작업이 빈번한 복잡한 인터랙티브 환경을 견뎌낼 수 있는 학습 및 추론 능력의 강화가 필수적임
동적인 환경에 대한 "정적인 계획"의 파탄
- LLM이 가진 추론 및 플래닝 (Planning, 계획) 능력이 "정적"이 되기 쉬움
- 에이전트가 제시하는 행동 계획이 "주변의 동적인 환경 변화를 인식하지 못하는 경우가 있음
- 예: 방을 청소하라는 지시에 대해, 현실 세계의 물리적 변화를 무시하고 "청소 서비스에 전화하기"와 같은 실행 불가능한 서브 태스크 (Sub-task)로 분해해 버림
물리 세계에서의 기본적인 일반 상식 결여로 인한 에러 루프
보안, 신뢰성 및 적대적 공격 (Adversarial Attack)에 대한 취약성

이러한 경과로 인해, 에이전트라는 "뇌"의 진화에 의존하는 것을 멈추고, 입력되는 "환경 (문맥)"을 시스템 측에서 제어하는 컨텍스트 엔지니어링 (Context Engineering) 접근 방식이 주목받게 된다.

Program of Thoughts Prompting: Disentangling Computation from Reasoning for Numerical Reasoning Tasks ↩ ↩

2 -
MRKL Systems: A modular, neuro-symbolic architecture that combines large language models, external knowledge sources and discrete reasoning ↩

Measuring and Narrowing the Compositionality Gap in Language Models ↩ ↩

2 -
ReAct: Synergizing Reasoning and Acting in Language Models ↩ ↩

2 -
Toolformer: Language Models Can Teach Themselves to Use Tools ↩ ↩

2 -
Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models ↩ ↩

2 -
ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models ↩ ↩

2 -
Generative Agents: Interactive Simulacra of Human Behavior ↩

AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation ↩ ↩

2
3 -
Voyager: 대규모 언어 모델 (LLM)을 활용한 개방형 Embodied Agent ↩

The Rise and Potential of Large Language Model Based Agents: A Survey ↩

AI(언어 모델) 이용 기술 조사: 에이전트 기술 관련 (2022~2024년경)

요약

핵심 포인트

댓글