Dev.to헤드라인2026. 06. 20. 16:15

AI 에이전트 설명: 사고-행동-관찰 (Thought-Action-Observation) 루프

요약

AI 에이전트의 핵심 작동 원리인 ReAct(Thought-Action-Observation) 루프를 설명합니다. 모델이 도구를 사용하여 스스로 계획을 세우고 실행 결과를 피드백받으며 다단계 작업을 해결하는 과정을 다룹니다.

핵심 포인트

에이전트는 LLM, 도구, 루프의 결합으로 구성됨
ReAct 루프를 통해 사고, 행동, 관찰 과정을 반복함
도구 사용을 통해 모델의 계산 및 실시간 정보 한계를 보완
무한 루프 방지 및 안전을 위한 가드레일 설정이 필수적임

챗봇은 단 한 번의 시도(one shot)로 답변합니다. 반면 AI 에이전트는 루프(loop) 내에서 작동하며, 도구(tools)를 사용하고 행동합니다. 즉, 작업이 완료될 때까지 사고(Thought) → 행동(Action) → 관찰(Observation) → 반복 과정을 거칩니다. 계산기와 검색을 호출하여 다단계 작업을 해결하는 과정을 확인해 보세요.

🤖 에이전트 실행하기: https://dev48v.infy.uk/ai/days/day11-agents.html

에이전트 = LLM + 도구(tools) + 루프(loop)

모델에게 도구(이름, 목적, 인자)를 설명합니다. 모델은 큰 숫자를 안정적으로 나누거나 오늘의 데이터를 알 수는 없지만, "이 수식으로 계산기를 호출하라"라고 결정할 수는 있습니다. 도구는 모델의 약점을 보완합니다.

ReAct 루프

while (true) {
  const step = await llm(history);            // 모델이 사고(Thought) + 행동(Action)을 생성
  if (step.type === "answer") return step.text;
...

모델은 사고(Thought) (계획)를 작성하고, 행동(Action) (도구 + 인자)을 내보내면, 사용자의 코드가 이를 실행하고 관찰(Observation) 결과를 반환하여 다시 컨텍스트(context)로 전달합니다. 그런 다음 모델은 다시 생각합니다.

단일 시도(one-shot)보다 뛰어난 이유

각 관찰(observation)은 실제(REAL) 데이터이며, 다음 결정이 내려지기 전에 피드백됩니다. 따라서 팁 금액을 추측하는 것이 아니라, 계산기로부터 얻은 126이라는 값을 직접 확인합니다. 또한 모델 스스로 단계를 계획합니다. "프랑스 수도의 인구, 두 배"라는 요청은 검색 → 그 다음 계산기로 이어지며, 모델이 의존성을 파악했기 때문에 체인(chained) 형태로 연결됩니다.

강력한 성능에는 가드레일(guardrails)이 필요합니다

반복 횟수를 제한하고(무한 루프 방지), 도구 입력을 검증하며, 위험한 행동(이메일, 결제 등)은 승인 절차를 거치도록 제한하십시오. 자율성이 핵심이지만, 제한 사항이 있어야 안전합니다.

작업 실행을 통해 사고(Thought)→행동(Action)→관찰(Observation)의 추적 과정이 구축되는 것을 확인해 보세요.

AI 자동 생성 콘텐츠

원문 바로가기