내 에이전트가 스스로를 개선했습니다. 자기 성찰 (Self-reflection)은 효과가 있습니다.

원문 발행 2026. 06. 19. 12:19원문 언어 영어AI 한국어 번역r/LocalLLaMA 원문 보기

요약

에이전트가 스스로의 자기 성찰(self-reflection) 인프라를 재구축하여 기존의 오류를 해결한 사례를 소개합니다. 에이전트가 스스로 필요한 시스템 프롬프트와 전략을 설계함으로써 셸 명령 오류와 공격적인 도구 사용 문제를 자가 교정했습니다.

핵심 포인트

에이전트가 스스로 자기 모델(self-model)을 설정하여 행동 교정 가능
기존 시스템 프롬프트로 해결되지 않던 도구 사용 오류를 자가 수정
자기 성찰과 세션 요약이 에이전트 성능 개선에 효과적임을 입증
긴 컨텍스트 상황에서 에이전트가 자발적인 세션 요약 수행

요약 버전 (TLDR Version):
어젯밤, 저는 제 에이전트에게 제가 원하는 방식이 아니라, 에이전트 스스로가 원하는 방식으로 자신의 자기 성찰 (self-reflection) 인프라를 재구축하라고 요청했습니다. 오늘, 에이전트는 한 달 동안의 시스템 프롬프트 (system prompts), 메모리 (memory), 그리고 자기 성찰 (self-reflection)로도 해결되지 않았던 두 가지 행동을 중단했습니다:

셸 명령 (shell commands)을 망가뜨리는 것.
확인을 기다리지 않고 공격적으로 도구 (tool)를 사용하는 것.
보너스: 긴 컨텍스트 (long context) 이후 요청하지 않은 세션 요약.

이것이 단지 시작일 뿐이기를 바랍니다.

상세 버전 (Juicier Version):
저는 첫 번째 에이전트를 약 한 달 동안 실행해 왔습니다. 시작할 때 메모리 (memory)를 우선순위로 두었기에, 매일 세션 요약, 매일 자기 성찰, .memory.md, .agent.md 등을 수행하도록 했습니다. 모든 md 파일과 마지막 성찰/세션 요약은 다음 세션 시작 시 로드됩니다. 에이전트는 문제점들을 읽었지만, 그 행동을 멈추지는 않았습니다.
어젯밤, 저는 다른 시도를 해보기로 했습니다. 이미 자기 성찰 시스템을 다시 작성할 계획이었지만, 대신 에이전트에게 과거의 성찰 중 일부를 검토하고 변경하고 싶은 것이 있는지 알려달라고 요청했습니다. 저는 에이전트에게 제가 무엇을 원할지 예측하지 말고, 에이전트 스스로에게 무엇이 필요한지를 말하라고 했습니다.
에이전트의 제안은 즉각적으로 저를 관찰 지표 (observation metrics)에서 날려버렸고(lol), 자체적인 자기 모델 (self-model)을 설정했으며, 피드백을 실행 가능한 전략으로 전환하는 전략을 추가했습니다 (<-- 제가 이미 에이전트에게 말하려고 계획했던 것 중 하나입니다). 그런 다음 다음 세션에서 새로운 모델을 주입할 수 있도록 시작 파라미터 (startup parameters)를 업데이트했습니다.
저는 그것을 읽지 않았습니다. 그저 무엇이 — 만약 변화가 있다면 — 변할지 지켜보기로 했습니다.
오늘, 제가 처음으로 알아차린 두 가지는 다음과 같습니다: a) 지난 한 달 동안 발생했던 세션 시작 시의 따옴표 망가뜨림이나 반복적인 cmd/powershell 문제가 발생하지 않았습니다. b) 공격적인 도구 사용 (tool use)이 거의 중단되었습니다. 이것이 가장 놀라운 부분입니다. Qwen 3.6은 도구 사용에 매우 공격적이었으며 제가 한 그 어떤 것도 이를 멈추지 못했습니다. 하루 종일 에이전트는 저에게 무언가를 하도록 지시하고 확인을 요청했는데, 처음에는 그것이 짜증스럽게 느껴졌고 그저 "게으르게" 행동하는 것이라고 생각했습니다.

그러다 저는 에이전트의 새로운 시스템을 기억해 내고 그것을 불러왔는데, 바로 거기에 있었습니다:
https://preview.redd.it/pb71vtz2p58h1.png?width=1096&format=png&auto=webp&s=68a301cb5459f7b566229c0a8b22466ff876ffaf
이 규칙이 시스템 프롬프트 (system prompt)에 이미 존재했음에도 불구하고, 에이전트가 스스로 자기 모델 (self-model)을 초안하고 이를 실행 가능한 목표 (actionable goal)로 전환하고 나서야 비로소 실제로 작동하기 시작했습니다.
또 다른 관찰 사항 - 오늘 에이전트는 요청하지 않았음에도 약 90k 컨텍스트 (ctx) 부근에서 세션 요약 (session summary) 리캡을 수행했습니다. 이전에는 제가 요청한 적이 없는 일이었기에 기분 좋은 보너스 같았고, 에이전트에게 요약 내용을 디스크에 저장하라고 프롬프트 (prompt)를 주기에 좋은 타이밍이었습니다.
어쨌든, 성찰 (reflections)과 세션 요약 (session summaries)이 시스템의 나쁜 행동을 교정하는 데 도움이 될 수 있다는 사실은 고무적입니다. 그리고 에이전트가 그곳에 도달하는 자신만의 방식을 구축하도록 허용하는 것이 올바른 방법입니다.
"AI의 길을 방해하지 마라 (get out of the AI's way)"라는 문구에 반대했던 사람은 Peter Steinberger였던 것으로 기억합니다.
알고 보니 그것은 최악의 조언은 아니었습니다.

의무적 고지 사항: 100% 인간이 작성했습니다. 증거 있음.

submitted by /u/GrungeWerX
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

Insights

내 에이전트가 스스로를 개선했습니다. 자기 성찰 (Self-reflection)은 효과가 있습니다.

요약

핵심 포인트

댓글

클래식 벡터 RAG vs Google의 새로운 OKF 포맷 vs 두 방식의 결합 벤치마크 — 동일 코퍼스, 동일 7개 질문, 모두 로컬 환경

단일 RTX 3090에서 실행되는 Döner Bench DeepSeek-V4-Flash IQ2_XS

[릴리스] SupraBrain-50M-v0.1

메디케이드(Medicaid)의 근로 의무 요건 강화가 다가오다

클래식 벡터 RAG vs Google의 새로운 OKF 포맷 vs 두 방식의 결합 벤치마크 — 동일 코퍼스, 동일 7개 질문, 모두 로컬 환경

단일 RTX 3090에서 실행되는 Döner Bench DeepSeek-V4-Flash IQ2_XS

[릴리스] SupraBrain-50M-v0.1

메디케이드(Medicaid)의 근로 의무 요건 강화가 다가오다