본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 15. 12:45

Llama 3.2, Phi 4, Qwen3, Gemma 4를 에이전트 루프에서 벤치마킹한 결과: 루프를 2회로 제한했을 때 성능이 17%

요약

Llama 3.2, Phi-4, Qwen3, Gemma 4 등 소형 LLM을 대상으로 에이전트 루프 내 성능을 벤치마킹한 결과, 루프 횟수를 2회로 제한했을 때 성능이 오히려 향상됨을 발견했습니다. 소형 모델이 반복적인 자기 수정 과정에서 기존의 올바른 코드를 망가뜨리는 '자기 파괴 현상'이 주요 원인으로 분석되었습니다.

핵심 포인트

  • 소형 LLM은 에이전트 루프가 길어질수록 성능이 저하되는 경향이 있음
  • 루프를 2턴으로 제한했을 때 모델별로 최대 35%의 성능 향상 확인
  • 반복적인 수정 시도가 구문 오류 및 논리적 버그를 유발하는 현상 발견
  • 토큰 증가율을 추적하여 자기 수정 소용돌이를 방지하는 모니터링 솔루션 제안

안녕하세요 여러분,

저는 Ollama를 사용하여 Apple M4 하드웨어에서 멀티 턴 에이전트 루프(multi-turn agent loops) 내의 로컬 LLM(Large Language Models)들을 벤치마킹하고 있었습니다. 구체적으로 Llama 3.2 (3B), Phi-4-Mini (2.5B), Qwen3 (4B), 그리고 Gemma4 (E4B)를 대상으로 20개의 코딩 작업 세트를 실행했습니다.

그 과정에서 직관에 반하는 사실을 발견했습니다. 모델에게 더 많은 턴(turn)을 부여하는 것이 오히려 성능을 저하시켰습니다. 루프를 2턴으로 제한했을 때 모델들의 정확도가 현저히 높아졌습니다.

다음은 가공되지 않은 성공률 데이터입니다:

모델제한 없는 루프 (Unconstrained Loop)엄격한 2턴 제한 (Strict 2-Turn Cap)성공률 차이 (Delta)
Llama 3.2:3B45%60%+15%
Phi-4-Mini30%40%+10%
Qwen3:4B30%40%+10%
Gemma4:E4B35%70%+35%

왜 그럴까요? (소형 모델의 자기 파괴 현상)
실행 로그를 검토한 결과, 이유는 명확했습니다. 이 모델들(매개변수 4B 이하)은 실제로 1턴 또는 2턴 내에 코딩 작업을 올바르게 해결했습니다.

하지만 에이전트 루프가 계속 실행됨에 따라, 모델들은 코드를 계속 수정해야 한다는 압박을 느끼는 듯했습니다. 4턴이나 5턴에 이르면 구문 오류(syntax errors)나 논리적 버그(logic bugs)를 유발하여, 이전에 올바르게 작성했던 솔루션을 완전히 망가뜨려 버렸습니다.

해결책
복잡한 작업을 방해할 수 있는 엄격한 2턴 제한을 하드코딩하지 않고 이를 방지하기 위해, 저는 토큰 증가율(token growth ratio)을 동적으로 추적하고 모델이 자기 수정 소용돌이(self-revision spiral)에 빠진 것을 감지하면 회로 차단기(circuit breaker)를 작동시키는 경량 Python/Rust 모니터(state-harness)를 구축했습니다.

코드는 GitHub에 오픈 소스로 공개되어 있습니다.

제출자: /u/visha1v
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0