Llama 3.2, Phi 4, Qwen3, Gemma 4를 에이전트 루프에서 벤치마킹한 결과: 루프를 2회로 제한했을 때 성능이 17%

안녕하세요 여러분,

저는 Ollama를 사용하여 Apple M4 하드웨어에서 멀티 턴 에이전트 루프(multi-turn agent loops) 내의 로컬 LLM(Large Language Models)들을 벤치마킹하고 있었습니다. 구체적으로 Llama 3.2 (3B), Phi-4-Mini (2.5B), Qwen3 (4B), 그리고 Gemma4 (E4B)를 대상으로 20개의 코딩 작업 세트를 실행했습니다.

그 과정에서 직관에 반하는 사실을 발견했습니다. 모델에게 더 많은 턴(turn)을 부여하는 것이 오히려 성능을 저하시켰습니다. 루프를 2턴으로 제한했을 때 모델들의 정확도가 현저히 높아졌습니다.

다음은 가공되지 않은 성공률 데이터입니다:

모델	제한 없는 루프 (Unconstrained Loop)	엄격한 2턴 제한 (Strict 2-Turn Cap)	성공률 차이 (Delta)
Llama 3.2:3B	45%	60%	+15%
Phi-4-Mini	30%	40%	+10%
Qwen3:4B	30%	40%	+10%
Gemma4:E4B	35%	70%	+35%

왜 그럴까요? (소형 모델의 자기 파괴 현상)
실행 로그를 검토한 결과, 이유는 명확했습니다. 이 모델들(매개변수 4B 이하)은 실제로 1턴 또는 2턴 내에 코딩 작업을 올바르게 해결했습니다.

하지만 에이전트 루프가 계속 실행됨에 따라, 모델들은 코드를 계속 수정해야 한다는 압박을 느끼는 듯했습니다. 4턴이나 5턴에 이르면 구문 오류(syntax errors)나 논리적 버그(logic bugs)를 유발하여, 이전에 올바르게 작성했던 솔루션을 완전히 망가뜨려 버렸습니다.

해결책
복잡한 작업을 방해할 수 있는 엄격한 2턴 제한을 하드코딩하지 않고 이를 방지하기 위해, 저는 토큰 증가율(token growth ratio)을 동적으로 추적하고 모델이 자기 수정 소용돌이(self-revision spiral)에 빠진 것을 감지하면 회로 차단기(circuit breaker)를 작동시키는 경량 Python/Rust 모니터(state-harness)를 구축했습니다.

코드는 GitHub에 오픈 소스로 공개되어 있습니다.

제출자: /u/visha1v
[link] [comments]

Insights

Llama 3.2, Phi 4, Qwen3, Gemma 4를 에이전트 루프에서 벤치마킹한 결과: 루프를 2회로 제한했을 때 성능이 17%

요약

핵심 포인트

댓글

Mazda, 6월 글로벌 판매량 7% 증가

실제 프로덕션 코드베이스에서 codebase-memory-mcp와 일반 grep의 A/B 테스트

Claude에게 지속적이고 검색 가능한 뉴스 메모리를 제공하는 MCP 서버를 구축했습니다 (GNews 기반, 월간 다운로드 약 106k)

이란 합의 기대감에 유가 급락, 공동 개입 후 엔화 강세

실제 프로덕션 코드베이스에서 codebase-memory-mcp와 일반 grep의 A/B 테스트

Claude에게 지속적이고 검색 가능한 뉴스 메모리를 제공하는 MCP 서버를 구축했습니다 (GNews 기반, 월간 다운로드 약 106k)

이란 합의 기대감에 유가 급락, 공동 개입 후 엔화 강세