RTX 3090에서 신뢰할 수 있는 로컬 LLM 에이전트를 실행하는 방법: 벤치마크 (5개 모델, 와트(Watts) 단위 비용 산정)

요약

RTX 3090 환경에서 로컬 LLM 에이전트의 성능을 비교 분석한 벤치마크 결과입니다. 모델 자체의 성능보다 LangGraph와 같은 오케스트레이션 프레임워크의 도구 호출(tool-calling) 능력이 작업 성공률에 결정적인 영향을 미침을 보여줍니다.

핵심 포인트

프레임워크(오케스트레이터)가 모델 성능보다 에이전트 성공률에 더 큰 영향을 줄 수 있음
LangGraph 사용 시 GLM-4.5-Air의 작업 성공률이 0%에서 93%로 대폭 상승
Qwen3-Coder는 별도 설정 없이도 뛰어난 도구 준수율을 보이는 예외적 모델
GPU 전력 소모(Watts)를 포함한 실제 실행 비용 산정의 중요성 강조

저는 RTX 3090에서 opencode를 통해 GLM-4.5-Air (106B, 오픈 웨이트 (open weights))에게 12개의 코딩 작업을 맡겼습니다. 결과는 **0%**였습니다 — 단 하나의 파일도 수정하지 못했습니다.

동일한 모델, 동일한 GPU, 동일한 작업이었지만, 약 150줄의 LangGraph 에이전트를 사용했을 때는 결과가 **93%**로 나타났습니다.

문제는 모델이 아니었습니다. 오케스트레이터 (orchestrator)가 문제였습니다. 여기에는 다른 누구도 측정하지 않는 부분인 정답 작업당 전기 비용을 포함한 벤치마크 결과가 있습니다.

설정 (Setup)

RTX 3090 (24 GB) + 128 GB RAM, ollama를 통한 모델 실행, Q4 양자화 (quants), 온도 (temp) 0.2
최신 오픈 모델 5개 × 2개의 오케스트레이터 (opencode vs ollama 네이티브 도구 호출 (tool-calling)을 사용하는 커스텀 LangGraph ReAct)
17개의 채점된 작업 (Python/JS/C++ 코딩 12개 + 일반 에이전트 5개) 및 숨겨진 유닛 테스트 (unit tests)
모든 실행은 저의 오픈 소스 homelab-monitor를 통해 GPU 와트 (watts) 단위로 비용 산정

결과 (Results)

모델	tok/s	opencode 준수율 (adh.)	LangGraph 준수율 (adh.)	LangGraph 코딩	LangGraph 일반
Qwen3-Coder 30B-A3B	130	92%	100%	100%	100%
...
도구 준수율 (Tool-adherence) = 모델이 채팅창에 코드만 출력하는 대신 실제로 도구를 호출한 작업의 비율입니다. 이것이 핵심 변수였습니다. (GLM의 헤드라인 "93%"는 17개 전체 작업에 대한 혼합 점수입니다: 코딩 89% + 일반 100%.)

세 가지 시사점 (Three takeaways)

프레임워크가 모델보다 더 중요할 수 있습니다. opencode는 OpenAI 호환 (OpenAI-compat) 경로를 통해 프런티어급 시스템 프롬프트와 12개의 도구(tools)를 전송하지만, 대부분의 로컬 모델은 단순 채팅 모드로 회귀합니다. 가벼운 에이전트를 통한 네이티브 도구 호출 (Native tool-calling)이 이 문제를 해결하며, GLM은 0%에서 93%로 상승했습니다. (Qwen3-Coder는 예외입니다. 이 모델은 에이전트 방식의 도구 사용에 최적화되어 있어 별도의 설정 없이도 opencode에서 뛰어난 성적을 거둡니다.)
행동(Acting)이 곧 해결(Solving)은 아닙니다. LangGraph는 Devstral이 '행동'하게 만들었지만 (준수율 8% → 53%), '해결'하게 만들지는 못했습니다 (코딩 점수는 8%로 유지). 프레임워크는 모델이 행동할지 여부를 결정하고, 모델은 그 행동이 맞았는지 여부를 결정합니다.
와트미터(wattmeter)는 정직하게 순위를 매깁니다. Qwen은 작업당 약 0.0005 BGN으로 문제를 해결했습니다. 점수가 0점인 모델들은 아무런 성과 없이도 10~30배 더 많은 에너지를 소모했습니다. 개인용 PC 환경에서는 가장 저렴한 모델이 바로 빠르고 정확한 모델이며, MoE (Qwen은 토큰당 30B 중 약 3B를 활성화) 방식이 두 가지 측면 모두에서 승리합니다.

보너스: 128 GB RAM 덕분에 106B GLM을 실행할 수 있었습니다 (23 GB VRAM + 27 GB RAM으로 스필오버) — 5.7 tok/s의 속도로 작동합니다. 대화형 코딩에는 적합하지 않지만, 한 번 실행해두면 신경 쓸 필요 없는 배치 작업 (batch jobs)에는 훌륭합니다.

신뢰할 수 있는 로컬 에이전트를 위한 레시피

도구 사용에 최적화된 모델을 선택하십시오 (Qwen3-Coder 30B-A3B가 전천후 승자입니다) → OpenAI 호환 경로가 아닌 네이티브 (native) 도구 호출을 사용하십시오 → 하네스 (harness)를 가볍게 유지하십시오 → 속도가 아닌 범위를 위해 RAM을 사용하십시오 → kWh당 정확도를 측정하십시오.

📖 방법론, 차트, 그리고 더 깊은 "이유"가 담긴 전체 글 보기 → [https://medium.com/@arsen.apostolov/local-llm-agents-on-an-rtx-3090-i-benchmarked-5-models-2-frameworks-and-the-orchestrator-f5fd600ca221]

⭐ 모든 수치는 GPU의 전력 소모를 작업당 비용으로 변환해 주는 저의 오픈 소스 도구인 **homelab-monitor**를 통해 와트(watts) 단위로 산정되었습니다. 본인의 장비에서도 동일한 증빙을 원하신다면 Star를 눌러주세요. 하네스 + 작업 + 리더보드 코드는 재현 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기