에이전틱 판결: 당신에게 가장 적합한 솔루션은 무엇인가?

이 시리즈의 처음 네 개의 포스트에서 저는 에이전틱 코딩 (agentic coding)의 LLM (대규모 언어 모델), 앱 및 하네스 (apps and harnesses), 비용 (costs), 그리고 데이터 및 거버넌스 측면 (data and governance side)을 살펴보았습니다. 이 다섯 번째이자 마지막 포스트는 이 모든 흐름을 하나로 모읍니다.

현재 저의 순위를 먼저 말씀드린 후, 제가 가장 자주 받는 실질적인 질문인 "실제로 어떤 설정을 사용해야 하는가?"로 넘어가고자 합니다.

이것은 여전히 벤치마크가 아닙니다

이전과 동일한 면책 조항을 말씀드립니다: 이것은 과학적인 벤치마크 (benchmark)가 아니며 보편적인 구매 가이드도 아닙니다. 이것은 엔터프라이즈 프로젝트, 특히 TypeScript, HTML, SCSS로 작성된 프로젝트에서의 전문적인 Angular 작업을 위한 저의 개인적인 판결입니다.

벤치마크는 유용한 신호일 뿐입니다. 최종 정답은 아닙니다. 최종 정답은 여전히 여러분의 코드베이스 (codebase), IDE, 운영 체제 (operating system), 예산, 회사 규정, 그리고 AI가 생성한 코드를 제대로 검토하려는 의지에 달려 있습니다. 제 생각에, 품질 저하 (slop)를 피하기 위해서는 여전히 적절한 검토가 필요합니다.

요약 (TL;DR): 저의 현재 판결

다시 한번, LLM 포스트에서 논의했던 것처럼, 현재 코딩 능력을 보여주는 제가 가장 좋아하는 벤치마크는 DeepSWE입니다:

만약 여러분이 엔터프라이즈 기업이고 토큰 (tokens)과 비용이 중요하다면, 비용 포스트에 나온 이 차트를 참고하십시오:

그리고 승자는 (나의 현재 설정) 입니다

나의 기본 솔루션 (70%): GPT 5.5가 탑재된 Codex 앱 – 매우 훌륭하고, (노력에 따라) 빠르며, 신뢰할 수 있음 (월 100유로 구독).
아키텍처, 설계, 리팩터링 (refactoring), 작성, 그리고 종종 Codex/GPT 5.5의 작업물을 검토할 때 (35%): Opus 4.8이 탑재된 Claude Desktop – 내가 보기에 복잡하고 고품질인 Angular 작업을 위한 현재 최고의 모델이지만, 꽤 느리고 앱 경험이 Codex만큼 좋지는 않음 (월 100유로 구독).
정교하게 수작업으로 진행하는 Angular 작업을 위해 (5%): Junie와 Opus 4.8이 탑재된 WebStorm (월 20유로 구독 및 API 가격).
고속 작업을 위해 (2.5%): Composer 2.5가 탑재된 Cursor (월 20유로 구독).
Antigravity와 Gemini가 왜 꽤 쓸모없는지 데모하기 위해 (0.1%): Gemini가 탑재된 Antigravity (어차피 Drive를 사용하고 있었기에 월 8유로 구독).
Copilot이 왜 좋지 않은지 보여주기 위해 (0%): 어떤 모델이든 탑재된 GitHub Copilot (월 8유로 구독).

괄호 안의 백분율은 현재 내 작업 중 해당 설정을 통해 진행되는 비중을 대략적으로 추정한 것입니다. 백분율의 합이 100%를 넘는 이유는 동일한 작업에 대해 여러 설정을 자주 사용하기 때문입니다. 예를 들어, 구현을 위해 Codex/GPT 5.5로 시작한 다음, 검토 및 리팩터링을 위해 Claude/Opus 4.8로 전환할 수 있습니다. 또한 때로는 동일한 작업에 대해 두 모델을 비교하고 싶을 때도 있는데, 이는 모델들이 어떻게 진화하는지 파악하는 좋은 방법이기도 합니다.

대략 한 달에 각각 250유로 정도가 드는 셈입니다 (막대한 보조금 덕분에 가능합니다). 제 시간당 요율이 150~~300유로라는 점을 고려하면, 이는 한 달에 단 1~~2시간만 절약해도 충분하다는 뜻입니다. 전 빈 시장(legendary Michael Häupl)의 평범한 인용구가 떠오르네요. "그건 매달 1일 점심시간에 하면 됩니다." 그런데도 여전히 에이전틱 코딩 (agentic coding)을 사용하지 않을 고민을 하고 계신가요? 그러지 않기를 바랍니다.

사실 저는 Codex에서 다른 모델 제공업체 (model providers)로 전환할 수 없다는 사실이 정말 싫습니다. 만약 전환할 수 있다면, 다른 모든 것의 사용을 중단할 것이기 때문입니다. 또한 Google이 크게 뒤처졌다는 사실도 싫습니다. 모든 연구소 중 — 두 개의 프런티어 (frontier) 연구소와 Google DeepMind를 포함하여 — 저는 기업으로서 Google을 가장 좋아합니다. 하지만 그들은 조직적인 문제를 겪고 있는 것으로 보이며, 현재 Anthropic 및 OpenAI와의 경쟁에서 앞서나가지 못하고 있습니다. Google Gemini가 따라잡기를 바랍니다. 우리에게 필요한 것은 "과점 (duopoly)"이 아니라 경쟁입니다. 반면에, 저는 SpaceXAI가 Cursor와 함께 프런티어 수준을 따라잡는 과정을 지켜보는 것도 좋을 것 같습니다.

그리고 물론 저는 모델 제공업체를 전환할 수 있는 OpenCode나 T3 Code와 같은 오픈 소스 (open source) 도구들을 선호합니다. 왜냐하면 그것이 더 많은 자유와 유연성을 제공하기 때문입니다. 또한 오픈 웨이트 (open weight) 모델들을 사용하고 싶습니다. 하지만 현재로서는 제 업무에 사용할 만큼 충분히 뛰어나지 않습니다. 이는 아마 6~12개월 안에 바뀔 것이며, 그에 따라 제 판결과 권장 사항을 업데이트하겠습니다.

또한, 중국 연구소들이 오픈 웨이트 (open weight) 공개에 있어 덜 관대해질까 봐 걱정됩니다. Cursor가 최근 Moonshot의 Kimi K2.5를 기반으로 놀라운 Composer 2.5를 구축하며 거둔 성과를 생각하면 이는 이해할 만한 일입니다.

하지만 저는 그들(OpenAI나 Anthropic 모두)이 저를 종속 (lock in)시키도록 내버려 두지 않을 것이며, 계속해서 다른 설정들을 시도하고 시장을 주시할 것입니다. 하지만 현재로서는 이것이 저의 설정입니다.

당신에게 가장 적합한 솔루션은 무엇인가?

네, 당신에게 가장 적합한 솔루션은 회사의 정책, 워크플로 (workflow) 선호도, 그리고 AI가 생성한 코드를 얼마나 주의 깊게 검토할 의지가 있는지에 따라 달라집니다. 하지만 설정을 선택하는 것은 사실 그리 복잡하지 않습니다.

그럼에도 불구하고, 여러분을 돕기 위해 **정교한 의사 결정 트리 (decision tree)**를 만들었습니다 (클릭하여 확대):

하지만 Alex, 내가 가장 좋아하는 IDE는 언급되지 않았는데

무슨 말씀인지 이해합니다. 당연히 제가 가장 많이 사용해 온 IDE들을 언급했는데, 이는 다름 아닌 개인적인 선호도 때문입니다. 만약 다른 것을 사용하고 있다면, 위의 의사 결정 트리에서 제시한 패턴을 적용해 보세요:

내 도구에 에이전트 하네스 (agent harness)가 내장되어 있는가? 그렇다면 그대로 진행하세요. 아니라면 Codex와 Claude Desktop을 사용하세요.
내 도구가 Codex/Claude Code를 위한 플러그인/확장 프로그램 (plugins/extensions)을 지원하는가? 그렇다면 해당 플러그인들을 확인해 보세요. 성능이 좋다면 사용하고, 그렇지 않다면 Codex와 Claude Desktop으로 돌아가세요.
만약 Neovim 같은 것을 사용 중이라면, Codex CLI와 Claude Code CLI를 사용하세요. 저도 괜찮습니다.

직접 조사하여 당신의 선호도, 워크플로, 정책 및 윤리에 가장 잘 맞는 앱과 모델을 찾으십시오.

노력 (Effort) 및 패스트 모드 (Fast Mode)

간단합니다. 비용 관련 포스트에서 설명했듯이, high 노력 단계부터 시작하세요. 결과가 완벽하다면 노력을 medium 또는 low로 줄이십시오. 문제가 발생한다면 extra (또는 max까지)를 시도해 보세요.

기본적으로 fast 모드를 활성화하십시오. 트레이드오프 (tradeoff)에 대해서는 Codex 속도 구성 가격과 Claude 패스트 모드 문서를 참조하세요. 사용 한도에 도달하면 모드를 끄거나 업그레이드하십시오.

어떤 플랜을 선택해야 하나요?

이 또한 선택하기 쉽습니다. 20유로 플랜으로 시작하세요. 투자 대비 수익 (return on investment)이 확인되고 사용 한도에 자주 부딪히게 되면 그때 업그레이드하십시오.

팀에게 권장하는 사항

팀의 경우, 조달 절차와 회사 정책이 허용한다면 Team Plan을 시도해 보실 것을 권장합니다. 추가로 다음과 같은 사항을 권장합니다:

모든 것을 금지하는 대신, 승인된 도구 한두 개를 선택하십시오.
실제 Angular 작업으로 파일럿 (pilot) 프로젝트를 시작하십시오.
승인된 변경 사항, 리뷰 품질, 그리고 비용을 측정하십시오.
최종 차이점 (diff)에 대한 책임은 인간이 유지하도록 하십시오.
도구들이 너무 빠르게 변하므로 몇 달마다 설정을 다시 검토하십시오.

엔터프라이즈 / API 가격 책정 고려 사항

Cursor & Composer 2.5

(설정, 회사 정책 및 개인적 윤리에 따라 다르겠지만) 가능하다면, 매우 좋은 API 가격 책정을 제공하는 Composer 2.5가 포함된 Cursor를 사용해 보실 것을 권장합니다. 가장 저렴하고 가장 빠릅니다. 결과물은 프론티어 모델 (frontier models, GPT 5.5 및 Opus 4.8)의 중간 정도 수준입니다. 따라서 투자 수익률 (ROI) 측면에서 이것이 현재로서는 최선의 선택이 될 수 있습니다.

낮은 노력(Low Effort)을 통한 Codex, GPT (및 Claude Opus)

하지만 최고의 코딩 능력을 갖춘 모델을 사용하고 싶다면, 낮은 수준에서 중간 수준의 노력 (low to medium effort)으로 GPT 5.5와 함께 Codex를 (그리고 Opus 4.8과 함께 Claude를) 사용하는 것을 권장합니다.

모델의 과거 버전으로 돌아가거나 Sonnet 모델을 사용할 필요는 없습니다. 노력 (effort)을 줄임으로써 좋은 결과를 얻으면서도 비용을 극적으로 낮출 수 있습니다.

에이전틱 엔지니어링 워크숍 (Agentic Engineering Workshop)

이것이 제가 모델, 하네스 (harnesses), 비용, 개인정보 보호 또는 IDE 선호도를 개별적으로 생각하지 않는 이유이기도 합니다. 모델, 앱, 저의 Angular 가드레일 (Guardrails), 저의 Angular 코딩 스타일 가이드 (Coding Style Guide), Angular 기술, 그리고 리뷰 워크플로 (review workflow)는 모두 하나로 묶여 있습니다.

모델, 하네스 (harness), 비용, 그리고 개인정보 보호 (privacy) 이 모든 것을 하나의 일관되고 전문적인 Angular 설정으로 통합하는 방법을 보고 배우고 싶다면, 영어와 독일어로 진행되는 저희의 Agentic Engineering Workshop에 꼭 참여하시기 바랍니다.

이 워크숍에서 숙련된 Angular 개발자들은 '바이브 코딩 (vibe coding)'에서 추적 가능한 에이전틱 엔지니어링 (Agentic Engineering) 워크플로로 전환하는 방법을 배웁니다: AI 준비가 된 프로젝트 설정, 가드레일 (guardrails), 스펙 우선 (spec-first) 및 계획 우선 (plan-first) 워크플로, UX 및 컴포넌트 프로토타이핑 (prototyping), 코드 리뷰 (code review), 테스트 (testing), 그리고 브라운필드 리팩토링 (brownfield refactoring) 등이 포함됩니다.

🤖 Agentic Engineering Workshop – 2일, 원격

결론

이 시리즈는 어떤 LLM이 _Angular_에 가장 적합한가라는 단 하나의 질문으로 시작되었지만, 이 중 어느 부분도 고립되어 작동하지 않기 때문에 점차 더 큰 주제로 확장되었습니다.

모델이 중요합니다. Opus 4.8과 GPT 5.5는 진정으로 다른 도구이며, 언제 어떤 모델을 사용해야 하는지 아는 것이 승패의 절반을 결정합니다.

하네스 (harness)가 중요합니다. Codex, Claude 데스크톱 앱, Cursor, 그리고 여러분의 커스텀 설정은 각각 워크플로를 다르게 형성합니다.

가격 모델이 중요합니다. 중요한 것은 토큰당 가격이 아니라 수락, 리뷰, 머지된 변경 사항당 비용 (cost per accepted, reviewed, merged change)이며, 현재로서는 보조금이 지원되는 구독이 여전히 가장 좋은 선택입니다.

그리고 데이터 측면도 중요합니다. 무조건 안 된다고만 하지 마세요. 몇 가지 안전한 경로를 승인하여 공식 워크플로를 비공식적인 편법보다 더 낫게 만드십시오.