본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 21. 15:35

github-copilot, pi, claude-code, 그리고 Qwen3.6 27B 기반 opencode를 이용한 동일 작업 비교

요약

코딩 에이전트의 성능이 모델 자체의 능력과 에이전트 하네스(harness)의 설계 중 어디에서 기인하는지 비교 분석한 실험 결과입니다. GitHub Copilot은 파일 편집 도구 사용 시 비효율적인 시도를 반복하며 성능 저하를 보인 반면, Opencode는 인터넷 검색 기능과 웹 개발 분야에서 뛰어난 성능을 나타냈습니다.

핵심 포인트

  • 에이전트의 성능은 모델뿐만 아니라 하네스(harness) 설계에 큰 영향을 받음
  • GitHub Copilot은 파일 편집 도구 사용 시 과도한 LLM 요청을 발생시키며 비효율적인 동작을 보임
  • Opencode는 인터넷 검색 기능을 통해 특정 도메인 지식이 필요한 작업에서 우수한 성능을 발휘함
  • Opencode는 웹 개발(webdev) 분야에서 인터랙티브 위젯 생성 등 높은 결과물을 보여줌
  • 특정 모델(Qwen3-vl-4)과 하네스 조합에서는 무한 루프와 같은 실행 오류가 발생할 수 있음

코딩 에이전트 (coding agent)의 성능 중 어느 정도가 모델에서 오고, 어느 정도가 하네스 (harness)에서 오는지 알고 싶어서, 동일한 작업에 대해 여러 에이전트 하네스/모델 조합을 테스트할 수 있는 설정을 구성해 보았습니다. 위의 모든 이미지들은 모두 동일한 모델을 사용했지만, 서로 다른 하네스를 적용한 결과입니다.

주관적인 의견 대신 자동화된/지표 기반 평가 (metric evaluation)를 도입하기 위해 여전히 작업 중입니다.

이미지에 나타나지 않은 특징들은 다음과 같습니다:

  1. Opencode는 기본적으로 인터넷 검색이 가능합니다. 이 덕분에 일부 작업에서 결과가 훨씬 더 좋았습니다. 예를 들어, 3D 프린터 설명 페이지 작업 시 특정 필라멘트 온도 등을 나열했습니다.
  2. 웹 개발 (webdev) 분야에서 opencode는 정말 좋은 결과를 보여주었습니다. 여기서 직접 상호작용할 수는 없지만, 매우 잘 작동하는 멋진 인터랙티브 위젯 (interactive widgets)들을 만들어냈습니다.
  3. 모델이 Github Copilot을 사용할 때 정말 힘들어합니다. 일반적으로 파일 하나를 쓰는 데 대여섯 번의 시도가 필요합니다. Copilot의 파일 편집 도구 (file editing tools)를 계속 망가뜨립니다. 다른 하네스에서는 이런 문제가 없습니다. Claude code, pi, opencode는 모두 pelican.svg 파일을 생성하는 데 4번의 LLM 요청을 사용했습니다. 반면 Github Copilot은 13번이나 걸렸습니다! 편집 도구를 시도했다가, bash를 시도했다가, 다시 편집 도구를 시도합니다. 그들이 어떤 도구 스키마 (tool schema)를 사용하든 간에, 제 테스트 결과 LLM이 정말 어려워했습니다. 이로 인해 동일한 디프 (diffs)를 계속해서 다시 생성해야 하므로 속도가 매우 느려집니다.
  4. Qwen3-vl-4는 OpenCode에서 무한 루프에 빠져 pelican.svg 파일을 디스크에 쓰지도 못했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0