github-copilot, pi, claude-code, 그리고 Qwen3.6 27B 기반 opencode를 이용한 동일 작업 비교

코딩 에이전트 (coding agent)의 성능 중 어느 정도가 모델에서 오고, 어느 정도가 하네스 (harness)에서 오는지 알고 싶어서, 동일한 작업에 대해 여러 에이전트 하네스/모델 조합을 테스트할 수 있는 설정을 구성해 보았습니다. 위의 모든 이미지들은 모두 동일한 모델을 사용했지만, 서로 다른 하네스를 적용한 결과입니다.

주관적인 의견 대신 자동화된/지표 기반 평가 (metric evaluation)를 도입하기 위해 여전히 작업 중입니다.

이미지에 나타나지 않은 특징들은 다음과 같습니다:

Opencode는 기본적으로 인터넷 검색이 가능합니다. 이 덕분에 일부 작업에서 결과가 훨씬 더 좋았습니다. 예를 들어, 3D 프린터 설명 페이지 작업 시 특정 필라멘트 온도 등을 나열했습니다.
웹 개발 (webdev) 분야에서 opencode는 정말 좋은 결과를 보여주었습니다. 여기서 직접 상호작용할 수는 없지만, 매우 잘 작동하는 멋진 인터랙티브 위젯 (interactive widgets)들을 만들어냈습니다.
모델이 Github Copilot을 사용할 때 정말 힘들어합니다. 일반적으로 파일 하나를 쓰는 데 대여섯 번의 시도가 필요합니다. Copilot의 파일 편집 도구 (file editing tools)를 계속 망가뜨립니다. 다른 하네스에서는 이런 문제가 없습니다. Claude code, pi, opencode는 모두 pelican.svg 파일을 생성하는 데 4번의 LLM 요청을 사용했습니다. 반면 Github Copilot은 13번이나 걸렸습니다! 편집 도구를 시도했다가, bash를 시도했다가, 다시 편집 도구를 시도합니다. 그들이 어떤 도구 스키마 (tool schema)를 사용하든 간에, 제 테스트 결과 LLM이 정말 어려워했습니다. 이로 인해 동일한 디프 (diffs)를 계속해서 다시 생성해야 하므로 속도가 매우 느려집니다.
Qwen3-vl-4는 OpenCode에서 무한 루프에 빠져 pelican.svg 파일을 디스크에 쓰지도 못했습니다.

Insights

github-copilot, pi, claude-code, 그리고 Qwen3.6 27B 기반 opencode를 이용한 동일 작업 비교

요약

핵심 포인트

댓글

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인