동일한 모델, 동일한 프롬프트, 4개의 서로 다른 에이전트

요약

동일한 Qwen2.5-27B 모델과 프롬프트를 사용하여 네 가지 서로 다른 에이전트 스캐폴딩(pi, opencode, hermes, qwen code)의 코딩 성능을 비교 실험했습니다. 2D 태양계 시뮬레이션 구현을 통해 에이전트별 아키텍처 품질, 물리 엔진 정확도, 코드 견고성을 분석했습니다.

핵심 포인트

opencode는 가장 깔끔한 아키텍처와 안정적인 물리 시뮬레이션을 제공함
pi는 좌표 일관성과 터치 지원 등 가장 견고하고 정확한 구현을 보여줌
hermes는 시각적 효과는 뛰어나나 물리적 계산 로직에서 오류가 발견됨
에이전트 스캐폴딩의 차이가 동일 모델에서도 코드 품질의 큰 격차를 만듦

설정: llama.cpp에서 자체 호스팅되는 Qwen2.5-27B (Q4) 하나, 동일한 프롬프트, 동일한 하드웨어. 유일한 변수는 에이전트 스캐폴딩(agent scaffolding)입니다. 테스트된 에이전트: pi, opencode, hermes, qwen code.

작업: 스크립트된 궤도와 사용자가 발사한 혜성에만 작용하는 중력을 가진 단일 파일 2D canvas 태양계.

정확한 프롬프트 ("점진적으로 구축하세요, 컨텍스트 창(context window)이 작습니다"라는 명시적 지침에 유의):
<canvas>와 바닐라 자바스크립트(vanilla JavaScript, 외부 라이브러리 미사용)를 사용하여 독립형 HTML 파일로 2D 태양계 시뮬레이션을 구축하세요.

장면(Scene)

태양은 캔버스 중앙에 고정됩니다.
여러 행성이 안정적인 원형/타원형 경로를 따라 태양 주위를 공전합니다. 행성과 태양은 서로에게 중력 영향을 미치지 않습니다 — 이들의 궤도는 고정되어 있거나 스크립트로 작성된 것이며, 서로 물리적으로 시뮬레이션되지 않습니다.
순수 2D, 탑다운(top-down) 뷰. 캔버스가 창 크기에 맞춰 조정되도록 하세요.

중력 모델(Gravity model)

태양과 각 행성은 시각적 반지름에 비례하는 중력 질량(더 큰 천체 = 더 강한 중력)을 가지며, 합리적인 범위 내에서 실제 세계의 상대적 크기와 최대한 일치해야 합니다.
이 중력은 혜성(아래 참조)에만 작용합니다. 행성이나 태양에는 작용하지 않습니다.

혜성(Comets)

사용자는 캔버스에서 클릭 후 드래그하여 혜성을 발사할 수 있습니다: 드래그 방향과 길이는 혜성의 초기 속도 벡터를 설정합니다(놓으면 발사됨).
혜성은 태양과 모든 행성의 결합된 중력(힘의 합계)의 영향을 받으므로, 경로가 휘어지거나 슬링샷(slingshot) 효과를 낼 수 있습니다.
각 혜성은 뒤에 서서히 사라지는 잔상을 그립니다.
혜성이 화면 밖 멀리 날아가면 제거합니다.

제어(Controls)

모든 천체의 중력 강도를 실시간으로 비례하여 조절하는 슬라이더(range input).

제약 사항(중요 — 컨텍스트 창(context window)이 작습니다):

한 번에 하나의 거대한 파일을 작성하지 마세요. 작은 조각으로 점진적으로 구축하세요.
코드를 간결하고 읽기 쉽게 유지하세요. 불필요한 주석과 장황함을 피하세요.
완료 후, 브라우저에서 열 수 있도록 파일 이름을 알려주세요.

결과: 4개 모두 작동하는 시뮬레이션을 생성했지만, 코드 품질은 크게 달랐습니다:

opencode, 나의 선택. 가장 깔끔한 아키텍처 (architecture), 요청한 대로 질량 ∝ 반지름 (mass ∝ radius) 관계를 정확히 지켰으며, 서브 스텝 적분 (sub-stepped integration, 프레임당 4회)을 수행한 유일한 모델입니다. → 단연코 가장 안정적인 혜성 궤적 (comet trajectories)과 스윙바이 (slingshots)를 보여줍니다. 사람이 작성한 것처럼 읽힙니다. 사소한 버그: 행성 중력 (planet-gravity) 계산 시 절대 좌표와 중심 상대 좌표 (absolute/center-relative coords)가 혼용되지만, 태양의 영향력이 압도적이라 거의 눈에 띄지 않습니다.
pi, 가장 정확함. 좌표 일관성 (coordinate-consistent)이 유지되고, 특이점 (singularities)을 피하기 위한 거리 소프트닝 (distance softening)이 적용되었으며, 태양에 충돌하는 혜성을 제거하고 행성 라벨을 표시합니다. 터치 지원 (touch support)이 되는 유일한 모델입니다. 화려함은 덜하지만 가장 견고합니다.
hermes, 가장 화려하지만 물리적으로 틀림. 실제 타원 궤도 (elliptical orbits)와 멋진 항력 벡터 화살표 (drag-vector arrow)를 보여주는 유일한 모델입니다. 하지만 행성을 렌더링하는 시점과 혜성에 작용하는 행성 중력을 계산하는 타임 스텝 (time step)이 달라, 혜성이 행성이 없는 위치를 향해 끌려갑니다. 보기에는 가장 좋지만, 시뮬레이션은 가장 형편없습니다.
qwen code, 가장 최소한의 구성. 가장 짧고 실행은 되지만 조잡합니다: 엄청난 발사 속도 배율 (launch-velocity multiplier) 때문에 혜성이 즉시 튕겨 나가며, 소프트닝 (softening)도 없고 별 (stars)도 없습니다.

시사점: 고정된 로컬 모델을 사용하더라도, 에이전트의 스캐폴딩 (scaffolding)이 출력 결과(적분 전략, 좌표 위생, 예외 처리)를 눈에 띄게 변화시킵니다. 가장 예쁜 데모(hermes)가 가장 버그가 많았고, 평범해 보이는 모델(pi)이 가장 정확했으며, opencode가 깔끔한 코드와 안정적인 물리 법칙 사이의 최적의 균형을 맞췄습니다. 다른 사람들도 자신의 로컬 환경에서 동일한 순위 결과를 얻을지 궁금합니다.

제출자: /u/HomoAgens1
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

동일한 모델, 동일한 프롬프트, 4개의 서로 다른 에이전트

요약

핵심 포인트

댓글