Antigravity 2.0, OpenSCAD 건축 3D LLM 벤치마크에서 1위 차지

우리는 작은 실무적 벤치마크(benchmark)를 실행했습니다. 여러 AI 코딩 도구에 동일한 종류의 과제를 부여하고, OpenSCAD를 사용하여 판테온(Pantheon)을 구축하도록 요청했습니다.

ModelRift는 플랫폼의 모든 3D 모델에 대해 OpenSCAD를 생성합니다. LLM(Large Language Model)의 공간 기하학(spatial geometry) 처리 능력은 우리가 출시할 수 있는 결과물에 직접적인 영향을 미치므로, 우리는 이러한 종류의 작업에서 모델이 어떻게 개선되는지 추적합니다.

목표는 각 시스템이 건축 참조 자료를 파라메트릭 CAD(parametric CAD) 코드로 얼마나 잘 변환할 수 있는지 확인하는 것이었으며, OpenSCAD CLI를 사용하여 미리보기를 렌더링하고 반복(iterate)했습니다.

프롬프트(prompt)는 의도적으로 시각적이고 건축적이었습니다: 로툰다(rotunda), 돔(dome), 포르티코(portico), 기둥(columns), 페디먼트(pediment), 그리고 식별 가능한 전면 세부 사항을 포함하여 참조 이미지를 바탕으로 판테온을 구축하십시오.

Six Pantheon OpenSCAD benchmark preview renders arranged in a labeled three by two grid

현재 6개 벤치마크 결과의 개요. 각 썸네일에는 해당 실행에 사용된 클라이언트와 모델이 표시되어 있습니다.

왜 판테온인가?

이것은 단순한 OpenSCAD 구문 테스트가 아니었습니다. 현재의 모든 코딩 LLM은 OpenSCAD에서 단순한 "구멍이 뚫린 정육면체" 모델을 완벽하게 생성할 수 있습니다. 그런 종류의 프롬프트는 주로 모델이 difference(), cube(), cylinder()를 알고 있는지를 테스트합니다.

판테온은 중간 지점에 위치하기 때문에 벤치마크로서 더 유용합니다. OpenSCAD는 자연스러운 조각 모델, 유기적 표면 또는 캐릭터 같은 기하학적 구조에는 적합하지 않습니다. 대신 불리언 연산(Boolean operations), 방사형 대칭(radial symmetry), 돌출(extrusions), 그리고 깔끔한 구성적 형상(constructive shapes)에 훨씬 더 뛰어납니다. 판테온은 거대한 방사형 로툰다와 돔, 중앙의 오쿨루스(oculus), 직선형 포르티코 면, 기둥, 계단식 기단, 그리고 삼각형 페디먼트를 가지고 있습니다. 이러한 조합은 불가능하지 않으면서도 설명력이 높습니다.

또한 식별이 가능합니다. 결과가 좋지 않더라도 여전히 막연하게 돔 형태의 건물처럼 보이지만, 더 나은 결과라면 원형 드럼(drum), 직사각형 포르티코, 돔 링(dome rings), 그리고 전면 파사드(facade) 사이의 관계를 대략적으로 정확하게 구현해야 합니다.

왜 OpenSCAD인가?

OpenSCAD는 모델이 간결한 어휘를 가진 일반 텍스트 코드이기 때문에 LLM이 생성하는 기하학적 구조(geometry)를 위한 강력한 대상이 됩니다. 에이전트는 건물을 중첩된 변환(nested transformations), 불리언 연산(Boolean operations), 실린더(cylinders), 돌출(extrusions), 루프(loops), 그리고 이름이 지정된 모듈(named modules)로 설명할 수 있습니다. 이는 언어 모델에게 UI 동작을 통해 3D 애플리케이션을 제어하도록 요청하는 것보다, 모델이 이미 구조에 대해 추론하는 방식에 훨씬 더 가깝습니다. 이것이 바로 우리가 [Why we built ModelRift on OpenSCAD]에서 다룬 것처럼, 애초에 ModelRift를 OpenSCAD를 중심으로 구축한 주요 이유입니다.

이는 복잡한 기하학적 구조에서 중요하게 작용합니다. OpenSCAD를 사용하면 LLM은 소스 코드 내에서 직접 “반지름을 따라 28개의 기둥을 반복해서 만들어라” 또는 “돔에서 오큘러스(oculus)를 빼라”라고 말할 수 있습니다. 그 결과물은 검사 가능하고, 재현 가능하며, 수정하기 쉽습니다. 만약 기둥 간격이 잘못되었다면, 해결 방법은 대개 숨겨진 장면 상태(scene-state)의 변이가 아니라 매개변수(parameter)나 루프(loop)를 변경하는 것입니다. 이러한 텍스트 우선(text-first) 구조는 [Building a better OpenSCAD customizer]에서 논의된 것과 같은 매개변수 UI 레이어(parametric UI layers)와 OpenSCAD가 잘 작동하게 만드는 핵심 요소이기도 합니다.

Blender MCP나 이와 유사한 도구 제어(tool-control) 방식은 일부 워크플로우에서 유용하지만, 이 벤치마크를 위한 인코딩으로는 덜 자연스럽습니다. 에이전트는 건축적 의도를 일련의 애플리케이션 작업 시퀀스로 변환해야 하며, 이러한 작업이 누적됨에 따라 장면 상태에 대한 정신적 모델(mental model)을 유지해야 합니다. CAD와 유사한 작업에서 이는 너무 많은 간접 단계(indirection)를 수반합니다. OpenSCAD는 기하학적 구조 그 자체를 결과물(artifact)로 유지합니다.

트레이드오프(tradeoff)는 OpenSCAD가 조각 도구(sculpting tool)가 아니라는 점입니다. OpenSCAD는 건설적(constructive), 파라메트릭(parametric), 그리고 주로 하드 서피스(hard-surface) 객체를 생성하는 데 가장 적합합니다. 판테온(Pantheon)은 바로 그 영역에 위치합니다: 방사형 대칭(radial symmetry), 반복되는 기둥, 링, 컷아웃(cutouts), 그리고 단순한 건축적 입체물(solids)이 그것입니다. 또한 이는 3D 프린팅의 실질적인 파일 출력 측면과도 깔끔하게 매칭됩니다. STL은 기본 메쉬(mesh) 포맷으로 유지되는 반면, 3MF는 '3D 파일 형식 설명(3D file formats explained)' 및 'ModelRift에 다색 3MF 내보내기 기능을 추가한 방법(How we added multicolor 3MF export to ModelRift)'에서 설명된 바와 같이 더 풍부한 어셈블리(assembly) 및 색상 정보를 담을 수 있습니다. 이것이 바로 판테온이 ModelRift가 LLM(대규모 언어 모델)으로부터 생성하고자 하는 유형의 기하학적 구조를 위한 유용한 벤치마크(benchmark)인 이유입니다.

프롬프트 (Prompt)

벤치마크에 사용된 프롬프트는 다음과 같습니다:

두 개의 참조 이미지를 보고 pantheon의 openscad 구현을 포함하는 .scad 파일을 작성하세요. 사용 가능한 openscad CLI를 사용하여 작업물을 미리 보기(openscad 모델을 .png로 렌더링)하고, 결과가 만족스러울 때까지 반복하세요.

참조 이미지 (Reference Images)

Two Pantheon benchmark reference images: front facade view on the left and aerial top view on the right

참조 #1은 왼쪽에 있는 정면 파사드(facade) 뷰입니다. 참조 #2는 오른쪽에 있는 항공/상단 뷰입니다. 결합된 이미지는 벤치마크에 사용된 두 개의 소스 이미지로부터 ffmpeg를 사용하여 생성되었습니다.

결과 (Results)

Six Pantheon OpenSCAD benchmark preview renders arranged in a labeled three by two grid

클라이언트와 모델별로 라벨링된 현재의 6가지 벤치마크 출력물입니다.

도구 및 모델	시간	품질	요약	링크
Cursor 3.5 / Composer 2.5	●●●●● 5/5, 가장 빠름	●○○○○ 1.4/5	가장 빠른 실행 속도를 보였으나, 결과물은 가장 취약했습니다. 돔(dome)과 포르티코(portico)는 포착했으나, 비율, 색상 규율(color discipline), 건축적 세부 사항이 가장 미흡했습니다.	3D 결과 확인
Google Antigravity 2.0 / Gemini 3.5 Flash High	가장 우수한 자율 결과	●●●●◐ 4.5/5	약 12분 소요	가장 강력한 자율적(autonomous) 결과물을 보여주었습니다. 실제 판테온(Pantheon)의 치수를 사용하였고, 비문을 포함했으며, 시그니처인 내부 격자 천장(coffered ceiling) 패턴을 구현한 유일한 에이전트였습니다.
ModelRift / Gemini Flash 3.0	Human-in-the-loop 승자	●●●◐○ 3.8/5	약 10분 소요	가장 우수한 비자율적(non-autonomous) 결과물이었습니다. Gemini Flash 3.0과 함께 ModelRift의 반복적 주석(iterative annotation) 워크플로우를 사용하였으며, Claude Code 소요 시간의 약 2배가 걸렸습니다.

점수는 본 벤치마크에만 국한된 상대적인 수치입니다. 이는 일반적인 모델 순위가 아니며, 시간 점수는 프로젝트 게시 시간이 아닌 관찰된 구현 시간을 반영합니다. 품질 점수는 의도적으로 보수적으로 책정되었습니다. 가장 우수한 결과물조차 완벽한 판테온 모델에는 미치지 못합니다.

워크플로우 참고 사항 (Workflow Notes)

클라이언트 워크플로우는 모델만큼이나 중요했습니다. Codex Desktop은 LLM이 컨텍스트(context)에 직접 로드한 이미지를 대화창 내에 바로 보여줍니다. 시각적 CAD 작업에서 이는 매우 편리합니다. 에이전트가 실제로 사용자가 의도한 것과 동일한 참조 자료를 사용하고 있는지 확인할 수 있기 때문입니다. Cursor Agent와 Claude Code CLI도 작동은 가능했으나, 프로세스 뷰(process views)가 시각적 컨텍스트를 덜 명시적으로 보여주었습니다.

테스트된 모든 시스템은 로컬 OpenSCAD 툴체인(toolchain)을 잘 처리했습니다. 테스트용 Mac에 OpenSCAD가 설치되어 PATH에서 사용 가능했으며, 모든 에이전트는 반복 과정 중에 PNG 미리보기를 렌더링하기 위해 이를 성공적으로 사용했습니다. 제한 요인은 도구 접근 권한이 아니었습니다. 기하학적 판단력(geometric judgment), 카메라 설정, 그리고 미리보기 모델이 깨끗한 최종 메쉬(mesh)로 내보내지는지 여부가 핵심이었습니다.

Codex Desktop conversation showing the prompt and both Pantheon reference images loaded into context

Codex는 또한 미리보기 반복 과정을 더 따라가기 쉽게 만들었습니다. Codex는 참조 이미지, OpenSCAD 파일 수정 사항, 그리고 생성된 미리보기 이미지를 동일한 스레드(thread) 내에 노출했습니다.

Codex Desktop showing rendered OpenSCAD preview iterations for the Pantheon model

공개 벤치마크 결과가 나온 후, Codex는 문제가 되었던 지붕 및 엔타블러처(entablature) 내보내기 문제를 조사하고 수정하려고 시도했습니다. 해당 후속 조치는 최종 벤치마크 결과에 포함되지 않았는데, 이는 발표된 비교 데이터가 원래 제출된 모델을 사용하기 때문입니다.

Codex Desktop debugging notes about non-manifold STL facets near the portico roof and dome junction

Cursor는 가장 빠른 상호작용 루프(interaction loop)를 보여주었으며, UI는 유용한 계획(plan)과 생성된 OpenSCAD 코드를 나란히 보여주었습니다. 하지만 출력 품질은 여전히 속도가 느린 실행 결과들에 비해 뒤처졌습니다.

Cursor Composer process screenshot showing generated Pantheon OpenSCAD code and a structured model plan

Claude Code는 더 터미널 중심적이었습니다. 이미지를 읽고 OpenSCAD 명령어로 반복 작업을 수행했지만, 모델이 구축되는 동안의 과정은 시각적인 요소가 적었습니다.

Claude Code terminal screenshot showing the start of the Pantheon OpenSCAD task

Claude Code terminal screenshot showing final Pantheon model edits and summary

Claude Opus process screenshot showing OpenSCAD render commands and iteration notes

Google Antigravity 2.0 / Gemini 3.5 Flash High

Google Antigravity 2.0 with Gemini 3.5 Flash High OpenSCAD render of the Pantheon

Antigravity 결과 및 워크플로(workflow)의 짧은 데모 클립.

우리는 Google이 I/O 2026에서 Antigravity 2.0을 출시하고 2026년 5월 19일에 Gemini 3.5 Flash를 발표한 직후인 2026년 5월 22일에 이 실행 결과를 추가했습니다. 이는 Flash 3.5에 대한 좋은 초기 신호입니다. 결과적으로 이 벤치마크에서 가장 뛰어난 완전 자율 모델(fully autonomous model)로 나타났습니다.

제품의 맥락은 다소 혼란스러웠습니다. Antigravity 1.0은 VS Code 기반의 IDE였습니다. Antigravity 2.0은 Codex Desktop에 더 가깝습니다. 즉, 계획, 작업 실행, 미리보기를 갖추고 기존의 에디터 중심 워크플로보다는 에이전트 우선(agent-first) 방식의 데스크톱 앱입니다. 이러한 전환은 출시 주간에 많은 비판을 받았는데, 이전의 IDE 경험을 원했던 사용자들이 버전을 다운그레이드하거나 이전 앱을 고정하는 것 외에는 이전 상태로 돌아갈 매끄러운 경로가 없었기 때문입니다.

그러한 거친 전환 과정에도 불구하고, Flash 3.5 High는 여기서 인상적인 성능을 보여주었습니다. Antigravity는 다른 자율 에이전트들이 하지 못한 일을 수행했습니다. 단순히 참조 이미지를 눈으로 훑는 대신, 실제 판테온(Pantheon)의 매개변수(parameters)를 검색했습니다. 계획과 코드는 로툰다(rotunda), 돔(dome), 포르티코(portico), 오큘러스(oculus)에 대한 명시적인 측정값을 사용했으며, 이를 파라메트릭(parametric) OpenSCAD 값으로 변환했습니다.

구현 계획은 다른 모델들보다 더 건축학적이었습니다:

OpenSCAD를 사용하여 로마 판테온(Pantheon)의 상세하고 시각적으로 놀라우며 치수적으로 정확한 3D 모델을 구현한다.

또한 단면 모드(cutaway mode)를 제안했는데, 이는 판테온이 외부에서 볼 때 단순히 돔 형태만은 아니기 때문에 중요했습니다:

외부(계단식 링, 포르티코(portico))와 내부(코퍼(coffers), 니치(niches), 완벽한 구형 비율)를 모두 보여주기 위해, 코드에 다음 토글을 포함하겠습니다.

show_cutaway = false;

가장 강력한 디테일은 천장이었습니다. 계획에서는 실제 코퍼(coffer) 구조를 명시했습니다:

판테온 돔 내부에는 28개의 코퍼가 5개의 링 형태로 구성되어 있습니다. 이를 OpenSCAD에서 수학적으로 계산하여 제외하는 방식은 매우 정교하며 놀라운 결과물을 보여줍니다.

Close-up of the Antigravity Pantheon model showing the coffered ceiling pattern visible through the oculus

Antigravity는 판테온의 특징적인 내부 천장 패턴, 즉 오큘러스(oculus)를 통해 보이는 반복적인 사각형 코퍼(coffers)를 구현한 유일한 자율 에이전트(autonomous agent)였습니다.

전용 단면 렌더링(cutaway render)은 동일한 선택을 더 쉽게 확인할 수 있게 해줍니다:

Cutaway render of the Antigravity Pantheon model showing the interior dome coffers

외부 결과물 또한 일반적인 빠른 OpenSCAD 출력물에서는 보통 생략되는 여러 디테일을 포함하고 있었습니다: 회색과 붉은색이 섞인 기둥 재질, 읽을 수 있는 비문, 계단식 지붕 링, 그리고 로툰다(rotunda), 중간 블록, 포르티코(portico), 돔 사이의 정확한 광범위한 관계 등이 그것입니다.

Close-up of the Antigravity Pantheon portico showing the M AGRIPPA inscription and column layout

품질 점수는 4.5/5점이며, 속도 점수는 1/5점입니다. 빠르지는 않았지만, 이 벤치마크를 위해 자율적인 천장 구현을 이끌어냈습니다. Flash 3.5는 계획, 렌더링, 검사 및 수정을 수행할 수 있는 도구와 결합될 경우 공간 코드 생성(spatial code generation) 측면에서 매우 유망해 보입니다.

Google Antigravity 2.0 process screenshot showing OpenSCAD render output beside the agent workflow

ModelRift / Gemini Flash 3.0

ModelRift Gemini Flash 3 OpenSCAD render of the Pantheon after human-in-the-loop iteration

이 결과는 Gemini Flash 3.0과 ModelRift를 사용하고 인간 참여형(human-in-the-loop) 프로세스를 거친 것입니다. 이는 처음 네 번의 실행과 같은 자율적인 단일 패스(single-pass) 벤치마크는 아니었습니다. 워크플로우는 약 10분이 소요되었으며, 이는 Claude Code 시간의 대략 2배에 해당하므로 동일하게 1/5의 속도 점수를 받았습니다.

Insights