AI에게 유리한 프로그래밍 언어는?

이런 「통념」, 들어본 적 없으신가요?

「AI에게 코드를 쓰게 한다면 Rust가 최강이다. 타입 시스템(Type System)과 borrow checker가 AI의 실수를 전부 걸러내 줄 것이다」
「C++를 AI에게 쓰게 하는 것은 위험하다. 미정의 동작(Undefined Behavior)과 포인터(Pointer)의 지뢰밭이라서, 기능은 만들 수 있어도 버그투성이가 될 것이다」
「Python은 편하지만, 동적 타이핑(Dynamic Typing)이라서 AI가 쓰면 실행 시 에러(Runtime Error)투성이가 된다」

AI 코딩 에이전트(AI Coding Agent)를 사용하는 엔지니어라면, 한 번쯤 어디선가 들어봤을 법한 설입니다. 저도 그렇게 생각했습니다.

그래서 이번에, 완전히 동일한 사양을 6개의 언어로 AI에게 구현하게 하여, 어떤 언어가 가장 「완성도 높은 결과물」이 되는지 실험해 보았습니다. 결론부터 말씀드리면, 사전 예상은 보기 좋게 빗나갔습니다.

이 기사에서는 실험 설계, 결과, 그리고 「AI에게 유리한 언어란 무엇인가」에 대한 고찰을 공유합니다.

harness software : Claude Code

Model : Opus4.7

Effort : High

언어: C#, C++, Haskell, Java, Python, Rust

모든 언어에 공통적으로 다음 사양을 부여했습니다.

요구사항	내용
3D 뷰	오빗 카메라 (회전 / 팬 / 줌)
...
언어	스택
---	---
C#	WinForms + 자체 제작 소프트웨어 래스터라이저 (Software Rasterizer)
...

이번 실험의 메인입니다. 각 언어별로 하네스(Harness)를 구성하여, AI가 스스로 구현하고, 스스로 빌드하며, 자신의 런타임(Runtime)을 체크하면서 완성해 나가는 방식으로 진행했습니다. 즉 「AI가 자율적으로 구동하여 완성되었다고 판단한 것」이 결과물입니다. 기본적인 하네스는 미리 준비해 둔 상태에서 검증했습니다.

harness software : Claude Code

Model : Opus4.7

Effort : High

실험 전에 세운 예상은 다음과 같았습니다.

순위 예상	언어	이유 (통념)
1	Rust	컴파일러가 엄격함 = AI의 실수를 기계가 걸러냄. 셀프 체크 루프와 상성이 최강일 것
...

특히 Rust에는 기대를 걸고 있었습니다. 「컴파일만 통과하면 대체로 동작하는」 언어이기에, AI가 스스로 검증하며 만드는 이번 하네스와 상성이 매우 좋을 것이라 생각했기 때문입니다. 반대로 C++는 「기능은 많지만 버그도 많은」 결과물이 될 것이라 예상했습니다.

실기 테스트 결과는 다음과 같습니다.

Python

Rust

항목	C#	C++	Haskell	Java	Python	Rust
기능 커버리지	높음	높음	낮음	높음	높음	중간
실기 테스트에서 발견된 결함	1	0	0 (애초에 기능이 적음)	1	0	1
삭제 기능	✅	✅	❌ 없음	✅	✅	⚠️ 전체 삭제만 가능
UI/피드백	버튼 + 상태 표시줄	버튼 + 2단 바	컬러 칩만 있음	텍스트 HUD 최다	팔레트 패널 + HUD	타이틀 바 실황
종합 순위	3	1	6	2	2 (공동)	5

「버그투성이가 될 것」이라 예상했던 C++가, 실기 테스트에서 유일하게 결함 제로의 풀 기능 구현을 보여주었습니다. 배치, 자동 스택, 삭제(X 키), 프리뷰, 모드 전환, 레이어, 팔레트, 줌, 카메라 리셋, 그 모든 것이 키보드와 UI 버튼 양쪽 모두에서 작동합니다. Auto = 파랑 / Manual = 주황의 레이어 기즈모(Gizmo) 색상 구분까지 포함되어 있어, 시각적 피드백도 가장 친절했습니다.

Win32 + OpenGL 1.1이라는 구성은 인간에게는 고행이지만, AI는 태연하게 다 써 내려갔습니다.

반면 Rust는 구동과 조작이 경쾌하고, 타이틀 바에 모드, 레이어, 오브젝트 수가 실시간으로 표시되는 등 볼거리는 있었지만──

오브젝트(하얀 원 빌보드)를 배치하면 초록색 사각형이 렌더링됨 (텍스처 레이어/틴트 관련 버그로 추정) -
개별 삭제 기능이 존재하지 않음 (R 키를 통한 전체 삭제만 가능)

이라는, 에디터로서 치명적인 문제 2개가 있었습니다. 「컴파일은 통과했지만, 화면에 나오는 것이 사양과 다르다」라는, borrow checker로는 절대로 검출할 수 없는 종류의 버그가 남아 있었습니다.

Java (2위): 복셀을 쌓으면 작업 레이어가 자동으로 따라오는 '레이어 자동 트래킹 (Layer Auto-tracking)'을 유일하게 구현. HUD의 정보량도 가장 많음. 단, TAB 키가 Swing의 포커스 이동(Focus movement)에 먹혀 반응하지 않음 (클릭으로 대체 가능).

Python (공동 2위): 테스트한 모든 조작이 결함 없이 동작. 6개 언어 중 유일하게 README까지 동봉. 단, 카메라 리셋 기능이 없는 등 기능 수에서 반 걸음 뒤처짐.

C# (3위): 렌더링 API를 전혀 사용하지 않고, 레이캐스트 (Raycast) · 투시 보정 텍스처링 (Perspective-correct texturing) · 깊이 버퍼 (Depth buffer)까지 소프트웨어 래스터라이저 (Software rasterizer)를 직접 구현해낸 기술적 최우수 상. 단, Tab 키가 WinForms의 포커스 이동에 먹히는 결함이 1건 있음.

Haskell (6위): 코어 루프 (Core loop: 레이캐스트 → 프리뷰 → 설치)와 WASD 자유 비행은 작동하지만, 삭제 기능이 애초에 존재하지 않음. 텍스트 HUD도 없음. 개념 증명 (Proof of Concept) 수준에 그침.

참고로 흥미로웠던 점은, C#과 Java가 완전히 동일한 종류의 버그(Tab/TAB 키가 GUI 프레임워크의 포커스 트래버설 (Focus traversal)에 먹히는 현상)를 범했다는 것입니다. 언어가 아닌 프레임워크의 함정은 AI도 인간과 마찬가지로 빠지는 듯합니다.

예상과 결과의 차이를 정리하면 다음과 같습니다.

예상했던 모델:
언어의 안전성이 높다 = AI의 실수를 기계가 걸러낸다 = 결과물의 품질이 높다
실제로 관측된 모델:
...

Rust의 컴파일러가 보장하는 것은 메모리 안전성과 데이터 경합 (Data race)의 부재일 뿐, '텍스처 배열의 몇 번째를 샘플링하는가'가 사양대로인지에 대해서는 알 바가 아니라는 것입니다. 이번 버그는 바로 그 지점에서 발생했습니다. GUI · 그래픽스 도메인에서 AI가 내놓는 버그의 대부분은 '타입으로 걸러낼 수 있는 종류의 버그'가 아니라 '화면에 띄워봐야 알 수 있는 종류의 버그'였습니다.

C++ + Win32 + OpenGL 1.1은 30년 치의 샘플 코드, 해설 기사, Stack Overflow 답변이 인터넷상에 퇴적되어 있는 구성입니다. AI에게는 방대한 학습 데이터로 수없이 봐온 패턴의 조합이며, 자신 있게 올바른 코드를 내놓을 수 있는 영역이었다고 생각됩니다.

반면 wgpu는 설계는 모던하지만 API 버전 간의 변화가 격심하고 학습 데이터도 상대적으로 적습니다. AI가 '그럴듯하지만 미묘하게 다른' 코드를 쓰기 쉬운 영역입니다.

'Rust는 셀프 체크 루프 (Self-check loop)와 궁합이 좋을 것'이라는 예상도 빗나갔습니다. 이유는 단순합니다. AI의 셀프 체크가 커버할 수 있는 범위는 컴파일 · 실행 · 로그까지이며, '하얀 원이 초록색 사각형으로 보인다'는 사실은 스스로 볼 수 없기 때문입니다. 결국 어떤 언어든 마지막에 화면을 보고 조작하는 검증이 품질을 결정했습니다.

지금의 AI에게 유리한 언어란 '컴파일러가 엄격한 언어'가 아니라,

'학습 데이터가 풍부하고, API가 성숙해 있으며(Mature), 검증 루프를 돌리기 쉬운 언어'이다. 그리고 언어가 무엇이든, 런타임 (Runtime)을 실제로 눈으로 보고 조작하는 검증을 생략한 품질 보증은 성립하지 않는다.

샘플 수는 각 언어당 1개 구현 (n=1)입니다. 시행마다 발생하는 편차는 평균화되지 않았습니다.
주제가 GUI/그래픽스에 치우쳐 있으므로, CLI 도구나 서버 구현에서는 완전히 다른 결과가 나올 수 있습니다.
하나의 AI 모델과 하나의 하네스 (Harness) 구성으로 얻은 결과입니다. 'Rust가 불리하다'는 일반론이 아니라, **'통념만큼 Rust가 유리하지도, C++이 불리하지도 않았다'**는 보고로 읽어주시기 바랍니다.
마우스 우/중 버튼 드래그 조작 (카메라 회전 · 팬)은 검증 도구의 제약으로 인해 모든 언어에서 미검증 상태입니다.
동일 사양의 복셀 에디터를 6개 언어로 AI가 자율 구현하게 하여, 실제 기기에서 모든 기능을 조작하며 비교했다.
사전 예상은 'Rust가 1위, C++은 버그 투성이'. 결과는 'C++이 결함 제로로 1위, Rust는 렌더링 버그 + 기능 부족으로 5위'.
C#과 Java는 언어가 아니라 GUI 프레임워크의 포커스 트래버설이라는 동일한 함정에 빠졌다.
AI의 결과물 품질을 결정한 것은 언어의 안전성이 아니라, 학습 데이터의 양과 API의 성숙도였다.
컴파일러도 AI의 셀프 체크도 '화면에 나오는 것이 올바른가'까지는 보장하지 않는다.
마지막에 런타임을 눈으로 보고 조작하는 검증이 결국 가장 효과적인 품질 게이트(Quality gate)였다.

AI에게 유리한 프로그래밍 언어는?

요약

핵심 포인트

댓글