X요약2026. 06. 21. 11:21

어떻게 중국 기업이 코딩 분야에서 Codex와 Claude Code를 따라잡았는가

요약

중국 기업이 Codex와 Claude Code를 추격할 수 있었던 핵심 방법론인 데이터 학습 전략을 설명합니다. 고품질의 신호 대 잡음비(SNR)를 확보하기 위해 LLM의 입출력을 활용한 지도 미세 조정(SFT)과 강화학습(RL)의 결합 방식을 다룹니다.

어떤 이가 어떻게 중국 기업이 코딩 분야에서 Codex와 Claude Code를 따라잡을 수 있었는지 물었습니다. 그 답은 미국 기업들이 높은 신호 대 잡음비 (signal-to-noise ratio)를 가진 학습 데이터를 제공하기 때문입니다.

작동 방식은 다음과 같습니다 (모두 스크립트로 처리되며, 인간의 개입(human in the loop)은 없습니다):

충분히 큰 베이스 모델 (base model)을 가져와 강화학습 (reinforcement learning)과 지도 미세 조정 (supervised finetuning)을 결합하여 미세 조정합니다.
학습 예시를 얻기 위해, 일부 LLM에게 기존 코드베이스에 미묘한 버그를 삽입하도록 요청하고, 버그가 수정되었을 때만 True를 반환하는 테스트 스크립트를 제공하도록 합니다.
Codex/Claude Code를 사용하여 버그를 수정합니다. 그들이 이를 수행할 때, 모든 LLM의 입력과 출력을 기록합니다.
이러한 입/출력을 모델의 지도 미세 조정 (supervised finetuning)에 사용합니다.
테스트 스크립트 결과 (True/False)를 강화학습 (reinforcement learning)에 사용합니다.

지도 미세 조정 (supervised finetuning)은 문제 해결의 대화적인 부분을 학습시킵니다. 강화학습 (reinforcement learning)은 실제 문제 해결 부분을 학습시킵니다.

이런 방식을 통해, 더 약한 학생을 학습시키지 않게 됩니다. 검증 가능한 결과 (True/False)가 솔루션 공간 탐색 (solution space exploration) 기술과 결합되면, 결국 학생이 스승보다 더 강해지게 만듭니다.

코딩 LLM은 해결된 문제이며, 결국 모두가 동일한 솔루션을 갖게 될 것입니다.

AI 자동 생성 콘텐츠