어떻게 중국 기업이 코딩 분야에서 Codex와 Claude Code를 따라잡았는가
요약
중국 기업이 Codex와 Claude Code를 추격할 수 있었던 핵심 방법론인 데이터 학습 전략을 설명합니다. 고품질의 신호 대 잡음비(SNR)를 확보하기 위해 LLM의 입출력을 활용한 지도 미세 조정(SFT)과 강화학습(RL)의 결합 방식을 다룹니다.
핵심 포인트
- LLM의 입출력을 활용한 고품질 학습 데이터 생성
- SFT를 통한 대화적 문제 해결 능력 학습
- 강화학습을 통한 실제 문제 해결 능력 강화
- 검증 가능한 테스트 스크립트를 통한 학습 효율 극대화
어떤 이가 어떻게 중국 기업이 코딩 분야에서 Codex와 Claude Code를 따라잡을 수 있었는지 물었습니다. 그 답은 미국 기업들이 높은 신호 대 잡음비 (signal-to-noise ratio)를 가진 학습 데이터를 제공하기 때문입니다.
작동 방식은 다음과 같습니다 (모두 스크립트로 처리되며, 인간의 개입(human in the loop)은 없습니다):
-
충분히 큰 베이스 모델 (base model)을 가져와 강화학습 (reinforcement learning)과 지도 미세 조정 (supervised finetuning)을 결합하여 미세 조정합니다.
-
학습 예시를 얻기 위해, 일부 LLM에게 기존 코드베이스에 미묘한 버그를 삽입하도록 요청하고, 버그가 수정되었을 때만 True를 반환하는 테스트 스크립트를 제공하도록 합니다.
-
Codex/Claude Code를 사용하여 버그를 수정합니다. 그들이 이를 수행할 때, 모든 LLM의 입력과 출력을 기록합니다.
-
이러한 입/출력을 모델의 지도 미세 조정 (supervised finetuning)에 사용합니다.
-
테스트 스크립트 결과 (True/False)를 강화학습 (reinforcement learning)에 사용합니다.
지도 미세 조정 (supervised finetuning)은 문제 해결의 대화적인 부분을 학습시킵니다. 강화학습 (reinforcement learning)은 실제 문제 해결 부분을 학습시킵니다.
이런 방식을 통해, 더 약한 학생을 학습시키지 않게 됩니다. 검증 가능한 결과 (True/False)가 솔루션 공간 탐색 (solution space exploration) 기술과 결합되면, 결국 학생이 스승보다 더 강해지게 만듭니다.
코딩 LLM은 해결된 문제이며, 결국 모두가 동일한 솔루션을 갖게 될 것입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X 토픽: Claude/Anthropic의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기