무엇을 해야 할까요? - 사후 학습 (Post-training) 고려하기

요약

단순한 벤치마크 수행을 넘어 실질적인 가치를 창출하는 사후 학습(Post-training)의 중요성을 강조합니다. 데이터 합성, 모델별 특성 이해, 빠른 반복을 위한 엔지니어링 스택 구축이 핵심임을 설명합니다.

핵심 포인트

단순 TPS 측정보다 실질적인 문제 해결을 위한 사후 학습 제안
데이터 믹스와 영리한 데이터 합성(Data Synthesis)의 중요성
모델별(Qwen vs Llama) 사후 학습 난이도 및 특성 차이
빠른 반복을 위한 저전력 대규모 병렬 사후 학습 스택 구축 필요
SFT를 넘어 RFT(강화 미세 조정)로 진화하는 기술 트렌드

이 글은 작성자(OP)가 멋진 하드웨어를 장만하고 무엇을 할지 고민하는 흔한 게시물에 대한 답변입니다. 표준적인 답변은 항상 (1) 모델 X를 다운로드하고, (2) 초당 토큰 수(TPS)로 벤치마크를 수행한 뒤, (3) 스크린샷을 공유하는 것입니다. 저는 이것이 지루하고 지적으로 게으른 방식이라고 주장하며, 대안으로 사후 학습 (Post-training)을 제안합니다.

배경을 설명하자면: 저는 4년 동안 "서비스형 사후 학습 (post-training-as-a-service)"을 해왔습니다. 처음에는 4090 서버에서 고객의 작업을 위해 BERT 스타일 모델을 단순히 지도 미세 조정 (SFT, Supervised Fine-Tuning)하는 것으로 시작했습니다. 이것들은 채팅 용도가 아니라, (a) 채팅이 환불을 받으려는 악의적인 소비자인지 식별하거나, (b) 기업 스파이 행위 가능성이 있는 마우스 움직임 및 키 입력 시퀀스를 태깅하거나, (c) 영업 사원이 소비자의 특성과 니즈를 실시간으로 프로파일링하도록 돕는 것과 같은 작업들을 위한 것이었습니다. 참고로 이것들은 모두 실제 프로젝트였으며, 이를 통해 꽤 많은 수익을 올렸고(지금도 그러합니다).

추론 전문가(inference monkeys)들이 하는 것과 달리, 사후 학습 (Post-training)은 결코 사소하지 않습니다. 우선, 품질과 속도 모두 중요합니다. 초당 1,000 토큰의 속도로 80%의 오탐률 (False Positive Rate)을 내면서 대충 넘어갈 수는 없습니다. 사실, 많은 사후 학습 사례가 실시간이 아니기 때문에 TPS는 그리 중요하지 않습니다 (물론 일부는 실시간인 경우도 있습니다). 둘째, 사후 학습 레시피는 암흑 기술 (Dark Art)입니다. 튜토리얼이나 가이드를 찾을 수 없을 것이며, Claude/Codex가 당신을 위해 느낌(vibe)을 잡아줄 수도 없습니다 (제가 시도해 봤습니다). 그리고 여전히 수요가 엄청납니다 (이것이 얼마나 암흑 기술인지 감을 잡으려면 최근 논문을 확인해 보세요). 셋째, 데이터 믹스 (Data Mix)가 핵심입니다. 고객이 데이터를 일부 제공하면 당신은 더 많은 데이터를 요구하게 될 것이고, 결국 성능을 끌어올리기 위해 영리한 데이터 합성 (Data Synthesis) 및 변환 (Transformation)을 수행해야 할 것입니다. 넷째, 데이터와 모델의 조합에 따라 성능이 다르게 나타납니다. 예를 들어 Qwen 모델들은 사후 학습시키기가 어렵습니다. 지식이 꽉 차 있기 때문입니다 (즉, 벤치마크 최적화가 과하게 되어 있습니다). 반면 멍청한 Llama 모델들은 사후 학습시키기에 놀랍도록 좋습니다. 지식이 매우 적기 때문에 지식을 잘 흡수합니다 (하지만 기초 지식의 부족은 단점이기도 합니다).

다섯째, 반복(iterate) 속도가 빠를수록 최적의 사후 학습된 (post-trained) 모델을 더 빨리 찾아내고 결과를 전달할 수 있습니다. 여기서 엔지니어링 및 배포 기술이 필요합니다. 적절한 하드웨어를 이해하고 구매할 수 있다면, 빠른 속도로 반복할 수 있는 저전력 대규모 병렬 사후 학습 스택(post-training stack)을 구축할 수 있습니다 (그림에 대한 힌트 참고).

이것은 단지 SFT (Supervised Fine-Tuning, 지도 미세 조정)일 뿐이며, 다음 단계는 RFT (Reinforcement Fine-Tuning, 강화 미세 조정)입니다. 이것은 완전히 다른 차원의 문제이며 현재는 서부 개척 시대(wild west)와 같이 혼란스러운 상태입니다. RFT에서는 추론/롤아웃 (inference/rollouts)을 빠르게 수행하는 모델(이상적으로는 빠른 토큰 생성 머신에서 작동하는)이 필요하며, 그 모델에 보상(reward)이 주어져야 합니다 (이 과정에는 코드를 빌드하고 테스트하기 위해 Docker 컨테이너를 생성하는 작업이 포함될 수 있습니다). 마지막으로 PPO/GRPO/RLOO 등 현재 사용되는 방식들을 통해 모델의 가중치(weights)가 업데이트됩니다. 이는 특수한 구축(build-out)을 요구하는 추론과 가중치 업데이트의 멋진 조합이지만, 아직 아무도 이상적인 구축 방식이 무엇인지 알지 못합니다. Prime RL과 같은 사후 학습 전문 업체들은 데이터 센터에서 운영됩니다. 제가 알기로는 아직 이를 혼자서 수행하는 사람은 없습니다 (저도 이제 막 시작하는 단계입니다).

전반적으로, 이 포스트가 여러분의 새로운 하드웨어를 위한 흥미로운 새로운 여정의 문을 열어주기를 바랍니다. 이 모든 것은 로컬 LLM (Local LLMs) 덕분에 가능합니다. OpenAI는 SFT API를 중단하고 있으며, RFT API는 터무니없이 비쌉니다. 따라서 커스텀 사후 학습(custom post-trains)은 완전히 오픈 모델(open models)의 영역에 있는 몇 안 되는 프로젝트 중 하나입니다. 다소 경쟁적이고 하드웨어 의존적이지만, 수익을 창출할 수 있는 좋은 기회라고 생각합니다. 즐기세요!

LLM의 도움 없이 작성되었으므로, 오타나 횡설수설이 있더라도 양해 부탁드립니다.
submitted by /u/entsnack
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

무엇을 해야 할까요? - 사후 학습 (Post-training) 고려하기

요약

핵심 포인트

댓글