TUDUM: Qwen3.5-27B를 위한 터키어 사고 추론 파이프라인
요약
Qwen3.5-27B 모델이 터키어 추론 과정(<think> 블록)을 직접 생성하도록 학습시키는 TUDUM 파이프라인을 제안합니다. SFT와 GRPO 기반 강화 학습을 적용하여 터키어 사고 과정을 구축하려 시도했으나, 벤치마크 성능 면에서는 복합적인 결과를 보였습니다.
핵심 포인트
- 터키어 프롬프트에 대해 영어 스크래치패드 대신 터키어 추론 과정을 생성하도록 설계
- unsloth/Qwen3.5-27B를 베이스로 LoRA SFT 및 GRPO 강화 학습 적용
- SFT를 통해 사고 소진을 줄이고 터키어 사용 일관성을 높였으나 정확도는 감소함
- RL 적용 시 일부 수학 성능은 회복했으나 전반적인 벤치마크 개선은 미흡함
- 기술적으로 정직한 터키어 사고 추론 파이프라인 및 평가 방법론 제시
본 논문은 Qwen 제품군 27B 사고 모델(thinking model)을 터키어 추론에 적응시키기 위한 프로젝트 파이프라인인 TUDUM (Türkçe Düşünen Üretken Model)을 제시합니다. 핵심 문제는 단순히 터키어 프롬프트에 터키어로 답변하는 것이 아니라, 명시적인 추론 과정(reasoning trace) 자체를 터키어로 만드는 것입니다. 사고 모델은 터키어 프롬프트를 영어 중심의 내부 또는 가시적인 스크래치패드(scratchpad)로 번역하여 대부분 영어로 문제를 해결한 뒤, 최종 답변만 현지화할 수 있습니다. 반면, TUDUM은 생성된 <think>...</think> 블록을 학습 가능한 행동으로 취급합니다. 이 파이프라인은 프로젝트 베이스 체크포인트인 unsloth/Qwen3.5-27B에서 시작하여, LoRA 어댑터를 사용하여 15,991개의 터키어 추론 예시에 대해 지도 미세 조정 (SFT, Supervised Fine-Tuning)을 적용한 다음, 프록시 필터링된 터키어 수학 환경에서 GRPO 계열의 강화 학습 (RL, Reinforcement Learning)을 적용합니다. 결과는 엇갈렸습니다. SFT는 모델의 답변 길이를 크게 줄이고 사고 소진(thinking exhaustion)을 감소시켜, 모델을 더 짧고 추론 행동에서 일관되게 터키어를 사용하도록 만들었으나, 벤치마크 정확도는 감소했습니다. RL은 일부 수학적 성능, 특히 가장 초기 체크포인트에서 AIME24 성능을 회복했으나, 모든 벤치마크를 균일하게 개선하지는 못했으며 보고된 Macro-6 평균에서 베이스 모델을 능가하지도 못했습니다. 따라서 본 연구의 기여는 최첨단(state-of-the-art) 터키어 추론을 주장하는 것이 아니라, 기술적으로 정직한 터키어 사고 추론 파이프라인 및 평가로 정의하는 것이 가장 적절합니다. 공개된 step-50 모델은 대중에게 제공됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기