TUDUM: Qwen3.5-27B를 위한 터키어 사고 추론 파이프라인

본 논문은 Qwen 제품군 27B 사고 모델(thinking model)을 터키어 추론에 적응시키기 위한 프로젝트 파이프라인인 TUDUM (Türkçe Düşünen Üretken Model)을 제시합니다. 핵심 문제는 단순히 터키어 프롬프트에 터키어로 답변하는 것이 아니라, 명시적인 추론 과정(reasoning trace) 자체를 터키어로 만드는 것입니다. 사고 모델은 터키어 프롬프트를 영어 중심의 내부 또는 가시적인 스크래치패드(scratchpad)로 번역하여 대부분 영어로 문제를 해결한 뒤, 최종 답변만 현지화할 수 있습니다. 반면, TUDUM은 생성된 <think>...</think> 블록을 학습 가능한 행동으로 취급합니다. 이 파이프라인은 프로젝트 베이스 체크포인트인 unsloth/Qwen3.5-27B에서 시작하여, LoRA 어댑터를 사용하여 15,991개의 터키어 추론 예시에 대해 지도 미세 조정 (SFT, Supervised Fine-Tuning)을 적용한 다음, 프록시 필터링된 터키어 수학 환경에서 GRPO 계열의 강화 학습 (RL, Reinforcement Learning)을 적용합니다. 결과는 엇갈렸습니다. SFT는 모델의 답변 길이를 크게 줄이고 사고 소진(thinking exhaustion)을 감소시켜, 모델을 더 짧고 추론 행동에서 일관되게 터키어를 사용하도록 만들었으나, 벤치마크 정확도는 감소했습니다. RL은 일부 수학적 성능, 특히 가장 초기 체크포인트에서 AIME24 성능을 회복했으나, 모든 벤치마크를 균일하게 개선하지는 못했으며 보고된 Macro-6 평균에서 베이스 모델을 능가하지도 못했습니다. 따라서 본 연구의 기여는 최첨단(state-of-the-art) 터키어 추론을 주장하는 것이 아니라, 기술적으로 정직한 터키어 사고 추론 파이프라인 및 평가로 정의하는 것이 가장 적절합니다. 공개된 step-50 모델은 대중에게 제공됩니다.

Insights

TUDUM: Qwen3.5-27B를 위한 터키어 사고 추론 파이프라인

요약

핵심 포인트

댓글

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

미 법무부, 가격 조작 혐의를 받은 주요 계란 생산 업체들과 합의 도달

Opus를 환상적으로 만들기: Fable 5의 독자적인 원칙에 따라 Opus 4.8을 실행하는 Claude Code 플러그인

AI API 비용을 밑바닥부터 획기적으로 줄이는 법: 아무도 말해주지 않는 사실