영어로 생각하고 한국어로 답변하기: 다국어 도구 사용 에이전트의 효율적인 적응
요약
Cohere와 LG CNS가 협업하여 개발한 111B 파라미터 하이브리드 추론 모델 LuckyStar 111B를 소개합니다. 이 모델은 사후 학습과 서문 조건화를 통해 다국어 도구 사용 에이전트의 효율적인 적응과 성능 향상을 목표로 합니다.
핵심 포인트
- LuckyStar 111B 모델은 Command A 모델을 기반으로 한 사후 학습 모델임
- 서문 조건화를 통해 비추론 동작과 도구 지향적 추론 간의 전환 가능
- 다국어 SFT, 강화 학습, 언어 일관성 보상, 4비트 양자화 기법 연구
- 수학적 추론, 함수 호출, NL2SQL 성능 향상 및 메모리 제약 환경 최적화
우리는 실질적인 메모리 및 서빙 제약 조건 하에서 한국어-영어 기업용 에이전트를 위해 Cohere와 LG CNS의 협업을 통해 개발된 111B-파라미터 하이브리드 추론 모델인 LuckyStar 111B를 선보입니다. 이 모델은 새로운 사전 학습 (pretraining) 실행 대신 Cohere의 완전히 사후 학습 (post-trained)된 Command A 모델로부터 학습하며, 서문 조건화 (preamble conditioning)를 사용하여 간결한 비추론 동작과 더 긴 도구 지향적 추론 사이를 전환합니다. 우리는 도구 사용 에이전트를 효율적으로 확장하기 위한 네 가지 선택지를 연구합니다: 다국어 지도 미세 조정 (multilingual supervised fine-tuning), 다단계 도구 사용 작업을 위한 검증 가능한 보상 (verifiable rewards) 기반 강화 학습 (RL), 한국어 사용자 대상 응답을 위한 언어 일관성 보상 (language-consistency rewards), 그리고 단일 GPU 서빙을 위한 4비트 양자화 (4-bit quantization)입니다. 적응된 모델은 일반적인 한국어 및 영어 지시 이행 (instruction-following) 품질을 유지하면서 수학적 추론, 함수 호출 (function calling), 그리고 에이전트 기반의 자연어-to-SQL (NL2SQL) 성능을 향상시킵니다. 이러한 결과는 메모리가 제한된 배포 환경에서 사후 학습된 다국어 모델을 검증 가능한 에이전트 워크플로 (agentic workflows)로 적응시키기 위한 실질적인 레시피와 실패 모드 분석을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기