영어로 생각하고 한국어로 답변하기: 다국어 도구 사용 에이전트의 효율적인 적응

우리는 실질적인 메모리 및 서빙 제약 조건 하에서 한국어-영어 기업용 에이전트를 위해 Cohere와 LG CNS의 협업을 통해 개발된 111B-파라미터 하이브리드 추론 모델인 LuckyStar 111B를 선보입니다. 이 모델은 새로운 사전 학습 (pretraining) 실행 대신 Cohere의 완전히 사후 학습 (post-trained)된 Command A 모델로부터 학습하며, 서문 조건화 (preamble conditioning)를 사용하여 간결한 비추론 동작과 더 긴 도구 지향적 추론 사이를 전환합니다. 우리는 도구 사용 에이전트를 효율적으로 확장하기 위한 네 가지 선택지를 연구합니다: 다국어 지도 미세 조정 (multilingual supervised fine-tuning), 다단계 도구 사용 작업을 위한 검증 가능한 보상 (verifiable rewards) 기반 강화 학습 (RL), 한국어 사용자 대상 응답을 위한 언어 일관성 보상 (language-consistency rewards), 그리고 단일 GPU 서빙을 위한 4비트 양자화 (4-bit quantization)입니다. 적응된 모델은 일반적인 한국어 및 영어 지시 이행 (instruction-following) 품질을 유지하면서 수학적 추론, 함수 호출 (function calling), 그리고 에이전트 기반의 자연어-to-SQL (NL2SQL) 성능을 향상시킵니다. 이러한 결과는 메모리가 제한된 배포 환경에서 사후 학습된 다국어 모델을 검증 가능한 에이전트 워크플로 (agentic workflows)로 적응시키기 위한 실질적인 레시피와 실패 모드 분석을 제공합니다.

Insights

영어로 생각하고 한국어로 답변하기: 다국어 도구 사용 에이전트의 효율적인 적응

요약

핵심 포인트

댓글

Riverside의 Claude MCP 통합 기능이 영상 편집의 새로운 메타(Meta)라고 확신하는 이유

OKX가 오늘 AI 에이전트를 위한 Upwork를 출시했습니다.

F-G-T-W: 타당성 게이트(Feasibility Gate)는 어떻게 탄생했는가

AI 비용 모델링 핸드북: Claude에게 모델링은 맡겼지만, 산술 계산은 절대 맡기지 않았다

Riverside의 Claude MCP 통합 기능이 영상 편집의 새로운 메타(Meta)라고 확신하는 이유

OKX가 오늘 AI 에이전트를 위한 Upwork를 출시했습니다.

F-G-T-W: 타당성 게이트(Feasibility Gate)는 어떻게 탄생했는가

AI 비용 모델링 핸드북: Claude에게 모델링은 맡겼지만, 산술 계산은 절대 맡기지 않았다