arXiv논문2026. 04. 28. 21:51

Less Is More: 모바일 애플리케이션 내장 소형 언어 모델 (SLM) 통합의 공학적 도전과제

요약

본 논문은 모바일 애플리케이션 내장 소형 언어 모델(SLMs)의 공학적 도전과제를 실제 사례 연구를 통해 분석했습니다. 개발팀이 단어 추측 게임에 SLM을 통합하는 과정에서, 초기 야심찬 설계가 구조화된 퍼즐 생성 실패로 인해 실용적인 아키텍처로 급격히 수정되는 과정을 기록했습니다. 이 경험을 바탕으로, 장치 내 SLM의 성공적 적용을 위해 출력 형식 위반, 지연 시간 문제 등 다섯 가지 주요 실패 범주와 이를 해결한 구체적인 프롬프트 엔지니어링 및 시스템 설계 전략들을 제시합니다.

핵심 포인트

장치 내 SLMs는 오프라인/사생활 보호 AI 경험을 제공하지만, 구현 시 공학적 제약사항을 수용해야 한다.
SLM 통합 과정은 초기 복잡한 목표(완전 구조화된 퍼즐 생성)에서 실용적인 최소 기능으로 축소되는 경향이 있다.
장치 내 SLM의 주요 실패 범주는 출력 형식 위반, 제약 조건 위반, 컨텍스트 품질 저하, 지연 시간 문제 등이다.
성공적인 통합을 위해서는 다중 레이어 방어적 파싱, 컨텍스트 재시도, 책임 감소 등의 아키텍처 전략이 필수적이다.
가장 신뢰할 수 있는 장치 내 LLM 기능은 모델에게 최소한의 역할만 부여하는 경우에 가능하다.

장치 내 소형 언어 모델 (Small Language Models, SLMs) 은 모바일 사용자에게 완전한 오프라인 및 사적인 AI 경험을 약속합니다 (클라우드 의존성 없음, 장치 외부로 데이터 유출 없음). 그러나 이 약속이 실제로 실현 가능한가? 본 논문은 Palabrita(생산용 안드로이드 단어 추측 게임) 에 소형 언어 모델(Gemma 4 E2B, 26 억 파라미터; Qwen3 0.6B, 6 억 파라미터) 을 통합하는 공학적 도전과제를 기록한 종단적 실무자 사례 연구를 제시합니다. 5 일 개발 스프린트 (총 204 커밋 중 약 90 개가 직접 AI 관련) 를 거치며 시스템은 급격한 변형을 겪었습니다: LLM 이 단어, 카테고리, 난이도 및 다섯 개의 힌트를 JSON 형식의 완전한 구조화된 퍼즐을 생성하는 야심찬 설계에서, 큐레이션된 단어 목록이 단어를 제공하고 LLM 은 세 가지 짧은 힌트만 생성하며 실패 시 결정론적 폴백 (deterministic fallback) 을 사용하는 실용적인 아키텍처로 전환되었습니다. 우리는 장치 내 SLM 통합에 특화된 다섯 가지 범주의 실패를 확인했습니다: 출력 형식 위반, 제약 조건 위반, 컨텍스트 품질 저하, 지연 시간 (latency) 호환성 부재, 모델 선택 불안정성입니다. 각 실패 범주에 대해 관찰된 증상, 근본 원인, 그리고 이를 효과적으로 완화한 프롬프트 엔지니어링 및 아키텍처 전략을 문서화했습니다. 여기에는 다중 레이어 방어적 파싱 (multi-layer defensive parsing), 실패 피드백을 포함한 컨텍스트 재시도 (contextual retry with failure feedback), 세션 회전 (session rotation), 점진적인 프롬프트 강화 (progressive prompt hardening), 체계적인 책임 감소 (systematic responsibility reduction) 등이 포함됩니다. 우리의 발견은 장치 내 SLM 이 생산용 모바일 애플리케이션에 적용 가능하지만, 개발자가 근본적인 제약을 수용해야 함을 보여줍니다: 가장 신뢰할 수 있는 장치 내 LLM 기능은 LLM 이 최소한만 수행하는 경우입니다. 우리는 이러한 경험을 모바일 앱에 SLM 을 통합하는 실무자를 위한 8 가지 실행 가능한 설계 휴리스틱으로 요약합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Less Is More: 모바일 애플리케이션 내장 소형 언어 모델 (SLM) 통합의 공학적 도전과제

요약

핵심 포인트

댓글