Domux: 엣지 AI 에이전트를 위한 150ms 미만의 의도 파싱(Intent Parsing) 달성
요약
엣지 AI 에이전트를 위해 150ms 미만의 초저지연 의도 파싱을 달성한 경량 모델 Domux를 소개합니다. Gemma-4-E2B-it를 기반으로 SFT와 GRPO를 적용하여 스마트 홈 환경에 최적화된 성능을 제공합니다.
핵심 포인트
- 150ms 미만의 엔드 투 엔드 응답 속도로 실시간 상호작용 가능
- 98.37%의 높은 정확도와 100%의 출력 형식 준수율 달성
- SFT 및 GRPO를 활용한 맞춤형 강화 학습 전략 적용
- 임의의 장치 이름과 모호한 명령을 처리하는 의미론적 일반화 능력
Domux: 엣지 AI 에이전트를 위한 150ms 미만의 의도 파싱 (Intent Parsing) 달성
GitHub Trending이 "일반적인 채팅"에서 "수직적 실행" (RPA, 비디오 편집 등)으로의 전환을 반영함에 따라, 실시간 에이전트(Agents)의 결정적인 병목 현상은 더 이상 단순한 추론(Reasoning)이 아니라, **인지(Perception) 및 의도 파싱 (Intent Parsing)**입니다.
오늘 우리는 스마트 홈 시나리오에서 저지연 명령 이해를 위해 특별히 설계된 실험적인 경량 모델인 Domux를 출시합니다.
왜 Domux인가?
전통적인 NLU (Natural Language Understanding) 파이프라인은 종종 복잡한 마이크로서비스를 포함하여 높은 지연 시간(Latency)을 초래합니다. 실시간 상호작용 (음성 제어 또는 즉각적인 자동화와 같은)을 위해서는 더 빠르고 가벼운 것이 필요합니다.
Domux는 Gemma-4-E2B-it를 기반으로 구축되었으며, SFT (Supervised Fine-Tuning, 지도 미세 조정) 및 **GRPO (Group Relative Policy Optimization, 그룹 상대 정책 최적화)**를 사용하여 미세 조정되었습니다. 목표는 무엇일까요? 엔드 투 엔드(End-to-end) 응답을 150ms 미만으로 유지하는 것입니다.
주요 특징
1. 극도로 낮은 지연 시간 (Extreme Low Latency)
엣지 디바이스 및 서버에 최적화되었습니다. 구조화된 데이터를 거의 즉각적으로 전달하여 반응성이 뛰어난 사용자 경험을 가능하게 합니다.
2. 높은 정확도 및 준수성 (High Accuracy & Compliance)
- 98.37% 결과 정확도 (Result Accuracy)
- 100% 형식 준수 (Format Compliance): 고정된 7개 필드 파이프 구분 스키마 (
action|device|attribute|value|unit|room|floor)를 출력하여, 다운스트림 시스템이 항상 결과를 파싱할 수 있도록 보장합니다.
3. 의미론적 일반화 (Semantic Generalization)
경직된 키워드 매칭 방식과 달리, Domux는 다음을 처리합니다:
- 임의의 장치 이름 (Arbitrary Device Names): 고정된 화이트리스트가 필요하지 않습니다. 의미론적 문맥을 통해 "Desk Lamp", "Strip Light", 또는 "Majlis Light"까지 이해합니다.
- 퍼지 명령 (Fuzzy Commands): "더 밝게 해줘"와 같은 모호한 지침을 빈 값 필드와 함께
adjustUp으로 매핑하여, 다운스트림 로직이 크기를 처리할 수 있도록 합니다.
기술적 심층 분석 (Technical Deep Dive)
훈련 전략 (Training Strategy)
기초 이해를 위한 SFT와 강화 학습을 위한 GRPO를 결합했습니다. 형식 오류와 지연 시간에 대해 페널티를 부여하도록 맞춤형 보상 함수(Reward functions)를 설계하여, 모델이 정확하면서도 빠를 수 있도록 유도했습니다.
지원되는 기능 (Supported Capabilities)
Domux는 현재 다음을 지원합니다:
- 기기 (Devices): 조명 (Lights), 에어컨 (AC), 커튼/블라인드 (Curtains/Blinds), 장면 모드 (Scene Modes).
- 동작 (Actions): 켜기/끄기 (Turn on/off), 값 설정 (Set values), 상/하 조절 (Adjust up/down), 장면 활성화/비활성화 (Activate/Deactivate scenes), 일시정지 (Pause).
- 문맥 (Context): 방 및 층 인식 (예: "침실 1", "위층").
공개 실험 (An Open Experiment)
이 프로젝트는 초기 단계의 탐색 (v0.1.0)입니다. 우리는 공격적인 지연 시간 예산 (latency budgets) 하에서 의미론적 파싱 (semantic parsing)의 한계를 테스트할 수 있도록 커뮤니티를 초대하기 위해 코드, 보상 플러그인 (reward plugins) 및 데이터셋을 공유합니다.
만약 스마트 홈 에이전트, 음성 비서, 또는 모든 엣지 기반 제어 시스템을 구축하고 있다면, Domux가 당신에게 필요한 경량 컴포넌트가 될 수 있습니다.
👉 리포지토리 확인하기: https://github.com/iflytek/domux
AI #SmartHome #LLM #EdgeAI #OpenSource
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기