Reddit요약2026. 06. 19. 21:24

로컬 AI 음성 비서가 점점 멍청해지는 과정 관찰 (내 RTX 5060 Ti에서 진행한 9B에서 0.8B 에이전트 실험)

요약

소비자용 하드웨어에서 로컬 음성 비서 에이전트를 실행할 때 모델 크기에 따른 성능 변화를 실험했습니다. Qwen 3.5 모델을 9B부터 0.8B까지 단계적으로 축소하며 추론 및 도구 사용 능력을 관찰했습니다.

핵심 포인트

9B 모델은 도구 오케스트레이션이 가능하며 RTX 5060 Ti에서 실행 가능한 최적의 크기임
4B 모델부터는 도구 호출을 건너뛰고 사실을 추측하는 등 접지 능력이 저하됨
2B 모델은 대화 문맥을 상실하고 의미론적 표류(Semantic Drift) 현상이 발생함
0.8B 모델은 에이전트 메커니즘 작동이 불가능하며 무한 실패 루프에 빠짐

저는 소비자용 하드웨어에서 지능적인 로컬 음성 비서 에이전트 (local voice assistant agent)를 실행할 수 있는 정확한 하한선을 찾고 싶었습니다.

에이전트적 추론 (agentic reasoning) 능력이 어떻게 저하되는지 확인하기 위해 환경, 도구, 프롬프트를 동일하게 유지한 상태에서 모델 크기를 Qwen 3.5 9B, 4B, 2B, 0.8B로 단계적으로 낮추었습니다.
결과는 마치 슬로우 모션으로 진행되는 뇌엽 절제술 (lobotomy)처럼 흥미로웠습니다.
파라미터 (parameters) 수가 줄어듦에 따라 응답 속도는 확실히 개선되었지만, 성능 저하는 엄청났습니다:

9B (현재의 기본값): 신뢰할 수 있으며 도구 오케스트레이션 (tool orchestration)을 매우 잘 처리하지만, 시간이 다소 걸립니다. 이는 제 RTX 5060 Ti (16GB VRAM)에서 적절한 양자화 (quant) 크기로 실행할 수 있는 가장 큰 모델입니다.
4B (하한선): 더 빠르지만, 접지 (grounding) 능력이 눈에 띄게 상실됩니다. 게으름을 피우기 시작하며, 도구 호출 (tool calls)을 건너뛰고 대신 사실을 자신 있게 추측해 버립니다.
2B (의미론적 표류, Semantic Drift): 대화 문맥 (conversational context)을 완전히 상실합니다. 심각한 의미론적 흐릿함 (semantic blur)을 겪으며, 잠재 공간 (latent space) 내에서 형태가 유사한 개념들을 혼동합니다 (예를 들어, 제 질문에서 축구에서 완전히 다른 스포츠 리그로 표류하는 식입니다).
0.8B (완전한 기계적 실패): 에이전트 메커니즘을 작동시키는 것이 완전히 불가능합니다. 완전히 잘못된 API를 트리거하거나 무한 실패 루프 (infinite failure loops)에 빠집니다.

더 큰 모델들이 음성 비서 AI 에이전트에서 어떤 능력들을 열어줄지 궁금합니다...
submitted by /u/liampetti to r/LocalLLaMA
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

로컬 AI 음성 비서가 점점 멍청해지는 과정 관찰 (내 RTX 5060 Ti에서 진행한 9B에서 0.8B 에이전트 실험)

요약

핵심 포인트

댓글