Qwen3.6이 WASM에 대해 자신 있게 틀리다
요약
작성자는 Qwen 27B 모델을 사용하여 WASM 바이트코드를 생성하는 과정에서, 모델이 지속적으로 잘못된 결과를 내놓고 이를 확신하며 반복적인 디버깅 문제를 겪고 있음을 공유했습니다. 특히 Qwen3.6-Plus와 같은 최신 버전에서도 오류가 발견되었으나, 웹 검색 기능을 활용한 Qwen3.7-Plus 및 웹 검색 없이도 정확한 답변을 제공하는 Qwen3.7-Max의 성능 차이가 주목됩니다.
핵심 포인트
- LLM이 WASM 바이트코드 생성에서 지속적인 오류를 보임.
- 모델이 틀린 결과를 확신하며 반복적으로 문제를 일으킴.
- Qwen3.6-Plus는 오류가 있었으나, Qwen3.7-Max는 웹 검색 없이도 정확했음.
- 정확한 결과 도출을 위해 직접 파인튜닝(finetuning)이 필요할 수 있음.
저는 Qwen 27B를 이용해 WASM 바이트코드를 생성하는 제너레이터를 만들려고 시도하고 있습니다. 작동은 하지만, 바이트코드(및 몇 가지 다른 세부 사항)를 계속 잘못 이해하기 때문에 수십만 개의 토큰을 디버깅에 소모해야 합니다. 단순히 틀리게 만드는 것뿐만 아니라, 너무 확신해서 같은 문제를 반복적으로 일으킵니다. 심지어 올바른 바이트코드를 찾아내는 스크립트를 만들었음에도 불구하고 그 결과를 믿지 못하고 발견한 스크립트 자체를 디버깅하려고 합니다. 자신이 옳다고 생각했던 바이트코드가 틀렸다는 것을 깨달아도, WASM이 1.0 이후로 변경된 탓으로 돌릴 뿐입니다 (물론 이것은 잘못된 추측이며, WASM은 바이트코드 자체가 변하지 않습니다).
chat.qwen.ai에서 확인해 봤는데, Qwen3.6-Plus조차도 잘못된 결과를 보여줍니다. Qwen3.7-Plus는 웹 검색을 통해 올바른 답변을 제공했습니다. Qwen3.7-Max는 웹 검색 없이도 올바른 답변을 제공했습니다.
이것이 제가 직접 파인튜닝(finetuning)을 시도하게 만드는 계기가 될 수도 있겠습니다.
제출자: /u/Tagedieb
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기