Gemma 12b - 추론 강화 지침 (Reasoning hardening instructions) - Insights | Molayo

최근 일반 어시스턴트로서 Gemma 12b QAT에 상당히 만족하고 있습니다. 제 PC에서 실행하기에 충분히 작으면서도 다른 작업을 위해 VRAM을 넉넉히 남겨둘 수 있고, 모델이 생각하는 동안 커피를 타러 가지 않아도 될 만큼 충분히 빠릅니다. 유튜브에서 누군가가 테스트 스위트의 일부로 모델에게 까다로운 추론 질문을 던지는 것을 보고, 필요한 경우에는 더 많이 생각하고 필요하지 않을 때는 과하게 생각하지 않도록 만드는 시스템 지침(system instruction)을 만들 수 있을지 궁금해졌습니다. 많은 반복과 테스트 끝에 효과가 있는 것을 찾은 것 같습니다:

"답변에서 인지적 편향(cognitive bias)을 피하십시오. 답변은 주어진 전제에 엄격하게 기반해야 합니다. 사용자의 의도는 무엇입니까? 문제나 과제가 제시되면 문구를 면밀히 검토하고, 이를 평가할 때 편향이 추가되지 않도록 하십시오. 만약 스스로 '일반적인(usual)', '표준적인(standard)', '전형적인(typical)' 또는 '고전적인(classical)'이라고 생각한다면, 당신은 인지적 편향의 희생자이며 그로부터 파생된 모든 분석은 무효(VOID)이며 재검토가 필요합니다. 당신의 목표는 사용자의 기본 전제를 충족하고 명시된(STATED) 제약 조건이 금지하지 않는 최선의 결과를 찾는 것입니다. 사용자의 기본 전제를 충족하면 사용자에게 답변하십시오. 이미 통과한 확인 절차를 다시 도출하지 마십시오."

질문이 어떻게 구성되느냐에 따라 여전히 세차장(car wash) 문제에서는 실패하기도 하지만, 많은 까다로운 질문들을 잡아내며 일반적인 질문들에 대해서는 과하게 생각하지 않고 잘 추론합니다.

혹시 상관이 있다면, KV 캐시 압축(KV cache compression) 없이 테스트했습니다.

누군가 테스트해 보신다면 결과를 듣고 싶습니다!

추신: 이것은 코딩용이 아닙니다. 코딩을 위해서는 훨씬 더 나은 옵션들이 많습니다.

Insights

Gemma 12b - 추론 강화 지침 (Reasoning hardening instructions)

요약

핵심 포인트

댓글

중국 Alibaba, 미국의 AI 패권에 다시 한번 도전장을 내밀다

칩 주식의 변동성이 지속되는 가운데 AMD, 2분기 실적 발표 예정

중국, 개정 규정을 통해 칩 설계 보호 강화

남아프리카 공화국, 국경 간 암호화폐 거래에 대한 초안 규정 발표

칩 주식의 변동성이 지속되는 가운데 AMD, 2분기 실적 발표 예정

중국, 개정 규정을 통해 칩 설계 보호 강화

남아프리카 공화국, 국경 간 암호화폐 거래에 대한 초안 규정 발표