arXiv논문2026. 06. 09. 10:44

더 많은 말, 더 적은 의미: SLM의 자기 개선(Self-Improvement) 동작 규명

요약

본 연구는 소형 언어 모델(SLM)의 자기 수정 능력을 검증하기 위한 3단계 파이프라인과 충분성 테스트를 제안합니다. 실험 결과, SLM은 정답 힌트가 주어져도 자신의 추론 오류를 제대로 파악하지 못하며, 오히려 긴 힌트가 성능을 저해할 수 있음을 밝혀냈습니다.

핵심 포인트

SLM의 자기 수정 능력을 검증하는 3단계 파이프라인 제안
정답 힌트 주입 시 정확도 향상이 4.4%로 매우 미미함
모델이 자신의 추론 결함을 이해하는 데 한계가 있음
긴 힌트가 오히려 최종 오답과 양의 상관관계를 보임
연산 예산 투입이 반드시 성능 확장으로 이어지지 않음

최근 언어 모델(Language Models)은 다양한 도메인과 응용 분야에서 급격한 발전을 이루었습니다. 그러나 모델의 자기 개선(Self-improvement) 능력, 즉 자신의 추론 과정에서 발생하는 결함을 스스로 인식하고 수정하는 데 능숙한지에 대해서는 여전히 의문이 남아 있습니다. 본 연구에서는 소형 언어 모델(Small Language Models, SLMs)의 자기 수정(Self-correction) 능력을 엄격하게 검증하기 위한 충분성 테스트(Sufficiency test)를 구축하여 이 질문을 다룹니다. 우리는 초기 SLM 답변을 수집하고, 정답(Ground truth)이 주어졌을 때 동일한 모델이 자신의 오답에 대한 힌트(Hints)를 생성하도록 유도하며, 모델에게 동일한 질문과 함께 자신이 생성한 피드백을 제공하여 초기 답변을 개선하도록 하는 최소한의 3단계 자기 수정 파이프라인을 제안합니다. 우리는 산술 및 논리 추론 벤치마크(Benchmarks)를 활용하여 이 실험 환경에서 다양한 지시어 튜닝(Instruction-tuned) 및 추론(Reasoning) SLM을 평가합니다. 연구 결과에 따르면, 힌트 문장이 주입된 SLM은 초기 질의응답 정확도 대비 단 4.4%의 향상만을 보였습니다. 모델의 잘못된 추론과 함께 정답이 제공되었음에도 불구하고, 평가된 SLM들은 자신의 추론에서 무엇이 누락되었는지 이해하지 못했으며, 수정을 이끌어내는 힌트와 그렇지 못한 힌트 사이의 의미론적 차이(Semantic difference)도 미미하게 나타났습니다. 나아가, 우리의 실험은 더 긴 힌트가 최종 오답과 양의 상관관계가 있음을 보여주며, 이는 문제에 대한 더 긴 숙고(Deliberation)가 오히려 추론 과정을 방해할 수 있음을 시사합니다. 즉, SLM은 더 큰 연산 예산(Compute budget)을 투입한다고 해서 반드시 성능이 확장(Scale)되는 것은 아닙니다.

AI 자동 생성 콘텐츠

원문 바로가기

더 많은 말, 더 적은 의미: SLM의 자기 개선(Self-Improvement) 동작 규명

요약

핵심 포인트

댓글