본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 15. 14:17

Qwen-3.6-27B 및 Gemma-4-31B의 테스트 시간 연산(test-time compute)을 확장하여 코드 최적화 및 속도 향상에서

요약

Qwen-3.6-27B와 Gemma-4-31B 모델의 테스트 시간 연산(test-time compute)을 확장하여 코드 최적화 성능을 높이는 새로운 스캐폴드 연구를 소개합니다. 반복적인 브랜치 탐색과 솔루션 풀을 통해 모델이 로컬 미니마에 빠지지 않고 최적의 알고리즘을 찾도록 설계되었습니다.

핵심 포인트

  • 테스트 시간 연산을 기존 대비 25~40배 확장하여 코드 성능 향상
  • 브랜치 탐색과 반복 수정 루프를 통한 알고리즘 설계 최적화
  • 솔루션 풀을 활용해 LLM의 로컬 미니마 탈출 유도
  • 긴 컨텍스트에서의 추론 안정성 저하 문제 및 해결 방안 제시

이 스캐폴드(scaffold)는 동일한 문제를 시도하기 위해 기존 베이스라인 모델보다 약 25~40배 더 많은 연산(compute)을 사용합니다. 저는 브랜치 탐색 너비(branches exploration breadth)를 5로, 반복 수정 루프 깊이(iterative corrections loop depth)를 10으로 설정하고, 매 2회 반복마다 수정되는 6개의 브랜치 인식 선택적 가설(branch aware selective hypothesis)을 설정하여 최대 모드로 작동시켰습니다. 이 가설들은 다양한 주장, 로컬 속도 향상 또는 완전히 다른 알고리즘 설계를 독립적으로 테스트하며, 특정 브랜치 컨텍스트에 선택적으로 주입됩니다. 이 전체 시스템에서 가장 유용한 구성 요소는 솔루션 풀(solution pool)로, 이는 반복 수정 루프에 구조화된 노이즈(structured noise)를 추가하여 LLM들이 로컬 미니마(local minima)에 빠지지 않도록 합니다. 모든 에이전트는 Python 환경에 접근할 수 있으므로, 프로그래밍 방식으로 자신의 작업을 즉시 확인하고 자신의 아이디어가 실제로 유기적이고 실제적인 개선인지 확인할 수 있습니다.

두 모델(Gemma 및 Qwen) 모두 긴 컨텍스트 윈도우(context windows)에서 안정적인 추론(reasoning)을 수행하지 못하기 때문에, 성능은 실제로 4회 및 5회 반복 시점, 또는 PQF 업데이트 이후인 9회 및 10회 반복 시점에서 크게 떨어지기 시작합니다. 이는 실제적인 퇴보(regressions)와 같아서, 업데이트되거나 진화된 브랜치가 지금까지의 다른 모든 브랜치보다 더 잘할 가능성이 때때로 있기 때문에 예를 들어 3회 반복에서 멈출 수 없습니다. 또한 매 3회 반복마다 메모리 뱅크 증류(memory bank distillation)를 수행할 수도 없는데, 그렇게 하면 탐색 범위가 너무 좁아지기 때문입니다(그리고 프런티어 LLM들은 그 부분에서 잘 작동합니다). 그래서 저는 그들에게 브랜치 히스토리(branch history)를 별도로 제공하고, 각 브랜치에서 가장 성능이 좋거나 최적화된 후보를 판단하고 선택하도록 요청한 다음, 각 브랜치에서 최선의 것을 선택하여 최종 판사(final judge)에게 전달하도록 했습니다.

원본 논문 링크: https://arxiv.org/abs/2605.15222
이 스캐폴드를 위한 Github 리포지토리 링크: https://github.com/ryoiki-tokuiten/Iterative-Contextual-Refinements
submitted by /u/Ryoiki-Tokuiten
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0