Qwen-3.6-27B 및 Gemma-4-31B의 테스트 시간 연산(test-time compute)을 확장하여 코드 최적화 및 속도 향상에서

이 스캐폴드(scaffold)는 동일한 문제를 시도하기 위해 기존 베이스라인 모델보다 약 25~40배 더 많은 연산(compute)을 사용합니다. 저는 브랜치 탐색 너비(branches exploration breadth)를 5로, 반복 수정 루프 깊이(iterative corrections loop depth)를 10으로 설정하고, 매 2회 반복마다 수정되는 6개의 브랜치 인식 선택적 가설(branch aware selective hypothesis)을 설정하여 최대 모드로 작동시켰습니다. 이 가설들은 다양한 주장, 로컬 속도 향상 또는 완전히 다른 알고리즘 설계를 독립적으로 테스트하며, 특정 브랜치 컨텍스트에 선택적으로 주입됩니다. 이 전체 시스템에서 가장 유용한 구성 요소는 솔루션 풀(solution pool)로, 이는 반복 수정 루프에 구조화된 노이즈(structured noise)를 추가하여 LLM들이 로컬 미니마(local minima)에 빠지지 않도록 합니다. 모든 에이전트는 Python 환경에 접근할 수 있으므로, 프로그래밍 방식으로 자신의 작업을 즉시 확인하고 자신의 아이디어가 실제로 유기적이고 실제적인 개선인지 확인할 수 있습니다.

두 모델(Gemma 및 Qwen) 모두 긴 컨텍스트 윈도우(context windows)에서 안정적인 추론(reasoning)을 수행하지 못하기 때문에, 성능은 실제로 4회 및 5회 반복 시점, 또는 PQF 업데이트 이후인 9회 및 10회 반복 시점에서 크게 떨어지기 시작합니다. 이는 실제적인 퇴보(regressions)와 같아서, 업데이트되거나 진화된 브랜치가 지금까지의 다른 모든 브랜치보다 더 잘할 가능성이 때때로 있기 때문에 예를 들어 3회 반복에서 멈출 수 없습니다. 또한 매 3회 반복마다 메모리 뱅크 증류(memory bank distillation)를 수행할 수도 없는데, 그렇게 하면 탐색 범위가 너무 좁아지기 때문입니다(그리고 프런티어 LLM들은 그 부분에서 잘 작동합니다). 그래서 저는 그들에게 브랜치 히스토리(branch history)를 별도로 제공하고, 각 브랜치에서 가장 성능이 좋거나 최적화된 후보를 판단하고 선택하도록 요청한 다음, 각 브랜치에서 최선의 것을 선택하여 최종 판사(final judge)에게 전달하도록 했습니다.

원본 논문 링크: https://arxiv.org/abs/2605.15222
이 스캐폴드를 위한 Github 리포지토리 링크: https://github.com/ryoiki-tokuiten/Iterative-Contextual-Refinements
submitted by /u/Ryoiki-Tokuiten
[link] [comments]

Insights

Qwen-3.6-27B 및 Gemma-4-31B의 테스트 시간 연산(test-time compute)을 확장하여 코드 최적화 및 속도 향상에서

요약

핵심 포인트

댓글

Mazda, 6월 글로벌 판매량 7% 증가

실제 프로덕션 코드베이스에서 codebase-memory-mcp와 일반 grep의 A/B 테스트

Claude에게 지속적이고 검색 가능한 뉴스 메모리를 제공하는 MCP 서버를 구축했습니다 (GNews 기반, 월간 다운로드 약 106k)

이란 합의 기대감에 유가 급락, 공동 개입 후 엔화 강세

실제 프로덕션 코드베이스에서 codebase-memory-mcp와 일반 grep의 A/B 테스트

Claude에게 지속적이고 검색 가능한 뉴스 메모리를 제공하는 MCP 서버를 구축했습니다 (GNews 기반, 월간 다운로드 약 106k)

이란 합의 기대감에 유가 급락, 공동 개입 후 엔화 강세