AI에게 예산(Budget)을 부여하면 어떤 일이 벌어질까?

지난 몇 주 동안 저는 LLM(대규모 언어 모델)이 실행 예산(execution budgets)을 가지고 작업할 수 있는지 탐구해 왔습니다. Caveman이나 Ponytail 같은 프로젝트를 통해 모델들이 의미 있는 결과물(artifacts)을 만들어내는 것을 보았지만, 모델에게 제한된 예산(Budget)을 주면 어떤 일이 발생할까요?

최근 arXiv:2606.00198의 연구진은 프런티어 모델(frontier models)들이 예산에 대해 지속적으로 지나치게 낙관적이라는 사실을 발견했습니다. 모델들은 작업을 중단하고 사용자에게 알리는 대신, 성공 가능성이 낮은 작업에 토큰(tokens)을 계속해서 소비합니다.

이 점이 저로 하여금 간단한 실험을 해보게 만들었습니다.
저는 Claude에게 고정된 실행 예산(execution budget)이 있는 구현 과제들을 주기 시작했습니다.
그러자 동작이 변했습니다.
모든 것을 구축하려고 시도하는 대신, 추가 예산을 요청하기 전에 요청된 작업을 완료하는 데 집중했습니다.
예산이 제한되지 않은 버전은 예산이 제한된 버전에 비해 제가 당장 업무에 필요하지 않은 것들을 너무 많이 포함하고 있었습니다.

세 가지 구현 과제(두 개의 REST API와 하나의 Python CLI)를 통해 테스트한 결과, 모든 요청된 작업을 완료하면서도 출력량은 46~60% 감소했습니다.
하나의 북마크 관리자(Bookmark Manager) 작업은 약 1,600 토큰 내에 완료된 반면, 예산이 제한되지 않은 버전은 제가 중단시키기 전까지 계속해서 생성 중이었습니다.

저는 이러한 실행 예산을 강제하는 Token Sensei라는 작은 런타임(runtime)을 구축했습니다. 예산이 소진되면 실행을 일시 중지하고, 무엇이 완료되었고 무엇이 남았는지 보여주며, 인간이 계속 진행할지 아니면 현재 결과물을 배포(ship)할지 결정할 수 있게 합니다.

이 프로젝트는 오픈 소스(MIT)입니다: github.com/shouvik12/token-sensei

이에 대한 여러분의 생각과 이것이 도움이 될지 알려주세요.

submitted by /u/Substantial_Load_690 to r/OpenAI
[link] [comments]

Insights

AI에게 예산(Budget)을 부여하면 어떤 일이 벌어질까?

요약

핵심 포인트

댓글

문헌정보학 연구 방법의 사용 빈도 및 응용 다양성: 1991년부터 2021년까지의 지속적 조사

Triospect: 다양한 공격에 대응하는 강건한 통계적 AI 생성 텍스트 탐지를 위한 3차원 프레임워크

리랭킹이 해가 될 때: 불확실성 기반의 게이팅을 이용한 퓨샷 리랭킹 (Few-Shot Reranking)

스테이징 어노테이션은 언제 의미론을 보존하는가? Let-Insertion을 이용한 타입 기반 의미론 보존 다단계 프로그래밍의 기계화 (확장

Triospect: 다양한 공격에 대응하는 강건한 통계적 AI 생성 텍스트 탐지를 위한 3차원 프레임워크

리랭킹이 해가 될 때: 불확실성 기반의 게이팅을 이용한 퓨샷 리랭킹 (Few-Shot Reranking)

스테이징 어노테이션은 언제 의미론을 보존하는가? Let-Insertion을 이용한 타입 기반 의미론 보존 다단계 프로그래밍의 기계화 (확장