eval-harness: 에이전트형 CLI 하네스(agentic-cli harnesses) 평가를 위해 제가 직접 구축한 개인용 평가 생성
요약
CLI 에이전트형 하네스의 성능을 평가하기 위해 직접 구축한 개인용 평가 생성 도구인 eval-harness를 소개합니다. 모델 자체의 성능뿐만 아니라 에이전트가 도구와 상호작용하며 작업을 수행하는 능력을 검증하는 데 중점을 둡니다.
핵심 포인트
- 모델 성능만큼이나 에이전트형 하네스의 효과가 중요함을 강조
- CLI 에이전트가 생성한 평가의 논리적 취약성을 검토하는 기술 포함
- 로컬 모델과 클라우드 모델 간의 전환 결정을 돕기 위한 목적
- 사용자가 직접 자신만의 평가 목록을 큐레이션할 수 있는 구조
안녕하세요 LocalLLaMA,
저만의 개인적인 평가 목록을 구축하고 싶었습니다. 이를 준비하는 초기 단계에서, 저는 단순히 모델을 평가하는 것뿐만 아니라 모델이 실행되는 에이전트형 하네스(agentic harness) 또한 평가할 수 있는 방법이 필요하다는 것을 깨달았습니다. 제가 LLM을 사용하는 대부분의 경우가 점점 더 CLI 에이전트형 하네스(CLI agentic harnesses) 제품군 내부에서 이루어지고 있기 때문입니다.
영상에는 제가 이것을 만든 수많은 동기를 나열했지만, 주요 동기는 모든 화제성 있는 발표(hype announcements)들이 있었고, 제가 실제로 사용하는 도구들 내에서 모델과 그 기능들이 실제로 어떤지 직접 확인하고 싶었기 때문입니다.
최근 Kaggle에 올라온 Google의 논문에서는 에이전트형 하네스(agentic harness) 내부에서 어떤 LLM이 사용되는지는 주어진 작업에 대해 해당 하네스가 얼마나 효과적일지에 대해 아마도 10% 정도만 기여할 뿐이라고까지 언급했습니다. 저는 그 수치에 동의하는지는 확실하지 않지만, 그 취지에는 동의합니다.
제가 스스로에게 계속 던지는 질문 중 하나는, 제가 twin 3090 설정에서 로컬로 실행 중인 qwen3.6-27b에서 언제 클라우드 모델로 전환해야 하는가 하는 점입니다. 현재 저는 이 결정을 느낌이나 직감(vibes/gut feel)에 의존해 내리고 있는데, 모델과 밀접하게 작업할 때는 괜찮을지 모르지만, 이제는 개인적인 용도뿐만 아니라 전문적인 용도로도 꽤 많은 워크플로우에서 이러한 CLI 도구들을 헤드리스(headlessly)로 사용하고 있기 때문에, 작업에 적합한 조합을 선택하고 있는지 확인하고 싶습니다.
저장소(repo)는 여기에서 찾을 수 있습니다: https://github.com/ScottRBK/eval-harness, 여기에 아키텍처에 대한 설명이 있습니다. 제가 평가를 위해 활용한 다양한 패턴들을 생각하는 데 도움이 되도록 구축 과정에서 예시 평가들을 추가했습니다.
평가들은 모델 가중치(model weights) 내에 포함된 리소스들에 관한 것이라 꽤 쉽습니다. 하지만 그 이면에 담긴 아이디어는, 저(그리고 이 저장소를 포크하여 자신만의 목록을 큐레이션하고 싶은 다른 누구라도)는 기존 및 신규 모델과 하네스들이 출시될 때 사람들이 사용할 수 있도록, 대중에게 공개되지 않은 비공개 평가 목록을 구축할 것이라는 점입니다.
또한 저는 CLI 에이전트(CLI agents) 자체가 평가(evaluations)를 얼마나 잘 구축할 수 있는지 확인하는 데 꽤 많은 시간을 할애했으며, 이들이 도구와 함께 사용할 수 있는 기술(skills) 목록을 정리해 두었습니다. 에이전트들은 제법 괜찮은 결과물을 내놓지만, 그들이 생성한 결과물의 논리를 정말 면밀히 검토해야 합니다. 종종 매우 취약한(brittle) 평가를 생성하기 때문입니다. 따라서 이미 제공된 예시 패턴을 따르도록 유도하는 것이 상당히 도움이 됩니다.
저에게 이상적인 상황은 특정 에이전트가 작업을 완료하는 데 어려움을 겪는 세션을 마친 직후, 해당 에이전트에게 기술을 사용하여 평가를 생성하도록 요청할 수 있는 능력을 갖추는 것입니다. 에이전트가 해결하는 데 어려움을 겪는 문제를 발견했을 때, 그 시점에 바로 그것으로 평가를 만들 수 있기를 바랐던 적이 종종 있었습니다. 하지만 대개 무언가를 하는 도중이기 때문에, 결국 계속 늘어가는 '할 일(TODO)' 목록의 또 다른 항목으로 남게 되곤 합니다.
사실 이런 종류의 실제 평가 스위트(evaluation suite)나 프레임워크(framework)를 구축하는 것은 이번이 처음입니다. 이전에는 deepeval과 같은 기존 프레임워크를 사용해 본 적이 있어 이 주제가 완전히 생소하지는 않았지만, 앞서 언급한 다른 동기들과 마찬가지로, 이 프로젝트는 도구를 얻기 위한 목적뿐만 아니라 학습 과정으로서도 구축되었습니다.
만약 이 도구가 유용하다면 저에게 연락해 알려주세요. 또한 피드백도 환영합니다. 이것이 저의 첫 시도이자 이런 종류의 프레임워크를 만드는 첫 경험이기 때문에, 개선할 점이 많고 제가 틀린 부분도 있을 수 있다고 생각합니다.
여러분, 남은 일요일 즐겁게 보내시길 바랍니다.
제출자: /u/Maasu
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기