Kimi 2.5 vs Kimi 2.6 평가: 모델이 더 똑똑해지면 에이전트 기술(Agent Skills)에는 어떤 변화가 생기는가?

더 강력한 모델이 출시될 때, 모든 기술(Skill) 작성자가 답을 얻고 싶어 하는 두 가지 질문이 있으며, 평가(Evals)는 이 질문들에 답할 수 있는 유일하고 정직한 방법입니다.

어떤 기술들이 흡수되었는가? 이제 X를 기본적으로(natively) 수행할 줄 아는 모델은 X를 수행하라고 지시하는 기술이 필요하지 않습니다. 유지 관리할 기술이 줄어들고, 컨텍스트(Context)는 가벼워지며, 비용은 낮아집니다.
어떤 기술들이 여전히 중요한가? 행동 수준의 가이드(관습, 선호도, 프로젝트별 워크플로우)는 사전 학습(Pretraining)이 대신 채워줄 수 있는 것이 아닙니다. 그러한 기술들은 계속해서 가치를 발휘해야 합니다.

Moonshot은 우리에게 Kimi K2.6에 대한 조기 액세스 권한을 제공했습니다. 우리는 동일한 21개의 기술과 100개의 쌍을 이룬 시나리오(Paired scenarios)를 사용하여 세 가지 솔버(Solver): Kimi K2.5, Kimi K2.6, 그리고 Claude Sonnet 4.5를 대상으로 Tessl 에이전트 기술 평가 하네스(Evaluation harness)를 실행했습니다.

솔버(Solver)는 채점자(Grader)가 점수를 매기는 대상인 모델을 의미하며, 쌍을 이룬 시나리오(Paired scenario)는 솔버당 동일한 작업을 두 번 실행하는 것으로, 한 번은 기술이 설치되지 않은 상태에서, 한 번은 기술이 설치된 상태에서 실행합니다. 이것은 하나의 프리릴리스(Pre-release) 버전과 하나의 기술 세트에서 얻은 초기 신호입니다. 전반적으로 깨끗한 베이스라인을 갖춘 더 깊은 교차 모델 분석(Cross-model analysis)이 진행 중이며, 이는 별도의 글로 다뤄질 예정입니다.

우리의 설정은 어떻게 구성되어 있는가?

두 번의 Moonshot 실행 동안 시나리오와 루브릭(Rubrics)은 고정되었습니다. 유일한 변수는 솔버(Solver)입니다.

솔버 A: Kimi K2.5
솔버 B: Kimi K2.6
시나리오 생성기(Scenario generator): Claude Sonnet 4.5, 각 기술의 SKILL.md에서 파생된 기술당 최대 5개의 시나리오
채점자(Grader): Claude Sonnet 4.5, 동일한 SKILL.md에서 파생된 가중치 체크리스트 루브릭(Weighted-checklist rubric)
기술당 × 솔버당: 모든 시나리오는 베이스라인(기술 미설치)과 기술 설치 상태로 각각 두 번씩 해결됨

기술당 n=5는 노이즈가 많을 수 있지만, 100개의 시나리오에 대한 집계 데이터에서 유의미한 신호(Signal)가 나타납니다.

세 가지 발견 사항:

Kimi 2.6은 K2.5보다 더 나은 모델입니다: 기술(Skills)이 없을 때, K2.6은 집계 데이터에서 K2.5보다 ~2 pp(퍼센트 포인트) 높게 나타나며, 특정 기술에서는 두 자릿수 변화를 보입니다.
Kimi 2.6은 Sonnet 4.5에 필적합니다. 우리는 경쟁력 있는 베이스라인(Baseline)으로 Sonnet 4.5를 선정했으며, 이번 평가 세트에서 K2.6이 기술이 있는 경우와 없는 경우 모두에서 Sonnet 4.5보다 약 ~8 p.p 더 나은 성능을 보임을 확인했습니다.
모델이 개선되어도 기술(Skills)은 지속적인 레버(Lever)로 남습니다. Kimi가 개선됨에 따라 기술을 통해 얻는 성능 향상(Uplift) 폭은 거의 비슷하게 유지됩니다 (K2.5에서 +17.05 pp, K2.6에서 +17.20 pp).

1. Kimi K2.6의 베이스라인 성능이 더 우수합니다

Solver	Baseline (기술 없음)	With skill (기술 포함)	Uplift (향상폭)
Kimi K2.5	73.2%	90.2%	+17.05 pp
Kimi K2.6	75.0%	92.2%	+17.20 pp

Kimi K2.6은 이 기술 세트에서 K2.5보다 더 나은 모델입니다. 이를 뒷받침하는 두 가지 발견 사항은 다음과 같습니다:

K2.6에서는 이제 4개의 기술이 불필요해졌습니다. 21개 기술 세트 중, K2.6의 베이스라인이 95% 이상인 기술은 4개로, K2.5의 2개에서 증가했습니다. agent-gossip-coordinator가 가장 명확한 사례입니다. K2.5는 이 기술이 필요했지만(+8.0 pp 향상), K2.6은 이미 96.4%의 정확도로 이를 해결하며, 이제 이 기술은 오히려 성능을 4.8 pp 저하시킵니다. 이러한 기술들은 더 우수한 모델이 스스로 처리할 수 있기 때문에, 더 이상 컨텍스트 예산(Context budget)을 소모할 가치가 없습니다.
K2.5에서의 퇴보(Regression) 현상이 모두 해결되었습니다. K2.5의 성능을 떨어뜨렸던 두 가지 기술(3d-molecule-ray-tracer: −7.0 pp; agent-base-template-generator: −2.6 pp)이 K2.6에서는 모두 해결되었습니다. 기술 자체가 틀린 것이 아니라, 성능이 낮은 모델이 이를 어색하게 해석했을 뿐입니다.

2. Kimi 2.6은 Sonnet 4.5에 필적합니다

동일한 21개 기술과 동일한 평가 기준(Rubric)을 사용하여 K2.6을 Sonnet 4.5와 비교했을 때, 초기 결과는 다음과 같습니다:

Solver	Baseline (기술 없음)	With skill (기술 포함)	Uplift (향상폭)
Kimi K2.6	75.0%	92.2%	+17.20 pp
Sonnet 4.5	63.2%	84.5%	+21.3 pp

이러한 초기 신호들을 종합해 볼 때, Kimi K2.6은 해당 기술(skills)들이 다루는 작업 범주에서 Sonnet 4.5와 경쟁할 만한 수준인 것으로 보입니다. 세 가지 솔버(solvers) 모두에 대해 깨끗한 베이스라인(baselines)을 적용한 더 심층적인 교차 모델 연구(cross-model study)를 진행할 예정입니다. 하지만 이는 Kimi 2.6이 세계 최고의 제공업체 중 일부와 대등한 수준임을 보여주는 초기 신호입니다.

3. 모델이 개선되어도 기술(Skills)은 지속적인 레버(lever)로 남는다

Kimi에서 기술을 설치했을 때와 설치하지 않았을 때의 차이는 다음과 같습니다:

K2.5: +17.05 pp.
K2.6: +17.20 pp.

기술을 통해 얻는 성능 향상(uplift)은 솔버(solver)가 강력해진다고 해서 줄어들지 않습니다. 베이스라인(baseline)이 이동하면 기술을 적용한 점수도 함께 이동하며, 기술이 기여하는 차이(delta)는 동일한 범위 내에 머뭅니다. 두 가지 예시 사례는 모두 Kimi 버전이며 동일한 루브릭(rubric)을 사용했습니다:

agent-agent. K2.5 17.7% → 79.9%. K2.6 33.9% → 88.8%. 베이스라인이 격차의 16 pp를 좁혔습니다. 기술은 여전히 그 위에 약 55 pp를 더해줍니다.
agent-development. K2.5 41.2% → 100.0%. K2.6 55.0% → 100.0%. 베이스라인이 격차의 14 pp를 좁혔습니다. 기술이 나머지를 채웁니다.

여기서 주목할 만하며 별도의 후속 연구를 위해 남겨둘 미묘한 차이(nuance)가 하나 있습니다. 모든 성능 향상이 동일하지는 않다는 점입니다. Sonnet 4.5에서 동일한 기술들을 비교한 1차 분석에 따르면, 생태계 특화된 도구 호출(tool calls)이나 관례(conventions)를 규정하는 기술은 모델 패밀리 간의 전환(handoff) 시 가장 많이 손실되는 반면, 실제 검증 가능한 행동(실제 CLI 플래그, 실제 API 형태)을 기준으로 채점되는 기술은 더 쉽게 전이(transfer)됩니다. 저희는 이를 기술 제작자(skill authors)들에게 가장 실행 가능한 신호로 보고 있으나, 완전한 분석을 발표하기 전에는 더 넓은 샘플과 모델 간의 일치된 베이스라인이 필요합니다.

이것이 기술 제작자(skill authors)에게 의미하는 바

**Kimi K2.6은 이 스킬 세트의 작업 범주에서 K2.5보다 더 강력한 해결사 (solver)**이며, Sonnet 4.5와 경쟁할 만한 수준입니다.
모델이 변경되면 평가 (evals)를 다시 실행하세요. 베이스라인 (baselines)은 불균등하게 이동합니다. 어떤 스킬은 불필요해지고, 어떤 스킬은 계속해서 가치를 발휘합니다. 평가를 직접 실행하지 않고서는 어느 쪽인지 알 수 없습니다.
자신의 스킬에 대해 이러한 종류의 비교를 직접 수행하고 싶다면, 여기서 사용된 하네스 (harness)는 Tessl 스킬 평가 프레임워크 (Tessl skill evaluation framework)입니다. 동일한 구조화된 시나리오와 동일한 가중치 체크리스트 채점 방식을 사용하며, 사용자가 제공하는 어떤 해결사 (solver)와 스킬 세트든 대상으로 삼을 수 있습니다. 또한 여러분의 에이전트 (agent)를 구동하여 Tessl로 여러분의 스킬을 평가하도록 요청할 수도 있습니다 (이때 모델로 Kimi를 선택할 수 있습니다).

결론 (Closing)

Kimi K2.6은 이 스킬 세트에서 K2.5보다 더 나은 모델입니다: 베이스라인이 +1.9 pp 상승했으며, 별도의 스킬 설치 없이도 4개의 스킬이 해결되었고, K2.5에서의 퇴보 (regressions) 현상 두 가지가 모두 해결되었습니다.

모델이 좋아지더라도 스킬 (skills)은 여전히 중요합니다: K2.5에서 확인된 +17 pp의 향상 (uplift) 수치가 K2.6에서도 유지되었으며, Sonnet에서도 비슷한 범위의 향상이 나타납니다. 이 모든 결과는 21개 스킬에 대한 단 한 번의 사전 출시 평가(pre-release evaluation)에서 도출된 것입니다. 전반적으로 깨끗한 베이스라인을 갖춘 더 심층적인 연구가 다음 단계입니다.

위 내용은 초기 신호 (early signals)를 반영합니다. 초기 신호에 따르면 Kimi 2.6은 Sonnet 4.5와 경쟁할 만한 수준으로 보이지만, 더 많은 모델과 균형 잡힌 스킬 샘플을 대상으로 한 심층 연구가 진행 중이며 별도로 발표될 예정입니다.

K2.6에 대한 조기 액세스 권한을 제공해 준 Moonshot에 감사드립니다! 여러분의 스킬을 평가하고 최적화하려면 Tessl을 방문하세요.