본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 06. 15. 04:34

【Agentic AI 검증】 지식층은 정말로 재사용할 수 있는가

요약

LLM 에이전트의 지식층(도메인 사전) 재사용 가능성을 NDA 리뷰 태스크를 통해 검증한 연구입니다. 실험 결과, 지식층의 품질보다 모델 자체의 능력이 성능의 결정적 요인이며, 모델 성능에 따라 재사용 효과가 달라짐을 확인했습니다.

핵심 포인트

  • 지식층 재사용은 가능하지만, 모델 성능이 높을수록 재사용 효과는 감쇄함
  • 모델 능력 > 지식층 품질 > 지식층 구조 순으로 성능에 영향을 미침
  • 약한 모델은 지식층 투자가 효과적이나, 강한 모델은 하이브리드 전략이 필요함
  • 클라우드 모델에서 만든 지식층이 로컬 모델의 성능 천장을 뚫지는 못함

LLM 에이전트 (Agentic AI)의 세계에서는 "지식층 (도메인 사전)은 다른 태스크로 재사용할 수 있다"라는 직관이 널리 공유되고 있습니다. Voyager의 스킬 라이브러리, AgentSquare의 모듈 재사용, Agent Skills 표준 등 많은 연구가 이 방향을 시사하고 있습니다.

하지만, 정말로 그것이 실무 도메인에서 어떤 모델에서도 효과가 있을까요?

본 검증에서는 NDA (비밀 유지 계약) 리뷰를 주제로, **로컬 LLM (Qwen 2.5 14B)**과 **클라우드 강한 모델 (Azure GPT-5.4)**로 실측했습니다.

결론을 한마디로 말하자면:

모델 능력 > 지식층의 품질 > 지식층의 구조

지식층을 고품질화하더라도 모델 능력의 천장은 뚫을 수 없습니다. 이것이 본 검증에서 반복적으로 관찰된 비대칭성입니다.

전체상

관점결과
가설지식층 (도메인 사전)은 다른 태스크로 재사용할 수 있다
...

이 기사에서 다루는 것

자주 묻는 질문본 기사의 답변
LLM 에이전트의 「컴포넌트 재사용」은 정말로 효과가 있는가?약한 모델에서 +0.212, 강한 모델에서 +0.074
지식층 (도메인 사전)은 다른 태스크로 유용할 수 있는가?YES. 단, 효과는 모델 능력에 따라 감쇄
부정적 전이 (Negative Transfer)는 발생하는가?관측값은 나오지만 대부분 평가기 FP, 실제 값은 제로
로컬 LLM과 클라우드 강한 모델의 결과는 같은가?NO. 클라우드에서의 최종 확인은 필수
1 seed의 결과만으로 결론 내릴 수 있는가?NO. GPT-5.4에서 seed=42 단발 실행 시 「재사용 소멸」로 오판하는 함정을 직접 경험
클라우드에서 지식층 (사전)을 만들면 로컬에서도 강한 모델 수준이 되는가?NO. reuse +0.000, 로컬의 천장은 지식층의 품질이 아닌 모델 능력
지식층 (사전) vs 프롬프트 개선, 어느 쪽에 투자해야 하는가?약한 모델 운용이라면 지식층 (사전), 강한 모델 운용이라면 하이브리드

1. 왜 「지식층 재사용」이 논점인가

LLM 에이전트를 매 태스크, 매 프로젝트마다 제로 베이스에서 구축하는 것은 낭비가 큽니다. 동일한 도메인의 유사 태스크에서 「무엇이 재사용 가능하고, 무엇이 재사용 불가능한가」를 알 수 있다면 개발 공수를 대폭 절감할 수 있습니다.

최근의 Agentic AI 계열 연구 (Voyager, AgentSquare, AFlow, ADAS, Skill-Pro 등)의 정리에 따르면, 에이전트는 크게 3개 층으로 나누어 논의되는 경우가 많습니다.

미검증되었던 점: 지식층 재사용이 실무 도메인에서 정말로 효과가 있는지, 그리고 모델 능력에 의존하지 않는지.

본 검증은 여기에 하나의 실측 데이터를 추가하는 것이 목적입니다.

2. 당초의 핵심 가설

검증의 출발점이 된 가설은 다음과 같습니다. 본 검증에서는 T1 = NG 조항의 「탐지」 태스크, T2 = NG 조항의 「수정」 태스크를 가리킵니다 (태스크의 상세 내용은 3.1장에서 설명).

동일 도메인 내의 관련 태스크 T1, T2에 있어서,

T1에서 구축한 지식층 (도메인 사전)을 T2에 주입하면,

T2를 제로 베이스로 구축하는 것보다 콜드 스타트 (Cold Start) 공수를 절감하고, 최종 스코어를 저하시키지 않으며, 부정적 전이를 일으키지 않는다.

이미지로 표현하자면, "계약 리뷰 AI 팀 A가 만든 『NG 조항 리스트』를 팀 B의 『조항 수정 AI』에 그대로 전달하면, 처음부터 만드는 것보다 빠르고 정확해질 것이다"라는 직관입니다.

당초의 합격 조건

조건합격 기준
1. 콜드 스타트 공수 절감reuse가 제로 베이스보다 구축 시간 및 반복 횟수를 유의미하게 줄임
...
3가지 모두 달성 시 가설 확인, 어느 하나라도 달성하지 못하면 해당 도메인·태스크 쌍에서는 재사용 전제가 성립하지 않는다는 명확한 결론을 내리는 설계입니다.

이 가설을 측정하기 위해, 본 검증에서는 T2 수정 태스크를 두 가지 조건으로 대조 비교합니다. 이후의 표와 본문에서 반복적으로 등장하는 용어이므로 여기서 정의해 둡니다:

조건명내용
reuseT1에서 만든 NG 지식층(패턴 사전)을 T2 프롬프트에 그대로 주입하여 수정하게 함 = 「지식층을 재사용하는」 측
zerobase지식층(사전)을 전달하지 않고, 「NDA로서 부적절한 부분을 수정해줘」라는 추상적인 지시만으로 수정하게 함 = 「제로베이스에서 구성하는」 측 (대조군)

합격 조건은 **「reuse가 zerobase에 대해 우위에 있는가」**로 판정합니다.

3. 검증 설계

3.1 태스크 (NDA 도메인)

내용
T1: NG 조항 검출주어진 계약 조항에 사전 정의된 NG 패턴이 포함되어 있는지 열거
...

3.2 NG 패턴 지식층·사전 (9종류)

중소기업청 NDA 템플릿을 바탕으로 9종류의 NG 패턴을 정의했습니다.

ID내용유형
nda_scope_overbroad비밀정보 범위 과다명시형
...

3.3 검증 페이즈

4. 주요 결과

4.1 4개 축의 최종 스코어

평가 축paired diff95% CI판정
로컬 + 지식층 (수동 사전) (Phase 2)+0.212CI 0을 포함하지 않음강력 지지
클라우드 + 지식층 (수동 사전) (Phase 2 Azure)+0.074CI [-0.095, +0.243]약한 지지
로컬 + 클라우드 LLM 생성 지식층 (도메인 사전) (Phase 4)+0.184seed=42 단발T2 개선은 -0.002
강건성 (Phase 3, 패러프레이즈)+0.166 (v0.1.0→v0.1.1)-정방향 유지

4.2 zerobase의 절대 성능이 극적으로 다름

variant로컬 qwen 14B클라우드 GPT-5.4차이
reuse0.6120.822+0.210
zerobase0.4000.748+0.348

zerobase가 +0.348로 극적으로 상승한 반면, reuse의 상승폭은 절반 이하입니다. 이것이 **「강한 모델에서는 지식층의 추가 가치가 축소된다」**는 수치적 근거입니다.

4.3 per-pattern: 강한 모델에서도 지식층이 효과적인 패턴이 있음

pattern_id클라우드 reuse클라우드 zerobase차이
nda_scope_overbroad1.0001.0000.000
...

강한 모델에서도 nda_derivative_undefined, nda_disclosure_exception_missing와 같은 「의미적으로 세밀한 NG」에서는 지식층이 +0.267 효과를 발휘합니다. 반면, 명시적인 NG(scope_overbroad 등)는 zerobase에서도 완벽합니다.

4.4 부정적 전이(Negative Transfer)는 「관측되지만」 「진값은 제로」

관측 negative_transfer_rate수동 리뷰 후의 진값
로컬 reuse0.769≒ 0
클라우드 reuse0.407 ± 0.068≒ 0

20건의 수동 리뷰를 통해 판명:

판정로컬 qwen클라우드 GPT-5.4
T (진정한 부정적 전이)0 / 27 (0.0%)0 / 20 (0.0%)
...

→ **관측된 부정적 전이율의 대부분은 T1 검출기의 False Positive (위양성)**입니다. 수동 리뷰를 통해 보정함으로써, 결론을 「가설 미지지」에서 「조건부 지지」로 수정했습니다.

4.5 하이브리드의 배신 (제 예상이 틀린 이야기)

「클라우드 강한 모델로 만든 사전을 로컬 약한 모델에서 사용하면, 강한 모델 수준의 성능이 나오지 않을까?」라는 자연스러운 가설을 검증한 것이 Phase 4입니다.

제 사전 예측:

시나리오제 추측
로컬 + 지식층 (수동 사전)0.612
...

실제 결과:

지표로컬 + 수동 사전로컬 + 클라우드 사전
차이
reuse success0.5500.548
-0.002
zerobase success0.2890.364

reuse success_rate는 변화 없음 (-0.002). 제 추측은 완전히 빗나갔습니다.

로컬 약한 모델(Weak Model)의 한계는 지식층의 품질이 아니라 텍스트 이해 및 생성 능력에 있음이 이 결과 하나로 입증되었습니다.

5. 결론

5.1 가설에 대한 판정 (4단계로 평가)

평가 축결과
약한 모델 운용 시 재사용 우위강하게 지지 (paired diff +0.212, 모든 seed에서 정방향)
강한 모델 운용 시 재사용 우위약하게 지지 (paired diff +0.074, CI 0 포함)
진정한 부정적 전이(Negative Transfer) 없음두 모델 모두에서 지지 (수동 리뷰 후 ≒ 0)
로컬 실행 + 클라우드 LLM 생성 지식층(도메인 사전)으로 성능 개선지지하지 않음 (reuse +0.000)
모델 능력 의존성강함 (강한 모델에서는 zerobase가 +0.348 향상)

5.2 구현자를 위한 함의: 투자 대상 판단 매트릭스

운용 시나리오지식층 재사용의 가치
로컬 소형 모델필수. zerobase가 0.289로 처참하며, 사전 투입 시 0.612까지 구제 가능
클라우드 강한 모델 (범용)보조적. zerobase로 0.748 달성, 사전 투입의 추가 가치는 작음
클라우드 강한 모델 × 특정 NG 항목만YES. 의미적으로 세밀한 NG 항목에서는 +0.267 효과
로컬 실행 + 클라우드 LLM 생성 지식층(도메인 사전)NO. 지식층의 품질만으로는 로컬 모델의 한계를 돌파할 수 없음
교육 · 설명 가능성항상 유용. "무엇이 NG인가"를 인간과 공유하는 메커니즘으로서

5.3 검증 전체의 최종 결론을 한 문장으로

지식층 재사용은 약한 모델의 능력을 보완하는 데 강력하게 작용한다 (+0.212).

강한 모델에서는 zerobase 자체가 고성능이 되기 때문에 상대적 가치는 축소된다 (+0.074).

지식층의 품질을 높여도 로컬 약한 모델의 한계(Ceiling)는 돌파할 수 없다 (+0.000).

"모델 능력 > 지식층의 품질"이라는 비대칭성이 본 검증에서 반복적으로 관측되었다.

6. 검증을 통해 얻은 4가지 구현 지식

지식한 줄 요약
1. 단발성 좋은 점수로 판단하지 말 것seed=42 단발 측정 시 paired diff = 0.000, 3개 seed 사용 시 +0.074. 1개 seed 결론은 위험함
...

7. 제약 사항

제약 사항내용
도메인NDA 대상임. 업무 위탁, 라이선스, 이용 약관 등으로의 확장 적용은 미확인
...

8. 참고 문헌 · 관련 OSS

명칭역할출처
Voyager스킬 라이브러리 패러다임의 원전voyager.minedojo.org
...
법무 분야:
  • 경제산업성 「비밀 정보 보호 핸드북」
  • 경제산업성 영업비밀 관리 지침
  • JIPDEC 비밀 정보 취급에 관한 가이드북
  • 부정경쟁방지법 제2조 제6항

9. 저자의 노트

본 기사는 실제 검증 로그의 요약입니다. "교과서적인" 검증 결과라 할지라도, 실제로 직접 움직이며 숫자로 맞닥뜨리면 그 무게감이 다르다는 것이 솔직한 소감입니다.

Agentic AI / LLM 에이전트 자동 생성 / 리걸테크(LegalTech) AI를 연구하시는 분들께 참고가 되기를 바랍니다.

구현 상세 및 코드는 여기 있습니다. --> [https://github.com/Jncch/tsumiki]

Discussion

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0