【Agentic AI 검증】 지식층은 정말로 재사용할 수 있는가

LLM 에이전트 (Agentic AI)의 세계에서는 "지식층 (도메인 사전)은 다른 태스크로 재사용할 수 있다"라는 직관이 널리 공유되고 있습니다. Voyager의 스킬 라이브러리, AgentSquare의 모듈 재사용, Agent Skills 표준 등 많은 연구가 이 방향을 시사하고 있습니다.

하지만, 정말로 그것이 실무 도메인에서 어떤 모델에서도 효과가 있을까요?

본 검증에서는 NDA (비밀 유지 계약) 리뷰를 주제로, **로컬 LLM (Qwen 2.5 14B)**과 **클라우드 강한 모델 (Azure GPT-5.4)**로 실측했습니다.

결론을 한마디로 말하자면:

모델 능력 > 지식층의 품질 > 지식층의 구조

지식층을 고품질화하더라도 모델 능력의 천장은 뚫을 수 없습니다. 이것이 본 검증에서 반복적으로 관찰된 비대칭성입니다.

전체상

관점	결과
가설	지식층 (도메인 사전)은 다른 태스크로 재사용할 수 있다
...

이 기사에서 다루는 것

자주 묻는 질문	본 기사의 답변
LLM 에이전트의 「컴포넌트 재사용」은 정말로 효과가 있는가?	약한 모델에서 +0.212, 강한 모델에서 +0.074
지식층 (도메인 사전)은 다른 태스크로 유용할 수 있는가?	YES. 단, 효과는 모델 능력에 따라 감쇄
부정적 전이 (Negative Transfer)는 발생하는가?	관측값은 나오지만 대부분 평가기 FP, 실제 값은 제로

로컬 LLM과 클라우드 강한 모델의 결과는 같은가?	NO. 클라우드에서의 최종 확인은 필수

1 seed의 결과만으로 결론 내릴 수 있는가?	NO. GPT-5.4에서 seed=42 단발 실행 시 「재사용 소멸」로 오판하는 함정을 직접 경험
클라우드에서 지식층 (사전)을 만들면 로컬에서도 강한 모델 수준이 되는가?	NO. reuse +0.000, 로컬의 천장은 지식층의 품질이 아닌 모델 능력
지식층 (사전) vs 프롬프트 개선, 어느 쪽에 투자해야 하는가?	약한 모델 운용이라면 지식층 (사전), 강한 모델 운용이라면 하이브리드

1. 왜 「지식층 재사용」이 논점인가

LLM 에이전트를 매 태스크, 매 프로젝트마다 제로 베이스에서 구축하는 것은 낭비가 큽니다. 동일한 도메인의 유사 태스크에서 「무엇이 재사용 가능하고, 무엇이 재사용 불가능한가」를 알 수 있다면 개발 공수를 대폭 절감할 수 있습니다.

최근의 Agentic AI 계열 연구 (Voyager, AgentSquare, AFlow, ADAS, Skill-Pro 등)의 정리에 따르면, 에이전트는 크게 3개 층으로 나누어 논의되는 경우가 많습니다.

미검증되었던 점: 지식층 재사용이 실무 도메인에서 정말로 효과가 있는지, 그리고 모델 능력에 의존하지 않는지.

본 검증은 여기에 하나의 실측 데이터를 추가하는 것이 목적입니다.

2. 당초의 핵심 가설

검증의 출발점이 된 가설은 다음과 같습니다. 본 검증에서는 T1 = NG 조항의 「탐지」 태스크, T2 = NG 조항의 「수정」 태스크를 가리킵니다 (태스크의 상세 내용은 3.1장에서 설명).

동일 도메인 내의 관련 태스크 T1, T2에 있어서,

T1에서 구축한 지식층 (도메인 사전)을 T2에 주입하면,

T2를 제로 베이스로 구축하는 것보다 콜드 스타트 (Cold Start) 공수를 절감하고, 최종 스코어를 저하시키지 않으며, 부정적 전이를 일으키지 않는다.

이미지로 표현하자면, "계약 리뷰 AI 팀 A가 만든 『NG 조항 리스트』를 팀 B의 『조항 수정 AI』에 그대로 전달하면, 처음부터 만드는 것보다 빠르고 정확해질 것이다"라는 직관입니다.

당초의 합격 조건

조건	합격 기준
1. 콜드 스타트 공수 절감	reuse가 제로 베이스보다 구축 시간 및 반복 횟수를 유의미하게 줄임
...
3가지 모두 달성 시 가설 확인, 어느 하나라도 달성하지 못하면 해당 도메인·태스크 쌍에서는 재사용 전제가 성립하지 않는다는 명확한 결론을 내리는 설계입니다.

이 가설을 측정하기 위해, 본 검증에서는 T2 수정 태스크를 두 가지 조건으로 대조 비교합니다. 이후의 표와 본문에서 반복적으로 등장하는 용어이므로 여기서 정의해 둡니다:

조건명	내용
reuse	T1에서 만든 NG 지식층(패턴 사전)을 T2 프롬프트에 그대로 주입하여 수정하게 함 = 「지식층을 재사용하는」 측
zerobase	지식층(사전)을 전달하지 않고, 「NDA로서 부적절한 부분을 수정해줘」라는 추상적인 지시만으로 수정하게 함 = 「제로베이스에서 구성하는」 측 (대조군)

합격 조건은 **「reuse가 zerobase에 대해 우위에 있는가」**로 판정합니다.

3. 검증 설계

3.1 태스크 (NDA 도메인)

내용
T1: NG 조항 검출	주어진 계약 조항에 사전 정의된 NG 패턴이 포함되어 있는지 열거
...

3.2 NG 패턴 지식층·사전 (9종류)

중소기업청 NDA 템플릿을 바탕으로 9종류의 NG 패턴을 정의했습니다.

ID	내용	유형
nda_scope_overbroad	비밀정보 범위 과다	명시형
...

3.3 검증 페이즈

4. 주요 결과

4.1 4개 축의 최종 스코어

평가 축	paired diff	95% CI	판정
로컬 + 지식층 (수동 사전) (Phase 2)	+0.212	CI 0을 포함하지 않음	강력 지지
클라우드 + 지식층 (수동 사전) (Phase 2 Azure)	+0.074	CI [-0.095, +0.243]	약한 지지
로컬 + 클라우드 LLM 생성 지식층 (도메인 사전) (Phase 4)	+0.184	seed=42 단발	T2 개선은 -0.002
강건성 (Phase 3, 패러프레이즈)	+0.166 (v0.1.0→v0.1.1)	-	정방향 유지

4.2 zerobase의 절대 성능이 극적으로 다름

variant	로컬 qwen 14B	클라우드 GPT-5.4	차이
reuse	0.612	0.822	+0.210
zerobase	0.400	0.748	+0.348

zerobase가 +0.348로 극적으로 상승한 반면, reuse의 상승폭은 절반 이하입니다. 이것이 **「강한 모델에서는 지식층의 추가 가치가 축소된다」**는 수치적 근거입니다.

4.3 per-pattern: 강한 모델에서도 지식층이 효과적인 패턴이 있음

pattern_id	클라우드 reuse	클라우드 zerobase	차이
nda_scope_overbroad	1.000	1.000	0.000
...

강한 모델에서도 nda_derivative_undefined, nda_disclosure_exception_missing와 같은 「의미적으로 세밀한 NG」에서는 지식층이 +0.267 효과를 발휘합니다. 반면, 명시적인 NG(scope_overbroad 등)는 zerobase에서도 완벽합니다.

4.4 부정적 전이(Negative Transfer)는 「관측되지만」「진값은 제로」

관측 negative_transfer_rate	수동 리뷰 후의 진값
로컬 reuse	0.769	≒ 0
클라우드 reuse	0.407 ± 0.068	≒ 0

20건의 수동 리뷰를 통해 판명:

판정	로컬 qwen	클라우드 GPT-5.4
T (진정한 부정적 전이)	0 / 27 (0.0%)	0 / 20 (0.0%)
...

→ **관측된 부정적 전이율의 대부분은 T1 검출기의 False Positive (위양성)**입니다. 수동 리뷰를 통해 보정함으로써, 결론을 「가설 미지지」에서 「조건부 지지」로 수정했습니다.

4.5 하이브리드의 배신 (제 예상이 틀린 이야기)

「클라우드 강한 모델로 만든 사전을 로컬 약한 모델에서 사용하면, 강한 모델 수준의 성능이 나오지 않을까?」라는 자연스러운 가설을 검증한 것이 Phase 4입니다.

제 사전 예측:

시나리오	제 추측
로컬 + 지식층 (수동 사전)	0.612
...

실제 결과:

지표	로컬 + 수동 사전	로컬 + 클라우드 사전
차이
reuse success	0.550	0.548
-0.002
zerobase success	0.289	0.364

reuse success_rate는 변화 없음 (-0.002). 제 추측은 완전히 빗나갔습니다.

로컬 약한 모델(Weak Model)의 한계는 지식층의 품질이 아니라 텍스트 이해 및 생성 능력에 있음이 이 결과 하나로 입증되었습니다.

5. 결론

5.1 가설에 대한 판정 (4단계로 평가)

평가 축	결과
약한 모델 운용 시 재사용 우위	강하게 지지 (paired diff +0.212, 모든 seed에서 정방향)
강한 모델 운용 시 재사용 우위	약하게 지지 (paired diff +0.074, CI 0 포함)
진정한 부정적 전이(Negative Transfer) 없음	두 모델 모두에서 지지 (수동 리뷰 후 ≒ 0)
로컬 실행 + 클라우드 LLM 생성 지식층(도메인 사전)으로 성능 개선	지지하지 않음 (reuse +0.000)
모델 능력 의존성	강함 (강한 모델에서는 zerobase가 +0.348 향상)

5.2 구현자를 위한 함의: 투자 대상 판단 매트릭스

운용 시나리오	지식층 재사용의 가치
로컬 소형 모델	필수. zerobase가 0.289로 처참하며, 사전 투입 시 0.612까지 구제 가능
클라우드 강한 모델 (범용)	보조적. zerobase로 0.748 달성, 사전 투입의 추가 가치는 작음
클라우드 강한 모델 × 특정 NG 항목만	YES. 의미적으로 세밀한 NG 항목에서는 +0.267 효과
로컬 실행 + 클라우드 LLM 생성 지식층(도메인 사전)	NO. 지식층의 품질만으로는 로컬 모델의 한계를 돌파할 수 없음
교육 · 설명 가능성	항상 유용. "무엇이 NG인가"를 인간과 공유하는 메커니즘으로서

5.3 검증 전체의 최종 결론을 한 문장으로

지식층 재사용은 약한 모델의 능력을 보완하는 데 강력하게 작용한다 (+0.212).

강한 모델에서는 zerobase 자체가 고성능이 되기 때문에 상대적 가치는 축소된다 (+0.074).

지식층의 품질을 높여도 로컬 약한 모델의 한계(Ceiling)는 돌파할 수 없다 (+0.000).

"모델 능력 > 지식층의 품질"이라는 비대칭성이 본 검증에서 반복적으로 관측되었다.

6. 검증을 통해 얻은 4가지 구현 지식

지식	한 줄 요약
1. 단발성 좋은 점수로 판단하지 말 것	seed=42 단발 측정 시 paired diff = 0.000, 3개 seed 사용 시 +0.074. 1개 seed 결론은 위험함
...

7. 제약 사항

제약 사항	내용
도메인	NDA 대상임. 업무 위탁, 라이선스, 이용 약관 등으로의 확장 적용은 미확인
...

8. 참고 문헌 · 관련 OSS

명칭	역할	출처
Voyager	스킬 라이브러리 패러다임의 원전	voyager.minedojo.org
...
법무 분야:

경제산업성 「비밀 정보 보호 핸드북」
경제산업성 영업비밀 관리 지침
JIPDEC 비밀 정보 취급에 관한 가이드북
부정경쟁방지법 제2조 제6항

9. 저자의 노트

본 기사는 실제 검증 로그의 요약입니다. "교과서적인" 검증 결과라 할지라도, 실제로 직접 움직이며 숫자로 맞닥뜨리면 그 무게감이 다르다는 것이 솔직한 소감입니다.

Agentic AI / LLM 에이전트 자동 생성 / 리걸테크(LegalTech) AI를 연구하시는 분들께 참고가 되기를 바랍니다.

구현 상세 및 코드는 여기 있습니다. --> [https://github.com/Jncch/tsumiki]

【Agentic AI 검증】 지식층은 정말로 재사용할 수 있는가

요약

핵심 포인트

전체상

이 기사에서 다루는 것

1. 왜 「지식층 재사용」이 논점인가

2. 당초의 핵심 가설

당초의 합격 조건

3. 검증 설계

3.1 태스크 (NDA 도메인)

3.2 NG 패턴 지식층·사전 (9종류)

3.3 검증 페이즈

4. 주요 결과

4.1 4개 축의 최종 스코어

4.2 zerobase의 절대 성능이 극적으로 다름

4.3 per-pattern: 강한 모델에서도 지식층이 효과적인 패턴이 있음

4.4 부정적 전이(Negative Transfer)는 「관측되지만」「진값은 제로」

4.5 하이브리드의 배신 (제 예상이 틀린 이야기)

5. 결론

5.1 가설에 대한 판정 (4단계로 평가)

5.2 구현자를 위한 함의: 투자 대상 판단 매트릭스

5.3 검증 전체의 최종 결론을 한 문장으로

6. 검증을 통해 얻은 4가지 구현 지식

7. 제약 사항

8. 참고 문헌 · 관련 OSS

9. 저자의 노트

Discussion

댓글

【Agentic AI 검증】 지식층은 정말로 재사용할 수 있는가

요약

핵심 포인트

전체상

이 기사에서 다루는 것

1. 왜 「지식층 재사용」이 논점인가

2. 당초의 핵심 가설

당초의 합격 조건

3. 검증 설계

3.1 태스크 (NDA 도메인)

3.2 NG 패턴 지식층·사전 (9종류)

3.3 검증 페이즈

4. 주요 결과

4.1 4개 축의 최종 스코어

4.2 zerobase의 절대 성능이 극적으로 다름

4.3 per-pattern: 강한 모델에서도 지식층이 효과적인 패턴이 있음

4.4 부정적 전이(Negative Transfer)는 「관측되지만」 「진값은 제로」

4.5 하이브리드의 배신 (제 예상이 틀린 이야기)

5. 결론

5.1 가설에 대한 판정 (4단계로 평가)

5.2 구현자를 위한 함의: 투자 대상 판단 매트릭스

5.3 검증 전체의 최종 결론을 한 문장으로

6. 검증을 통해 얻은 4가지 구현 지식

7. 제약 사항

8. 참고 문헌 · 관련 OSS

9. 저자의 노트

Discussion

댓글

4.4 부정적 전이(Negative Transfer)는 「관측되지만」「진값은 제로」