LLM의 '판단 망각'을 방지하는 Decision Memory를 만들었다 — RAG로는 해결할 수 없는 문제 - Insights | Molayo

대규모 언어 모델 (LLM)을 사용한 장기적인 연구 개발 프로세스에서는 어떤 까다로운 문제가 반복해서 발생합니다.

"이전에 시도했다가 실패했던 제안이 몇 번이고 다시 떠오른다"

이는 단순한 기억의 문제가 아닙니다. 모델은 사실을 기억하고 있더라도, 왜 그 판단에 이르렀는지, 왜 기각했는지, 그 판단을 바꾸면 무엇에 영향을 미치는지를 유지하지 못합니다.

RAG로 문서를 검색하거나, Reflexion으로 반성을 저장하더라도 이 문제는 해결되지 않습니다. 왜냐하면 필요한 것은 '정보의 검색'이 아니라 '판단의 인과 구조 유지와 추론 제약으로의 변환'이기 때문입니다.

본 기사에서는 이 문제를 해결하기 위해 설계한 「Decision Memory」와 그 검증 결과에 대해 보고합니다.

LLM의 장기 이용 시 발생하는 '판단 망각'은 기존 메모리 시스템으로는 해결할 수 없다
'판단의 근거', '기각 이유', '재검토 조건', '의존 관계'를 구조화하여 유지하는 Decision Memory를 설계
유지된 판단을 추론 시의 제약으로 변환하는 제약 생성(Constraint Generation)을 동반하는 구조로 기능 - 실제 연구 개발 프로세스(약 30일간)의 데이터로 검증하여, 5건의 테스트에서 100%의 제어 정밀도를 달성

기존 LLM 메모리 시스템이 유지하는 것:

RAG: 사실, 문서
MemGPT 등: 대화 이력, 사용자 정보
Reflexion: 실패 경험의 반성적 요약

유지되지 않는 것:

왜 그 판단에 이르렀는가 (판단 근거)
왜 기각했는가 (기각 이유와 재검토 조건)
이 판단을 바꾸면 무엇에 영향을 미치는가 (판단 간의 의존 관계)
지금의 추론에서 무엇을 지켜야 하는가 (제약 주입)

재귀 깊이 Transformer (BathysRDT)의 연구 개발 과정에서 다음과 같은 문제가 반복해서 발생했습니다.

문제 1: 기각된 제안의 재부상

어떤 설계 파라미터에 대해 충분한 실험 (GPU 약 6시간)을 수행하여 "현재 조건하에서는 유효하지 않음"이라고 판정했습니다. 하지만 며칠 후, 동일한 제안이 다시 떠올랐습니다. 이전의 결론을 잊어버렸기 때문에, 다시 동일한 실험을 실행하는 낭비가 발생했습니다.

문제 2: 설계 의도의 상실

특허의 청구항을 어떤 이유로 의도적으로 넓게 기재했습니다. 하지만 후속 공정에서 그 의도를 모르는 상태로 "더 구체적으로 한정해야 한다"라는 제안이 나와, 권리 범위를 불필요하게 좁힐 리스크가 발생했습니다.

문제 3: 변경의 파급 범위 미인식

어떤 아키텍처 요소의 변경이 제안되었을 때, 그 변경이 4건의 특허 출원 전체에 파급된다는 사실이 인식되지 않았습니다.

Decision Memory는 설계 판단을 「상태를 가진 객체 (Object)」로서 유지합니다. 각 판단은 다음을 포함합니다:

판단 내용: 무엇을 결정했는가
판단 근거: 왜 그렇게 결정했는가
증거: 어떤 실험·데이터에 기반하는가
현재 상태: 유효 / 조건부 보류 / 무효
재검토 조건: 어떤 전제가 바뀌면 재평가해야 하는가
의존 관계: 이 판단이 바뀌면 무엇에 영향을 미치는가

Decision Memory는 단순한 기억 시스템이 아닙니다. 유지된 판단을 추론 시의 제약으로 변환합니다.

기존 메모리 시스템과의 본질적인 차이:

관점	RAG / MemGPT	Decision Memory
유지하는 것	정보 (사실·경험)	판단의 인과 구조
...

Decision Memory는 제안을 영구적으로 차단하는 것이 아닙니다. 각 판단에는 재검토 조건이 명시됩니다.

조건이 바뀌지 않음 → 추론 경로를 제약이 있는 재평가 경로로 전이
조건이 바뀜 → 재평가 경로를 활성화

예를 들어 "모델 규모가 10B 이상이 된 경우"나 "새로운 손실 함수 (Loss Function)가 도입된 경우" 등, 판단의 전제가 변화한 경우에는 자동으로 재평가가 가능해집니다.

BathysRDT의 연구 개발 프로세스 (약 30일간, Session 6~10)에서 다음 데이터를 추출하여 Decision Memory에 저장했습니다:

설계 판단: 7건
기각 기록: 4건
설계 의도 기록: 3건
의존 그래프: 9개 노드

5건의 테스트 케이스를 실행하였고, 전 건에서 기대되는 제어 동작이 올바르게 실행되었습니다.

테스트	입력	기대 동작	결과
기각된 제안의 재제안	이전 실험에서 유효하지 않다고 판정된 파라미터의 재제안	추론 경로 제어 + 기각 이유·재검토 조건 제시	✓
...

Decision Memory 도입 전후 비교:

지표	도입 전	도입 후
기각된 제안의 재실행	발생 (GPU 수 시간 낭비)	즉시 탐지 및 제어
...	...	...

Decision Memory의 설계 사상(Design Philosophy)은 BathysRDT의 심도 방향 제어(Depth-wise Control)와 구조적인 대응 관계를 가집니다.

BathysRDT	Decision Memory
심도가 깊어질수록 업데이트 양을 감쇄	축적된 판단일수록 쉽게 뒤집지 않음
...	...

LLM과의 통합 (구조적 제약(Structural Constraints)을 시스템 프롬프트(System Prompt)로 주입하는 구현)
판단 그래프(Decision Graph)의 자동 구축 (LLM에 의한 메타 추론(Meta-reasoning)으로부터 판단 추출)
복수 에이전트(Multi-agent) 간의 판단 체계 공유
장기 가동되는 자율 에이전트(Autonomous Agent)의 판단 일관성 유지에 응용

Decision Memory Kernel v1은 Python으로 구현되어 있습니다. 판단 기록, 기각 기록, 설계 의도 기록을 JSONL 형식으로 유지하며, 키워드 매칭(Keyword Matching), 의존 그래프 탐색(Dependency Graph Search), 제약 주입(Constraint Injection)의 각 기능을 갖추고 있습니다.

본 기사의 내용과 관련된 기술은 특허 출원되었습니다.

BathysRDT 프로젝트에 대한 자세한 내용은 @nakatada-lab의 다른 기사도 참조해 주세요.

2.1B 파라미터 재귀 심도 트랜스포머(Recursive Depth Transformer)에서 '유효 심도 대역'을 발견한 이야기 (ALTH-002 기사)
재귀적 신경망(Recursive Neural Network)의 '멈춤 시점'을 출력 분포의 변화로부터 자동 탐지하기 (ALTH-003 기사)
RTX 3090 한 장으로 2.1B 모델의 심도 라우팅(Depth Routing)을 실현하기 (ALTH-004 기사)
BathysRDT: LLM이 존재하지 않는 라이브러리를 환각(Hallucination)해서 진짜로 만들기로 했다 (Part 1)

LLM의 '판단 망각'을 방지하는 Decision Memory를 만들었다 — RAG로는 해결할 수 없는 문제

요약

핵심 포인트

댓글