대부분의 AI가 IDOR에서 실패하는 이유 (그리고 AMAS가 인과 추론으로 이를 해결하는 방법)
요약
LLM이 패턴 매칭의 한계로 인해 IDOR와 같은 논리적 보안 취약점을 식별하지 못하는 문제를 해결하기 위해, 인과 추론 기반의 AMAS 시스템을 제안합니다. AMAS는 CVE 데이터를 인과 그래프로 변환하고 의미론적 변이 엔진을 통해 고품질 합성 데이터를 생성하여 모델의 보안 추론 능력을 강화합니다.
핵심 포인트
- LLM은 단순 패턴 매칭으로 인해 논리적 취약점 식별에 한계가 있음
- AMAS는 인과 관계(Causality) 모델링을 통해 보안 메커니즘을 학습함
- Mistral-7B 미세 조정 결과, 높은 일반화 성능과 낮은 오탐률을 기록함
- CVE 데이터를 인과 그래프로 변환하여 결정론적이고 확장 가능한 데이터 생성 가능
아무도 말하지 않는 문제
대규모 언어 모델 (LLM)은 패턴 매칭 (Pattern matching)에 매우 뛰어납니다.
충분한 "취약한" 예시를 보여주면, 모델은 그 _이유_가 아니라 _단어_를 학습합니다.
이것이 바로 모델이 IDOR, 권한 상승 (Privilege escalation), 워크플로 우회 (Workflow bypasses)와 같은 **논리적 취약점 (Logical vulnerabilities)**에 어려움을 겪는 이유입니다.
이러한 공격은 단순히 "권한 부여 (Authorization)"와 같은 키워드의 존재 여부가 아니라, 행위자가 누구인지, 리소스의 소유자가 누구인지, 그리고 신뢰 경계 (Trust boundary)가 어디에 위치하는지에 달려 있습니다.
AMAS의 등장
AMAS (AI Multi-Agent Security Analysis System)는 보안 추론 기질 (Security reasoning substrate)입니다.
이 시스템은 모델에게 패턴을 암기하도록 가르치지 않습니다.
대신 **인과 관계 (Causality)**를 이해하도록 가르칩니다.
"이것은 IDOR이다"라고 학습하는 대신, AMAS는 다음을 모델링합니다:
- ID 및 세션 (Identity & Session) – 행위자는 누구인가? 소유자는 누구인가?
- 강제 실행 실패 (Enforcement failures) – 어떤 보안 제어 (Security control)가 누락되었거나 깨졌는가?
- 시간적 전이 (Temporal transitions) – 요청 전후에 무엇이 변했는가?
- 인과 그래프 (Causal graphs) – 일련의 사건들이 어떻게 침해 (Breach)로 이어지는가?
작동 방식 (요약)
- 실제 CVE 수집 – NVD 피드를 스트리밍하고 관련성(액세스 제어, 인증, 비즈니스 로직)에 따라 필터링합니다.
- 각 CVE를 인과 그래프로 변환 – 행위자, 리소스, 신뢰 경계 및 누락된 제어를 추출합니다.
- 고품질 합성 데이터와 혼합 – 단순한 문구가 아닌 메커니즘 (인프라, 인증 모델, 비동기 동작)을 변경하는 의미론적 변이 엔진 (Semantic mutation engine)에 의해 생성됩니다.
- 품질 관리 – 중복 제거, 도메인 일관성 검사, 반복 검증을 수행합니다.
- 내보내기 – 미세 조정 (Fine-tuning)을 위한
train.jsonl및 상세 매니페스트를 생성합니다.
모든 과정은 **결정론적 (Deterministic)**이며 (동일한 시드 → 동일한 데이터셋), **확장 가능 (Scalable)**합니다 (20만 개 이상의 CVE 처리 가능).
결과 (현재까지)
AMAS로 생성된 데이터로 Mistral-7B 모델을 미세 조정 (Fine-tuning)한 결과:
- ✅ 일반화 (Generalisation) – 동일한 취약점, 다른 표현 방식 → 정확히 식별.
- ✅ 부정 테스트 (Negative tests) – 보안이 적용된 로그인 요청 → 오탐(False alarm) 없음.
- ✅ 도메인 변화 (Domain shift) – 핀테크, 이커머스, 헬스케어 분야의 보안 시나리오 → 모두 정확하게 분류됨.
중복(Duplication)은 52%에서 10% 미만으로 감소했으며, 최신 파이프라인(Pipeline)에서 도메인 오염(Domain corruption)은 제거되었습니다.
다음 단계 (Next steps)
- 오픈 소스 공개 (GitHub) – 전체 파이프라인, 문서, 예제 포함.
- 연구 논문 (인과 추론 (Causal reasoning) + ID 인식 학습 (Identity-aware training)).
- 사전 학습된 모델 가중치 (Pre-trained model weights).
업계는 계속해서 패턴 매칭(Pattern-matching) 스캐너를 만들고 있기 때문입니다.
우리에게 필요한 것은 **추론 엔진 (Reasoning engines)**입니다.
AI 보안, 인과 머신러닝 (Causal ML), 또는 합성 데이터 (Synthetic data)에 관심이 있다면 함께 소통합시다.
저장소(Repo) 링크가 공개되는 대로 바로 여기에 공유하겠습니다.
댓글과 질문은 언제나 환영합니다. AI가 실제로 보안을 이해할 수 있도록 만들어 봅시다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기