언어 모델을 이용한 신뢰할 수 있는 물리적 설계의 구조적 인증
요약
언어 모델의 불확실성을 극복하기 위해 제안-인증 루프(PHACT)를 활용하여 신뢰할 수 있는 물리적 설계를 생성하는 연구를 소개합니다. 모델은 설계를 제안하고 결정론적 엔진이 이를 검증함으로써 위조가 불가능한 구조적 인증 체계를 구축합니다.
핵심 포인트
- 제안-인증 루프(PHACT)를 통한 물리 기반 인증 방식 도입
- 언어 모델의 권한을 외부 결정론적 엔진으로 이전하여 신뢰성 확보
- 80회의 적대적 실험 결과, 단 한 건의 잘못된 인증도 발생하지 않음
- 고정된 입력 기반의 수치 도출로 구조적 위조 방지
언어 모델(Language Model)이 주장하는 권한을 모델 외부로 옮긴다면, 신뢰할 수 없는 언어 모델로도 신뢰할 수 있는 물리적 설계를 생성할 수 있습니다. 즉, 모델은 제안(propose)하고, 결정론적 엔진(deterministic engine)만이 단독으로 인증(certify)하여, 인증됨(certified), 불가능함(impossible), 또는 알 수 없음(unknown)을 반환하는 방식입니다. 우리는 5개의 과학 분야를 아우르는 제안-인증 루프(propose-certify loop)인 물리 기반 인증 (PHACT, Physics-Anchored Certification)을 소개하며, 무엇이 그러한 인증을 신뢰할 수 있게 만드는지 식별합니다. 모델이 제공한 값을 수용하는 검사기(checker)는 위조될 수 있지만, 고정된 입력으로부터 인증된 수치를 도출하는 방식은 구조적으로 위조를 불가능하게 만듭니다. 두 개의 모델, 두 개의 디코딩 온도(decoding temperatures), 그리고 의도적으로 결함이 있는 엔진을 포함하여 80회의 적대적 실험(adversarial trials)을 거친 결과, 이 계약(contract)은 단 한 건의 잘못된 인증(false certifications)도 발생시키지 않았습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기