제한된 메모리 언어 모델(LMLM)에서의 망각 감사

제한된 메모리 언어 모델 (Limited Memory Language Models, LMLMs)은 재학습 없이 삭제 기반의 언러닝 (unlearning)을 가능하게 하기 위해 사실적 지식을 데이터베이스로 외부화합니다. 기존의 평가 방식은 삭제 후의 정확도를 총체적으로 측정하며, 삭제된 사실이 잔류 파라미터 메모리 (residual parametric memory), 대안적 검색 경로 (alternative retrieval paths), 또는 근접 이웃 검색 아티팩트 (near-neighbor retrieval artifacts)를 통해 지속되는지 여부를 판별할 수 없습니다. 우리는 모델을 고정시킨 상태에서 추론 시점에 데이터베이스 상태를 세 가지 개입 방식인 FULL, DEL-ON, DEL-OFF로 변화시키는 인과적 감사 (causal auditing) 프레임워크를 제안합니다. 이 프레임워크는 삭제 후의 동작을 파라미터 누출 $L(f)$, 검색 매개 정확도 $R(f)$, 그리고 추론 시점의 검색 트레이스 (retrieval trace)에 기반한 검색 아티팩트 비율 (retrieval artifact rate)로 분해합니다. 우리는 이를 세 가지 도메인에서 구축한 네 가지 적대적 토폴로지 (Base, Alias, Noise, Collision)와 여섯 가지 프롬프트 구성 (prompt formulations)을 포함하여, 13개의 데이터베이스에 걸친 12,228개의 별칭 폐쇄 (alias-closure) 삭제 사례에 적용했습니다. 모든 변형과 모든 프롬프트 스타일에서 파라미터 누출은 0에 가깝습니다. 즉, 검색이 없는 상태에서 모델이 삭제된 정답을 반환하는 경우는 드뭅니다. 살아남은 잔류물은 검색 그래프 (retrieval graph)에 존재합니다. 검색 매개 정확도와 검색 아티팩트 비율은 모든 곳에서 반올림 오차 범위 내에서 일치하며, 따라서 우리의 감사 결과 삭제 후의 정확도는 주로 근접 이웃 검색 (near-neighbor retrieval)으로부터 재구성됩니다. 이 잔류물은 공개된 LMLM 데이터베이스에서는 0.7%에서 가장 적대적인 변형에서는 13.6%까지 나타나며, 프롬프트 구성은 삭제된 사실이 얼마나 살아남는지를 독립적으로 제어하지 못합니다. 이러한 결과는 이 범주의 LMLM 및 삭제 절차의 경우, 언러닝 경계가 모델보다는 주로 데이터베이스 관리자에 의해 결정됨을 시사합니다.

Insights

제한된 메모리 언어 모델(LMLM)에서의 망각 감사

요약

핵심 포인트

댓글

엔비디아가 오픈소스 모델 네모트론을 통째로 얹기로 한 플랫폼이 팔란티어다. 발표 후 팔란티어는 하루 7.7% 뛰었다. 왜 하필 여기였을까.

시장가의 3.6배. 위메이드 창업자 지분 39.33%에 중국계 자본이 쳐준 값이다. 종가 1만9330원짜리 주식을 주당 6만8910원, 총

구글이 제미나이 개인화 이미지 생성을 미국 무료 사용자 전원에게 풀었다. 유료 구독자 전용이던 기능인데, 왜 갑자기 공짜가 됐을까.

이것은 정말 AI가 생성한 것 같지 않네요, 너무 사실적입니다!!

엔비디아가 오픈소스 모델 네모트론을 통째로 얹기로 한 플랫폼이 팔란티어다. 발표 후 팔란티어는 하루 7.7% 뛰었다. 왜 하필 여기였을까.

시장가의 3.6배. 위메이드 창업자 지분 39.33%에 중국계 자본이 쳐준 값이다. 종가 1만9330원짜리 주식을 주당 6만8910원, 총

구글이 제미나이 개인화 이미지 생성을 미국 무료 사용자 전원에게 풀었다. 유료 구독자 전용이던 기능인데, 왜 갑자기 공짜가 됐을까.

이것은 정말 AI가 생성한 것 같지 않네요, 너무 사실적입니다!!