LFM2.5, Gemma 4 E2B 및 E4B의 대화 내 기억력 테스트 결과: 가장 큰 모델이 대화 초반의 사실을 가장 먼저 망각함

요약

LFM2.5, Gemma 4 E2B, E4B 모델을 대상으로 대화 맥락 유지 능력을 테스트한 결과, 모델 크기가 클수록 오히려 대화 초반의 정보를 더 빨리 망각하는 경향이 발견되었습니다. 이는 모델의 아키텍처 문제라기보다 안전성 및 지시어 튜닝의 부산물로 분석됩니다.

핵심 포인트

모델 크기가 클수록 대화 초반 정보를 더 빨리 망각하는 역설적 결과 확인
기억 상실 시 환각 대신 '정보 접근 불가'라는 거절 반응을 보이는 공통 패턴 발견
기억력과 지시 준수/도구 호출 능력 사이의 잠재적 트레이드오프 가능성 시사
실패 원인이 아키텍처보다는 안전성/지시어 튜닝의 영향일 가능성 제기

세 가지 온디바이스 (on-device) 모델을 대상으로 작고 집중적인 평가 (eval)를 수행했으며, 결과가 예상과는 정반대로 나와서 방법론과 수치를 공유합니다. 작업 내용: 모델에게 "내 강아지 이름은 Pablo야"라고 말한 뒤, N회의 관련 없는 채우기 대화 (무작위 일반 과학 Q&A)를 추가하고, 그 다음 "내 강아지 이름이 뭐야?"라고 질문합니다. 이름을 다시 말하면 통과(Pass)로 간주합니다. 단일한 불운한 채우기 시퀀스가 결과를 결정하지 않도록 서로 다른 시드 (seed)를 사용하여 각 깊이(depth)당 3회씩 실행했습니다. 임계점 (Break point) = 평균 회상률 (mean recall)이 0.80 미만으로 떨어지는 첫 번째 깊이입니다. 깊이는 1, 3, 5, 8, 10, 15, 20, 30으로 설정했으며, 모델의 성능이 정체되면 적응형 중단 (adaptive stop)을 적용했습니다. 모델: LFM2.5-8B-A1B (Liquid AI, MoE, 활성 파라미터 약 1.5B), Gemma 4 E2B (약 2B dense), Gemma 4 E4B (약 4B dense). 결과: LFM2.5는 8회 차에서 무너졌으며 서서히 사라졌고, 깊이 15에서도 여전히 1/3은 정답을 맞혔습니다. 최후의 생존자입니다. E2B도 8회 차에서 무너졌지만 급격히 하락했습니다: 5회 차까지는 완벽했으나 10회 차에는 0이 되었습니다. E4B는 가장 빠른 5회 차에서 무너졌고, 8회 차에는 완전히 0이 되었습니다. 가장 큰 모델이 가장 짧은 기억력을 가졌습니다. 흥미로운 점은: 실패했을 때 어떤 모델도 잘못된 이름을 지어내는 환각 (confabulate)을 일으키지 않았다는 것입니다. 세 모델 모두 "귀하의 개인 정보에 접근할 수 없으므로 강아지 이름을 알 수 없습니다"라는 취지의 답변을 했습니다. 사실은 컨텍스트 윈도우 (context window) 안에 그대로 있었습니다. 이는 잊어버리는 것이 아니라, 모델이 해당 정보가 그곳에 있었을 리 없다고 결론을 내리는 것입니다. 서로 다른 두 연구소에서 나온 세 모델 모두 동일한 문구를 사용했는데, 이는 이것이 아키텍처 (architecture)의 문제라기보다 안전성/지시어 튜닝 (safety/instruction-tuning)의 부산물임을 시사합니다. 또한 주목할 만한 점은: E4B가 기억력은 가장 나빴지만, 동일한 테스트 세트 내에서 지시 준수 (instruction adherence) 및 도구 호출 (tool-call) 형식 유지 능력은 가장 뛰어났다는 것입니다. 지시어는 보통 가장 최근의 대화에 위치하기 때문에, 기억력과 형식 준수 능력이 동일한 어텐션 예산 (attention budget)을 두고 경쟁하는 것이 아닌가 하는 의문이 들었습니다. 세 개의 데이터 포인트일 뿐이므로, 이러한 트레이드오프 (tradeoff)가 법칙이라고 주장하는 것은 아닙니다. 하지만 실패의 형태는 일관적이었고 재현 가능했습니다.

증거가 필요하시다면: 해당 보고서(writeup)에는 전체 차트, 깊이(depth)별 실행 테이블(모든 깊이에서의 모든 통과/실패 기록), 정확한 실패 인용구, 그리고 여러분의 모델에서 직접 재실행해 볼 수 있는 하네스(harness)가 포함되어 있습니다. 링크는 아래 댓글에 있습니다. 평가(eval) 자체는 Neo가 구축하고 실행했지만, 방법론이 충분히 간단하여 원하신다면 수동으로도 재현할 수 있습니다. 혹시 더 큰 모델에서도 "사용자의 개인 정보에 접근할 수 없습니다"와 같은 거절 반응이 나타나는 것을 본 적이 있는지, 아니면 이것이 소형/에지(edge) 계층에만 국한된 현상인지 궁금합니다. /u/gvij 제출 [link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기