Dev.to헤드라인2026. 06. 19. 18:04

"왜 더 나은 임베더(Embedder)를 사용하지 않나요?" — 내가 계속 거절하고 있는 가장 합리적인 제안

요약

임베딩 모델의 성능 문제에 직면했을 때, 단순히 더 강력한 모델로 교체하는 것이 왜 위험한지 설명합니다. 특정 데이터셋에 맞춰 모델을 선택하는 '피팅(fitting)'의 함정을 경고하며, 올바른 데이터 확보와 재보정의 중요성을 강조합니다.

핵심 포인트

임베딩 모델 교체 시 특정 데이터에 과적합(overfitting)될 위험이 있음
측정 도구(임베더)를 결과에 맞춰 바꾸는 것은 데이터의 신뢰성을 해침
문제 해결을 위해서는 모델 교체보다 다양한 실제 데이터 확보가 우선임
사전 등록된 재보정(recalibration) 절차를 통한 정직한 평가가 필요함

내가 E3의 발견, 즉 나의 시맨틱 레이어(semantic layer)가 실제 동일 주제 데이터에서 진정으로 구별되는 출력값들을 거의 구분해내지 못한다는 사실을 보여줄 때마다, 사람들은 똑같이 합리적인 조언을 건넵니다. 바로 더 강력한 임베딩(embedding) 모델로 교체하라는 것입니다. 그것은 좋은 직관입니다. 나는 계속해서 거절하고 있는데, 그 이유는 그 제안보다 더 흥미롭습니다.

시맨틱 레이어의 역할은 두 출력값이 정말로 중복되는지 확인하는 것입니다. 합성 데이터(synthetic data)에서는 잘 작동했습니다. 하지만 실제 동일 주제의 텍스트에서는 출력값들이 너무 많은 어휘를 공유하기 때문에 거의 모든 것이 "유사함"으로 점수가 매겨지며, 나의 임계값(threshold, φ=0.514)은 낭비와 정상적인 진행을 구분할 수 없습니다. 그러니 맞습니다. 다른 임베더를 사용하면 그것들을 더 잘 구분할 수도 있을 것입니다.

여기에 함정이 있습니다. 나에게는 이 문제를 드러내는 정확히 세 쌍의 실제 데이터 쌍이 있습니다. 만약 내가 이 세 쌍이 깔끔하게 구분될 때까지 임베더를 교체하고 튜닝하기 시작한다면, 나는 탐지기(detector)를 고친 것이 아니라 단 세 개의 예시에 맞춰 모델을 피팅(fitting)한 것이 됩니다. 결과 수치는 훌륭해 보이겠지만 아무런 의미도 없을 것입니다. 왜냐하면 결과가 예쁘게 나오도록 만든 후에 도구를 선택한 셈이기 때문입니다. 이것이 바로 나의 첫 번째 프로젝트를 망쳤던 정확한 실수입니다. 눈앞의 데이터에 맞춰 조용히 형태가 만들어졌기 때문에 강력해 보였던 신호 말입니다.

임베딩 모델을 고정하는 것은 특정 모델에 대한 고집이 아닙니다. 그것은 측정을 마친 후에 자(ruler)를 바꾸지 않겠다는 거부입니다. E3를 위한 정직한 해결책은 세 개의 예시에 맞춰 선택된 더 나은 임베더가 아닙니다. 그것은 실제 분포를 볼 수 있을 만큼 충분한, 다양한 주제와 도메인에 걸친 실제 트레이스(traces)를 확보하는 것이며, 그 후 데이터를 보기 전에 내가 약속한 사전 등록된 재보정(recalibration)을 수행하는 것입니다.

그렇기 때문에 병목 현상은 Hugging Face에 있는 모델 때문이 아닙니다. 그것은 실제 멀티 에이전트 시스템 (multi-agent systems)을 실행하는 사람들로부터 나오는 트레이스 (traces)입니다. 더 나은 임베더 (embedder)가 진정으로 정답일 수도 있습니다. 하지만 나는 그것을 정직하게 단 한 번만 확인할 수 있으므로, n=3인 상황에 그 기회를 소비하지는 않을 것입니다.

코드, E3 로그, 그리고 고정된 파라미터 (frozen params):
github.com/JEONSEWON/Clew-by-Custos

AI 자동 생성 콘텐츠

원문 바로가기

"왜 더 나은 임베더(Embedder)를 사용하지 않나요?" — 내가 계속 거절하고 있는 가장 합리적인 제안

요약

핵심 포인트

댓글