가장 좋은 버그 보고서는 용의자가 작성했다
요약
이커머스 규칙 엔진의 위험 인보이스 주문 검토 과정에 LLM 기반 '두 번째 의견' 자문 시스템을 도입했습니다. 이 모델은 판정, 신뢰 점수, 서면 근거를 제공하며 최종 결정은 여전히 사람이 내립니다. 놀랍게도 분류 속도 향상보다, 모델이 기존 코드의 오프-바이-원 오류나 로열티 크레딧 허점 등 숨겨진 버그를 발견하는 '지속적인 감사' 역할이 더 중요했습니다.
핵심 포인트
- LLM을 활용하여 이커머스 규칙 엔진에 자문(Advisory) 시스템 도입 가능
- 모델의 최종 결정권 부여보다, 인간 검토자의 오류 탐지에 초점
- 오프-바이-원 오류나 로열티 크레딧 허점 등 숨겨진 버그 발견 사례 제시
- 데이터베이스 버전 관리 프롬프트 및 평가 고정값 사용 권장
당사의 이커머스 규칙 엔진은 위험한 인보이스 주문을 수동 검토를 위해 보류하며, 검토자들은 잘못된 경고(false alarms)에 압도되고 있었습니다. 그래서 저희는 LLM 기반의 '두 번째 의견'을 추가했습니다. 이는 자문 역할만 수행합니다: 판정(verdict), 신뢰 점수(confidence score), 그리고 보류 이유 옆에 작성된 서면 근거(written rationale)를 제공하는 방식입니다. 최종 결정은 여전히 사람이 내리며, 모델이 배의 항로 자체를 건드릴 수는 없습니다.
놀라웠던 것은 분류 속도의 향상이 아니었습니다. 검토자들이 모델과 의견이 달랐을 때, 약 절반의 조사 결과가 저희 코드에서 비롯된 것이었습니다: 수년 전부터 존재했던 오프-바이-원(off-by-one) 오류로 인해 인보이스가 자체 만기일에 연체된 것으로 표시되거나, 실제로는 출하되지 않은 선지급 주문이었던 '미결제 신용액(outstanding credit)', 영원히 0으로 남아있었던 페이로드 필드, 그리고 수년 동안 조용히 악용될 수 있었던 로열티 크레딧의 허점 등이었습니다.
전체 게시물에서는 아키텍처(비식별화된 페이로드, 데이터베이스에 버전 관리되는 프롬프트, 의도적으로 시간을 멈추는 평가 고정값(eval fixtures))와 왜 스스로 설명해야 하는 모델이 여러분의 기능 파이프라인에 대한 지속적인 감사(continuous audit)가 되는지를 다룹니다.
원래 andreasbergstrom.dev에서 게시되었습니다 — 전체 게시물은 거기서 읽어보세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기