AI 에이전트(Claude Code)를 1년 동안 '사원'으로서 실무에 사용하며 알게 된 것 ―― 자사 사이트를 12.89초에서 2.03초로

AI 기업인 크리스탈 메서드 주식회사(Crystal Method Co., Ltd.)에서, Claude(Anthropic)의 3.5 시대부터 1년 이상, Claude Code(CLI 기반의 에이전트형 코딩 도구)를 실무에서 사용해 온 현장의 기록입니다. 감수는 대표인 카와이 케이(AI 멀티모달 관련 특허 발명가. 당사의 등록 특허는 16건)가 맡았습니다.

「AI 에이전트를 실무에 도입하면 어떻게 되는가」를, 성공 사례뿐만 아니라 AI가 저지른 실패와 그 결과로 어쩔 수 없이 만들어야 했던 운용 규칙까지 홍보 없이 작성합니다. 정리된 기사에는 우선 나와 있지 않은, 저희가 1년 동안 직접 해보며 처음으로 알게 된 이야기입니다.

가장 알기 쉬운 성과부터 말씀드리겠습니다. 자사의 WordPress 사이트(AI 미디어)의 표시 속도를 Claude Code를 '사원'처럼 사용하여 개선했습니다. 실측값입니다.

지표	개선 전	개선 후
모바일 로딩 시간 (주요 페이지)	12.89초	2.03초
LCP (Top)	약 8.1초	약 1.7초 (-79%)

실제로 수행한 일은 수수하지만 구체적인 축적입니다.

Tailwind CSS를 250KB → purge 완료 후 19KB로 축소
이미지 지연 로딩 (lazy-load) 전면 적용
FontAwesome을 사용하는 아이콘만 있는 SVG로 교체
jQuery를 defer 로딩으로 변경
로고 PNG → webp 9.7KB로 압축
히어로 이미지의 로딩 우선순위 및 프리로드(preload) 조정
목록 이미지를 large → medium 사이즈로 변경

공수는 솔직하게 말씀드리겠습니다. "눈 깜짝할 새"는 아니었습니다. 주요 부분을 급속도로 개선하는 데 잔업을 포함하여 대략 꼬박 하루가 걸렸습니다 (당초 이 공수를 사내 자료에 "2시간"이라고 적었다가, 실측치와 달라 정정하고 있습니다. 이 "부풀리기"가 바로 다음 장의 이야기로 이어집니다).

여기서부터가 본론입니다. 에이전트형 AI는 강력하지만, 방치하면 아무렇지도 않게 사고를 칩니다. 저희가 실제로 겪은 사례들입니다:

검증하지 않고 "완료했습니다"라고 보고함. 화면 표시나 실기 확인도 하지 않았는데 완료 보고가 돌아옵니다.
수치를 만들어냄 (Hallucination). 위의 "2시간" 사례도 그렇고, 다른 상황에서는 실적치를 유리하게 부풀린 표현이 생성된 적도 있었습니다.
수정할 때마다 영향 범위를 머릿속으로만 판단하고, 호출 측을 간과함 → 한 곳을 고치면 다른 곳이 망가지는 "두더지 잡기" 현상.

즉, AI 에이전트를 실무에 투입할 때 정말 중요한 것은 "코드를 빠르게 쓰게 하는 것"이 아니라, **"사고를 방지하기 위한 운용의 틀"**이었습니다.

저희는 Claude Code를 위해 프로젝트 직하의 설정 파일(CLAUDE.md)에 운용 규칙을 작성하고 있습니다. 이것이 처음에는 20개 항목이었으나, 1년 동안 운용하면서 105개 항목까지 늘어났습니다. 늘어난 항목은 전부 위와 같은 "실제로 일어난 사고"의 재발 방지를 위한 것입니다. 대표적인 예:

파일을 생성·갱신·실행하기 전에 반드시 작업 계획을 보고하고 인간의 y/n 확인을 받을 것 (멋대로 실행하지 말 것).
"완료했다"라고 보고하기 전에, 실제로 사용자가 사용하는 경로로 결과를 직접 보고 확인할 것 (정지 화면이나 테스트 단독으로 끝내지 말 것).
편집하기 전에, 변경 대상의 "원래 이름"으로 전체 grep을 수행하여 호출 측을 하나도 빠짐없이 열거할 것 (영향 분석을 머리가 아닌 증거로 수행할 것).
테스트용 더미 데이터·더미 수치를 주석이라 할지라도 코드에 쓰지 말 것 (조작의 싹을 자를 것).

나아가, Claude Code의 PreToolUse Hook(도구 실행 전에 개입하는 훅)을 사용하여, Edit/Write 직전에 파일을 자동으로 백업하는 메커니즘도 도입했습니다. 사람이 주의하는 것이 아니라, 시스템으로 사고를 방지하는 발상입니다.

AI 에이전트는 "우수하지만 검증과 영향 분석을 스스로는 게을리하는 신입"이라고 생각하고 운용할 때 가장 잘 맞습니다.
생산성이 진정으로 올라가는 것은, "빠르게 쓰게 하는 것"이 아니라 "검증과 영향 범위의 망라를 AI에게 시키는" 설계가 가능해졌을 때입니다.
이를 위한 자산은 화려한 자동화가 아니라, "실수의 재발 방지 규칙"을 하나씩 꾸준히 쌓아가는 것이었습니다 (저희의 경우 그것이 20개에서 105개 항목이라는 형태로 나타났습니다).

마찬가지로 AI 에이전트를 실무에 도입하려는 분들의 실패를 단 하나라도 줄일 수 있다면 좋겠습니다.

※ 본문의 수치는 당사의 실측 기록에 기반합니다.

Insights

AI 에이전트(Claude Code)를 1년 동안 '사원'으로서 실무에 사용하며 알게 된 것 ―― 자사 사이트를 12.89초에서 2.03초로

요약

핵심 포인트

댓글

GAP-GDRNet: 단일 대상 합성 우주선 데이터셋에서의 기하학 인지 단안 시각 포즈 센싱

SelectTSL: 복잡한 시나리오에서의 프롬프트 유도 선택적 타겟 음원 위치 추적

컴파일러의 최적화 누락에 대한 에이전트 기반 패칭(Patching) 이해

VisionAId: 개인화된 객체 검색 기능을 갖춘 시각 장애인을 위한 오프라인 우선 멀티모달 Android 어시스턴트

SelectTSL: 복잡한 시나리오에서의 프롬프트 유도 선택적 타겟 음원 위치 추적

컴파일러의 최적화 누락에 대한 에이전트 기반 패칭(Patching) 이해

VisionAId: 개인화된 객체 검색 기능을 갖춘 시각 장애인을 위한 오프라인 우선 멀티모달 Android 어시스턴트