하나의 최적 모델을 찾으려 하기보다 여러 모델에 작업을 분산시키니 훨씬 수월해졌다

지난 몇 달 동안 최고의 모델을 찾기 위해 노력했습니다. 엄청나게 많은 벤치마크를 읽었고, 몇 주마다 제 환경 설정을 바꿨습니다. 제가 하나를 선택하고 몰두할 때마다, 작업의 특정 부분에서 그 모델이 부족한 약점을 발견하게 되었습니다.

결국 단 하나의 최고의 모델은 없다는 것을 인정해야 했습니다. 그래서 작업을 과제별로 여러 모델에 분산시키기 시작했고, 훨씬 쉬워졌습니다.

Flash V4는 빠르고 간단한 작업들을 처리합니다. 보일러플레이트 코드나 일회성 스크립트 같은 것들이요. 가격이 충분히 저렴해서 신경 쓸 필요가 없습니다. 실제 구축 작업 대부분은 이제 glm-5.1을 통해 진행되는데, 주로 백엔드 관련 작업이며 세션이 길어질 때 관대한 사용량 제한(limits)이라는 점이 매우 중요합니다. 다만 디버깅 과정에서 너무 깊게 생각하는 경향이 있어 가끔 짜증 날 때가 있습니다.

Opus 4.6은 어려운 작업, 복잡하게 얽힌 다중 파일 추론이나 오랫동안 붙들고 있던 프로덕션 버그를 해결할 때 사용합니다. 이 부분에서의 성능 차이는 확실히 느껴집니다. Kimi 2.6도 간단한 질문을 처리하기 위해 활용하는데, 빠르고 단순한 문제에 대해 반복(loop)하지 않는다는 장점이 있습니다.

단점은 설정이 더 번거롭다는 것입니다. 여러 구독 서비스를 관리해야 하고, 모델 간 컨텍스트가 전달되지 않기 때문에 작업을 시작하기 전에 어떤 모델이 적합한지 실제로 결정해야 합니다. 하지만 매일 하나의 모델의 약점을 고치려고 애쓰는 것보다는 나았습니다.

재미있는 점은, 여러 플랜을 사용하면서 오히려 총 지출액이 줄었다는 것입니다. 예전에는 그 정도의 성능(horsepower)이 필요하지 않은 작업에 Opus 크레딧을 너무 많이 소모하고 있었는데, 그렇게 하는 것을 멈추고 나서야 깨달았습니다.

Insights

하나의 최적 모델을 찾으려 하기보다 여러 모델에 작업을 분산시키니 훨씬 수월해졌다

요약

핵심 포인트

댓글

Daytona와 Deep Agents를 사용하여 스레드 범위의 AI 데이터 과학 샌드박스 구축하기

AI 인프라가 가상화 통합 사이클을 반복하고 있는 이유

이번 주 스테이블코인 수익률 리더보드에 새로운 선두가 등장했습니다.

디지털 대출 마켓플레이스를 구축하며 개발자가 배울 수 있는 점

Daytona와 Deep Agents를 사용하여 스레드 범위의 AI 데이터 과학 샌드박스 구축하기

AI 인프라가 가상화 통합 사이클을 반복하고 있는 이유

이번 주 스테이블코인 수익률 리더보드에 새로운 선두가 등장했습니다.

디지털 대출 마켓플레이스를 구축하며 개발자가 배울 수 있는 점