HN요약2026. 05. 15. 17:59

Launch HN: Vellum (YC W23) – LLM 앱을 위한 개발 플랫폼

요약

Vellum은 OpenAI의 GPT-3나 Anthropic의 Claude 같은 LLM을 기반으로 애플리케이션을 구축할 수 있도록 설계된 개발자 플랫폼입니다. 이 플랫폼은 프롬프트 엔지니어링, 시맨틱 검색, 성능 모니터링, 파인튜닝 등 LLM 앱 개발 과정에서 발생하는 네 가지 주요 고충(Pain Points)을 해결하는 데 중점을 둡니다. 개발팀이 핵심 제품에 집중할 수 있도록, Vellum은 프로토타입을 실제 운영 환경(Production)으로 전환하고 관리하는 데 필요한 복잡한 인프라 구축 과정을 단순화합니다.

핵심 포인트

LLM 기반 앱 개발의 네 가지 주요 고충: 프롬프트 엔지니어링의 비효율성, 시맨틱 검색을 위한 복잡한 벡터 데이터베이스 구축, 프로덕션 환경에서의 제한적인 관측성(Observability), 그리고 재학습 및 평가를 위한 자동화 파이프라인 부재.
Vellum은 Playground 기능을 통해 프롬프트 변체, 테스트 케이스 등을 한 곳에서 반복적으로 검증하고 관리할 수 있는 UI를 제공합니다.
시맨틱 검색 기능은 사용자가 텍스트 코퍼스를 업로드하면 자동으로 임베딩을 생성하고 벡터 데이터베이스에 저장하여 복잡한 인프라 구축 과정을 간소화합니다.
이 플랫폼은 개발자들이 프로토타입 단계를 넘어 실제 운영 환경에서 LLM 기능을 안정적으로 배포하고 개선할 수 있도록 지원합니다.

안녕하세요 HN – Noa, Akash, 그리고 Sidd입니다. 저희는 OpenAI의 GPT-3나 Anthropic의 Claude와 같은 LLM (Large Language Models)을 기반으로 구축할 수 있는 개발자 플랫폼인 Vellum (https://www.vellum.ai)을 만들고 있습니다. 저희는 효율적인 프롬프트 엔지니어링 (Prompt Engineering), 시맨틱 검색 (Semantic Search), 성능 모니터링 (Performance Monitoring), 그리고 파인튜닝 (Fine-tuning)을 위한 도구를 제공하여, LLM 기반 기능을 프로토타입에서 프로덕션 (Production) 단계로 전환할 수 있도록 돕습니다.

전통적인 ML (Machine Learning, 일반적으로 사내에서 호스팅되는 오픈 소스 모델)을 위한 MLOps (Machine Learning Operations) 산업은 빠르게 성숙했지만, LLM을 사용하는 기업들은 실험 (Experimentation), 버전 관리 (Version Control), 모니터링 (Monitoring) 등을 지원할 도구의 부족으로 어려움을 겪고 있습니다. 이들은 이러한 도구들을 직접 구축해야만 하며, 이로 인해 핵심 제품에 집중해야 할 귀중한 엔지니어링 시간을 빼앗기고 있습니다.

여기에는 4가지 주요 페인 포인트 (Pain Points)가 있습니다. (1) 프롬프트 엔지니어링 (Prompt Engineering)은 지루하고 시간이 많이 소요됩니다. 사람들은 개별 모델 제공업체의 플레이그라운드 (Playground)에서 프롬프트를 반복 수정하고, 그 결과를 스프레드시트나 문서에 저장합니다. 프롬프트 엔지니어링의 수동적인 특성 때문에 많은 테스트 케이스를 통한 테스트는 대개 이루어지지 않습니다. (2) 시맨틱 검색 (Semantic Search) 없이는 텍스트 코퍼스 (Corpus)에 대한 LLM 호출이 불가능합니다. 제한된 컨텍스트 윈도우 (Context Window) 때문에, LLM이 문서 세트에서 사실적 데이터를 반환해야 할 때마다 기업들은 임베딩 (Embeddings)을 생성하고, 이를 벡터 데이터베이스 (Vector Database)에 저장하며, 런타임 (Runtime)에 관련 결과를 쿼리하기 위한 시맨틱 검색 모델을 호스팅해야 합니다. 이러한 인프라를 구축하는 것은 복잡하고 시간이 많이 걸립니다. (3) LLM이 프로덕션 (Production)에서 사용될 때 관측성 (Observability) / 모니터링 (Monitoring)이 제한적입니다. 성능에 대한 기준점 (Baseline)이 없기 때문에, 성능을 악화시킬지도 모른다는 두려움 때문에 변경 사항을 적용하는 것이 무섭습니다. (4) 잠재적인 이점(더 높은 품질, 더 낮은 비용, 더 낮은 지연 시간, 더 높은 방어력)에도 불구하고, 파인튜닝 (Fine-tuned)된 모델을 생성하고 새로운 데이터가 사용 가능해짐에 따라 이를 재학습시키는 일은 거의 이루어지지 않습니다. 기업들은 일반적으로 고품질 학습 데이터를 수집하고 새로운 모델을 재학습 및 평가하는 데 사용되는 자동화 파이프라인 (Automation Pipelines)을 위한 인프라를 구축할 역량이 부족합니다.

우리는 경험을 통해 이러한 고충(pain points)을 잘 알고 있습니다. Sidd와 Noa는 Quora와 DataRobot에서 ML 툴링 (ML tooling)을 구축했던 엔지니어들입니다. 그 후 우리 세 명은 Dover (YC S19)에서 몇 년간 함께 일하며, GPT-3가 아직 베타 버전이었을 때 이를 활용한 기능들을 구축했습니다. 우리의 첫 번째 프로덕션 (production) 기능은 직무 기술서 작성기였으며, 이어서 개인화된 채용 이메일 생성기, 그리고 이메일 응답 분류기 (classifier)를 개발했습니다.

프로토타입 (prototype)을 만드는 것은 충분히 쉬웠지만, 기능을 프로덕션으로 가져가고 이를 개선하는 것은 전혀 다른 이야기였습니다. 우리가 어떤 프롬프트 (prompts)를 시도했는지 추적하고, 실제 사용자 입력 하에서 프롬프트가 어떻게 작동하는지 모니터링하는 것은 매우 고통스러운 일이었습니다. 우리는 프롬프트의 버전 관리 (version control)를 하고, 롤백 (roll back)을 하며, 심지어 A/B 테스트까지 할 수 있기를 바랐습니다. 우리는 핵심 기능과는 상관없는 인프라 (infrastructure) (예: 시맨틱 검색 (semantic search))에 투자하고 있는 자신들을 발견했습니다. 결국 우리는 기존의 동작을 망가뜨릴까 두려워 프롬프트를 변경하거나 다른 모델을 시도하는 것을 겁내게 되었습니다. 새로운 LLM 제공업체와 파운데이션 모델 (foundation models)이 출시될 때마다, 우리는 그것들을 비교하고 작업에 가장 적합한 도구를 사용하고 싶었지만, 직접 평가할 시간이 없었습니다. 이와 같은 문제들이 계속되었습니다.

기업들이 LLM을 대규모로 도입하기 위해서는 더 나은 도구들이 필요하다는 점은 명확하며, 우리는 우리가 이를 구축하기에 좋은 위치에 있다는 것을 깨달았습니다. 그래서 우리가 여기 있습니다! Vellum은 위에서 언급한 고충들을 해결하기 위해 4가지 시스템으로 구성됩니다:

(1) Playground—프롬프트를 나란히 놓고 반복 작업(iterating)하며, 동시에 여러 테스트 케이스 (test cases)를 통해 검증할 수 있는 UI입니다. 프롬프트 변체 (variants)는 텍스트, 기반 모델 (underlying model), 모델 파라미터 (model parameters) (예: "temperature"), 그리고 심지어 LLM 제공업체까지 다를 수 있습니다. 각 실행 결과는 히스토리 항목으로 저장되며, 팀원들과 공유할 수 있는 영구적인 URL을 가집니다.

(2) Search(검색)—저희 UI에 텍스트 코퍼스(예: 회사의 도움말 문서, PDF/TXT 형식)를 업로드하면, Vellum이 해당 텍스트를 임베딩(embeddings)으로 변환하고 이를 벡터 데이터베이스(vector database)에 저장하여 런타임(run time)에 사용할 수 있도록 합니다. LLM 호출 시, 저희는 문서에서 관련된 컨텍스트(context)를 쿼리에 주입하고, LLM이 제공된 컨텍스트만을 사용하여 사실에 기반해 답변하도록 지시합니다. 이는 환각(hallucination) 현상을 방지하며, 사용자가 직접 임베딩, 벡터 스토어(vector store), 시맨틱 검색(semantic search) 인프라를 관리해야 하는 번거로움을 없애줍니다.

(3) Manage(관리)—OpenAI, Cohere, Anthropic(추후 추가 예정) 등 제공업체에 구애받지 않는(provider-agnostic), 저지연(low-latency) 및 고신뢰성 API 래퍼(wrapper)입니다. 모든 요청은 한 곳에 캡처되어 영구 저장되므로, 모델에 무엇을 보내고 있는지, 모델이 무엇을 반환하는지, 그리고 성능은 어떠한지에 대해 완전한 관측성(observability)을 제공합니다. 프롬프트(Prompts)와 모델 제공업체는 코드 변경 없이 업데이트할 수 있습니다. 과거의 요청을 다시 재생(replay)할 수 있으며 버전 히스토리도 유지됩니다. 이는 메트릭(metrics), 모니터링(monitoring), 그리고 곧 추가될 알림(alerting)을 위한 데이터 레이어(data layer) 역할을 합니다.

(4) Optimize(최적화)—Manage에서 수집된 데이터는 학습 데이터를 수동적으로 구축하는 데 사용되며, 이는 귀하의 독자적인 모델을 미세 조정(fine-tune)하는 데 사용될 수 있습니다. 충분한 양의 고품질 입출력 쌍(최소 100개, 사용 사례에 따라 다름)이 확보되면, Vellum은 더 나은 품질, 더 낮은 비용 또는 더 낮은 지연 시간을 제공하는 미세 조정된 모델을 생성할 수 있습니다. 새로운 모델이 문제를 더 잘 해결한다면, 코드 변경 없이 교체할 수 있습니다.

저희는 또한 대안 모델들에 대한 정기적인 평가(evaluation) 서비스도 제공합니다(예: Curie를 미세 조정했을 때 Davinci와 유사한 품질의 결과를 내면서도 더 낮은 가격에 제공하는지 확인할 수 있습니다). 현재는 OpenAI가 지배적인 모델 제공업체이지만, 앞으로 강력한 파운데이션 모델(foundation models)을 가진 많은 제공업체가 등장할 것으로 예상하며, 그 경우 모델 상호 운용성(interoperability)이 핵심이 될 것입니다!

Vellum을 보여주는 비디오 데모는 여기 있습니다(1.5배속으로 편하게 시청하세요!): https://www.loom.com/share/5dbdb8ae87bb4a419ade05d92993e5a0.

현재 저희는 사용 사례의 양과 복잡성에 따라 달라지는 고정 월 플랫폼 수수료를 부과하고 있습니다. 향후에는 고정 플랫폼 수수료 + 일부 사용량 기반 구성 요소(예: 사용된 토큰 수 또는 요청 횟수)로 이루어진, 더욱 투명한 가격 책정을 계획하고 있습니다.

저희 웹사이트를 보시면 'Try now' 대신 무서운 'Request early access'라는 문구를 발견하실 겁니다. 이는 현재 LLM Ops 분야가 매우 빠르게 진화하고 있기 때문입니다. 저희의 학습 속도(learning rate)를 최대화하기 위해, 몇몇 초기 고객들과 집중적으로 협력하여 그들의 AI 사용 사례를 프로덕션 환경에 도입하는 데 도움을 받아야 합니다. 핵심 기능 세트가 조금 더 안정화되면 셀프 서비스 가입을 초대할 예정입니다. 그동안 저희의 초기 고객이 될 것에 관심이 있으시다면, 여러분의 의견을 듣고 싶습니다. 여기에서 조기 액세스를 요청하실 수 있습니다: https://www.vellum.ai/landing-pages/hacker-news.

저희는 HN 커뮤니티의 전문성을 깊이 높이 평가합니다! 저희가 목표로 하는 전반적인 방향, 해결하고자 하는 문제점, 현재까지의 솔루션, 그리고 우리가 놓치고 있을 수 있는 모든 것에 대한 여러분의 코멘트와 관점을 듣고 싶습니다. 이 게시물과 데모 비디오가 좋은 대화를 시작할 충분한 자료를 제공하기를 바라며, 여러분의 생각, 질문, 피드백을 기대합니다!

AI 자동 생성 콘텐츠

원문 바로가기

Launch HN: Vellum (YC W23) – LLM 앱을 위한 개발 플랫폼

요약

핵심 포인트

댓글