Show HN: Relari – 파인튜닝 (Finetuning)의 가벼운 대안으로서의 자동 프롬프트 최적화 도구 (Auto Prompt
요약
Relari는 LLM 파인튜닝(fine-tuning)의 대안으로 자동 프롬프트 최적화 도구를 소개합니다. 이 도구는 데이터셋과 타겟 메트릭을 기반으로 초기 프롬프트를 반복적으로 변이시키고 개선하여, 특정 도메인 작업에 맞는 고품질의 프롬프트를 자동으로 생성합니다. Relari는 기존 프롬프트 엔지니어링 방식의 비효율성과 낮은 투명성을 해결하며, 사용자가 데이터 기반 접근을 통해 LLM 성능을 쉽게 최적화할 수 있도록 돕습니다.
핵심 포인트
- 자동 프롬프트 최적화 도구(Auto Prompt Optimizer)를 통해 LLM 성능 개선이 가능합니다.
- 도메인 특화 작업에 맞춰 데이터를 활용하여 프롬프트를 반복적으로 변이시키고 최적화합니다.
- 최적화 과정과 최종 결과에 대한 높은 가시성을 제공하여 신뢰도를 높였습니다.
- 사용자는 데이터셋(예: 100개 포인트)과 타겟 메트릭을 입력하여 고품질의 프롬프트를 얻을 수 있습니다.
- 향후 Prompt Chaining 및 Agent Tool Call 같은 고급 기능 지원을 계획하고 있습니다.
안녕하세요 HN, 저희는 Relari (https://www.relari.ai)의 창립자들입니다. 몇 달 전 HN에 저희의 LLM 평가 스택 (https://news.ycombinator.com/item?id=39641105)을 출시했으며, 이는 현재 Vanta 및 PwC와 같은 기업의 AI 팀들에 의해 프로덕션 환경에서 사용되고 있습니다. 이후 저희는 데이터 기반 접근 방식 (data-driven approach)을 사용하여 LLM 파이프라인 (pipeline)의 일부를 직접 최적화하는 방향으로 확장했습니다. 특히, 저희는 데이터 (data)를 사용하여 도메인 특화 작업 (domain-specific tasks)에 맞춰 LLM을 정렬 (align)하는 데 있어, 많은 경우 파인튜닝 (fine-tuning)의 매력적인 대안이 될 수 있는 자동 프롬프트 최적화 (Auto Prompt Optimization)의 잠재력을 크게 보고 있습니다.
데모 영상은 여기 있습니다: https://www.loom.com/share/4ad30bf1053e46a3846fc5a07495c486
저희가 자동 프롬프트 최적화 도구를 만들기 시작한 이유는 다양한 사용 사례 (use cases)와 모델 (models)에 걸쳐 프롬프트 (prompts)를 개발, 반복 (iterating), 그리고 유지 관리하는 과정에서 느꼈던 자체적인 좌절감 때문이었습니다. 기반이 되는 LLM의 사소한 업데이트, 사용자 요구 사항의 변경, 또는 애플리케이션 인프라 (application infrastructure)의 변화는 정성스럽게 작성된 프롬프트를 무용지물로 만들 수 있습니다. 한 사용자가 표현했듯이, “프롬프트 엔지니어링 (Prompt engineering)은 소프트웨어 엔지니어링 (software engineering)이 아니라, 막연한 바람 (wishful thinking)일 뿐입니다.”
저희는 DSPy나 TextGrad와 같은 프롬프트 최적화 도구들을 시도해 보았지만, 이러한 도구들은 새로운 프레임워크 (frameworks)를 채택해야 하고, 맞춤형 지표 (custom metrics)를 처음부터 직접 만들어야 하며, 최적화 과정 (optimization process) (또는 최종적으로 최적화된 프롬프트 자체)에 대한 가시성 (visibility)이 제한적이라는 점을 깨달았습니다. 이러한 투명성 (transparency)의 부족으로 인해, 저희는 새로운 프롬프트가 진정으로 더 나은 것인지 아니면 그저 달라진 것뿐인지 추측할 수밖에 없었습니다.
저희의 Auto Prompt Optimizer (자동 프롬프트 최적화 도구)는 최적화 과정과 최종 결과에 대한 최대의 가시성을 제공하면서도, 사용하기 쉬우면서도 강력한 대안이 되는 것을 목표로 합니다. 이 도구는 두 가지 입력을 받습니다: 특정 LLM (Large Language Model) 태스크를 위한 입력값과 예상 출력값이 포함된 데이터셋, 그리고 타겟 메트릭 (Target Metric, 저희는 30개 이상의 기본 제공 메트릭을 보유하고 있습니다). 그런 다음 최적화 도구는 사용자의 초기 프롬프트에서 시작하여, 데이터셋을 사용하여 LLM의 출력을 사용자가 원하는 결과에 맞게 조정합니다. 이 과정은 타겟 메트릭의 피드백을 바탕으로 프롬프트를 변이(Mutating)시키며 반복적으로 수행됩니다. 최적화 도구는 데이터셋에서 예시를 자동으로 선택하여 퓨샷 프롬프트 (Few-shot Prompt)를 생성하며, 적절한 경우 생각의 사슬 (Chain of Thought)과 같은 일반적인 기법들을 적용합니다.
다음은 초기 프롬프트, 새로운 프롬프트의 각 버전, 그리고 타겟 메트릭에 대한 성능을 포함한 결과의 두 가지 예시입니다.
-
약물 리뷰 프롬프트 (Drug Review Prompt): https://app.relari.ai/demo/prompt/drug-review (최적화 도구가 상세한 평가 루브릭 (Rating Rubric)과 예외 케이스 처리 (Corner Case Handling)를 포함한 정교한 지침을 생성한 비표준 태스크)
-
요약 프롬프트 (Summarization Prompt): https://app.relari.ai/demo/prompt/cnn-highlights (최적화 도구가 스타일링에 대한 더 직관적인 지침을 추가한 간단한 태스크)
저희는 프롬프트 최적화 도구가 LLM을 특정 도메인 태스크에 적응시키기 위한 가볍고 실용적인 대안이라고 생각합니다. 이 도구는 단 100개의 데이터 포인트만으로도 고품질의 프롬프트를 제공할 수 있습니다.
직접 체험해 보세요 (https://app.relari.ai/). 데이터셋을 업로드하거나 간단한 합성 데이터셋 (Synthetic Dataset)을 생성하여 최적화 프로세스를 시작할 수 있습니다. 최소 30개 이상의 샘플이 포함된 데이터셋을 사용하는 것을 권장합니다. 최적화 프로세스는 데이터셋의 크기와 메트릭에 따라 최대 한 시간까지 소요될 수 있으므로, 각 최적화 실행을 추적할 수 있도록 계정을 생성해 주시기를 부탁드립니다. 최적화가 완료되면 이메일로 알림을 보내드리겠습니다.
다음 단계는 무엇인가요? 저희는 현재 프롬프트 체이닝 (Prompt Chaining) 및 에이전트 도구 호출 (Agent Tool Call) 유스케이스와 같은 더 고급 기능에 대한 지원을 작업 중입니다. 파워 유저를 위해, 가장 복잡한 유스케이스를 해결할 수 있는 커스텀 메트릭 (Custom Metrics) 및 다중 목적 최적화 (Multi-objective Optimization)를 제공할 예정입니다.
프롬프트 엔지니어링 (Prompt Engineering)에서 가장 큰 어려움은 무엇이었나요? 데이터셋 기반 (Dataset-driven) 접근 방식이 귀하의 프롬프트 워크플로우를 개선할 수 있을까요? 저희의 접근 방식에 대한 귀하의 생각과 피드백을 듣고 싶습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 HN Show HN (AI)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기