Launch HN: GradientJ (YC W23) – LLM을 사용하여 NLP 애플리케이션을 더 빠르게 구축하세요 - Insights | Molayo

안녕하세요 HN, 저희는 GradientJ (https://gradientj.com)의 창업자 Daniel과 Oscar입니다. GradientJ는 팀들이 대규모 언어 모델 (LLMs)을 사용하여 자연어 처리 (NLP) 애플리케이션을 개발, 테스트 및 모니터링할 수 있도록 돕는 웹 애플리케이션입니다.

GradientJ를 만들기 전, 저희는 4년 동안 BERT와 같은 트랜스포머 (transformer) 모델을 사용하여 NLP 애플리케이션을 구축해 왔습니다. LLMs와 그 제로샷 (zero-shot)/퓨샷 (few-shot) 능력의 등장과 함께, 저희는 NLP 개발 사이클이 완전히 뒤바뀌는 것을 목격했습니다. 특정 사용 사례에 맞춰 BERT 모델을 미세 조정 (fine-tune)하기 위해 데이터 라벨러 (data labeler)와 데이터 과학자 군단을 고용하는 대신, 이제 엔지니어들은 GPT-4와 같은 LLMs를 사용하여 몇 분 만에 NLP 엔드포인트 (endpoints)를 구축할 수 있습니다.

이것이 매우 강력하긴 하지만, 버전 관리 (version control), 회귀 테스트 (regression testing), 그리고 모니터링 및 A/B 테스트와 같은 지속적인 유지보수를 위한 적절한 도구가 없다면 이러한 모델들을 관리하는 것은 고통스러운 일이 됩니다. 평가되는 데이터가 종종 모호하기 때문에, 개발자들은 복잡한 텍스트 처리 정규 표현식 (regex) 파이프라인을 구축하거나 새로운 릴리스 전에 각 출력을 수동으로 평가해야만 합니다. 더욱이, 프롬프트 (prompts)가 이러한 테스트와 완전히 분리된 Notion 문서나 Google Sheet에서만 관리된다면, 성능 저하를 초래한 변경 사항이 무엇인지 식별하기 어렵습니다. 워크플로우는 모델의 새 버전이 배포하기에 "충분히 좋은지" 결정하기 위해 수동적이고 주관적인 인간 데이터 라벨링으로 퇴보하는 경우가 많습니다.

GradientJ는 이를 해결하기 위한 웹 애플리케이션이자 API입니다. 저희는 여러분이 프롬프트를 반복 개선하고, 여러 차원에 걸쳐 자동으로 회귀 테스트를 수행하며, 최종적으로 배포된 후 이를 관리할 수 있도록 지원합니다.

이러한 기능들을 구축하는 것이 꽤 간단할 것이라고 생각할 수도 있지만, 저희가 관찰한 바에 따르면 대부분의 "LLM 관리 앱 (LLM management apps)" 버전들은 이러한 구성 요소들의 워크플로우 (workflow)를 정리하는 데만 집중할 뿐, 이를 자동화하는 데 있어서는 획기적인 개선을 보여주지 못하고 있습니다. 결국 여러분은 여전히 프롬프트 (prompt)의 병렬 비교 결과를 육안 검사 (eye-ball test)를 통해 확인해야 하며, 이는 인간의 시간을 소모하는 병목 현상 (bottleneck)을 유발하는 프로세스를 만듭니다. 저희는 바로 그 기술인 자연어 처리 (NLP)를 사용함으로써, 이러한 각 단계에 필요한 개발자의 노동력을 획기적으로 줄일 수 있다고 믿습니다.

저희가 이를 구현하는 방식은 다음과 같습니다:

프롬프트 반복 개선 (prompt iteration)의 경우, 변수를 구분하기 위한 특수 구문이 포함된 단순한 텍스트 에디터 형태의 "플레이그라운드 (playground)"를 제공하는 대신, 대규모 언어 모델 (LLM)을 사용하여 프롬프트 엔지니어링 (prompt engineering)을 위한 Copilot과 같은 경험을 제공하고자 합니다. 이는 더 나은 출력을 위해 프롬프트를 재구성하는 방법을 제안할 수 있는 스마트한 LLM 어시스턴트 뒤에 프롬프트 엔지니어링의 모든 기법을 집약시킨다는 것을 의미합니다. 예를 들어, 누군가가 단순히 출력을 JSON 형식으로 받기를 원할 때, 저희는 모델이 JSON을 생성하도록 유도하기 위해 적절한 텍스트를 어디에 삽입해야 하는지 알고 있습니다. 저희의 회귀 테스트 (regression testing) API와 결합되면, 이러한 프롬프트 제안은 실제로 프롬프트 성능 저하의 특정 차원 (dimensions)을 기반으로 이루어집니다. 프롬프트의 출력이 특정 구조를 따르도록 만드는 데 필요한 변경 사항은 출력이 특정 어조 (tone)를 따르도록 만드는 데 필요한 변경 사항과는 다르다는 것이 핵심 아이디어입니다.

테스트 측면에서 보면, LLM (Large Language Models) 이전에도 표현력이 풍부한 NLP (Natural Language Processing) 모델을 위한 고품질 테스트를 구성하는 것은 역사적으로 어려운 일이었습니다. 분류 레이블 (classification labels)보다 더 복잡한 것을 비교하기 위해, 대부분의 사람들은 가공되지 않은 퍼지 문자열 비교 (fuzzy string comparisons)나 출력 간의 토큰 분포 차이 (token distribution differences)에 의존해 왔습니다. 우리는 LLM을 사용하여 회귀 테스트 (regression testing) API를 실제로 구동함으로써 자동화된 NLP 테스트를 더욱 객관적으로 만들고자 합니다. 우리는 NLP 모델을 사용하여 "구조 (structure)", "의미 (semantics)", "어조 (tone)"와 같은 사용자 정의 차원에 따라 텍text 출력 간의 비교를 제공합니다. 이는 이메일 생성 모델의 최신 버전을 배포하기 전에, 당신이 중요하게 생각하는 각각의 개별 차원에서 모델이 어느 위치에 있는지 알 수 있음을 의미합니다. 또한, 이는 당신의 프롬프트 엔지니어링 (prompt engineering)이 개발 중에 복사하여 붙여넣을 수 있는 몇 가지 예시에만 프롬프트를 과적합 (overfitting)시키는 "두더지 잡기 (whack-a-mole)" 게임이 되는 것을 방지하는 데 도움이 됩니다.

배포를 위해, 우리는 당신이 배포하기로 선택한 프롬프트의 최신 반복 버전(iteration)으로 항상 연결되는 안정적인 API를 제공합니다. 이는 API 코드를 변경할 필요 없이 무선(over-the-air)으로 업데이트를 푸시할 수 있음을 의미합니다. 동시에, 우리는 내부적으로 추론 (inference)에 사용된 버전을 추적하고 있습니다. 이를 통해 해당 데이터를 사용하여 회귀 테스트를 더욱 개선하거나, 다른 제공업체 또는 오픈 소스 모델(open source models)을 대상으로 미세 조정 (fine-tuning) 실험을 하거나, 프롬프트 성능에 대한 알림을 설정할 수 있습니다.

우리 제품의 각 구성 요소는 귀하의 나머지 NLP 인프라 구조에 따라 개별적으로 또는 모두 함께 사용할 수 있습니다.

만약 당신이 LLM을 사용하고 있으며 워크플로 (workflow)를 개선할 방법을 찾고 있거나, NLP 애플리케이션을 빠르게 구축해야 하며 전통적인 느린 데이터 레이블링 (data labeling) 프로세스를 건너뛰고 싶다면, 여러분의 피드백을 기다리겠습니다!

Insights

Launch HN: GradientJ (YC W23) – LLM을 사용하여 NLP 애플리케이션을 더 빠르게 구축하세요

요약

핵심 포인트

댓글

인지적 정렬의 비용: 왜 '거대한 역전(The Great Inversion)'이 인프라 세금인가

실용적인 우위: Chili’s가 AI 토큰 대신 강력한 WiFi와 태블릿을 선택한 이유

제로 트러스트(Zero-trust) 거버넌스 보장을 갖춘 행성 지질 조사 미션을 위한 인간 정렬 Decision Transformers

Realtek RTL8723B/RTL8723BS를 기존 RTW88 Linux 드라이버에 통합하려는 시도

인지적 정렬의 비용: 왜 '거대한 역전(The Great Inversion)'이 인프라 세금인가

실용적인 우위: Chili’s가 AI 토큰 대신 강력한 WiFi와 태블릿을 선택한 이유

제로 트러스트(Zero-trust) 거버넌스 보장을 갖춘 행성 지질 조사 미션을 위한 인간 정렬 Decision Transformers

Realtek RTL8723B/RTL8723BS를 기존 RTW88 Linux 드라이버에 통합하려는 시도