LangChain 2024 AI 상태 보고서

LLM (Large Language Models)으로 무언가를 구축하는 또 다른 한 해가 끝나가고 있으며, 2024년은 실망시키지 않았습니다. 매달 거의 3만 명의 사용자가 LangSmith에 가입함에 따라, 저희는 업계에서 일어나고 있는 일들을 가장 가까이서 지켜볼 수 있는 행운을 누리고 있습니다.

작년에 했던 것처럼, 저희는 AI 생태계와 LLM 앱을 구축하는 관행이 어떻게 진화하고 있는지를 보여주는 몇 가지 제품 사용 패턴을 공유하고자 합니다. 사람들이 LangSmith를 통해 추적(trace), 평가(evaluate), 반복(iterate)하는 과정을 거치면서, 저희는 몇 가지 주목할 만한 변화를 목격했습니다. 여기에는 오픈 소스 모델(open-source model) 채택의 급격한 증가와, 주로 검색(retrieval) 중심의 워크플로에서 다단계 에이전트 워크플로(multi-step, agentic workflows)를 갖춘 AI 에이전트 애플리케이션으로의 전환이 포함됩니다.

개발자들이 정확히 무엇을 구축하고, 테스트하며, 우선순위를 두고 있는지 아래 통계를 통해 확인해 보십시오.

인프라 사용 현황 (Infrastructure usage)

LLM (Large Language Models)이 세상을 집어삼키고 있는 상황에서, 모두가 거울 속의 질문을 던지고 있습니다: "과연 어떤 모델이 가장 많이 사용되고 있는가?" 저희가 확인한 내용을 풀어보겠습니다.

주요 LLM 제공업체 (Top LLM providers)

작년 결과와 마찬가지로, OpenAI는 LangSmith 사용자들 사이에서 가장 많이 사용되는 LLM 제공업체로 군림하고 있습니다. (LangSmith 조직 사용량 기준) 이는 그다음으로 인기 있는 제공업체인 Ollama보다 6배 이상 많이 사용되었습니다.

흥미롭게도, Ollama와 Groq(둘 다 사용자가 오픈 소스 모델을 실행할 수 있게 하며, 전자는 로컬 실행에, 후자는 클라우드 배포에 집중함)는 올해 성장세가 가속화되어 상위 5위 안에 진입했습니다. 이는 더 유연한 배포 옵션과 맞춤형 AI 인프라에 대한 관심이 높아지고 있음을 보여줍니다.

오픈 소스 모델을 제공하는 업체들의 경우, 상위 제공업체들은 작년과 비교했을 때 비교적 일관된 모습을 유지했습니다. Ollama, Mistral, 그리고 Hugging Face는 개발자들이 자신들의 플랫폼에서 오픈 소스 모델을 쉽게 실행할 수 있도록 지원해 왔습니다. 이러한 OSS (Open Source Software) 제공업체들의 총 사용량은 상위 20개 LLM 제공업체(사용 조직 수 기준) 중 **20%**를 차지합니다.

주요 검색기 / 벡터 스토어 (Top Retrievers / Vector Stores)

검색(Retrieval)을 수행하는 것은 여전히 많은 생성형 AI (GenAI) 워크플로우에서 매우 중요합니다. 상위 3개의 벡터 스토어 (Vector Stores)는 작년과 동일하게 유지되었으며, Chroma와 FAISS가 가장 인기 있는 선택지로 나타났습니다. 올해는 Milvus, MongoDB, 그리고 Elastic의 벡터 데이터베이스 (Vector Databases)가 상위 10위권 내에 진입했습니다.

LangChain 제품을 활용한 구축

개발자들이 생성형 AI (Generative AI)를 활용하는 경험이 쌓이면서, 더욱 역동적인 애플리케이션을 구축하고 있습니다. 워크플로우의 정교함이 증가하는 것부터 AI 에이전트 (AI Agents)의 부상에 이르기까지, 우리는 혁신의 생태계가 진화하고 있음을 보여주는 몇 가지 트렌드를 목격하고 있습니다.

관찰 가능성 (Observability)는 LangChain 애플리케이션에 국한되지 않습니다

langchain (우리의 오픈 소스 프레임워크)이 많은 이들의 LLM 애플리케이션 개발 여정의 중심에 있지만, 올해 LangSmith 트레이스 (Traces)의 **15.7%**는 non-langchain 프레임워크에서 발생했습니다. 이는 LLM 애플리케이션을 구축할 때 어떤 프레임워크를 사용하든 관찰 가능성 (Observability)이 필요하다는 더 넓은 트렌드를 반영하며, LangSmith가 이러한 상호 운용성 (Interoperability)을 지원하고 있음을 보여줍니다.

Python이 지배적인 위치를 유지하는 가운데, JavaScript 사용량 증가

디버깅 (Debugging), 테스트 (Testing), 모니터링 (Monitoring)은 확실히 우리 Python 개발자들에게 특별한 위치를 차지하고 있으며, 사용량의 84.7%가 Python SDK에서 발생합니다. 하지만 개발자들이 웹 우선 (Web-first) 애플리케이션을 추구함에 따라 JavaScript에 대한 주목도가 눈에 띄게 높아지고 있습니다. JavaScript SDK는 올해 LangSmith 사용량의 15.3%를 차지하며, 전년 대비 3배 증가했습니다.

AI 에이전트 (AI Agents)의 영향력 확대

기업들이 다양한 산업 분야에 AI 에이전트 (AI Agents)를 도입하는 데 더욱 진지해짐에 따라, 우리의 제어 가능한 에이전트 프레임워크인 LangGraph의 채택 또한 증가하고 있습니다. 2024년 3월 출시 이후 LangGraph는 꾸준히 탄력을 받고 있으며, 현재 LangSmith 조직의 **43%**가 LangGraph 트레이스 (Traces)를 전송하고 있습니다. 이러한 트레이스는 기본적인 LLM 상호작용을 넘어선 복잡하고 오케스트레이션된 (Orchestrated) 작업들을 나타냅니다.

이러한 성장은 에이전트적 행동 (Agentic behavior)의 증가와 궤를 같이합니다. 우리는 이제 트레이스의 평균 21.9%가 도구 호출 (Tool calls)을 포함하고 있음을 확인했으며, 이는 2023년 평균 0.5%에서 크게 상승한 수치입니다. 도구 호출 (Tool calling)을 통해 모델은 함수나 외부 리소스를 자율적으로 호출할 수 있으며, 이는 모델이 언제 행동을 취할지 스스로 결정하는 더 에이전트적인 행동을 나타냅니다. 도구 호출의 사용 증가는 외부 시스템과 상호작용하고 데이터베이스에 기록하는 것과 같은 작업을 수행하는 에이전트의 능력을 향상시킬 수 있습니다.

성능 및 최적화 (Performance and optimization)

속도와 정교함 사이의 균형을 맞추는 것은 애플리케이션, 특히 LLM 리소스를 활용하는 애플리케이션을 개발할 때 핵심적인 과제입니다. 아래에서는 조직들이 요구 사항의 복잡성을 효율적인 성능과 일치시키기 위해 애플리케이션과 어떻게 상호작용하고 있는지 살펴봅니다.

복잡성은 증가하고 있지만, 작업은 효율적으로 처리되고 있습니다

트레이스당 평균 단계 (Steps) 수는 지난 1년 동안 두 배 이상 증가하여, 평균 2.8단계(2023년)에서 7.7단계(2024년)로 상승했습니다. 우리는 단계를 LLM, 리트리버 (Retriever) 또는 도구 (Tool) 호출과 같이 트레이스 내의 별개 작업으로 정의합니다. 이러한 단계의 증가는 조직들이 더욱 복잡하고 다면적인 워크플로 (Workflows)를 활용하고 있음을 나타냅니다. 사용자들이 단순한 질의응답 상호작용을 넘어, 정보를 검색하고 이를 처리하며 실행 가능한 결과를 생성하는 것과 같이 여러 작업을 체인 (Chain)으로 연결하는 시스템을 구축하고 있습니다.

이와 대조적으로, 트레이스당 평균 LLM 호출 (LLM calls) 횟수는 평균 1.1회에서 1.4회로 보다 완만하게 증가했습니다. 이는 개발자들이 비용이 많이 드는 LLM 요청을 억제하면서도 기능을 유지하며, 더 적은 LLM 호출로 더 많은 것을 달성할 수 있도록 시스템을 설계하고 있음을 보여줍니다.

LLM 테스트 및 평가 (LLM testing & evaluation)

조직들은 부정확하거나 품질이 낮은 LLM 생성 응답을 방지하기 위해 자신들의 LLM 애플리케이션을 테스트하는 데 무엇을 하고 있을까요? LLM 앱의 품질을 높게 유지하는 것은 결코 쉬운 일이 아니지만, 우리는 조직들이 LangSmith의 평가 (evaluation) 기능을 사용하여 테스트를 자동화하고, 더 견고하고 신뢰할 수 있는 애플리케이션을 만들기 위해 사용자 피드백 루프 (feedback loops)를 생성하는 것을 보고 있습니다.

LLM-as-Judge: 중요한 요소 평가하기

LLM-as-Judge 평가자는 채점 규칙을 LLM 프롬프트 (prompt)에 담아, 출력이 특정 기준을 준수하는지 점수를 매기기 위해 LLM을 사용합니다. 우리는 개발자들이 다음과 같은 특성들을 가장 많이 테스트하고 있음을 확인했습니다: 관련성 (Relevance), 정확성 (Correctness), 정확한 일치 (Exact Match), 그리고 유용성 (Helpfulness).

이는 대부분의 개발자들이 AI가 생성한 출력이 완전히 목표를 벗어나지 않도록 응답 품질에 대해 거친 검사 (coarse checks)를 수행하고 있음을 강조합니다.

인간 피드백을 통한 반복 (Iteration)

인간 피드백 (Human feedback)은 LLM 앱을 구축하는 사람들에게 반복 루프 (iteration loop)의 핵심적인 부분입니다. LangSmith는 트레이스 (traces) 및 실행 (runs, 즉 spans)에 대한 인간 피드백을 수집하고 통합하는 프로세스를 가속화하여, 사용자가 개선 및 최적화를 위한 풍부한 데이터셋을 생성할 수 있도록 돕습니다. 지난 1년 동안, 주석이 달린 실행 (annotated runs)은 18배 증가했으며, 이는 LangSmith 사용량 증가와 선형적으로 비례하며 확장되었습니다.

실행당 피드백 양 또한 실행당 2.28개에서 2.59개로 약간 증가했습니다. 그럼에도 불구하고, 실행당 피드백은 여전히 상대적으로 적은 편입니다. 사용자들이 포괄적인 피드백을 제공하는 것보다 실행을 검토하는 속도를 우선시하거나, 주의가 필요한 가장 중요하거나 문제가 있는 실행에 대해서만 의견을 남기기 때문일 수 있습니다.

결론

2024년에 개발자들은 다단계 에이전트 (multi-step agents)를 통해 복잡성에 집중했고, 더 적은 LLM 호출로 더 많은 일을 수행함으로써 효율성을 날카롭게 다듬었으며, 피드백 및 평가 방법을 사용하여 앱에 품질 검사를 추가했습니다. 더 많은 LLM 앱이 만들어짐에 따라, 우리는 사람들이 어떻게 더 스마트한 워크플로 (workflows), 더 나은 성능, 그리고 더 강력한 신뢰성을 파고드는지 지켜보는 것이 매우 기대됩니다.

LangSmith가 병목 현상 디버깅(debugging bottlenecks)부터 응답 품질 평가(evaluating response quality), 그리고 회귀 모니터링(monitoring regressions)에 이르기까지, 어떻게 LLM 앱 개발에 더 많은 가시성을 제공하고 시간이 지남에 따라 성능을 향상시킬 수 있는지에 대해 여기에서 더 자세히 알아보세요.

Insights