평가(evals) 가 기업의 AI 다음 장을 어떻게 주도하는가

요약

AI 기술이 광범위하게 도입되고 있지만, 많은 기업들이 기대만큼의 성과를 내지 못하는 격차에 직면해 있습니다. OpenAI는 이러한 문제를 해결하기 위해 '평가(evals)'라는 핵심 도구를 사용합니다. 평가는 AI 시스템의 성능을 측정하고 개선하여 신뢰성을 높이고 ROI를 극대화할 수 있는 측정 가능한 경로를 제공합니다. 특히, 모델 자체의 성능을 측정하는 '프론티어 평가' 외에도, 특정 비즈니스 워크플로우나 제품에 최적화된 '맥락적 평가(contextual evals)'가 중요하며, 이는 기업 리더들이 AI 도입의 성공적인 다음 장을 열 수 있도록 돕는 핵심 프레임워크를 제시합니다.

핵심 포인트

AI 시스템의 기대치와 실제 성과 사이의 격차를 해소하는 것이 현재 기업들의 주요 과제입니다.
평가(evals)는 AI 시스템이 특정 목표를 충족하는 능력을 측정하고 개선하여 신뢰성을 높이는 핵심 방법론입니다.
모델 자체 성능을 보는 '프론티어 평가'와 실제 비즈니스 환경에 적용되는 '맥락적 평가'의 차이를 이해해야 합니다.
성공적인 맥락적 평가는 단순히 기술 테스트를 넘어, 워크플로우 정의, 성공 기준 설정, 그리고 중요한 의사결정 지점 식별을 포함하는 포괄적인 프로세스입니다.

평가(evals) 가 기업의 AI 다음 장을 어떻게 주도하는가

전 세계 100 만 개 이상의 기업이 효율성 향상과 가치 창출을 위해 AI 를 활용하고 있습니다. 그러나 일부 조직은 기대했던 결과를 얻기 어려워했습니다. 이 격차의 원인은 무엇일까요?

OpenAI 에서도 우리는 야심찬 목표를 달성하기 위해 내부적으로 AI 를 활용하고 있습니다. 우리가 사용하는 핵심 도구 중 하나는 **평가(evals)**입니다. 평가는 AI 시스템이 기대치를 충족하는 능력을 측정하고 개선하는 방법입니다.

제품 요구 사항 문서와 마찬가지로, 평가는 모호한 목표와 추상적인 아이디어를 구체적이고 명시적입니다. 전략적으로 평가를 사용하면 고객-facing 제품이나 내부 도구의 규모 확장 시 신뢰성을 높이고, 고위험 오류를 줄이며, 하방 리스크에 대비할 수 있으며, 조직이 더 높은 투자 수익률 (ROI) 을 달성할 수 있는 측정 가능한 경로를 제공합니다.

OpenAI 에서 우리의 모델은 곧我们的产品이므로, 연구원들은 다양한 도메인에서 모델의 성능을 측정하기 위해 엄격한 **프론티어 평가 (frontier evals)**를 사용합니다. 프론티어 평가는 더 나은 모델을 더 빠르게 출시하는 데 도움이 되지만, 특정 비즈니스 환경에서 특정 워크플로우에서 모델이 수행되도록 보장하기 위해 필요한 모든 뉘앙스를 드러낼 수는 없습니다. 이것이 바로 내부 팀들이 특정 제품이나 내부 워크플로우 내의 성능을 평가하도록 설계된 수십 개의 **맥락적 평가 (contextual evals)**를 만들었기 때문입니다. 또한 비즈니스 리더들이 조직의 필요와 운영 환경을 고려한 맥락적 평가를 어떻게 생성할 수 있는지 배우는 것이 중요합니다.

이 글은 조직 내에서 평가를 적용하고자 하는 비즈니스 리더들을 위한 입문서입니다. 각 조직의 워크플로우나 제품에 맞게 제작된 맥락적 평가는 활발히 개발 중인 분야이며, 명확한 프로세스가 아직 등장하지 않았습니다. 따라서 이 기사는 많은 상황에서 효과가 입증된 광범위한 프레임워크를 제공합니다. 우리는 이 분야가 진화하고 특정 비즈니스 컨텍스트와 목표를 해결하는 더 많은 프레임워크가 등장할 것으로 기대합니다. 예를 들어, 최첨단 AI 기반 소비자 제품에 대한 훌륭한 평가는 표준 운영 절차 (SOP) 를 기반으로 하는 내부 자동화에 대한 평가와는 다른 프로세스가 필요할 수 있습니다. 우리는 아래에 제시된 프레임워크가 두 경우 모두에서 모범 사례의 집합으로 기능하며, 조직의 필요에 맞는 평가를 구축하는 데 유용한 가이드가 될 것이라고 믿습니다.

작고 권한을 부여받은 팀으로 시작하여 AI 시스템의 목적을 평이한 용어로 적어보세요. 예를 들어: "브랜드 정체성을 유지하면서 자격을 갖춘 입사 이메일을 예약된 데모로 변환합니다."

이 팀은 기술적 전문성과 도메인 전문성을 가진 개인의 혼합체여야 합니다 (예시에서는 영업 전문가가 팀에 포함되어야 함). 그들은 측정해야 할 가장 중요한 결과물을 명시하고, 워크플로우를 종단 간 (end-to-end) 으로 개요화하며, AI 시스템이 마주칠 각 중요한 의사결정 지점을 식별할 수 있어야 합니다. 해당 워크플로우의 각 단계마다 팀은 성공의 기준과 피해야 할 사항을 정의해야 합니다. 이 프로세스는 수십 개의 예시 입력 (예: 입사 이메일) 에서 출력으로 이어지는 매핑을 생성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

평가(evals) 가 기업의 AI 다음 장을 어떻게 주도하는가

요약

핵심 포인트

평가(evals) 가 기업의 AI 다음 장을 어떻게 주도하는가

댓글