평가(Eval)는 모든 과정의 하류에 위치하므로, 올바른 지표를 최적화하는 데 시간을 쓰고 있는지 결정합니다.
요약
학계와 산업계의 AI 평가(Eval) 방식 차이를 분석합니다. 학계는 벤치마크 일관성에 집중하는 반면, 산업계는 고객 피드백을 반영하여 실질적인 지표를 최적화하는 데 주력합니다.
핵심 포인트
- 평가는 최적화 방향을 결정하는 핵심적인 하류 과정임
- 학계는 기존 벤치마크 유지와 비교의 용이성을 중시함
- 산업계는 고객 피드백을 통해 롱테일 사례를 반영함
- 실질적 변화를 위해서는 올바른 평가 세트 구축이 필수적임
평가(Eval)는 모든 과정의 하류(downstream)에 위치하므로, 당신이 올바른 지표를 최적화하는 데 시간을 쓰고 있는지를 결정합니다.
현재 학계와 산업계 AI 연구소 사이의 격차는 평가(eval)에 대한 태도에서 나타납니다.
학계에서는 다음의 이유로 평가 세트(eval set)를 변경하기가 매우 어렵습니다. a) 왜 당신의 평가 방식이 더 나은지 설명해야 하며, b) 새로운 평가 방식으로 인용한 연구들과 벤치마크(benchmark)를 수행하여 당신의 연구가 더 우수함을 보여줘야 하기 때문입니다.
a와 b를 동시에 수행하는 것은, 설령 a를 잘 수행하고 있더라도 위험한 반박(rebuttal)을 초래할 수 있습니다. 모두가 합의한 평가 세트를 대상으로 벤치마크를 수행하는 것이 훨씬 더 쉽습니다.
대조적으로, 산업계 AI 연구소에서는 고객의 피드백이 평가 세트(eval set)가 되며, 이는 박사 과정 수년 동안 결코 생각할 수 없었던 롱테일(long tail)을 포괄하기 위해 계속해서 변화합니다.
만약 손실 함수(loss functions)가 고객 피드백을 잘 대변하는 대리 지표(proxy)가 되지 못한다면, 두 가지가 일치할 때까지 손실 함수를 변경합니다.
따라서 학계는 산을 오르는 것(hill climbing)에는 매우 능숙하지만, 까다로운 실제 사례를 포착하는 평가 세트(eval set)를 구축하는 데는 경험이 부족한 학생들을 양성할 수도 있습니다. 실질적인 변화를 만들어내기 위해서는 올바른 평가 세트를 구축하는 것이 가장 중요합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X 토픽: Benchmark의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기