팔로우할 만한 몇몇 AI 평가 (evals) 연구소 및 빌더들:
요약
AI 모델의 성능, 안전성, 일반화 능력을 측정하기 위해 주목해야 할 주요 연구소와 빌더들을 소개합니다. 프런티어 모델의 위험성 테스트부터 에이전트의 보안 및 엔터프라이즈 환경을 위한 평가 도구까지 다양한 사례를 다룹니다.
핵심 포인트
- 모델의 자율적 위험성과 일반화 능력을 측정하는 벤치마크 연구
- 전략적 기만 및 레드팀 활동을 통한 모델 안전성 검증
- 엔터프라이즈 에이전트를 위한 환각 및 컴플라이언스 평가
- 운영 데이터를 활용한 제품 사양으로서의 평가(Evals) 중요성
팔로우할 만한 몇몇 AI 평가 (evals) 연구소 및 빌더들:
@METR_Evals (@BethMayBarnes)
불편한 질문에 대한 독립적인 평가 (evals): 프런티어 모델 (frontier models)이 실제로 위험한 자율적 작업을 수행할 수 있는가, 아니면 우리가 주로 시험 치는 능력만을 측정하고 있는가?
@arcprize (@fchollet, @mikeknoop)
모델이 "인터넷 데이터를 많이 학습했다"는 점과 실제 일반화 (generalization) 능력을 구분하고자 할 때 사람들이 인용하는 벤치마크 (benchmark).
@apolloaievals (@MariusHobbhahn)
모의 계획 (scheming), 전략적 기만 (strategic deception), 그리고 모델이 자신이 평가받고 있다는 사실을 깨달았을 때 다르게 행동하는지 여부를 테스트함.
@haizelabs (@leonardtang_, @josephsemrai)
모델과 에이전트 (agents)를 위한 자동화된 레드팀 (red-teaming). 기본적으로 퍼징 (fuzzing)과 유사하지만, 버그가 당신과 협상할 수 있다는 점이 다름.
@arena (@istoica05, @ml_angelopoulos)
인터넷 규모의 인간 선호도 평가 (human preference evals). 모든 새로운 모델이 잠시 동안 세계 최고의 대화 상대가 되는 곳.
@ArtificialAnlys (@_micah_h, @grmcameron)
배포 전 사람들이 실제로 사용하는 점수판: 품질 (quality), 지연 시간 (latency), 가격 (price), 그리고 점점 더 중요해지는 에이전트 능력 (agent capability).
@PatronusAI (@anandnk24)
엔터프라이즈 에이전트 (enterprise agents)를 위한 시뮬레이션된 사용자 및 적대적 평가 (adversarial evals) — 단 한 번의 자신감 넘치는 환각 (hallucination)이 컴플라이언스 (compliance) 문제가 될 수 있는 영역.
@giskard_ai (@alex_combessie, @jeanmarie_johnm)
프롬프트 주입 (prompt injection), 데이터 유출 (data leaks), 환각 (hallucinations), 그리고 데모가 사고로 변할 수 있는 모든 다른 방식들에 대한 에이전트 (agent) 지속 테스트.
@confident_ai (@jeffr_yyy)
DeepEval 팀. LLM 회귀 (regressions)를 일반적인 CI 실패처럼 취급하기 위한 오픈 소스 우선 (open-source-first) 툴링.
@braintrust (@ankrgyl)
"평가 (evals)는 제품 사양 (product specs)이다"라는 주장에 대한 가장 강력한 근거: 실제 운영 트레이스 (production traces)를 데이터셋으로 변환하여, 느낌 (vibes)에 의존해 제품을 출시하는 것을 중단함.
전부는 아닙 - 제가 놓친 팀이 있다면 댓글로 추가해 주세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 X 토픽: Benchmark의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기