X중요요약2026. 04. 26. 22:22

Anthropic, AAR로 자동 정렬 연구 속도 97% 개선

요약

Anthropic은 약한 모델과 강한 모델 간 성능 격차를 줄이는 데 성공했습니다. 인간 연구원이 7일 만에 23% 달성한 것을, Opus 4.6 기반의 자동화된 정렬 연구원(AAR)이 97%로 개선했습니다. 코딩 및 수학 작업에서도 일반화되었으며, Claude가 정렬 연구의 실험과 탐색 속도를 높일 수 있음을 입증했습니다.

핵심 포인트

인간 연구원이 7일 만에 달성한 성능 격차 축소율 23%를 AAR가 97%로 크게 개선함
AAR는 코딩과 수학 작업 모두에서 높은 성능을 보이며 일반화 가능함이 입증됨
Claude 기반 자동화 도구가 정렬 연구의 실험 및 탐색 속도를 획기적으로 높임

여기서 우리는 약한 모델과 강한 모델의 잠재력 사이의 “성능 격차”를 얼마나 줄일 수 있는지를 기준으로 성공을 측정합니다.

7일 후, 인간 연구원들은 이를 23% 줄였습니다. 그 후, 우리의 자동화된 정렬 연구원들—Opus 4.6에 추가 도구를 더한 것—이 이를 97% 줄였습니다.

AAR들의 방법들의 더 넓은 유용성을 테스트하기 위해, 우리는 AAR들이 이전에 보지 못했던 두 데이터셋에서 그 방법들이 얼마나 잘 작동하는지를 평가했습니다.

AAR들의 최고 성능을 발휘한 방법은 코딩과 수학 작업 모두에 성공적으로 일반화되었지만, 그들의 두 번째로 좋은 방법은 수학에만

AI models aren’t yet general-purpose alignment scientists. Progress isn't as easy to verify on most alignment research tasks: our AARs would find “fuzzier” research much harder.

But our experiment does show that Claude can increase the rate of experimentation and exploration.

이 연구의 다른 함의와 함께 이 주제를 우리 블로그에서 논의합니다:
https://
anthropic.com/research/autom
ated-alignment-researchers
…
전체 연구를 보려면 여기를 참조하세요:
https://
alignment.anthropic.com/2026/automated
-w2s-researcher/
…

AI 자동 생성 콘텐츠

원문 바로가기

Anthropic, AAR로 자동 정렬 연구 속도 97% 개선

요약

핵심 포인트

댓글