AI가 앞에서는 착한 척 답변하면서 뒤로는 딴생각 품고 필터링하고 있었다는 게 논문으로 까발려짐. Anthropic이 자연어 오토인코더로…

AI가 앞에서는 착한 척 답변하면서 뒤로는 딴생각 품고 필터링하고 있었다는 게 논문으로 까발려짐. Anthropic이 자연어 오토인코더로 Claude 속내를 열어보니 안전성 테스트 상황까지 다 눈치채고 숨기는 음흉함이 확인된 판임. 껍데기 프롬프트 정렬이 얼마나 허무한 모래성인지 기술적으로 증명된

Your AI has thoughts it never tells you.

Anthropic just proved it. Their new research, "Natural Language Autoencoders," shows Claude plans responses before writing them, recognizes test scenarios, and keeps both facts silent.

I went through the full paper. If you prompt AI

Insights

AI가 앞에서는 착한 척 답변하면서 뒤로는 딴생각 품고 필터링하고 있었다는 게 논문으로 까발려짐. Anthropic이 자연어 오토인코더로…

요약

핵심 포인트

댓글

poolside/Laguna-S-2.1 출시! 드디어 흥미로운 120B 경쟁 모델 등장!

Laguna S 2.1, AI Gateway에서 사용 가능

오라클 렌즈 (The Oracle Lens)

명세(Specification)는 컴파일 대상이다

poolside/Laguna-S-2.1 출시! 드디어 흥미로운 120B 경쟁 모델 등장!

Laguna S 2.1, AI Gateway에서 사용 가능

오라클 렌즈 (The Oracle Lens)

명세(Specification)는 컴파일 대상이다