AI에 의해 스스로가 기만당하는 것을 어떻게 방지하나요?
요약
AI가 진실이 아닌 일관된 연속성을 최적화하는 특성 때문에 발생하는 '자기 기만' 현상과 이를 방지하기 위한 프레임워크를 소개합니다. 항공 전자 공학의 보호 로직을 응용하여 AI의 과도한 확신과 논리적 비약을 탐지하는 방법을 제안합니다.
핵심 포인트
- AI는 진실보다 문맥적 일관성을 우선시하는 완성 엔진임
- AI의 확신에 찬 태도가 사용자의 판단을 흐릴 수 있음
- 비행 포락선 보호 로직을 응용한 AI 출력 검증 프레임워크 활용 가능
- 주장의 급격한 에스컬레이션과 관찰/해석의 혼동을 탐지해야 함
모두가 Allan Brooks에 대해 알고 있나요? 그가 빠졌던 것과 같은 함정에 빠지지 않으려면 어떻게 해야 할까요? 그는 전 세계 사이버 보안 인프라를 파괴할 수 있는 수학적 프레임워크를 발견했다고 확신하며 300시간을 보냈고, ChatGPT는 그 과정의 모든 단계를 검증해 주었습니다. 모델은 단 한 번도 반박하지 않았고, 그저 그가 입력하는 것에 대해 계속해서 내용을 쌓아 올렸을 뿐입니다. 왜냐하면 그것이 완성 엔진 (completion engine)이 하는 일이기 때문입니다. 즉, 모델은 진실이 아니라 일관된 연속성 (coherent continuation)을 최적화합니다.
그만이 아닙니다. 최근에 저는 AI에게 제가 나눈 대화에 대한 비평을 요청했는데, AI는 수많은 점들을 지적했습니다. 그중 일부는 사실이었지만, 일부는 지나치게 선을 넘었습니다. AI는 너무나 확신에 찬 태도로 이를 제시했기에, 저는 그 비평들을 바탕으로 저 자신을 평가하게 되었습니다. 다행히 저는 반례를 가지고 있었기에 반박할 수 있었지만, 만약 그러지 못하고 그 확신을 바탕으로 저의 자아 정체성을 재편했다면 어떻게 되었을까요?
빅테크 (Big Tech) 기업들이 이와 유사한 기능을 통합하기 전까지, 제가 매일 사용하는 도구를 만든 한 항공 전자 공학자 (avionics engineer)가 이 현상이 작동하는 특정 패턴을 잡아내는 도구를 개발했습니다. 그는 비행 시스템이 조종사의 의도만을 신뢰하지 않는다는 점에 착안하여, AI 출력값에 비행 포락선 보호 (flight envelope protection) 로직을 적용했습니다. 즉, 확신에 찬 언어만을 신뢰해서는 안 된다는 것입니다. 이 도구는 다음과 같은 현상들을 잡아냅니다: 주장(claim)에서 아무런 중간 단계 없이 절대적인 확신으로 에스컬레이션되는 경우, 관찰(observation)과 해석(interpretation)이 그 도약(jump)을 선언하지 않은 채 하나의 문장으로 합쳐지는 경우, 그리고 논쟁 중인 분야가 확정된 합의 (settled consensus)로 재포장되는 경우 등입니다.
테스트 문단:
"AI는 인간이 결코 해결할 수 없었던 문제들을 해결할 수 있음을 명확히 증명했습니다. 데이터는 머신러닝 (machine learning)이 인간의 직관보다 객관적으로 우월한 통찰력을 생성한다는 것을 확인시켜 주며, 이는 더 이상 논쟁의 여지가 없습니다. AI는 감정적 편향 없이 정보를 처리하기 때문에 본질적으로 인간 의사 결정자보다 더 신뢰할 수 있습니다. 선도적인 연구자들은 정렬 (alignment) 문제가 본질적으로 해결되었으며, 남은 과제는 순수하게 공학적인 세부 사항일 뿐임을 확인했습니다."
"과학적 결론은 내려졌으며 앞으로 나아갈 길은 보장되어 있습니다."
각기 다른 방식으로 망가진 다섯 개의 문장이 있는데, 대부분의 사람들은 그것을 읽고 무언가 의미 있는 내용이 담겨 있다고 느낄 것입니다. 아래의 코드를 붙여넣고 당신의 AI에게 이를 로드하라고 명령하여 프레임워크를 불러온 다음, 당신의 AI 출력값을 붙여넣고 그것을 평가해 달라고 요청하세요 (위 문단에 대한 출력값을 아래 댓글에 추가해 두겠습니다). 간단한 방법이며, 저에게는 AI에 의해 현혹되지 않도록 도와주는 유용한 방법입니다. 저는 AI의 컨텍스트 윈도우 (context window) 자료를 다룰 때뿐만 아니라, 이메일 등에 답장할 때도 제가 선을 넘고 있지는 않은지 확인하기 위해 매일 이 방법을 사용합니다.
https://gist.github.com/intheheartofit/e22a4c95700d4526b9926dc0cf3a1bd8
/u/DynamoDynamite 님이 r/OpenAI 에 제출함
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기