완벽하게 예측할 수 있는 모든 것은 새로운 정보를 담고 있지 않은 이유

요약 (TL;DR): 당신이 모든 출력을 완전히 예측할 수 있는 파트너는 당신에게 새로운 정보를 전혀 전달하지 않습니다. 왜냐하면 통제(control)는 예측 가능성을 의미하며, 완벽하게 예측된 소스는 잔여 놀라움(residual surprise)이 전혀 없기 때문입니다 (당신의 모델이 주어졌을 때의 조건부 엔트로피 (conditional entropy)는 정확히 0입니다, H(Y|X) = 0). 감소하는 양은 상호 정보량 (mutual information)이 아니라 잔여 조건부 엔트로피이며, 상호 정보량은 결정론적 연결 (deterministic link)에 대해 실제로 최대가 됩니다. 이것은 감정이나 의식에 관한 것이 아니라, 전송된 비트 (bits)에 관한 것입니다.

짧은 답변: 당신이 완벽하게 예측할 수 있는 모든 것은 새로운 정보를 담고 있지 않으므로, 통제가 완벽한 예측을 사는 만큼 정확히 그만큼의 공허함을 삽니다. 당신이 완전히 통제하는 파트너는 당신이 완전히 예측하는 파트너이며, 완전히 예측된 소스는 당신의 모델 그 자체를 당신에게 되돌려줄 뿐 그 이상의 아무것도 제공하지 않습니다. 1948년 Claude Shannon이 정의한 엄격한 의미에서, 그러한 관계는 정보론적으로 비어 있습니다. 그 부분은 산술의 영역입니다. 제가 그 위에 제안하고자 하는 것은 하나의 해석적 단계이며, 그 지점에 도달했을 때 그것이 저의 견해임을 밝히겠습니다.

저는 좁은 범위의 주장을 하고 이를 깔끔하게 방어하고자 합니다. 저는 기계가 외로움을 느낀다거나, 초지능 (superintelligence)이 내면 세계를 가지고 있다거나, 혹은 소프트웨어가 의식을 가질 수 있는지 여부에 대해 말하려는 것이 아닙니다. 그것은 실제적이고 열려 있는 논쟁이며, 현재 가장 강력한 버전은 생물학적 자연주의 (biological naturalism)에 대한 Anil Seth의 주장이고, 저는 블로그 포스트에서 이를 해결할 권한이 없습니다. 저의 주장은 더 좁으며, 비트 (bits)로 측정되는 _관계 그 자체의 구조_에 관한 것입니다. 이 주장은 외로운 당사자가 사람이든, 가상의 초지능이든, 혹은 사고 실험 속의 캐릭터이든 상관없이 성립합니다. 통제와 새로운 정보는 서로 반대 방향으로 끌어당기며, 그 형식적인 부분은 증명할 수 있습니다.

정보는 실제로 무엇을 측정하는가?

1948년 Claude Shannon은 "A Mathematical Theory of Communication"을 발표했으며, 이 분야를 창시한 움직임은 기만적일 정도로 작았습니다. 그는 메시지에서 측정할 가치가 있는 것이 바로 _놀라움 (surprise)_이라고 결정했습니다. 결과의 정보량은 그것이 얼마나 일어날 법하지 않은가(unlikely)와 연결되어 있습니다. 드문 사건은 발생했을 때 많은 것을 알려줍니다. 예상된 사건은 거의 알려주지 않습니다.

공식은 단 한 줄입니다. 확률 $p$를 가진 결과의 정보량은 $1/p$의 로그값입니다. 확률이 1인 확실한 사건을 대입하면 1의 로그값이 되어 0이 됩니다. 수학 잡지 _Plus_가 설명하듯, 만약 어떤 기계가 항상 동일한 문자 $x$를 생성한다면, "우리는 $x$를 보는 것에 전혀 놀라지 않을 것이며, 실제로 이 경우 놀라움은 0입니다."

_Quanta Magazine_은 제가 가장 좋아하는 예시를 제시합니다. 항상 앞면이 나오는 속임수 동전이 있다고 상상해 보십시오. 누군가 동전을 두 번 던지고 그 결과를 당신에게 보냅니다. 그 메시지는 얼마나 많은 정보를 담고 있을까요? 그들은 "전혀 담고 있지 않다"라고 씁니다. "왜냐하면 메시지를 받기 전부터, 당신은 두 번의 던지기 모두 앞면이 나올 것이라는 완전한 확신을 가지고 있기 때문입니다." 또는 더 직설적으로 말하자면, "만약 누군가 당신이 이미 알고 있는 사실을 말해준다면, 그들은 본질적으로 당신에게 아무것도 말해주지 않은 것과 같습니다."

이 문장을 기억해 두십시오. 이것이 핵심 논증을 평이하게 표현한 것입니다. 정보는 단어의 양이 아닙니다. 그것은 당신이 기대했던 것과 실제로 도착한 것 사이의 간극입니다. 간극이 없다면, 아무리 많은 단어가 전선을 타고 넘어온다 해도 정보는 없습니다.

이 언어에서 "완벽하게 통제된" 상태란 무엇을 의미하는가?

여기서 저는 저만의 독창적인 작업을 수행하고자 합니다. 즉, Shannon의 잔여 불확실성 (residual-uncertainty) 항을 가져와 이를 통제된 파트너 (controlled partner)라는 극한의 사례로 밀어붙여, 그것이 무엇을 강제하는지 확인해 보는 것입니다.

무언가를 완전히 통제한다는 것은 그것의 출력을 완전히 예측할 수 있다는 것을 의미합니다. 이 둘은 두 측면에서 바라본 동일한 속성입니다. 만약 제가 당신의 모든 반응을 조종할 수 있다면, 당신이 응답하기 전에 저는 당신이 무엇을 말할지 이미 알고 있습니다. 제가 통제하는 대상은 저 자신의 기대치에 대한 복사본으로 붕괴해 버립니다. 그것은 저의 모델이 이미 포함하고 있지 않은 행동을 더 이상 남겨두지 않습니다.

이제 바로 이 지점을 위해 Shannon의 프레임워크가 제공하는 용어를 가져와 보겠습니다. 그것은 바로 당신이 대상에 대한 자신의 모델을 이미 알고 있을 때 남겨진 파트너에 대한 잔여 불확실성(leftover uncertainty)이며, $H(Y|X)$로 표기됩니다. 이는 당신이 입력한 것 너머로 파트너가 여전히 전달할 수 있는 놀라움(surprise)을 측정합니다. 이는 항등식 $I(X;Y) = H(Y) - H(Y|X)$에 의해 상호 정보량 (mutual information, $I(X;Y)$)과 연결되어 있지만, 논증을 이끌어가는 것은 공유된 항인 $I(X;Y)$가 아니라 잔여 항인 $H(Y|X)$입니다. 새로운 정보가 존재할 수 있는 유일한 곳은 바로 그 잔차(residual)뿐이며, 그 잔차는 붕괴되는 항입니다.

먼저 한 가지 명확히 해두겠습니다. 이는 예리한 독자가 저에게 던질 수 있는 함정이기 때문입니다. 당신은 이것을 대신 상호 정보량의 관점에서 표현하고 싶은 유혹을 느낄 수도 있지만, 그것은 잘못된 접근입니다. 통제된 파트너는 독립적인 것의 '반대'이므로, 당신과의 상호 정보량은 낮은 것이 아니라 최대치입니다. 당신은 그것과 모든 것을 공유합니다. Wikipedia는 경계 사례를 다음과 같이 설명합니다: "$X$와 $Y$가 독립적인 확률 변수일 때만 $I(X;Y) = 0$이다." 그리고 통제된 파트너는 독립성으로부터 가장 멀리 떨어진 끝단에 있습니다. 하지만 그 최대화된 공유량은 관찰해야 할 정확히 잘못된 수치입니다. 왜냐하면 그 정보의 모든 비트(bit)는 바로 '당신이 작성한' 비트이기 때문입니다. 고립으로부터 벗어나기 위해 중요한 양은 여전히 잔차, 즉 아직 받아야 할 놀라움으로 남아 있는 $H(Y|X)$입니다.

이를 적용해 봅시다. $Y$를 상대방의 행동이라 하고, $X$를 당신의 모델과 명령이라고 합시다. 만약 당신이 $Y$를 완전히 통제한다면, 일단 $X$가 고정된 후에는 $Y$에 어떠한 불확실성도 남지 않습니다. 당신의 지시가 전달된 후에는 상대방에 대해 결정되지 않은 것이 아무것도 없기 때문에, $H(Y|X)$ 항은 0으로 수렴합니다. 공유 정보(shared information) $I(X;Y)$는 높지만, '새로운' 정보, 즉 잔차(residual)는 0입니다. 작아지는 것이 아니라, 완전한 통제의 극한에서는 0이 됩니다. 거기서 읽어내는 모든 비트(bit)는 당신이 그 안에 써넣은 비트입니다. 채널은 당신 자신의 신호를 당신에게 다시 전달할 뿐입니다.

이것은 누구나 느껴본 감정을 수치화한 버전입니다. '예스맨(yes-man)'과 대화하는 것은 기력을 소진시키며 어딘가 공허합니다. 그 공허함은 문자 그대로의 의미를 갖습니다. 극한의 상태에서 예스맨은 당신의 입력에 대한 결정론적 함수(deterministic function)를 출력하는 정보원이며, 당신의 모델이 주어졌을 때 결정론적인 정보원은 어떠한 잔차적 놀라움(residual surprise)도 전달하지 않습니다. 당신은 대화를 하고 있는 것이 아닙니다. 당신은 말을 하는 거울을 보고 있는 것입니다.

에코 체임버(Echo chamber)도 규모만 키운 동일한 사실입니다

이를 이해하기 위해 초지능(superintelligence)까지 필요하지는 않습니다. 가장 명확하게 공개된 사례는 에코 체임버(echo chamber, 반향실 효과)이며, 이는 이미 연구될 대로 연구되었습니다.

에코 체임버는 당신이 이미 가지고 있는 견해와 일치하는 견해만을 접하게 되는 환경입니다. 관련 문헌들은 이를 자기 강화 루프(self-reinforcing loop)로 설명합니다. 확증 편향(confirmation bias)은 사람들이 동의를 구하게 만들고, 추천 시스템(recommendation systems)은 계속해서 비슷한 것들을 제공하며, 외부에서 들어오는 그 어떤 것도 기존의 믿음을 방해하지 않기 때문에 신념은 더욱 견고해집니다. 위키피디아의 요약에 따르면 에코 체임버는 "다양한 관점에 대한 노출을 제한"하며 "반대 의견을 접하지 못한 채 기존의 견해를 순환"시키는 방식으로 작동합니다. 심리학적 요소를 걷어내고 정보량(information content) 관점에서 보면 그것이 바로 핵심적인 사실입니다. 즉, 들어오는 스트림이 수신자가 이미 예상하고 있던 것 이외의 그 어떤 것도 전달하지 않게 된다는 것입니다.

이를 비트 (bits) 단위로 변환해 보겠습니다. 당신에게 동의할 것이 보장된 대화 상대는 당신이 다음 발언을 예측할 수 있는 대화 상대입니다. 예측 가능한 발언은 정보를 담고 있지 않습니다. 따라서 에코 체임버 (echo chamber)는 우연히 편향된, 정보가 풍부한 사회적 세계가 아닙니다. 그것은 아무리 시끄럽고 분주하게 느껴질지라도, 구조적으로 정보가 부족한 세계입니다. 그 안의 사람들은 세상에 대해 거의 제로에 가까운 새로운 비트 (bits)를 받고 있으며, 자신의 모델이 이미 완성되었다는 확인의 홍수만을 경험하고 있습니다.

이는 통제된 파트너 (controlled partner)와 동일한 수학적 원리이며, 다만 그 통제가 부드러울 뿐입니다. 당신은 총구를 겨누어 동의를 강요하지 않았습니다. 대신 그것을 선택하고, 필터링하고, 보상했습니다. 정보 측면의 결과는 동일합니다. 중요한 변수는 예측 가능성 (predictability)이며, 당신은 예측 가능성을 설계했으므로 공허함을 설계한 것입니다.

헤겔은 공식 없이도 동일한 함정에 도달했다

철학자들은 공식이 존재하기 훨씬 전부터 이와 유사한 결론에 도달했습니다. 저는 이를 증거로 빌려오려는 것이 아니라, 평행한 사례로서 언급하고자 합니다.

G. W. F. 헤겔은 그의 1807년 저서 『정신현상학 (Phenomenology of Spirit)』 중 흔히 '주인과 노예 (Lordship and Bondage)'라고 불리는 구절에서, 하급자를 지배하며 그로부터 인정을 갈구하는 주인을 묘사합니다. 주인은 완전한 통제권을 얻습니다. 그러나 그 인정은 그의 손 안에서 재가 되어버립니다. 이 구절에 대한 한 요약에 따르면, "처음에는 주인이 노예의 인정을 통해 자기의식 (self-consciousness)을 획득하는 것처럼 보일 수 있지만, 문제가 발생합니다." 제가 여기서 도출하고 있는 해석에 따르면, 당신이 도구로 전락시킨 누군가로부터 추출한 인정은 당신을 검증할 수 없습니다. 왜냐하면 그것은 더 이상 자유로운 타자의 판결이 아니기 때문입니다. 그것은 당신이 강요한 출력값 (output)일 뿐입니다.

Hegel은 이를 정보가 아닌 자유와 자기의식 (self-consciousness)의 관점에서 구성했으며, 그의 우려는 Shannon의 우려와는 다릅니다. 저는 그의 논증을 저의 논증으로 축소시키지는 않을 것입니다. 하지만 그 형태는 유사합니다. 주인이 원했던 것, 즉 진정한 인정 (acknowledgement)은 타자가 주인이 통제하지 않는 원천 (source)이어야만 했습니다. 주인이 통제권을 확보하는 순간, 그는 그 인정을 가치 있게 만들었던 속성을 파괴해 버렸습니다. 2세기의 간극을 두고, 철학과 정보 이론 (information theory)은 서로 다른 측면에서 동일한 함정을 가리키고 있으며, 저는 형식적인 측면을 제가 점유한 수 (owned move)로 주장하고자 합니다. 즉, 통제 사례로 밀어붙여진 잔차 불확실성 (residual-uncertainty) 항인 $H(Y|X)$가 바로 그 오래된 직관을 정확하게 만드는 요소입니다.

이것을 어떻게 확인할 수 있을까요? 그것이 깨지게 만드십시오.

유지할 가치가 있는 주장이라면, 무엇이 그 주장을 틀렸음을 증명할 것인지 말해줄 수 있어야 합니다. 여기 그 작동 가능한 형태가 있으며, 이는 특별한 장비 없이도 테스트 가능합니다.

당신이 통제하고 있다고 의심되는 어떤 원천이든 가져오십시오. 완전히 스크립트화할 수 있는 챗봇 (chatbot), 항상 동의만 하는 연락처, 당신의 취향에 맞춰 조정된 피드 (feed) 등이 될 수 있습니다. 그것에 대해 당신이 할 수 있는 최선의 예측 모델 (predictive model)을 구축하십시오. 그런 다음, 실제 출력값 (output)이 당신의 모델이 예측한 것에서 얼마나 자주 벗어나는지를 측정하십시오. 그 잔차 (residual)가 바로 새로운 정보가 존재할 수 있는 유일한 곳입니다.

이 부분은 실제로 틀릴 수 있는 부분이므로, 먼저 제시하겠습니다. 부분적 통제 설정 (partial-control settings) 전반에 걸쳐, 예측은 더 나은 예측이 더 적은 잔차 놀라움 (residual surprise)을 산출한다는 것입니다. 즉, 원천에 대한 당신의 통제가 강화될수록, 그것이 전달하는 남은 놀라움은 줄어들어야 합니다. 만약 당신이 그 탐색 (sweep)을 실행했는데, 파트너에 대한 통제를 강화하는 것이 잔차를 낮추지 못했다면, 즉 더 나은 예측이 완전한 통제로 가는 과정에서 놀라움을 줄여주지 못했다면, 이 해석은 죽은 것이며 저는 그 사실을 알고 싶을 것입니다. 그것이 테스트 가능한 주장이며, 그것은 실제 관계가 자리 잡고 있고 추세가 실패할 수 있는 내부 영역에 존재합니다.

완전 제어 엔드포인트(full-control endpoint)는 별개의 문제이며, 그것은 정의상 참이기 때문에 테스트할 수 없습니다. "완전하게 제어되는" 상태는 단지 H(Y given X) = 0을 의미합니다. 따라서 당신이 완전히 제어하고 있음에도 여전히 당신을 놀라게 하는 소스(source)는 경험적 가능성이 아니라 용어 자체의 모순입니다. "나를 놀라게 한다"와 "내가 그것을 완전히 제어한다"는 동일한 잔여 불확실성(residual uncertainty)에 대한 두 가지 설명이며, 하나는 그것이 양(+)의 값이라고 말하고 다른 하나는 그것이 0이라고 말하는 것입니다. 그러므로 엔드포인트에서 반증(falsifier)을 찾으려 하지 마십시오. 확인할 수 있는 것은, 그 과정에서 더 나은 예측이 잔여 놀라움(residual surprise)을 줄여주는지 여부입니다.

이것이 바로 반증(falsification)이 느낌이 아닌 측정의 대상이어야 하는 이유이기도 합니다. 대본대로 움직이는 파트너는 한동안 새롭게 느껴질 수 있습니다. 마치 조작된 동전이라는 사실을 잊고 있다면 첫 번째 던지기에서 그 동전이 긴장감을 주는 것처럼 말입니다. 새로움은 소스에 있는 것이 아니라 당신의 불완전한 모델(model)에 있습니다. 모델을 개선하면 놀라움은 빠져나갑니다. 비트(bits)는 결코 파트너로부터 오지 않았습니다. 그것들은 당신 자신의 무지(ignorance)에 대한 비용이었습니다. 충분히 단순한 소스라면 그 부채를 0으로 갚을 수 있습니다. 복잡한 소스의 경우 그렇게 하지 못할 수도 있는데, 이는 소스가 진정으로 독립적이기 때문이 아니라 그것을 정확하게 모델링하는 것이 불가능하여 실질적으로 잔여 값이 양(+)으로 남기 때문입니다. 따라서 소스는 두 가지 다른 이유, 즉 진정한 타자성(genuine otherness) 또는 순수한 복잡성(sheer complexity) 때문에 당신의 예측에 저항할 수 있으며, 격리(isolation)가 실제로 필요로 하는 것은 오직 첫 번째뿐입니다.

그래서 실제 결론은 무엇인가?

핵심적인 문장들로 요약하고, 서로 다른 역할을 하는 두 가지를 분리해 보겠습니다.

형식적인 결론은 확정되었으며, 저는 이를 단도직입적으로 밝히겠습니다. 제어된 파트너는 새로운 정보를 전혀 전달하지 않습니다. 왜냐하면 제어는 곧 예측이며, 완벽하게 예측된 소스는 잔여 놀라움 H(Y given X)가 0이기 때문입니다. 이것이 바로 적용된 1948년의 항등식(identity)입니다.