당신의 SNS 피드는 거울이 아니다

X(구 Twitter)가 For You 피드의 알고리즘을 오픈 소스(Open Source)화했습니다. 이것은 단순한 코드 공개가 아닙니다. **「주의의 위임」**이 누구나 읽을 수 있는 코드로 시각화되었다는 사건입니다.

「다음에 무엇을 볼 것인가」의 선택이 「과거에 무엇을 했는가」의 잔재로 훈련된 모델에 넘겨지고 있다 ── 이 기사는 그 구조를 기술과 심리학 양면에서 풀어냅니다.

먼저, 심리학으로부터 두 가지 보조선을 그어 두겠습니다. 이 기사 전체는 이 두 가지 구별 위에 서 있습니다.

현시 선호(revealed preference)와 표명 선호(stated preference) ── 행동경제학의 구별. 전자는 「행동으로부터 추측되는 선호」, 후자는 「본인이 반성하며 말하는 선호」. 당신이 클릭한 것(revealed)과 당신이 정말로 보고 싶은 것(stated)은 종종 다릅니다. -
System 1과 System 2 ── Kahneman의 이중 과정 이론(Dual Process Theory). System 1은 빠르고·자동적이며·감정적인 반사, System 2는 느리고·숙고적인 반성입니다.

이 기사의 주장을 먼저 한마디로 요약하자면 ── 피드가 배우는 것은 revealed preference / System 1(반사)이며, 당신이 「자아」라고 부르는 것은 stated preference / System 2(반성)이다. 그리고 이 둘은 일치하지 않는다.

앱을 열고 스크롤하면, 불과 몇 초 만에 피드가 당신을 「잘 알고 있다」고 느껴집니다. 이 효과는 섬뜩할 정도여서, 사람들은 친밀함을 나타내는 말을 사용합니다 ── 「나를 잘 안다」, 「내 마음을 읽고 있다」라고 말이죠.

하지만 추천 시스템(Recommendation System)은 당신의 안정적인 자아나 가치관, 반성하며 지지하는 선호에 대한 이론을 가지고 있지 않습니다. 대신 더 저렴하고, 더 손에 넣기 쉬운 것을 가지고 있습니다 ── 바로 당신의 반응 이력입니다. 탭(Tap), 체류(Dwell), 답글, 프로필 확인, 그 하나하나가 흔적(trace)입니다. 피드는 이 흔적들로 만들어집니다.

거울은 당신이 무엇인지를 비춥니다. 반응 예측 루프(Response Prediction Loop)는 당신이 무엇을 하는지를 비춥니다. 이 둘은 같지 않으며, 그 차이에 바로 리스크가 잠재되어 있습니다.

이는 심리학의 용어 그대로입니다 ── 거울이 비추는 것은 stated preference, 반응 예측 루프가 포착하는 것은 revealed preference입니다.

2026년 1월, X는 추천 코드를 GitHub의 xai-org/x-algorithm 리포지토리(Repository)에 공개했습니다. 2026년 5월 15일, Elon Musk가 대규모 업데이트를 공지했습니다 ── 실행 가능한 엔드 투 엔드(End-to-End) 추론 파이프라인, 다운로드 가능한 학습 완료 모델, 광고 블렌드 모듈(Ad Blend Module), 콘텐츠 이해를 위한 신규 컴포넌트를 출하했습니다.

여기서, 리포지토리가 무엇이며 무엇이 아닌지를 정확히 해두겠습니다.

그것은 X의 영혼 전부가 아닙니다. 실제 운영 중인 시스템 그 자체도 아닙니다. 실제로 트래픽을 처리하고 있는 가중치(Weight), 훈련 데이터, A/B 테스트, 실제 사용자에게 미치는 하류 효과(Downstream effect)도 아닙니다. 리포지토리의 문서 자체에서도 공개된 모델은 내부 모델의 「representative(대표적인 것)」이지만 특정 스케일링 최적화(Scaling Optimization)를 제외한다고 주석을 달고 있습니다. 운영 환경에서 돌아가는 것의 독립적인 검증은 서버 접속 없이는 불가능합니다.

하지만, **위임의 아키텍처(Architecture of Delegation)**를 보기에는 충분합니다. 질문해야 할 것은 이것입니다 ── 「이것이 X의 완전한 진실인가」가 아니라, 「인간의 주의 선택이 반응 이력으로 훈련된 모델에 넘겨질 때, 어떤 일이 벌어지는가」입니다.

For You 피드를 열면, 시스템은 후보군 추출(Candidate Generation)·필터(Filter)·스코어링(Scoring)·랭킹(Ranking)의 다단계 파이프라인을 1초 미만의 시간에 실행합니다.

스코어링(④⑤)을 식으로 쓰면, 게시물 $p$의 점수는 예측된 각 액션 $a_i$(favorite, reply, repost, click, dwell, follow…)의 확률의 가중치 합입니다.

$$ ext{score}

핵심은 시스템이 던지는 질문에 있습니다. 그것은 주로 "이 게시물이 좋은가?"가 아닙니다. "이 사용자가 이 게시물에 대해 무엇을 할(do) 가능성(likely)이 높은가?"입니다. 이것은 당신의 도덕적 모델이 아닙니다. **행동 예측 시스템(behavioral prediction system)**입니다.

리포지토리(repository)에는 이 변화를 지칭하는 한 문장이 있습니다. 엔지니어링 팀은 시스템에서 수동으로 설계된 특징량(hand-engineered features)과 대부분의 휴리스틱(heuristics)을 모두 제거했다고 기술하며, Grok 계열의 Transformer가 당신의 인게이지먼트(engagement) 이력을 읽고 무엇이 관련성(relevant) 있는지 결정함으로써 "무거운 작업(heavy lifting)을 모두 수행한다"고 언급했습니다. 즉, 시스템은 관련성(relevance) 학습을 완전히 Transformer에 의존하고 있다는 것입니다.

여기서 제목의 의미가 드러납니다. 주의(attention)의 선택권이 위임되었습니다 ── 반드시 악의적이라거나, 완전히, 필터 없이 이루어지는 것은 아니지만, 관련성(relevance)의 중심이 반응 이력으로부터 학습된 예측으로 이동했습니다.

공정하게 말하자면, 리포지토리는 무법지대가 아닙니다. 필터, 부정적 가중치 액션(높은 block / report 예측은 게시물의 노출을 낮춤), 저자 다양성 점수, 브랜드 안전성 시그널, 별도의 콘텐츠 이해 서비스 등이 존재합니다. 리스크는 "제어가 없다"는 것보다 더 미묘합니다 ── 학습된 관련성(relevance)의 중심이 여전히 예측된 반응을 중심으로 형성되어 있으며, 제어란 그 중심 위에 덧씌워진 보정(correction)에 불과하다는 점입니다.

이 지점이 철학적인 핵심이자, 동시에 가장 실증적인 뒷받침이 있는 부분입니다.

당신은 화가 나서 답글을 달 수도 있습니다. 동요했기에 머무를(dwell) 수도 있습니다. 불안해서 클릭할 수도 있습니다. 경멸을 느껴 인용(quote)할 수도 있습니다. 혹은 여전히 싫어한다는 것을 확인하기 위해서만 프로필을 볼 수도 있습니다. 당신의 입장에서는 이것들은 **거부(rejection)**의 시그널입니다. 하지만 시스템의 입장에서는 이것들은 인게이지먼트(engagement) ── 기쁨의 종류와는 구별할 수 없는, 행동의 흔적입니다.

이것이 심리학에서 말하는 현시 선호(revealed preference)와 표명 선호(stated preference)의 괴리입니다. 식으로 쓰면, 시스템이 최적화하는 대상과 사용자가 반성하며 지지하는 대상이 서로 달라집니다.

$$ \arg ext{max}{p} ; E(p \mid u) ;\neq; \arg ext{max}{p} ; S(p \mid u) $$

좌변은 시스템이 최적화하는 대상(현시 선호 · System 1), 우변은 사용자가 반성하며 지지하는 대상(표명 선호 · System 2)입니다. 양자는 일치하지 않습니다.

$E(p)$는 인게이지먼트(revealed), $S(p)$는 표명 선호(stated)입니다. 여기에 이중 과정 이론(dual-process theory)을 덧붙이면, 반응은 System 1(빠르고 자동적), 선호는 System 2(느리고 숙고적)에서 기인합니다.

$$ a_{\text{react}} = \text{System1}(p) \quad(\text{빠름\cdot자동\cdot감정적}) $$

$$ s_{\text{pref}} = \text{System2}(p) \quad(\text{느림\cdot숙고적}) $$

피드가 시간 내에 관측하고 기록할 수 있는 것은 $a_{\text{react}}$뿐입니다. $s_{\text{pref}}$는 너무 느려서 흔적을 남기지 않습니다.

이는 이론적인 이야기에 그치지 않습니다. 동료 검토를 거친 사전 등록 무작위 대조 실험(Milli et al., PNAS Nexus 2025)에 따르면, 역시계열 베이스라인(reverse time-series baseline)과 비교했을 때 Twitter의 인게이지먼트 기준 랭킹이 감정적이고 외집단 적대적인 콘텐츠를 증폭시켰으며, 사용자 스스로가 해당 콘텐츠로 인해 정치적 외집단에 대한 감정이 악화되었다고 보고했다는 사실이 밝혀졌습니다. 결정적인 것은 동일한 연구에서 사용자들이 알고리즘이 선택한 정치적 게시물을 선호하지 않았다는 점입니다. 인게이지먼트 기준의 랭킹은 사용자 자신의 표명 선호를 충족시키는 데 있어 열등했습니다.

두 번 읽을 가치가 있는 대목입니다. 시스템은 인게이지먼트를 최적화하고, 그 결과 사람들이 반응은 하지만 원하지는 않는 콘텐츠를 공급했습니다. 문제는 인게이지먼트 랭킹이 분열적인 콘텐츠를 증폭할 수 있다는 것만이 아닙니다. 반응 이력은 반성적 선호와 같지 않다는 것입니다. 시스템은 우리가 키우고 싶어 하지 않는 부분에 정교하게 반응할 수 있습니다.

Elon Musk는 알고리즘이 "저울에 손가락을 올리고 있지 않다(no thumb on the scale)"라고 말합니다 ── 사용자가 가장 흥미롭다고(interesting) 생각하는 것을 보여주는 것이 목표이며, 의도적인 조작은 없다는 뜻입니다.

하지만 동료 검토(peer-reviewed)를 거친 반증이 존재합니다. Gauthier et al., Nature 2026은 X의 For You 알고리즘이 체계적이고 지속적인 방향성 효과(directional effect)를 생성한다는 점을 보고했습니다. 즉, 단 몇 주 만에 사용자를 특정 방향의 계정으로 유도하며, 타임라인(chronological) 보기로 되돌려도 그 경향이 지속된다는 것입니다.

"손을 대지 않고 있다"는 주장과 "피드는 체계적이고 지속적인 방향성 효과를 생성한다"는 발견은 누군가 거짓말을 하고 있기 때문에 모순되는 것이 아닙니다. 두 가지는 양립 가능합니다. 왜냐하면 **반응(reaction)으로 훈련된 모델 그 자체가 곧 손(finger)**이기 때문입니다. 의도적으로 누르는 손이 아니라, 분포를 휘게 만드는 학습된 가중치(weight)인 것입니다. 형태가 존재하기 위해 반드시 의도가 필요한 것은 아닙니다 (There need be no intent for there to be a shape).

심리학적으로 말하자면, 이는 암묵적 편향 (implicit bias)에 가깝습니다. 의도적인 차별이 아니라, 학습 과정에서 창발(emerge)하는 체계적인 편향입니다. 아무도 "이렇게 편향시키자"라고 결정하지 않아도, 반응 데이터의 통계가 편향을 만들어냅니다.

오픈 소스 코드에는 진정한 가치가 있습니다. 수년간 블랙박스였던 Meta의 피드, TikTok의 For You 이후 ── X는 전 지구적 추천 시스템을 기기만 있다면 누구나 검사할 수 있도록 공개했습니다. 오픈 라이선스로, 정기적인 업데이트 약속과 함께 말입니다. 이것은 진심입니다.

하지만, 오픈된 **아키텍처 (architecture)**가 오픈된 **책임 (accountability)**과 동일한 것은 아닙니다.

이번 출시와 관련된 2차 기사들은 Grok이 이제 "모든 게시물의 톤을 모니터링"하며, 긍정적/건설적인 메시지를 증폭시키고, 참여도(engagement)가 높더라도 공격적/부정적인 톤은 억제한다고 주장했습니다. 만약 이것이 사실이라면, 그것은 매우 두드러진 "저울의 손가락" ── 감정적이고, 방향성이 있으며, 명시적인 손가락 ── 입니다. 따라서 1차 소스를 찾아 확인해 볼 필요가 있습니다.

리포지토리 자체에서 콘텐츠 이해 서비스 (grox/)는 스팸 탐지, 카테고리 분류, 안전성 분류, 정책 집행을 위한 분류기(classifier)와 임베딩(embedding)을 제공한다고 문서화되어 있습니다. 톤에 기반한 전달 제어 ── 긍정적인 감정에는 보상을 주고 부정적인 것에는 불이익을 주는 것 ── 은 공개된 코드에는 기술되어 있지 않습니다. 그 주장이 사실일 수도 있고, 리포지토리가 포착하지 못하는 실제 운영 동작일 수도 있으며, 안전성 분류기의 과잉 해석일 수도 있습니다. 정직한 입장은 "공개된 코드만으로는 알 수 없다"입니다.

그리고 그것이 핵심입니다. 리포지토리는 모듈, 데이터 흐름, 추상화(abstraction)를 보여줄 수 있습니다. 하지만 실시간 가중치, 훈련 데이터, 실험, 그리고 인간의 주의(attention)에 미치는 하류 효과(downstream effect)는 보여줄 수 없습니다. 피드가 감정의 톤을 형성하는가라는 구체적인 사실 주장조차 해결할 수 없습니다. 어떤 코드를 읽은 개발자가 말했듯이 ── 우리는 알고리즘이 동시에 더 개방적이면서도, 더 해석 불가능해지는 시대에 진입하고 있습니다. 엔지니어조차 왜 Transformer가 특정 게시물을 상단에 노출시켰는지 설명하지 못할 수도 있습니다.

(덧붙이자면, 2025년 12월 EU가 X에 벌금을 부과했고, 프랑스가 알고리즘 편향 조사를 시작했습니다. 코드를 공개하는 것은 규제 대응으로서 방어적인 기능도 수행합니다.)

오픈 코드는 필요하지만 충분하지는 않습니다. 그것은 정렬 (alignment)과 같지 않습니다.

AI 정렬 (alignment) 논의는 대개 모델이 인간의 가치를 따르는지를 묻습니다. 이 사례는 또 다른, 더 불편한 질문을 강요합니다.

시스템이 인간의 가장 반성적이지 않은 층(layer)으로부터 학습한다면 어떻게 될까요?

당신의 분노, 지루함, 외로움, 경쟁심, 공포, 강박적인 확인, 경멸 ── 이 모든 것은 참여 모델(engagement model)에게 읽기 쉬운 데이터입니다. 그것들은 제거해야 할 노이즈가 아닙니다. 최적화해야 할 시그널입니다. 즉, 당신은 추천 시스템의 수혜자일 뿐만 아니라, 그 **훈련 표면 (training surface)**의 일부이기도 합니다. 피드는 당신을 학습하며, 가장 쉽게 학습하는 것은 당신이 가장 확실하게 하는 행동입니다 ── 그리고 그것은 좀처럼 당신의 최선의 모습이 아닙니다.

이 관점에서 틀을 짜본다면, 정렬 문제는 "AI가 인간을 따르는가"에 그치지 않습니다. 시스템이 인간의 '어떤 층'을 따르도록 학습하는가의 문제입니다.

당신의 반사(reflex)에 정렬된 시스템은, 당신에게 정렬되어 있지 않습니다.

피드를 정적인 제품으로 생각하는 것을 멈추고, 구성 (configuration) ── 시간이 흐름에 따라 업데이트되는 동적인 관계 ── 로 생각한다면 더 명확하게 볼 수 있을 것입니다.

대규모 언어 모델 (LLM)이라면, 관련 구성 (configuration)을 다음과 같이 작성할 수 있습니다: 모델 × 사용자 × 기억 × 지시 × 수정 이력. X라면: 추천 모델 × 당신의 행동 이력 × 소셜 그래프 (social graph) × 후보 풀 (candidate pool) × 랭킹 목적 함수 × 필터 × 당신의 미래의 주의 (attention).

루프는 단순하며, 자기 폐쇄적 (self-contained)입니다.

식으로 쓰면, 행동 이력 $h_t$가 피드를 결정하고, 피드가 다음 행동 $a_t$를 유도하며, $a_t$가 다음 이력 $h_{t+1}$이 됩니다.

h_{t+1} = f(h_t, a_t), \qquad a_t \sim \pi_{\text{user}}(\cdot \mid \text{feed}(h_t))

이것은 심리학에서 말하는 조작적 조건 형성 (operant conditioning) 그 자체입니다. Skinner의 강화 스케줄 (reinforcement schedule) ── 특히, 언제 보상이 올지 알 수 없는 **변동 비율 강화 (variable-ratio reinforcement)**는 소거 저항이 가장 강하며, 가장 습관화되기 쉽습니다. 슬롯머신과 동일한 구조가 피드 스크롤에 들어 있습니다. 충분한 사이클을 돌고 나면, 구성 (configuration)은 더 이상 당신을 예측하는 것에 그치지 않습니다. 당신을 생산하는 데 참여하게 됩니다 ── Gauthier의 연구가 보여주었듯, 새로운 팔로우 행동이 그것을 낳은 노출보다 더 오래 지속되는 것처럼 말입니다.

이것은 비유가 아닙니다. 수억 명의 규모로 작동하는 조건 형성 루프에 대한 운영상의 기술입니다.

피드가 반응으로부터 학습한다면, 미디어 리터러시 (media literacy) ── 눈앞에 나타난 소스를 평가할 수 있는 능력 ── 도 필요하지만, 이제 그것만으로는 충분하지 않습니다. 필요한 것은 **주의 위생 (attention hygiene)**에 가까운 것 ── 즉, 당신의 반응이 시스템에 무엇을 가르치고 있는지에 대한, 반응하기 전과 반응하는 도중의 깨달음 (메타인지, metacognition)입니다.

앉아서 생각해 볼 가치가 있는 질문들:

피곤할 때, 나는 무엇을 클릭하는가?
우월감을 느끼고 싶을 때, 나는 무엇을 인용(quote)하는가?
경멸을 확인하기 위해서만, 어떤 계정을 방문하는가?
나는 시스템에 나의 약점에 대해 무엇을 가르치고 있는가?
지금 이 반응으로, 나는 어떤 미래의 피드를 만들고 있는가?

모든 반응이 당신에게 똑같이 의미 있는 것은 아닙니다. 하지만 모든 반응이 시스템에게 의미를 가질 수 있습니다. 이 비대칭성이 게임의 전체입니다.

이것은 후퇴를 권하는 것도, 자기계발도 아닙니다. 반응에 의해 훈련되는 환경에서, 주의 (attention)는 사용하는 것일 뿐만 아니라 가르치는 것이라는 인식입니다.

문제는 X의 AI가 우리를 너무 깊이 이해하는 것이 결코 아니었습니다. 문제는, 그럴 필요가 없다는 것입니다.

'For You' 피드는 자기 이론을 필요로 하지 않습니다. 오직 반응의 이력만을 필요로 합니다. 그렇기에 오픈 알고리즘 (open algorithm)이 중요한 것입니다 ── 악당을 폭로하기 때문이 아니라, 검사 가능한 코드 안에 **위임 (delegation)**을 보여주기 때문입니다. 다음에 볼 것을, 이전에 했던 것의 잔재로 훈련된 시스템에 넘겨주는 그 이동을 말입니다.

정렬 (alignment)이 시스템을 인간의 가치에 봉사하게 만드는 것이라면, 추천 시스템은 더 어려운 버전의 질문을 강요합니다 ── 인간이 자신의 반응을 이해하기도 전에, 시스템이 그 반응으로부터 먼저 학습한다면 어떻게 될 것인가?

피드는 거울이 아닙니다. 그것은 우리에게 다시 한번 보게 만들 것을 학습하는 기계입니다.

xai-org/x-algorithm

리포지토리와 Phoenix README (아키텍처, 스코어링, "핸드 엔지니어링 특징량 없음", grox/

의 역할) - Smitha Milli et al., "Engagement, User Satisfaction, and the Amplification of Divisive Content on Social Media," PNAS Nexus(2025) - Germain Gauthier et al., "The political effects of X's feed algorithm," Nature(2026) - Ferenc Huszár et al., "Algorithmic Amplification of Politics on Twitter," PNAS(2022) - 유럽 위원회의 2025년 12월 X에 대한 DSA 벌금

심리학적 보조선: Daniel Kahneman, Thinking, Fast and Slow (System 1 / 2); B. F. Skinner의 강화 스케줄 (변동 비율 강화); 행동경제학의 revealed preference / stated preference 구분 - 공개된 코드에서 볼 수 없는 실제 동작(톤 기반 배포 제어 포함)은 unverified로 간주

본 기사는 Claude (Anthropic)와의 협업으로 작성되었으며, 1차 자료는 모두 저자가 독립적으로 검증했습니다. 실제 동작에 관한 미확인 주장은 그 점을 명시합니다.

당신의 SNS 피드는 거울이 아니다

요약

핵심 포인트

댓글