“Cards Against LLMs” 연구, 상위 5개 모델이 인간의 유머 테스트를 통과하지 못했음을 밝혀내다

핵심 요약 (Key Takeaways)

2026년 4월 9일 arXiv에 발표된 “Cards Against LLMs” 연구에 따르면, 9,894회의 게임 라운드 동안 5개의 최첨단 LLM (Large Language Models)이 인간의 유머 판단과 일치한 정도는 미미한 수준에 그쳤습니다.
선도적인 LLM들은 인간보다 서로 간의 일치도가 더 높게 나타났으며, 위치 선호도(position preference)와 같은 체계적인 편향을 보였습니다. 이는 모델들이 진정한 의도를 파악하기보다는 표면적인 코미디 구조를 모방하는 경우가 많음을 시사합니다.
HumorRank (2026년 3월 31일)와 같은 새로운 프레임워크는 LLM의 유머 생성에 대한 개선된 평가를 제공하지만, 인간 수준의 코미디 모방을 달성하려면 현재의 패턴 인식 (pattern recognition) 능력을 넘어 더 깊은 사회적 인지 (social cognition) 및 문화적 이해를 개발해야 할 것으로 보입니다. 이번 달 초 arXiv에 발표된 한 연구에 따르면, 시장에서 가장 유능한 5개의 대규모 언어 모델 (Large Language Models)이 실제 인간 플레이어와 일치하는 것보다 서로의 유머 선택에 훨씬 더 많이 동의한다는 사실이 밝혀졌으며, 이는 이 모델들이 웃기려고 시도할 때 실제로 무엇을 하고 있는지에 대해 중요한 점을 시사합니다. “Cards Against Humanity” 스타일의 게임을 거의 10,000라운드 동안 진행한 이 연구는 AI의 유머가 코미디적 이해를 보여주는 창이 아니라, 주로 패턴 매칭 (pattern-matching) 연습이라는 점을 보여주는 지금까지의 가장 명확한 증거입니다. AI가 생성한 코미디가 대중에게 공개되고 있는 지금, 이러한 격차는 더욱 중요해지고 있습니다. 2026년 5월까지 샌프란시스코에서 열리는 스탠드업 쇼인 “Laugh GPT”는 관객들에게 인간이 쓴 농담과 기계가 쓴 농담을 구분해 달라고 적극적으로 요청하고 있습니다.

데이터가 실제로 보여주는 것

2026년 4월 9일 arXiv에 게시된 “Cards Against LLMs: Benchmarking Humor Alignment in Large Language Models” 논문은 방법론적으로 매우 명확합니다. 5개의 프런티어 (Frontier) LLM들이 9,894라운드에 걸쳐 인간 참가자들을 상대로 빈칸 채우기식 코미디 카드 게임을 진행했습니다. 모델들은 무작위 선택보다는 높은 성적을 거두었으나, 인간의 유머 선호도와의 정렬 (Alignment) 수준은 미미했습니다. 더 주목할 만한 점은 모델 간의 일치도였습니다. LLM들은 일관되게 서로 유사한 답변을 선택했으며, 연구진은 이를 체계적인 콘텐츠 선호도 (Systematic content preferences)라고 설명했습니다. 내용과 상관없이 특정 답변 슬롯을 선호하는 경향인 위치 편향 (Position bias) 또한 반복되는 패턴으로 나타났습니다.

2026년 3월 31일 arXiv에 발표된 동료 논문인 “HumorRank: A Tournament-Based Leaderboard for Evaluating Humor Generation in Large Language Models”는 유용한 맥락을 더해줍니다. 연구진은 SemEval-2026 MWAHAHA 테스트 데이터셋을 사용하여, LLM의 유머 품질이 모델의 전반적인 규모가 아니라 특정 코미디 메커니즘 (Comedic mechanisms)에 대한 숙련도에 의해 주로 결정된다는 것을 발견했습니다. 규모가 크다고 해서 더 재미있는 것은 아닙니다. 중요한 것은 모델이 특정 농담 템플릿 (Joke templates)을 얼마나 잘 내재화했느냐이며, 이는 다시 한번 모델이 깊은 코미디적 본능보다는 구조적 모방 (Structural mimicry)을 수행하고 있음을 시사합니다. 모델들은 스타일적으로 다양한 유머를 생성할 수 있지만, 문맥적 뉘앙스 (Contextual nuance)와 정서적 적합성 (Emotional fit)은 지속적인 약점으로 남아 있습니다.

근본적인 이유는 아키텍처 (Architecture)에 있습니다. LLM은 확률론적 텍스트 엔진 (Probabilistic text engines)입니다. 즉, 이전 내용이 주어졌을 때 통계적으로 가장 가능성이 높은 다음 토큰 (Token)을 생성합니다. 코미디는 정의상 거의 예외 없이 '확률이 낮은 것'에 의존합니다. 펀치라인 (Punchline)이 효과적인 이유는 예상치 못한 것, 즉 예측을 위반하는 것이기 때문입니다. 명백한 것을 예측하도록 훈련된 시스템에게 신뢰할 수 있는 놀라움을 만들어내라고 요구하는 것은 진정한 구조적 긴장 (Structural tension)이며, 이는 더 많은 학습 데이터나 더 큰 파라미터 (Parameter) 수로 쉽게 해결될 수 있는 문제가 아닙니다.

더 깊은 문제: 문화, 문맥 그리고 언어유희 (Puns)

2025년 자연어 처리 방법론 학술대회 (EMNLP)에서 발표된 연구는 이러한 양상을 상당히 명확하게 보여줍니다. “Pun Unintended: LLMs and the Illusion of Humor Understanding”이라는 논문은 모델들이 기존의 언어유희 (Pun)를 식별할 수는 있지만, 그 이해도는 얕다는 것을 발견했습니다. 연구진이 언어유희의 이중적 의미를 제거하도록 미묘한 수정을 가했을 때도, LLM들은 여전히 이를 유머러스하다고 표시하는 경우가 빈번했습니다. 이는 모델들이 의미론적 모호성 (Semantic ambiguity)이 아니라 표면적 구조 (Surface structure)에 반응하고 있음을 나타냅니다. 이는 진정한 이해가 아닌 이해하고 있다는 착각 (Illusion of understanding)입니다.

아이러니 (Irony), 비꼬기 (Sarcasm), 그리고 풍자 (Satire)는 문제를 더욱 심화시킵니다. 이러한 형태의 유머는 공유된 사회적 지식, 즉 무엇이 정상인지, 무엇이 금기인지, 누가 권력을 가졌는지, 청중이 이미 무엇을 알고 있는지에 의존합니다. LLM은 살아있는 경험도, 체화된 사회적 역사 (Embodied social history)도 없습니다. 모델은 학습 데이터로부터 아이러니한 담론의 형태를 근사할 수는 있지만, 주어진 아이러니한 발언이 특정 밤, 특정 장소의 특정 청중에게 어떻게 받아들여질지를 평가할 수는 없습니다. 인간 코미디언들은 이를 끊임없이, 그리고 대부분 무의식적으로 수행합니다.

윤리적인 측면 또한 바로잡아야 할 과제입니다. 2026년 4월 20일 arXiv에 게시된 “Investigating Counterfactual Unfairness in LLMs towards Identities through Humor”라는 논문에 따르면, 유머에 대한 모델의 반응은 화자와 응답자의 인지된 정체성에 따라 크게 달라지는 것으로 나타났습니다. 저자들은 이것이 학습 데이터에 내재된 사회적 가정들이 내면화된 결과라고 주장합니다. 실제로 이는 LLM이 생성한 코미디가 명백한 트리거 없이도 문화적으로 민감하지 않은 영역으로 흘러갈 수 있음을 의미하며, 이는 AI가 작성한 콘텐츠를 실제 관객 앞에 내세우는 모든 애플리케이션에 있어 심각한 우려 사항입니다.

연구가 실제로 진전을 보이고 있는 부분

가장 흥미로운 최근 연구는 이러한 구조적 긴장(structural tension)을 우회하기보다는 직접적으로 해결하려고 시도하고 있습니다. 2026년 3월 19일 arXiv에 게시된 “HumorGen: Persona-Based Distillation을 통한 대규모 언어 모델(LLM)의 유머 생성을 위한 인지적 시너지(Cognitive Synergy for Humor Generation in Large Language Models via Persona-Based Distillation)” 연구는 저자들이 “인지적 시너지 프레임워크 (Cognitive Synergy Framework)”라고 부르는 것을 소개했습니다. 이 접근 방식은 단일 모델을 웃기도록 훈련시키는 대신, '부조리주의자 (The Absurdist)'와 '냉소주의자 (The Cynic)'를 포함한 6개의 인지적 페르소나 (cognitive personas)를 배치하여 다양한 코미디 관점을 합성하고 고품질의 훈련 데이터를 생성합니다. 이 데이터로 훈련된 70억 파라미터 (7-billion-parameter) 모델은 훨씬 더 큰 규모의 폐쇄형 (proprietary) 시스템의 유머 출력과 대등한 수준을 기록했다고 보고되었습니다. 이는 사려 깊은 데이터 큐레이션 (data curation)과 인지적 프레이밍 (cognitive framing)이 무차별적인 스케일링 (brute-force scaling)보다 더 나은 성능을 낼 수 있음을 시사합니다.

별도의 연구 흐름은 인지적 접근 대신 사회적 접근 방식을 취합니다. 2026년 3월 20일 OpenReview에 게시된 “Multi-Agent Comedy Club: LLM 유머 생성에 대한 커뮤니티 토론 효과 조사 (Multi-Agent Comedy Club: Investigating Community Discussion Effects on LLM Humor Generation)”는 LLM에 시뮬레이션된 관객 피드백과 커뮤니티 토론에 대한 접근 권한을 부여하는 것이 스탠드업 코미디 작문 능력을 크게 향상시킨다는 것을 발견했습니다. 저자들에 따르면 베이스라인 (baseline) 시스템 대비 선호도 비율이 상당히 개선되었으나, 인용된 수치는 독립적인 출처 명시가 없으므로 예비적인 결과로 취급해야 합니다. 핵심 통찰은 유머가 사회적 행위라는 점입니다. 유머는 반복과 관객의 반응을 통해 개선되며, AI 시스템 또한 그러한 피드백 루프 (feedback loop)의 시뮬레이션 버전을 통해 이득을 얻을 수 있습니다.

이는 연구자들과 실무자들이 창의적인 작업에서 AI의 역할에 대해 생각하는 방식의 더 넓은 변화와 연결됩니다. 질문은 "AI가 웃길 수 있는가?"라기보다는 "AI가 인간 코미디언과 작가들의 생산성을 더 높여줄 수 있는가?"에 가깝습니다. 브레인스토밍 (brainstorming), 구조적 변형의 초안 작성, 그리고 농담 형식의 빠른 반복 (rapid iteration) 측면에서 현재의 LLM (Large Language Models)은 이미 진정으로 유용합니다. 타이밍, 문화적 보정 (cultural calibration), 분위기 파악 (reading a room)과 같은 인간의 영역은 여전히 가장 중요한 부분이며, 모델이 아직 복제할 수 없는 부분으로 남아 있습니다. AI 에이전트 (AI agents)가 창의적이고 전문적인 워크플로우 (workflows)를 어떻게 재편하고 있는지에 대한 더 자세한 내용은 당사의 기업용 AI 에이전트 배포 (enterprise AI agent deployments) 관련 보도를 참조하십시오.

현재의 목표는 생산적인 분업입니다. 모델은 생성적인 중노동 (generative heavy lifting)을 처리하고, 인간은 판단 (judgment)을 제공하는 것입니다. 이러한 프레임워크 (framing)는 "AI가 코미디언을 대체할 것이다"라거나 "AI는 결코 창의적일 수 없다"라는 주장보다 더 정직합니다. 이번 연구가 보여주는 것은 패턴 인식 (pattern recognition)과 진정한 코미디적 이해 (comedic understanding) 사이의 간극이 실재하며, 측정 가능하고, 명백하게 빠르게 좁혀지고 있지도 않다는 점입니다. AI 연구 및 돌파구에 대한 더 많은 보도는 당사의 AI 연구 (AI Research) 섹션을 방문해 주세요.

_원문 게시 위치: https://autonainews.com/cards-against-llms-reveals-5-top-models-fail-human-humor-test/

Insights

“Cards Against LLMs” 연구, 상위 5개 모델이 인간의 유머 테스트를 통과하지 못했음을 밝혀내다

요약

핵심 포인트

데이터가 실제로 보여주는 것

더 깊은 문제: 문화, 문맥 그리고 언어유희 (Puns)

연구가 실제로 진전을 보이고 있는 부분

댓글

dante의 AI 뉴스

Meta, 남는 AI 연산 능력을 판매하기 위해 클라우드 사업 구축 중

왜 당신의 AI 에이전트는 풀스택 앱 구현에 어려움을 겪는가

Apple, 약 2,500달러에 판매될 것으로 보이는 폴더블 iPhone Ultra 모델 1,000만 대 주문 보고

Meta, 남는 AI 연산 능력을 판매하기 위해 클라우드 사업 구축 중

왜 당신의 AI 에이전트는 풀스택 앱 구현에 어려움을 겪는가

Apple, 약 2,500달러에 판매될 것으로 보이는 폴더블 iPhone Ultra 모델 1,000만 대 주문 보고