스케일링이 LLM을 이용한 사회적 시뮬레이션(Social Simulation)을 개선할 것인가?

대규모 언어 모델 (LLM) 사회적 시뮬레이션 (social simulations)은 유망한 연구 방법이지만, 아직 널리 채택될 만큼 충분히 충실하지는 않습니다. 본 연구에서는 언어 모델링의 현재 스케일링 패러다임 (scaling paradigm)이 이러한 격차를 줄일 가능성이 있는지, 아니면 시뮬레이션 충실도 (simulation fidelity)가 일반적인 능력과 직교(orthogonal)하여 더 많은 연구적 주의를 기울여야 하는 영역인지 조사합니다. 우리는 스케일링 법칙 (scaling laws)을 사용하여 LLM의 연산 규모 (compute scale), 일반 능력 벤치마크 (general capability benchmarks), 그리고 세 가지 대표적인 하위 도메인인 의견 모델링 (opinion modeling), 행동 시뮬레이션 (behavioral simulation), 종단적 예측 (longitudinal forecasting)에서의 사회적 시뮬레이션 충실도 사이의 관계를 연구합니다. 놀랍게도, 우리는 $10^{18}$에서 $10^{20}$ FLOPs 사이의 고정된 연산 예산 하에서 DCLM 웹 텍스트 코퍼스 (web text corpus)로 사전 학습된 Qwen3 아키텍처 기반의 85개 트랜스포머 (transformer) LLM 세트를 사용하여 세 가지 설정 모두에서 강력한 연산 스케일링 (compute scaling)을 발견했습니다. 그 다음, 우리는 최대 70B 파라미터에 이르는 더 크고 유능한 35개의 오픈 웨이트 (open-weight) 모델을 평가하여 손실 (loss)로부터 다운스트림 정확도 (downstream accuracy)를 예측할 수 있도록 했습니다. 이를 통해 대부분의 행동 및 의견 시뮬레이션 작업은 스케일링과 함께 빠르게 개선될 것이며, 특히 영어 웹 코퍼스에 잘 나타나 있는 인구 집단을 포함하는 경우에 그러함을 밝혀냈습니다. 종단적 예측과 과소 대표된 의견 (underrepresented opinions)은 스케일링 속도가 더 느리며, 특히 MMLU와 같은 일반 지식 및 추론 벤치마크와 상관관계가 낮을 때 더욱 그러합니다. 행동 시뮬레이션에서는 스케일링이 위험 회피 (risk aversion)와 같은 인간의 인지적 편향 (cognitive biases)이나, 관련 작업으로부터 상관된 보상을 학습하는 것과 같은 인간의 휴리스틱 (heuristics)에 대한 모델 보정 (calibration)을 개선하는 데 실패합니다. 이러한 작업에서는 미세 조정 (fine-tuned)된 모델조차 0.5B에서 8B 파라미터로 성능을 눈에 띄게 확장하는 데 실패합니다. 종합하면, 우리는 스케일링이 대부분의 설정에서 사회적 시뮬레이션을 개선할 것이지만, 예외적인 사례가 존재하며 저자원 도메인 (low-resource domains)에서는 개선의 신뢰도가 낮을 것이라고 결론짓습니다.

Insights

스케일링이 LLM을 이용한 사회적 시뮬레이션(Social Simulation)을 개선할 것인가?

요약

핵심 포인트

댓글

에이전트, 스킬, 플러그인 및 MCP 통합을 다루는 OpenCode 가이드

2WD, 4WD 및 Mecanum 로봇을 위한 Nav2, SLAM Toolbox 및 위치 추정(localization) 기반 ROS2 자율

AgentGateway란 무엇인가? 초보자와 전문가를 위한 AI-Native 게이트웨이 설명

후속 보고: 보일러플레이트(Boilerplate) 코드가 전혀 없는 Cursor AI 에이전트

2WD, 4WD 및 Mecanum 로봇을 위한 Nav2, SLAM Toolbox 및 위치 추정(localization) 기반 ROS2 자율

AgentGateway란 무엇인가? 초보자와 전문가를 위한 AI-Native 게이트웨이 설명

후속 보고: 보일러플레이트(Boilerplate) 코드가 전혀 없는 Cursor AI 에이전트