스케일링이 LLM을 이용한 사회적 시뮬레이션(Social Simulation)을 개선할 것인가?
요약
LLM의 스케일링 법칙이 사회적 시뮬레이션의 충실도를 개선할 수 있는지 연구했습니다. 대부분의 행동 및 의견 모델링은 스케일링에 따라 개선되지만, 종단적 예측이나 저자원 도메인, 특정 인지적 편향 보정에는 한계가 있음을 밝혀냈습니다.
핵심 포인트
- 연산 규모 확장에 따라 의견 및 행동 시뮬레이션 성능이 크게 향상됨
- 종단적 예측과 과소 대표된 의견은 스케일링 효과가 상대적으로 느림
- 인간의 인지적 편향 및 휴리스틱 보정에는 스케일링이 효과적이지 않음
- 일반 지식 벤치마크와 사회적 시뮬레이션 성능 간의 상관관계가 낮을 수 있음
대규모 언어 모델 (LLM) 사회적 시뮬레이션 (social simulations)은 유망한 연구 방법이지만, 아직 널리 채택될 만큼 충분히 충실하지는 않습니다. 본 연구에서는 언어 모델링의 현재 스케일링 패러다임 (scaling paradigm)이 이러한 격차를 줄일 가능성이 있는지, 아니면 시뮬레이션 충실도 (simulation fidelity)가 일반적인 능력과 직교(orthogonal)하여 더 많은 연구적 주의를 기울여야 하는 영역인지 조사합니다. 우리는 스케일링 법칙 (scaling laws)을 사용하여 LLM의 연산 규모 (compute scale), 일반 능력 벤치마크 (general capability benchmarks), 그리고 세 가지 대표적인 하위 도메인인 의견 모델링 (opinion modeling), 행동 시뮬레이션 (behavioral simulation), 종단적 예측 (longitudinal forecasting)에서의 사회적 시뮬레이션 충실도 사이의 관계를 연구합니다. 놀랍게도, 우리는 $10^{18}$에서 $10^{20}$ FLOPs 사이의 고정된 연산 예산 하에서 DCLM 웹 텍스트 코퍼스 (web text corpus)로 사전 학습된 Qwen3 아키텍처 기반의 85개 트랜스포머 (transformer) LLM 세트를 사용하여 세 가지 설정 모두에서 강력한 연산 스케일링 (compute scaling)을 발견했습니다. 그 다음, 우리는 최대 70B 파라미터에 이르는 더 크고 유능한 35개의 오픈 웨이트 (open-weight) 모델을 평가하여 손실 (loss)로부터 다운스트림 정확도 (downstream accuracy)를 예측할 수 있도록 했습니다. 이를 통해 대부분의 행동 및 의견 시뮬레이션 작업은 스케일링과 함께 빠르게 개선될 것이며, 특히 영어 웹 코퍼스에 잘 나타나 있는 인구 집단을 포함하는 경우에 그러함을 밝혀냈습니다. 종단적 예측과 과소 대표된 의견 (underrepresented opinions)은 스케일링 속도가 더 느리며, 특히 MMLU와 같은 일반 지식 및 추론 벤치마크와 상관관계가 낮을 때 더욱 그러합니다. 행동 시뮬레이션에서는 스케일링이 위험 회피 (risk aversion)와 같은 인간의 인지적 편향 (cognitive biases)이나, 관련 작업으로부터 상관된 보상을 학습하는 것과 같은 인간의 휴리스틱 (heuristics)에 대한 모델 보정 (calibration)을 개선하는 데 실패합니다. 이러한 작업에서는 미세 조정 (fine-tuned)된 모델조차 0.5B에서 8B 파라미터로 성능을 눈에 띄게 확장하는 데 실패합니다. 종합하면, 우리는 스케일링이 대부분의 설정에서 사회적 시뮬레이션을 개선할 것이지만, 예외적인 사례가 존재하며 저자원 도메인 (low-resource domains)에서는 개선의 신뢰도가 낮을 것이라고 결론짓습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기