지역 정보 활용으로 자동차 보험 손해율 예측 모델 성능 향상 연구
요약
본 논문은 공공 데이터셋의 한계로 인해 개인 수준의 지리적 정보를 활용하기 어려운 상황에서, 구역(zone-level) 단위의 환경 및 시각 데이터를 보험 손해율(MTPL claim frequency) 예측에 통합하는 방법을 제시합니다. OpenStreetMap과 CORINE Land Cover 같은 대체 데이터를 이용해 좌표와 환경 특성을 모델에 추가한 결과, GLM이나 트리 기반 모델 모두 정확도가 향상됨을 입증했습니다. 특히 5km 규모의 환경 특징과 좌표를 결합하거나, 환경 정보가 없을 때 Vision-Transformer(
핵심 포인트
- BeMTPL97 데이터셋을 활용하여 구역 단위의 자동차 보험 손해율 예측 모델링에 지리적 정보를 적용했습니다.
- OpenStreetMap 및 CORINE Land Cover 같은 대체 데이터를 통해 환경 지표와 시각 임베딩을 추출하여 모델 성능을 평가했습니다.
- 좌표 정보와 5km 규모의 환경 특징을 결합하는 것이 선형/트리 기반 모델 모두에서 가장 큰 예측력 향상을 보였습니다.
- 이미지 임베딩은 환경 특징이 있을 때 추가적인 이점을 제공하지 않으나, 환경 특징 부재 시에는 Vision-Transformer가 정확도와 안정성을 높입니다.
Geographic context is often consider relevant to motor insurance risk, yet public actuarial datasets provide limited location identifiers, constraining how this information can be incorporated and evaluated in claim-frequency models. This study examines how geographic information from alternative data sources can be incorporated into actuarial models for Motor Third Party Liability (MTPL) claim prediction under such constraints. Using the BeMTPL97 dataset, we adopt a zone-level modeling framework and evaluate predictive performance on unseen postcodes. Geographic information is introduced through two channels: environmental indicators from OpenStreetMap and CORINE Land Cover, and orthoimagery released by the Belgian National Geographic Institute for academic use. We evaluate the predictive contribution of coordinates, environmental features, and image embeddings across three baseline models: generalized linear models (GLMs), regularized GLMs, and gradient-boosted trees, while raw imagery is modeled using convolutional neural networks. Our results show that augmenting actuarial variables with constructed geographic information improves accuracy. Across experiments, both linear and tree-based models benefit most from combining coordinates with environmental features extracted at 5 km scale, while smaller neighborhoods also improve baseline specifications. Generally, image embeddings do not improve performance when environmental features are available; however, when such features are absent, pretrained vision-transformer embeddings enhance accuracy and stability for regularized GLMs. Our results show that the predictive value of geographic information in zone-level MTPL frequency models depends less on model complexity than on how geography is represented, and illustrate that geographic context can be incorporated despite limited individual-level spatial information.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기