arXiv논문2026. 04. 25. 00:37

지역 기반 신호가 포함된 구역 수준 클레임 빈도 모델 분석: 환경 및 시각 예측 변수를 사용한 실증 연구

요약

본 논문은 공공 데이터셋의 한계로 인해 개인 수준의 지리적 정보를 활용하기 어려운 상황에서, 구역(zone-level) 단위의 환경 및 시각 데이터를 보험 손해율(MTPL claim frequency) 예측에 통합하는 방법을 제시합니다. OpenStreetMap과 CORINE Land Cover 같은 대체 데이터를 이용해 좌표와 환경 특성을 모델에 추가한 결과, GLM이나 트리 기반 모델 모두 정확도가 향상됨을 입증했습니다. 특히 5km 규모의 환경 특징과 좌표를 결합하거나, 환경 정보가 없을 때 Vision-Transformer(

핵심 포인트

BeMTPL97 데이터셋을 활용하여 구역 단위의 자동차 보험 손해율 예측 모델링에 지리적 정보를 적용했습니다.
OpenStreetMap 및 CORINE Land Cover 같은 대체 데이터를 통해 환경 지표와 시각 임베딩을 추출하여 모델 성능을 평가했습니다.
좌표 정보와 5km 규모의 환경 특징을 결합하는 것이 선형/트리 기반 모델 모두에서 가장 큰 예측력 향상을 보였습니다.
이미지 임베딩은 환경 특징이 있을 때 추가적인 이점을 제공하지 않으나, 환경 특징 부재 시에는 Vision-Transformer가 정확도와 안정성을 높입니다.

지리적 맥락은 종종 자동차 보험 위험(motor insurance risk)과 관련성이 있는 것으로 간주되지만, 공개적인 보험 계리 데이터셋(actuarial datasets)은 위치 식별자(location identifiers)가 제한적이어서 이 정보를 클레임 빈도 모델(claim-frequency models)에 통합하고 평가하는 데 제약이 따릅니다. 본 연구는 이러한 제약 조건 하에서 대체 데이터 소스(alternative data sources)의 지리적 정보를 자동차 제3자 배상 책임(Motor Third Party Liability, MTPL) 클레임 예측을 위한 보험 계리 모델에 어떻게 통합할 수 있는지 검토합니다. BeMTPL97 데이터셋을 사용하여 구역 수준 모델링 프레임워크(zone-level modeling framework)를 채택하고 보지 못한 우편번호(unseen postcodes)에서 예측 성능을 평가합니다. 지리적 정보는 두 가지 경로를 통해 도입됩니다: OpenStreetMap과 CORINE Land Cover의 환경 지표(environmental indicators), 그리고 학술적 사용을 위해 벨기에 국립 지리 연구소(Belgian National Geographic Institute)가 공개한 정사영상(orthoimagery). 우리는 세 가지 기준 모델(baseline models)—일반화 선형 모델(generalized linear models, GLMs), 규제화된 GLMs(regularized GLMs), 그리고 그래디언트 부스팅 트리(gradient-boosted trees)—전반에 걸쳐 좌표(coordinates), 환경 특징(environmental features), 및 이미지 임베딩(image embeddings)의 예측 기여도를 평가하며, 원시 이미지는 컨볼루션 신경망(convolutional neural networks)을 사용하여 모델링합니다. 우리의 결과는 보험 계리 변수(actuarial variables)를 구성된 지리적 정보로 보강하는 것이 정확도를 향상시킨다는 것을 보여줍니다. 모든 실험에 걸쳐, 선형 및 트리 기반 모델 모두 5km 규모에서 추출된 환경 특징과 좌표를 결합할 때 가장 큰 이점을 얻었으며, 더 작은 지역(smaller neighborhoods) 역시 기준 사양을 개선시켰습니다. 일반적으로 이미지 임베딩은 환경 특징이 사용 가능할 때 성능을 향상시키지 못하지만, 이러한 특징이 없을 때는 사전 훈련된 비전 트랜스포머 임베딩(pretrained vision-transformer embeddings)이 규제화된 GLMs의 정확도와 안정성을 높입니다. 우리의 결과는 구역 수준 MTPL 빈도 모델에서 지리적 정보의 예측 가치가 모델 복잡성보다는 지리가 어떻게 표현되었는지에 더 의존하며, 제한적인 개별 수준 공간 정보(individual-level spatial information)에도 불구하고 지리적 맥락을 통합할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

지역 기반 신호가 포함된 구역 수준 클레임 빈도 모델 분석: 환경 및 시각 예측 변수를 사용한 실증 연구

요약

핵심 포인트

댓글