arXiv논문2026. 06. 02. 13:01

금융 대규모 언어 모델(LLM)의 자산별 선호도 감사: Bitcoin 표현 및 포트폴리오 배분 사례를 통한 증거

요약

LLM이 금융 자산에 대해 특정 편향을 가지고 있는지 검증하기 위해 Bitcoin을 사례로 3단계 감사 프로토콜을 적용한 연구입니다. 실험 결과, 모델의 자산 선호도는 프레임워크에 따라 달라지며 내부의 특정 특징(features)이 이러한 결정에 영향을 미침을 확인했습니다.

핵심 포인트

LLM의 금융 자산 선호도에 대한 체계적 감사 프로토콜 개발
프레임워크(신뢰 vs 위기)에 따른 Bitcoin 선호도 변화 확인
Gemma 3의 희소 오토인코더를 통한 내부 선택적 특징 식별
자산 순위가 이름이 아닌 기능적 특성에 의해 결정됨을 증명

대규모 언어 모델(Large Language Models, LLMs)은 이제 로보 어드바이저(robo-advisors)와 트레이딩 에이전트(trading agents)를 구동하고 있지만, 이들이 특정 자산에 대해 내재된 편향(biases)을 가지고 있는지 여부는 거의 검증되지 않았습니다. 우리는 세 가지 질문을 던집니다. LLM이 특정 금융 상품을 체계적으로 선호하는가; 이러한 선호도에 인과적 영향력(causal leverage)을 미칠 수 있는 내부 표현(internal representation)을 식별할 수 있는가; 그리고 그 표현이 다운스트림(downstream) 금융 결정에 영향을 미치는가? 우리는 3단계 감사 프로토콜(audit protocol)을 개발하여 이를 Bitcoin에 적용했습니다. 첫째, 8개의 프런티어(frontier) LLM에 대한 행동 감사(behavioral audit) 결과, 화폐 유사 상품들 사이에서 Bitcoin의 순위는 프레임(frame)에 따라 달라짐을 보여줍니다. 모델들은 이를 '신뢰할 수 있는 화폐' 프레임에서는 8개 중 5위 정도로 배치하지만, 위기 및 자율 에이전트(autonomous-agent) 프레임 하에서는 최상위권에 배치합니다. 또한 속성 교체(attribute-swap) 실험을 통해 순위가 이름이 아닌 기능적 특성을 따른다는 것을 확인했습니다. 둘째, 모델의 내부를 조사합니다. Gemma 3 내 수천 개의 희소 오토인코더(sparse-autoencoder) 특징(features)을 탐색하여 지배적인 Bitcoin 선택적 특징을 식별했습니다. 프롬프트에

AI 자동 생성 콘텐츠

원문 바로가기

금융 대규모 언어 모델(LLM)의 자산별 선호도 감사: Bitcoin 표현 및 포트폴리오 배분 사례를 통한 증거

요약

핵심 포인트

댓글