arXiv논문2026. 06. 09. 11:11

RiskNet: 뉴스 기반 AI 리스크 사건의 정렬 및 다차원 주석을 포함한 대규모 데이터셋

요약

AI 리스크 사건을 추적하고 분석하기 위해 뉴스 데이터를 기반으로 구축된 대규모 다국어 데이터셋 RiskNet을 소개합니다. RiskNet은 뉴스 식별부터 사건 정렬, 다차원 분류까지 이어지는 구조화된 파이프라인을 통해 AI 안전 및 거버넌스 연구를 위한 실증적 자원을 제공합니다.

핵심 포인트

뉴스 기반의 대규모 AI 리스크 사건 데이터셋 RiskNet 공개
사건 정렬 및 다차원 주석을 포함한 구조화된 파이프라인 적용
AI 안전, 거버넌스, 리스크 분석 연구를 위한 벤치마크 제공
수억 개의 레코드를 포함하며 온라인 플랫폼을 통해 접근 가능

인공지능 (AI) 시스템이 사회적으로 중요한 영역에 점점 더 많이 배치됨에 따라, AI 관련 위해 및 실패에 대한 보고가 빈도와 다양성 측면에서 증가하고 있습니다. 기존의 거버넌스 프레임워크 (governance frameworks)가 책임감 있는 AI를 위한 상위 수준의 원칙들을 명시하고 있음에도 불구하고, 실제 AI 리스크 사건을 추적하고 분석하기 위한 대규모 실증적 자원은 여전히 제한적입니다. 기존의 사건 수집물들은 종종 수동으로 큐레이션되며, 규모가 상대적으로 작고, 지속적인 데이터 기반 모니터링 및 다운스트림 계산 분석 (downstream computational analysis)을 수행하기에는 불충분합니다. 이러한 요구를 해결하기 위해, 우리는 대규모 다국어 뉴스 소스로부터 구축된 AI 리스크 사건의 대규모 데이터셋인 RiskNet을 제시합니다. RiskNet은 AI 리스크 뉴스 식별, 이벤트 수준 보고서 스크리닝, 사건 정렬 (incident alignment), 그리고 다차원적 사건 분류를 위한 구조화된 파이프라인을 적용합니다. 그 결과물인 이 리소스는 분산된 뉴스 보고서들을 사건 중심의 기록으로 정리하며, 이벤트 분류, 사건 정렬, 그리고 사건 수준의 리스크 라벨링 (risk labeling)을 위한 벤치마크 데이터셋을 제공합니다. 현재 릴리스 버전에서 RiskNet은 수억 개의 소스 레코드를 포함하며, 정렬된 사건 클러스터와 주석이 달린 벤치마크 서브셋을 포함하여 AI 리스크 관련 보고서의 대규모 컬렉션을 생성합니다. 이 데이터셋은 브라우징과 탐색을 위한 온라인 플랫폼을 통해서도 접근할 수 있습니다. 우리는 이 리소스의 데이터 소스, 처리 워크플로우, 분류 체계 (taxonomy) 설계, 그리고 기술적 검증에 대해 설명합니다. RiskNet은 AI 안전 (AI safety), 거버넌스, 리스크 분석 및 벤치마킹에 관한 다운스트림 연구뿐만 아니라, AI 관련 위해에 대한 종단적 및 교차 소스 분석을 지원하는 것을 목적으로 합니다. 구조화되고 재사용 가능한 실증적 리소스를 제공함으로써, RiskNet은 상위 수준의 거버넌스 원칙과 문서화된 AI 리스크 사건의 현실 사이의 간극을 메우는 데 도움을 줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

RiskNet: 뉴스 기반 AI 리스크 사건의 정렬 및 다차원 주석을 포함한 대규모 데이터셋

요약

핵심 포인트

댓글