본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 01. 11:31

설계 단계부터 추적 가능하도록: EU 규제 협의 분석을 위한 LLM 파이프라인 및 대시보드

요약

EU 규제 협의 데이터를 분석하기 위해 LLM 기반의 엔드 투 엔드 파이프라인과 대시보드를 제안합니다. 이 시스템은 PDF와 웹 양식 데이터를 처리하여 축자적 인용구에 근거한 주제 주석을 생성하며, 높은 투명성과 추적성을 제공합니다.

핵심 포인트

  • 축자적 근거 제시를 통한 데이터 신뢰성 확보
  • 설계 단계부터 투명성과 추적 가능성 반영
  • 고정된 분류 체계를 넘어선 새로운 주제 자동 추출
  • 프롬프트와 데이터셋 교체만으로 도메인 확장 가능

공공 협의(Public consultations)는 이해관계자의 제출물 형태로 방대한 양의 데이터를 생성하며, 이를 수동으로 분석하는 것은 사실상 불가능합니다. 본 논문에서는 규제 협의 제출물로부터 구조화된 주제 추출을 수행하기 위한 엔드 투 엔드(end-to-end) LLM 기반 파이프라인과 대화형 대시보드를 제시하며, 유럽 위원회(European Commission)의 디지털 공정법(Digital Fairness Act, DFA) 증거 수집 공모를 사례 연구로 시연합니다. 이 시스템은 가공되지 않은 PDF 첨부 파일과 웹 양식 응답을 처리하고, 주제 주석(topic annotations)을 추출하며, 모든 추출 내용을 원문 텍스트의 축자적 인용구(verbatim quote)에 근거하도록 합니다. 4,322개의 DFA 제출물에 적용한 결과, 파이프라인은 20,951개의 축자적 증거 인용구로 뒷받침되는 15,368개의 주제 주석을 생성했습니다. 제안된 설계는 축자적 근거 제시(verbatim grounding), 완전한 추적 가능성(full traceability), 설계에 의한 투명성(transparency by design)이라는 세 가지 원칙을 따릅니다. 대시보드는 데이터셋 수준의 주제 개요부터 개별 단락 상세 분석(drill-down)에 이르기까지 5가지 분석 뷰를 통해 전체 추출 데이터셋을 공개하며, 모든 결과는 출처로 추적할 수 있습니다. 사전에 정의된 DFA 주제 범주를 넘어, 이 파이프라인은 연령 확인(Age Verification), 결제 처리업체 검열(Payment Processor Censorship), 디지털 소유권(Digital Ownership)과 같이 고정된 분류 체계(fixed-taxonomy) 방식으로는 놓쳤을 법한 특정 이해관계자의 우려 사항들을 생성해냈습니다. 이 파이프라인은 도메인 범용적(domain-generic)입니다. 새로운 협의에 적응시키기 위해서는 프롬프트(prompt) 업데이트와 새로운 데이터셋만 있으면 됩니다. 라이브 데모는 https://dfa-dashboard.thalesbertaglia.com/ 에서 확인할 수 있습니다. 코드와 처리된 데이터는 https://github.com/thalesbertaglia/dfa-dashboard 에서 공개적으로 이용 가능합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0