본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 01. 16:24

APPSI-139: 영어 애플리케이션 개인정보 보호 정책 요약 및 해석용 병렬 코퍼스

요약

본 기술 기사는 복잡하고 이해하기 어려운 개인정보 보호 정책(Privacy Policy)을 요약하고 해석하는 문제를 다룹니다. 이를 해결하기 위해, 도메인 전문가들이 주석을 단 고품질 영어 병렬 코퍼스 'APPSI-139'를 소개합니다. 이 코퍼스는 139개의 정책과 15,692개의 재작성된 병렬 데이터를 포함하며, 여기에 기반하여 계산 효율성과 정확성을 높인 하이브리드 요약 프레임워크 'TCSI-pp-V2'를 제안했습니다. 실험 결과, 이 시스템은 GPT-4o나 LLaMA-3와 같은 대규모 언어 모델(LLM)보다 가독성과 신뢰성 측면에서 우수한 성능을 보였습니다.

핵심 포인트

  • 개인정보 보호 정책의 복잡성은 사용자가 내용을 정확히 이해하고 동의하는 데 큰 장애물이다.
  • APPSI-139는 요약 및 해석 작업에 특화된, 전문가가 주석을 단 고품질 영어 병렬 코퍼스이다.
  • 제안된 하이브리드 프레임워크 TCSI-pp-V2는 계산 효율성과 정확성을 모두 고려했다.
  • 실험적으로, APPSI-139와 TCSI-pp-V2를 결합한 시스템이 최신 LLM(GPT-4o, LLaMA-3)보다 더 높은 가독성과 신뢰성을 제공함을 입증했다.

개인정보 보호 정책은 서비스 제공자가 사용자의 개인 데이터를 어떻게 처리하는지 이해하는 데 필수적입니다. 그러나 이러한 문서는 종종 길고 복잡하며, 기술 용어와 법률 전문 용어로 가득 차 있어 사용자가 법과 모순될 수 있는 조항을 무심코 동의하게 만듭니다. 이러한 개인정보 보호 정책을 요약하고 해석하는 것은 중요하지만, 법적 명확성과 가독성을 위해 최적화된 고품질 영어 병렬 코퍼스가 부족합니다. 이 문제를 해결하기 위해 도메인 전문가들이 세심하게 주석을 달아 작성한, 요약 및 해석 작업에 특화된 고품질 영어 개인정보 보호 정책 코퍼스인 APPSI-139를 소개합니다. 해당 코퍼스는 139개의 영어 개인정보 보호 정책, 15,692개의 재작성된 병렬 코퍼스, 그리고 11개의 데이터 실무 범주에 걸쳐 있는 36,351개의 세분화된 주석 레이블을 포함합니다. 동시에, 우리는 계산 효율성과 정확성을 효과적으로 균형 잡기 위해 교대 학습 전략을 채택하고 여러 전문가 모듈을 조정하는 하이브리드 개인정보 보호 정책 요약 및 해석 프레임워크인 TCSI-pp-V2를 제안합니다. 실험 결과, APPSI-139 코퍼스와 TCSI-pp-V2 프레임워크를 기반으로 구축된 하이브리드 요약 시스템은 GPT-4o 및 LLaMA-3-70B와 같은 대규모 언어 모델보다 가독성과 신뢰성 측면에서 더 우수한 성능을 보였습니다. 소스 코드와 데이터셋은 https://github.com/EnlightenedAI/APPSI-139 에서 제공됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0