학술적 표절은 데이터의 문제다. 대부분의 도구들이 잘못된 것을 해결하고 있다.

알고리즘보다 참조 코퍼스 (Reference Corpus)가 더 중요한 이유.. 그리고 실제로 이를 해결하는 방법.

내가 아는 한 교수님은 작년에 표절 의심 사례를 조사하는 데 3주를 보냈다.

글을 찾아내기 어려워서 3주가 걸린 것이 아니다. 그것을 검증하고, 원본 출처를 찾고, 실제 텍스트를 추출하고, 제대로 비교하는 과정이 진심으로 고통스러웠기 때문에 3주가 걸린 것이다. 그녀에게는 직감이 있었다. 학생이 제출한 논문도 있었다. 하지만 그녀에게 부족했던 것은, 대학에서 감당할 수 없는 기업용 도구(Enterprise Tool)를 구매하거나 접근 권한도 거의 없는 데이터베이스를 수동으로 뒤지는 대신, 수백만 편의 출판된 논문을 대상으로 그 직감을 빠르고 신뢰성 있게 확인할 수 있는 방법이었다.

그녀는 결국 찾아냈다. 그 학생은 대부분의 사람들이 들어본 적도 없는 오픈 액세스 (Open-access) 저널에 발표된 2019년 재료 과학 논문에서 세 단락을 거의 그대로 가져왔다.

그녀가 이를 잡아내기 위해 사용한 도구는? Google Scholar와 직감이었다. 걸린 시간은? 2025년이라는 시대에 부끄러운 수준이었다.

표절 탐지의 실제 문제점

대부분의 사람들이 가정하는 바는 다음과 같다: 표절 탐지는 NLP (자연어 처리) 문제다. 모델을 학습시키고, 유사도 점수 (Similarity Scores)를 계산하고, 임계값 (Threshold) 이상의 일치 항목을 표시하면 된다. 문제 해결.

그 가정은 틀렸거나, 적어도 불완전하다.

NLP 부분은 대체로 해결되었다. 코사인 유사도 (Cosine Similarity), 임베딩 기반 의미론적 검색 (Embedding-based Semantic Search), n-gram 중첩 (n-gram overlap) 등은 이미 성숙한 기술들이다. 오후 한나절이면 기본적인 표절 탐지기를 구현할 수 있다.

하지만 오후 한나절 만에 구현할 수 없는 것은, 대조하여 확인할 가치가 있는 참조 코퍼스 (Reference Corpus)이다.

이것은 아무도 이야기하지 않는 부분이다. 알고리즘의 성능은 비교 대상이 되는 문서가 얼마나 좋은가에 달려 있다. 만약 당신의 참조 데이터베이스 (Reference Database)가 PubMed와 몇몇 주요 저널만을 포함하고 있다면, 2017년에 지역 오픈 액세스 (Open-access) 저널에 발표된 논문은 놓치게 될 것이다. 컨퍼런스 프로시딩 (Conference Proceedings)도 놓칠 것이다. 주요 인덱스 (Index)에 등재되지는 않았지만 표절될 만큼 널리 유포된 프리프린트 (Preprint) 또한 놓치게 될 것이다.

커버리지 (Coverage)가 전부다. 그리고 커버리지는 바로 대부분의 도구들이 조용히 실패하고 있는 지점이다.

이 분야를 구축하는 창업자들에게 실제로 필요한 것

만약 당신이 대학, 출판사, 학술적 무결성 (Academic Integrity) 플랫폼, 또는 단순히 내부 연구 품질 도구를 위한 표절 탐지 제품을 구축하고 있다면, 당신은 세 가지 실제적인 문제에 직면하게 된다.

코퍼스 (Corpus) 문제. 당신은 수백만 편의 논문에 대한 프로그래밍 방식의 접근 권한 (Programmatic Access)이 필요하다. 메타데이터 (Metadata)나 초록 (Abstract)이 아니다. 본문 전체 (Full text)가 필요하다. 왜냐하면 표절은 제목이 아니라 본문 문단 속에 숨어 있기 때문이다.

최신성 (Freshness) 문제. 오늘 표절을 저지르는 학생은 지난달에 발표된 논문을 복사하고 있을지도 모른다. 당신의 참조 데이터베이스는 단순히 3년 전의 스냅샷 (Snapshot)이어야 하는 것이 아니라, 최신 상태를 유지해야 한다.

비용 (Cost) 문제. 전통적인 출판사로부터 학술 콘텐츠에 대한 접근 권한을 대규모로 라이선싱하는 것은 진정으로 비싸고 느리다. 계약 체결에만 몇 달이 걸린다.

오픈 액세스 (Open-access) 문헌은 세 번째 문제를 완전히 우회한다. 그리고 오픈 액세스는 급격히 성장했다. 특히 과학 및 의학 분야에서 새로운 연구의 상당 부분과 증가하는 비중이 오픈 액세스로 발표되고 있다. 대부분의 표절 탐지 유스케이스 (Use case)에서, 오픈 액세스는 실행 가능한 코퍼스 (Corpus)가 존재하는 곳이다.

ScholarAPI가 적합한 이유

ScholarAPI는 20,000개 이상의 학술 소스로부터 3,000만 편 이상의 오픈 액세스 논문을 인덱싱 (Indexing)한다. 특히 표절 유스케이스에서 핵심적인 요소는 검색 엔드포인트 (Search endpoint)가 아니라, 본문 전체 추출 (Full text extraction)이다.

대부분의 학술 API는 제목, 초록(Abstract), 그리고 아마도 DOI 정도를 제공할 것입니다. ScholarAPI는 단 한 번의 API 호출을 통해, 미리 추출되어 정제된 실제 논문 텍스트를 제공합니다.

curl "https://scholarapi.net/api/v1/text/{paper_id}" \
  -H "X-API-Key: sch_xxxxxxxxx"

이 호출은 논문의 추출된 본문 전체(Full text)를 반환합니다. HTML도 아니고, 직접 파싱해야 하는 PDF 바이너리도 아닙니다. 비교 준비가 완료된 텍스트 그 자체입니다.

표절 탐지 파이프라인 (Plagiarism detection pipeline)을 구축할 때, 이는 경제성을 완전히 바꿔 놓습니다. 특히 2단 구성(Two-column)의 학술 논문 레이아웃에서 정말 고통스러운 작업인 PDF 추출 레이어를 구축하고 유지 관리하는 대신, 정제된 텍스트를 직접 얻을 수 있기 때문입니다. 여러분의 엔지니어링 노력은 가장 흥미로운 부분인 비교 로직 (Comparison logic)에 집중될 수 있습니다.

벌크 엔드포인트 (Bulk endpoint) 또한 여기서 중요합니다. /texts/{ids}를 사용하면 단 한 번의 호출로 최대 100개의 본문 전체를 가져올 수 있습니다. 제출된 원고를 후보 논문들과 대조할 때, 이는 참조 조회가 100번의 요청이 아닌 단 한 번의 요청으로 끝난다는 것을 의미합니다.

실제로 작동하는 간단한 파이프라인

이것은 프로덕션 시스템 (Production system)이 아닙니다. 각 요소가 어떻게 결합되는지 보여주기에 충분한 시스템의 골격입니다.

import requests
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer
...

바이그램 (Bigrams) 및 트리그램 (Trigrams)을 활용한 TF-IDF 방식은 유사한 의역 (Paraphrasing)을 상당히 잘 잡아냅니다. 프로덕션 시스템을 구축한다면 이를 임베딩 기반 유사도 (Embedding-based similarity)로 교체해야 하며, 여기서는 문장 트랜스포머 (Sentence transformers)가 잘 작동하지만 구조는 동일하게 유지됩니다. ScholarAPI가 코퍼스 (Corpus)를 처리하고, 여러분은 비교를 담당합니다.

교육자 및 기관을 위한 특별 섹션

만약 여러분이 개발자는 아니지만 학술적 진실성 (Academic integrity) 문제를 다루고 있기 때문에 이 글을 읽고 있다면, 이 섹션이 여러분을 위한 것입니다.

Turnitin과 같은 도구들이 명백한 사례들에 대해 효과를 발휘하는 이유는 대규모의 독점 데이터베이스(Proprietary databases)와 학생 논문 저장소(Student paper repositories)를 보유하고 있기 때문입니다. 이들이 어려움을 겪는 부분은 틈새 시장인 오픈 액세스(Open-access) 문헌, 비영어권 저널, 그리고 아직 인덱싱(Indexing)되지 않은 최근 발표된 논문들입니다.

ScholarAPI의 인덱스는 특별히 오픈 액세스에 특화되어 있으며, 이는 기존 도구들이 놓치는 바로 그 사각지대를 정확히 커버한다는 것을 의미합니다. 지난달 오픈 액세스 생물학 저널에 발표된 논문은 48시간 이내에 인덱스에 포함됩니다. 이러한 신선함(Freshness)은 대부분의 기관용 도구들이 따라올 수 없는 부분입니다.

만약 귀하의 기관에 API를 활용해 몇 시간 정도 시간을 할애할 수 있는 개발자가 있다면, ScholarAPI를 기반으로 기본적인 검사 도구를 구축하는 비용은 진정으로 낮습니다. scholarapi.net에 가입하면 1,000개의 무료 크레딧을 제공합니다. 검색 호출(Search call)은 10 크레딧에 결과당 2 크레딧이 소요됩니다. 전체 텍스트 검색(Full text retrieval)은 현재 프로모션 가격으로 논문당 3 크레딧입니다. 제출된 에세이를 50개의 후보 논문과 대조하는 데는 약 200 크레딧이 소요되며, 이는 1달러 미만입니다.

이것은 기관용 도구를 대체하는 것이 아닙니다. 해당 도구들이 놓치는 사례들을 위한 보완재입니다.

솔직한 부분

ScholarAPI는 오픈 액세스 전용입니다. Elsevier, Wiley, Taylor and Francis의 구독형 콘텐츠는 포함되어 있지 않습니다. 만약 의심되는 표절 출처가 유료 결제 장벽(Paywall) 뒤에 있다면, 이 도구는 이를 찾는 데 도움이 되지 않습니다.

하지만 실질적인 현실은 이렇습니다. 학생 과제에서 발생하는 대부분의 표절은 접근 가능한 출처에서 비롯됩니다. 학생들이 실제로 읽을 수 있는 것들 말입니다. 오픈 액세스 논문, 프리프린트(Preprints), 공개적으로 이용 가능한 학위 논문 등이 이에 해당합니다. 기관 접속 권한이 필요한 2011년의 구독 전용 저널 기사는 표절의 원인이 되는 경우가 드뭅니다. 자격 증명 없이는 읽을 수 없기 때문입니다. 학생들은 자신이 접근할 수 있는 것을 표절합니다.

오픈 액세스 커버리지는 중요한 사례의 대부분을 잡아냅니다.

향후 방향

표절 탐지 분야는 조용히 재구축되고 있습니다. 임베딩 모델 (Embedding models)과 의미적 유사성 (Semantic similarity) 덕분에 키워드 중복으로는 완전히 놓칠 수 있는 의역 (Paraphrasing)까지 잡아내는 것이 가능해졌습니다. 그동안 빠져 있던 조각은 항상 코퍼스 커버리지 (Corpus coverage), 즉 대조할 수 있는 충분한 양의 적절한 문서를 보유하는 문제였습니다.

이는 AI의 문제라기보다 데이터 접근성의 문제입니다. 그리고 데이터 접근성 문제는 지루하고 실용적인 해결책을 가지고 있습니다.

ScholarAPI가 그중 하나입니다. 화려하지도 않고, 연구의 획기적인 돌파구도 아닙니다. 그저 3,000만 편의 논문, 깨끗한 전체 텍스트, 그리고 제대로 작동하는 API가 있을 뿐입니다.

scholarapi.net에서 직접 확인해 보세요. 무료 크레딧만으로도 실제 작동하는 무언가를 만들기에 충분합니다.

태그: python webdev career tutorial