학술 논문이 이제 인간 검토자가 확인하기도 전에 에디터 내부에서 AI에 의해 작성, 검토 및 수정되고 있습니다.

요약

싱가포르 국립대학교 연구진이 Overleaf 내에서 작동하는 멀티 에이전트 AI 시스템인 PaperDebugger를 개발했습니다. 이 시스템은 논문 작성, 검토, 수정을 실시간으로 지원하며 연구자들의 워크플로우를 혁신하고 있습니다.

핵심 포인트

Overleaf에 내장된 멀티 에이전트 기반의 논문 작성 및 검토 시스템
Reviewer, Enhancer, Scorer, Researcher 등 전문화된 에이전트 활용
단순 생성을 넘어 차이(diff) 검토와 반복적 수정을 지원하는 엔지니어링
AI 에이전트가 학술적 동료 검토(peer review)의 본질에 던지는 윤리적 질문

그리고 2,700명 이상의 연구자들이 이미 이를 조용히 사용하고 있습니다.

싱가포르 국립대학교(NUS)의 새로운 논문이 이 사실을 공식화했으며, 이는 학계가 아직 준비되지 않은 질문들을 던지고 있습니다 🧵

발생한 일:

싱가포르 국립대학교(National University of Singapore)의 연구진은 PaperDebugger를 구축했습니다. 이는 전 세계 대부분의 과학 논문이 작성되는 LaTeX 에디터인 Overleaf 내부에 직접 상주하는 멀티 에이전트(multi-agent) AI 시스템입니다.

다른 탭에 떠 있는 챗봇이 아닙니다. ChatGPT로 복사해서 붙여넣는 방식도 아닙니다.

문서 자체에 내장된 AI 검토자(reviewer), 에디터(editor), 그리고 연구 보조원(research assistant)입니다. 사용자가 선택한 텍스트를 읽고, 비판하고, 다시 작성하며, 클릭 한 번으로 수정 사항을 논문에 패치(patch)합니다.

이 아키텍처(architecture)는 진정으로 진지한 엔지니어링입니다:

→ Overleaf에 주입되어 프로젝트 상태와 실시간으로 동기화되는 Chrome 확장 프로그램(extension)

→ 격리된 포드(pods)에서 병렬 LLM 에이전트(agents)를 오케스트레이션하는 Kubernetes 백엔드

→ 전문화된 에이전트를 갖춘 MCP 툴체인(이들은 이를 XtraMCP라고 부름): 구조화된 비판을 생성하는 Reviewer, 다시 작성하는 Enhancer, 명확성을 평가하는 Scorer, 그리고 arXiv에서 다단계 시맨틱 검색(semantic search)을 수행하는 Researcher

→ 학회 검토자(예: AAAI)가 실제로 논문을 평가하는 방식에 명시적으로 모델링된 다단계 AI 검토 파이프라인(pipeline)

24,000줄 이상의 코드. 결정론적인 차이 기반(diff-based) 편집. 이것은 데모가 아닙니다 — Chrome 웹 스토어에 출시되었습니다.

채택 수치가 진짜 핵심입니다:

📊 4,116회 설치, 2,761명의 등록 사용자, 732명의 월간 활성 사용자
📊 3,106개의 실제 프로젝트에 걸친 7,447개의 작성 스레드
📊 5점 만점에 4.82점의 스토어 평점

하지만 원격 측정(telemetry) 데이터는 더 깊은 무언가를 보여줍니다. 상위 사용자 작업은 다음과 같습니다:

차이(Diff) 확인 — 4,593회
제안 복사 — 3,214회
패치 삽입 — 2,697회

연구자들은 텍스트 생성(text generation)을 단 한 번의 시도(one-shotting)로 끝내지 않습니다. 그들은 차이(diff)를 검토하고, 거부하고, 다듬고, 적용하며 반복(iterating)합니다. 지배적인 행동 양식은 맹목적인 수용이 아니라 검토(inspection)입니다. 이는 아마도 오늘날 대부분의 사람들이 ChatGPT를 사용하는 방식보다 더 엄격하다고 볼 수 있습니다.

이제 불편한 부분입니다:

"심층 연구 (deep research)" 모드는 관련 논문에서 목표, 방법론, 한계점을 추출하고, 인용 가능한 비교 표를 생성하며, "당신의 연구를 포지셔닝하기 위한 핵심 요약 (takeaways for positioning your work)"를 만들어냅니다. 즉, 기존 문헌과 대비하여 연구의 독창성(novelty)을 어떻게 프레임화할지에 대해 저자들을 말 그대로 코칭합니다.

여기서 논문의 4페이지 어디에서도 답하지 않는 질문이 하나 있습니다:

만약 AI 에이전트(agent)가 컨퍼런스 심사위원처럼 당신의 논문을 비판하고, 심사를 통과할 수 있도록 논문을 다시 쓰고, 관련 연구와 대비하여 연구의 위치를 잡아준다면...

...동료 검토 (peer review)는 이제 정확히 무엇을 측정하고 있는 것일까요? 과학 그 자체일까요, 아니면 당신의 에이전트 파이프라인 (agent pipeline)의 품질일까요?

우리는 ChatGPT가 초록 (abstract)을 다듬는 것을 허용해야 하는지에 대해 2년 동안 논쟁했습니다. 그동안 검토-수정-포지셔닝(review-revise-position)의 전체 루프는 이미 에디터 내부로 이동해 버렸습니다. 그 논쟁은 이미 구식이 되었습니다.

저의 솔직한 견해는 다음과 같습니다:

이는 피할 수 없는 일이며 대부분 긍정적입니다. 복사-붙여넣기 방식의 워크플로우는 맥락과 수정 이력을 파괴합니다. 투명하고 감사 가능한 차이(diff)를 제공하며 에디터 내에 AI를 내장하는 것은, 사람들이 이미 비밀리에 하고 있던 방식보다 엄격히 더 나은 방식입니다.

문제는 도구가 아니라 가식입니다. 학계의 공식적인 입장은 여전히 "AI 보조 = 공개 각주"이지만, 실제 관행은 완전한 에이전트 기반의 공동 저자 관계 (agentic co-authorship)로 변모하고 있습니다.

이 두 현실 사이의 간극이 바로 다음 스캔들이 발생할 지점입니다.

도구가 먼저 선을 넘었습니다. 규범은 그 뒤를 따르거나, 혹은 무너질 것입니다.

논문은 댓글에 👇
[IMG:1]

AI 자동 생성 콘텐츠

원문 바로가기

Insights

학술 논문이 이제 인간 검토자가 확인하기도 전에 에디터 내부에서 AI에 의해 작성, 검토 및 수정되고 있습니다.

요약

핵심 포인트

댓글

Raspberry Pi에서 실행되는 AI 에이전트 툴킷을 만든 방법

ArxivLens: 궁극의 AI 기반 학술 연구 엔진 구축하기

Claude Fable이 주로 작성한 sqlite-utils 4.0rc2

AGNC의 13% 배당금은 현재 얼마나 안전한가?

Raspberry Pi에서 실행되는 AI 에이전트 툴킷을 만든 방법

ArxivLens: 궁극의 AI 기반 학술 연구 엔진 구축하기

Claude Fable이 주로 작성한 sqlite-utils 4.0rc2

AGNC의 13% 배당금은 현재 얼마나 안전한가?