Google Books 또는 유사한 전체 도서 스캔에 20만 달러 보상금 제시(2025)
요약
지식의 자유로운 접근을 위해 대규모 도서 스캔 및 번역 프로젝트를 진행하는 SourceLibrary.org와 관련 논의를 다룹니다. 불법 공유 사이트의 효용성과 저작권 보호 사이의 갈등, 그리고 대규모 데이터 보관을 위한 기술적/경제적 측면을 논의합니다.
핵심 포인트
- 지식 접근성 향상을 위한 대규모 도서 아카이빙 프로젝트 진행
- 불법 공유 사이트(Anna's Archive 등)의 실질적 효용과 저작권 침해 논란
- 희귀 문헌 번역 및 보관을 위한 후원 및 자금 조달 필요성
- 대규모 데이터 처리를 위한 Gemini Flash 등 LLM 활용 가능성
영어 책을 구하기 어려운 나라에 살고 있어서, 해외 온라인 구매는 행정 절차와 제한이 너무 많음 Anna's Archive와 Z-Library가 없었다면 지금의 나를 만든 책들을 읽지도 못했고, 배움에 대한 열정도 유지하기 어려웠을 것임
책값을 갚지 못한 채 지식을 얻은 저자들에게도 고마움
농담 반 진담 반으로, 그럼 지금 삶 전체가 범죄 수익 덕분이라는 뜻이냐고 할 수도 있겠지만, 지식은 자유로워야 함
지식은 진공 속에서 만들어진 게 아니고 모두의 것임
그 입장은 이해하지만, 저자가 돈을 벌 수 없었다면 그 책들 중 상당수는 애초에 존재하지 않았을 가능성이 큼
예전에 Reddit에서 어떤 저자가 자기 책이 불법 공유 사이트에 올라간 뒤 실제 판매가 무너졌다는 통계를 올린 적이 있었음
그래서 특히 프로그래밍 책은 되도록 구매하려고 하고, PDF는 미리보기처럼 씀. 오히려 그 덕분에 예전보다 훨씬 많이 샀음
물론 구매 자체가 불가능한 지역에 산다면 얘기가 다르지만, 이런 사이트를 칭찬할 때는 긍정적인 면만 보는 경향이 있음
사용자명에 위치가 적혀 있어서 다행임. 요즘 온라인에서 “우리나라에서는”이라고 말하면서 어느 나라인지 끝까지 안 밝히는 게 가장 거슬림
https://SourceLibrary.org에는 희귀 도서 약 16,000권 번역본이 있고, 대부분은 최초 번역임
보관된 책은 50,000권이며 자금이 생기면 번역할 예정이고, 토큰 수는 영어 Wikipedia보다 많으며 규모는 약 0.75PB임
포상 대상이 될지는 모르겠지만 공유하고 싶고, 르네상스 문헌 번역을 도울 소액·대형 후원자를 찾고 있음
결과물이 아름답고 답변도 적절하고 울림이 있음. 자금 조달은 유료 연구 API 같은 방식도 가능해 보임
흥미로워 보임
무엇을 전부 보관했는지는 바로 파악하기 어렵지만, 학계 역사학자 친구들 중 특정 분야에 관심을 가질 사람이 있고 일부 난해한 언어 검증도 도울 수 있을 듯함 지역이나 언어별 검색이 가능한지 궁금함
역사학자 쪽과 프로젝트를 두고 접촉해 봤는지도 궁금함. 박사과정 학생들이 여기서 연구 주제를 찾을 수도 있어 보임
타임라인 https://sourcelibrary.org/timeline을 봤을 때는 오류가 났음
지금까지 도달하는 데 예산이 얼마나 들었는지 궁금함. 토큰 수가 엄청난데, 아마 Gemini Flash를 쓰는 것으로 보임
어제 Anna's Archive가 제대로 도움이 됐음
2000년대 초 프로그래밍 책에 딸려 있던 CD의 ZIP 파일을 며칠 동안 찾았는데, 중고 매물은 전부 CD가 없다고 했고 검색해도 없었으며 LLM도 못 찾았음
ChatGPT는 archive에 있다고 계속 말했지만 실제로는 없었고, 혹시나 해서 AA에 가 보니 1판과 2판용 ZIP 파일이 모두 있었음. 정말 구세주 같았음
인터넷 스크랩에도 포상금을 걸기까지 얼마나 걸릴지 궁금함 Cloudflare CAPTCHA 때문에 내게는 인터넷이 거의 못 쓰는 수준이 됐고, 앞으로 더 나빠질 것 같음
차라리 archive.is 같은 사이트의 복사본을 둘러보거나 토렌트로 받는 편이 낫겠음. 후자는 프라이버시에도 훨씬 좋고, 어차피 광고 차단기도 쓰고 있음
같은 네트워크의 누군가가 Bright Data 프록시로 수익화되는 게임을 돌리고 있을 가능성이 큼. 며칠 전에도 관련 스레드가 있었음
스마트 TV일 수도 있음. 원인을 찾아 제거하면 IP 평판이 개선되어 CAPTCHA를 덜 보게 될 가능성이 있음
거기에 있는 책 중 상당수는 원래도 DRM 없는 형태로 구매 가능할 것임. 생각보다 DRM을 신경 쓰지 않는 저자가 많음
그리고 종이책으로 사면 구매가 확실히 소유가 되니, 책에 대해서는 그 문장이 조금 부적절하게 느껴짐
주된 출처가 러시아였던 것 같고, 아니면 그건 LibGen이었을 수도 있음
다만 이렇게 대안이 적다는 점이 더 놀라움. Facebook 등이 LibGen과 전쟁을 벌이고 LibGen이 내려간 뒤에도 대안이 의외로 거의 없었고, Anna's Archive가 몇 안 되는 선택지였음
LibGen에 정확히 무슨 일이 있었는지는 아직 모르지만, 그 공격 이후로는 사실상 반쯤 사라진 상태처럼 보임
AI 자동 생성 콘텐츠
본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기