
2013년에 존재했던 웹페이지의 38%가 사라졌습니다.
요약
웹페이지의 소멸 문제에 대응하기 위해 오픈 소스 아카이빙 도구인 ArchiveBox를 소개합니다. URL 하나로 HTML, PDF, 스크린샷 등 7가지 형식으로 데이터를 자동 저장하여 정보의 영속성을 보장합니다.
핵심 포인트
- 웹페이지의 높은 소멸률에 대응하는 강력한 아카이빙 솔루션
- URL 입력 시 7가지 다양한 형식으로 동시 저장 가능
- Docker Compose를 통해 개인 서버나 VPS에서 간편하게 실행
- 유료 결제창이나 계정 삭제 전의 데이터를 보존하는 데 유용
2013년에 존재했던 웹페이지의 38%가 사라졌습니다.
숨겨진 것이 아닙니다.
이동한 것도 아닙니다.
사라진 것입니다.
당신이 저장해 온 모든 링크는 서서히 죽어가고 있습니다.
2017년 9월, Nick Sweeting이라는 소프트웨어 엔지니어는 10달러짜리 도메인을 구매하여 Equifax의 데이터 유출 페이지를 20분 만에 복제함으로써, 그것이 얼마나 쉽게 사칭될 수 있는지를 증명했습니다.
그 후 Equifax의 공식 Twitter 계정은 20만 명의 불안해하는 미국인들을 그의 가짜 사이트로 보냈습니다. The New York Times, Wired, Forbes, 그리고 CNN이 이에 대해 보도했습니다.
그가 해당 페이지를 복제하는 데 사용한 도구는, 그가 상하이에서 중학생 시절 Great Firewall(만리방화벽)이 기사들을 삭제하기 전에 그것들을 저장하기 위해 사용해 왔던 것과 동일한 도구였습니다.
그는 그 도구를 ArchiveBox로 만들었습니다. 그리고 그것을 오픈 소스(open source)로 공개했습니다.
27,784개의 스타(stars). MIT 라이선스(license). 700만 회 다운로드.
URL을 붙여넣기만 하면 됩니다. ArchiveBox는 이를 동시에 7가지 형식으로 저장합니다. 전체 HTML. PDF. 스크린샷(Screenshot). WARC 아카이브(archive). 클린 텍스트(Clean text). 자막이 포함된 미디어(Media with subtitles). 메타데이터(Metadata).
단 하나의 URL. 7개의 복사본. 당신의 하드 드라이브에 저장됩니다. 만약 20년 안에 한 가지 형식이 사라지더라도, 다른 형식들은 살아남습니다.
브라우저 북마크(bookmarks), 브라우저 히스토리(history), Pocket, Pinboard, RSS 피드(feeds), Reddit 저장 항목, Twitter 북마크, 또는 URL이 포함된 모든 텍스트 파일을 지원합니다.
스케줄을 예약하세요. 새로운 기사들이 당신이 읽기도 전에 자동으로 아카이브(archive)됩니다.
여기서부터는 마치 불법처럼 느껴지는 부분입니다.
당신은 어떤 공개 웹페이지든 아카이브할 수 있습니다. 어떤 기사든 유료 결제창(paywall) 뒤로 넘어가기 전에 아카이브할 수 있습니다. 어떤 트윗(tweet)이든 계정이 정지되기 전에 아카이브할 수 있습니다. 어떤 정부 페이지든 조용히 수정되기 전에 아카이브할 수 있습니다.
이것은 합법입니다. 개인적인 아카이브를 위해 공개된 웹페이지를 저장하는 것은 1996년 wget이 출시된 이후 표준적인 관행이었습니다. ArchiveBox는 미국에 등록된 비영리 단체(nonprofit)입니다.
당신의 노트북, Raspberry Pi, 또는 5달러짜리 VPS에서 실행됩니다. Docker Compose. 명령어 하나면 충분합니다.
인터넷은 잊지만, ArchiveBox는 잊지 않습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @heynavtoor (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기