互联网档案馆技术架构与运营深度分析

一、新闻概述

1. 标题

互联网档案馆技术架构与运营深度分析

2. 发布时间

2026 年 1 月 13 日

3. 来源

HackerNoon

二、核心内容

1. 事件摘要

A. 主要内容

本文深入分析了互联网档案馆的工程架构和运营模式,揭示了这个非营利组织如何用有限的预算管理超过 1 万亿个网页的存储。

B. 核心亮点

  • 存储 99 PB 独特数据,含备份超过 212 PB
  • 自研 PetaBox 服务器架构,无需空调冷却
  • 年度预算仅 2500 万至 3000 万美元
  • 面临重大版权诉讼后转向去中心化存储

2. 关键信息

A. 数据规模

  • 归档网页超过 1 万亿个
  • 硬盘数量超过 20000 块
  • 线缆长度 45 英里

B. 涉及技术

  • PetaBox 存储架构
  • Heritrix、Brozzler 爬虫系统
  • WARC 文件格式
  • IPFS、Filecoin 去中心化存储

3. 背景介绍

A. 前置历史

互联网档案馆成立于 1996 年,由布鲁斯特卡莱创立,最初目标是实现"普遍获取所有知识"。

B. 相关上下文

随着 Alexa Internet 于 2022 年关闭,档案馆不得不完全依赖自己的爬虫基础设施。

三、详细报道

1. 存储架构

A. PetaBox 设计理念

互联网档案馆的核心是 PetaBox,这是一个专为高密度、低功耗存储设计的定制服务器。与传统的企业级存储解决方案(如 EMC 或 NetApp)不同,PetaBox 采用消费级硬盘和开源软件,大幅降低了成本。

B. 架构演进

graph LR
    A[2004: 第一代] -->|100 TB| B[2010: 第四代]
    B -->|480 TB| C[2025: 现代版本]
    C -->|1.4 PB| D[存储容量]

mermaid

C. 技术规格对比

规格第一代(2004)第四代(2010)现代版本(2025)
单机架容量100 TB480 TB1.4 PB
硬盘数量40-80240 块 2TB360+ 块 8TB+
功耗6 kW6-8 kW6-8 kW
散热建筑供暖建筑供暖建筑供暖
处理器VIA C3Xeon E7-8870高效 x86

D. 热管理创新

档案馆位于旧金山里士满区,利用该地区常年多雾和凉爽的海洋性气候进行自然冷却。PetaBox 机房没有传统空调系统,服务器被设计为在稍高的运行温度下工作,旋转硬盘产生的多余热量被捕获并重新循环,用于在寒冷的旧金山冬季为建筑供暖。

这种废热系统是一个效率的闭环。存储集群产生的 60 多千瓦热能不是需要消除的副产品,而是被收获的资源。这种设计选择显著降低了设施的电源使用效率比率,使档案馆能够将有限的资金花在硬盘上而不是电费上。

2. 网络爬虫系统

A. Heritrix 架构

Heritrix 是档案馆长期使用的网络爬虫,由互联网档案馆与北欧国家图书馆(挪威和冰岛)于 2003 年联合开发。与主要关心提取文本以进行搜索相关性的搜索引擎爬虫不同,Heritrix 关心的是文物本身。

B. WARC 文件格式

WARC 文件是互联网档案馆的原子单位。它不仅保存页面的内容,还保存 HTTP 头——服务器和浏览器在捕获时刻发生的数字握手。这些元数据对历史学家至关重要,因为它证明了页面是何时被捕获的,由什么服务器交付的,以及连接是如何协商的。

C. 动态网页挑战

Heritrix 是为更简单的 web 构建的——由静态 HTML 文件和超链接组成的 web。随着 web 演变为动态应用程序平台,Heritrix 开始出现问题。

Heritrix 捕获服务器传递的初始 HTML。但在 Twitter 或 Facebook 这样的现代网站上,初始 HTML 通常只是一个空白框架。实际内容由用户浏览器中运行的 JavaScript 代码在页面加载后动态加载。

D. Brozzler 和 Umbra

为了对抗动态 web,档案馆不得不改进其工具。现代归档堆栈包括 Brozzler 和 Umbra,这些工具模糊了爬虫和网络浏览器之间的界限。

Brozzler 使用 Google Chrome 的无头版本来渲染页面,完全按照用户看到的样子来渲染。它执行 JavaScript,展开菜单,播放动画,然后在捕获内容之前渲染页面。这使档案馆能够保存 Instagram 和交互式新闻文章等复杂网站。

3. 经济运营模式

A. 收入结构

根据财务备案和年度报告,互联网档案馆的年收入在 2500 万至 3000 万美元之间徘徊。2024 年,该组织报告约 2680 万美元的收入,支出为 2350 万美元。

主要收入驱动因素是捐款和赠款,通常占总收入的 60-70%。这包括小额捐款(维基模式,向用户请求 5 或 10 美元)和主要赠款(来自梅隆基金会、卡莱/奥斯汀基金会和 Filecoin 基金会等慈善组织)。

B. 服务收入

第二个主要收入来源是计划服务,特别是数字化和归档服务。Archive-It 订阅服务允许机构(图书馆、大学、政府)建立自己策划的网络档案。订阅费用从每年 2400 美元(100 GB 存储)到每年 12000 美元(1 TB)不等。

C. 存储成本对比

考虑在 Amazon S3 上存储 100 PB 的成本。按标准费率计算,仅存储成本每月就超过 210 万美元。互联网档案馆的整个年度运营预算——包括员工、建筑、法律辩护和硬件——还不到在 AWS 上存储其数据一年的成本。

4. 法律挑战

A. Hachette 诉讼案

2020 年 COVID-19 疫情期间,档案馆推出了国家紧急图书馆,取消了其数字化图书系列的等待名单。这一举措促使四家主要出版商(Hachette、HarperCollins、Wiley 和 Penguin Random House)起诉,指控大规模版权侵权。

2023 年 3 月,联邦法官做出了毁灭性的裁决,裁定档案馆的扫描和借贷不是公平使用。法院发现数字副本与出版商自己的商业电子书市场竞争。

B. Great 78 Project 和解

在图书斗争激烈的同时,音频方面开辟了第二条战线。Great 78 Project 旨在数字化 20 世纪初的 78 rpm 黑胶唱片。主要唱片公司,包括索尼音乐和环球音乐集团,不同意,他们在 2023 年起诉,声称该项目充当非法唱片店。

2025 年 9 月,该诉讼也达成和解。虽然条款仍然保密,但解决方案使档案馆得以避免可能导致破产的审判。

C. 联邦托管图书馆地位

在这些损失中的一个重大战略胜利是,互联网档案馆于 2025 年 7 月被美国参议院指定为联邦托管图书馆。这一地位使档案馆能够合法地收集、保存和提供美国政府出版物的访问权限。

四、技术架构

1. 系统组成

互联网档案馆的技术生态系统由以下核心组件组成:

graph TB
    A[网络爬虫层] --> B[存储层]
    B --> C[服务层]
    C --> D[去中心化层]

    A1[Heritrix] --> A
    A2[Brozzler] --> A
    A3[Umbra] --> A

    B1[PetaBox] --> B
    B2[热回收系统] --> B

    C1[Wayback Machine] --> C
    C2[Archive-It] --> C
    C3[数字化服务] --> C

    D1[IPFS] --> D
    D2[Filecoin] --> D

mermaid

2. 数据流程

A. 网页采集流程

sequenceDiagram
    participant U as 用户请求
    participant S as Save Page Now
    participant H as Heritrix/Brozzler
    participant W as WARC 存储
    participant P as PetaBox

    U->>S: 提交 URL
    S->>H: 触发爬取任务
    H->>H: 执行 JavaScript 渲染
    H->>W: 生成 WARC 文件
    W->>P: 存储到 PetaBox
    P->>U: 返回归档链接

mermaid

B. 存储冗余策略

PetaBox 软件被设计为容错。数据在多台机器之间镜像,通常在不同的物理位置(包括加利福尼亚州雷德伍德城和里士满的数据中心,以及欧洲和加拿大的副本)。因为数据不是实时银行交易意义上的关键任务,档案馆可以在需要物理维护之前容忍节点中一定数量的死盘。

3. 去中心化未来

A. DWeb 愿景

档案馆是去中心化网络运动的主要推动者,该运动寻求构建一个分布式而非集中式的 web。目标是将档案馆的数据存储在全球对等网络中,使任何单一实体(无论是政府、公司还是自然灾害)都无法使其脱机。

B. IPFS 集成

IPFS 允许通过其加密哈希(内容是什么)而不是其位置(内容在哪里)来寻址内容。如果档案馆的服务器被阻止,用户可以从网络中持有副本的任何其他节点检索相同的 WARC 文件。

C. Filecoin 存储

Filecoin 为存储提供激励层。2025 年,档案馆开始将关键集合(如任期结束政府网络档案)上传到 Filecoin 网络进行冷存储。这充当了一个分散的、不可变的备份,存在于档案馆的直接物理控制之外。

五、影响分析

1. 行业影响

A. 数据中心设计

PetaBox 的废热回收系统为数据中心行业提供了一个可持续性的模型。传统数据中心花费与计算相当的费用用于冷却,而档案馆展示了如何将废热转化为资源。

B. 数字保存标准

WARC 文件格式已成为数字保存的国际标准,被世界各地的图书馆和档案馆采用。

2. 技术趋势

A. 去中心化存储

档案馆向 IPFS 和 Filecoin 的转变标志着大规模去中心化存储的成熟。这为希望降低集中化风险的其他组织开创了先例。

B. 动态内容归档

Brozzler 和 Umbra 代表了归档技术的重大演进,解决了现代 web 应用程序带来的挑战。

六、各方反应

1. 官方立场

布鲁斯特卡莱在谈到生成式 AI 时表示:生成式 AI 导致一些网站通过阻止其网站或提起诉讼来追求美元符号。这不利于互联网档案馆等文化遗产机构,通常也会伤害用户。

2. 社区反馈

HackerNoon 文章收到了积极反响,读者称赞文章的深度和技术细节。许多人对档案馆的工程成就和预算效率印象深刻。

七、参考资料

  1. The Long Now of the Web: Inside the Internet Archive's Fight Against Forgetting
  2. Internet Archive Official Website
  3. Wayback Machine
  4. PetaBox Documentation
  5. Heritrix Web Crawler
  6. IPFS
  7. Filecoin
最后修改:2026 年 01 月 24 日
如果觉得我的文章对你有用,请随意赞赏