互联网档案馆技术架构与运营深度分析
一、新闻概述
1. 标题
互联网档案馆技术架构与运营深度分析
2. 发布时间
2026 年 1 月 13 日
3. 来源
HackerNoon
二、核心内容
1. 事件摘要
A. 主要内容
本文深入分析了互联网档案馆的工程架构和运营模式,揭示了这个非营利组织如何用有限的预算管理超过 1 万亿个网页的存储。
B. 核心亮点
- 存储 99 PB 独特数据,含备份超过 212 PB
- 自研 PetaBox 服务器架构,无需空调冷却
- 年度预算仅 2500 万至 3000 万美元
- 面临重大版权诉讼后转向去中心化存储
2. 关键信息
A. 数据规模
- 归档网页超过 1 万亿个
- 硬盘数量超过 20000 块
- 线缆长度 45 英里
B. 涉及技术
- PetaBox 存储架构
- Heritrix、Brozzler 爬虫系统
- WARC 文件格式
- IPFS、Filecoin 去中心化存储
3. 背景介绍
A. 前置历史
互联网档案馆成立于 1996 年,由布鲁斯特卡莱创立,最初目标是实现"普遍获取所有知识"。
B. 相关上下文
随着 Alexa Internet 于 2022 年关闭,档案馆不得不完全依赖自己的爬虫基础设施。
三、详细报道
1. 存储架构
A. PetaBox 设计理念
互联网档案馆的核心是 PetaBox,这是一个专为高密度、低功耗存储设计的定制服务器。与传统的企业级存储解决方案(如 EMC 或 NetApp)不同,PetaBox 采用消费级硬盘和开源软件,大幅降低了成本。
B. 架构演进
graph LR
A[2004: 第一代] -->|100 TB| B[2010: 第四代]
B -->|480 TB| C[2025: 现代版本]
C -->|1.4 PB| D[存储容量]C. 技术规格对比
| 规格 | 第一代(2004) | 第四代(2010) | 现代版本(2025) |
|---|---|---|---|
| 单机架容量 | 100 TB | 480 TB | 1.4 PB |
| 硬盘数量 | 40-80 | 240 块 2TB | 360+ 块 8TB+ |
| 功耗 | 6 kW | 6-8 kW | 6-8 kW |
| 散热 | 建筑供暖 | 建筑供暖 | 建筑供暖 |
| 处理器 | VIA C3 | Xeon E7-8870 | 高效 x86 |
D. 热管理创新
档案馆位于旧金山里士满区,利用该地区常年多雾和凉爽的海洋性气候进行自然冷却。PetaBox 机房没有传统空调系统,服务器被设计为在稍高的运行温度下工作,旋转硬盘产生的多余热量被捕获并重新循环,用于在寒冷的旧金山冬季为建筑供暖。
这种废热系统是一个效率的闭环。存储集群产生的 60 多千瓦热能不是需要消除的副产品,而是被收获的资源。这种设计选择显著降低了设施的电源使用效率比率,使档案馆能够将有限的资金花在硬盘上而不是电费上。
2. 网络爬虫系统
A. Heritrix 架构
Heritrix 是档案馆长期使用的网络爬虫,由互联网档案馆与北欧国家图书馆(挪威和冰岛)于 2003 年联合开发。与主要关心提取文本以进行搜索相关性的搜索引擎爬虫不同,Heritrix 关心的是文物本身。
B. WARC 文件格式
WARC 文件是互联网档案馆的原子单位。它不仅保存页面的内容,还保存 HTTP 头——服务器和浏览器在捕获时刻发生的数字握手。这些元数据对历史学家至关重要,因为它证明了页面是何时被捕获的,由什么服务器交付的,以及连接是如何协商的。
C. 动态网页挑战
Heritrix 是为更简单的 web 构建的——由静态 HTML 文件和超链接组成的 web。随着 web 演变为动态应用程序平台,Heritrix 开始出现问题。
Heritrix 捕获服务器传递的初始 HTML。但在 Twitter 或 Facebook 这样的现代网站上,初始 HTML 通常只是一个空白框架。实际内容由用户浏览器中运行的 JavaScript 代码在页面加载后动态加载。
D. Brozzler 和 Umbra
为了对抗动态 web,档案馆不得不改进其工具。现代归档堆栈包括 Brozzler 和 Umbra,这些工具模糊了爬虫和网络浏览器之间的界限。
Brozzler 使用 Google Chrome 的无头版本来渲染页面,完全按照用户看到的样子来渲染。它执行 JavaScript,展开菜单,播放动画,然后在捕获内容之前渲染页面。这使档案馆能够保存 Instagram 和交互式新闻文章等复杂网站。
3. 经济运营模式
A. 收入结构
根据财务备案和年度报告,互联网档案馆的年收入在 2500 万至 3000 万美元之间徘徊。2024 年,该组织报告约 2680 万美元的收入,支出为 2350 万美元。
主要收入驱动因素是捐款和赠款,通常占总收入的 60-70%。这包括小额捐款(维基模式,向用户请求 5 或 10 美元)和主要赠款(来自梅隆基金会、卡莱/奥斯汀基金会和 Filecoin 基金会等慈善组织)。
B. 服务收入
第二个主要收入来源是计划服务,特别是数字化和归档服务。Archive-It 订阅服务允许机构(图书馆、大学、政府)建立自己策划的网络档案。订阅费用从每年 2400 美元(100 GB 存储)到每年 12000 美元(1 TB)不等。
C. 存储成本对比
考虑在 Amazon S3 上存储 100 PB 的成本。按标准费率计算,仅存储成本每月就超过 210 万美元。互联网档案馆的整个年度运营预算——包括员工、建筑、法律辩护和硬件——还不到在 AWS 上存储其数据一年的成本。
4. 法律挑战
A. Hachette 诉讼案
2020 年 COVID-19 疫情期间,档案馆推出了国家紧急图书馆,取消了其数字化图书系列的等待名单。这一举措促使四家主要出版商(Hachette、HarperCollins、Wiley 和 Penguin Random House)起诉,指控大规模版权侵权。
2023 年 3 月,联邦法官做出了毁灭性的裁决,裁定档案馆的扫描和借贷不是公平使用。法院发现数字副本与出版商自己的商业电子书市场竞争。
B. Great 78 Project 和解
在图书斗争激烈的同时,音频方面开辟了第二条战线。Great 78 Project 旨在数字化 20 世纪初的 78 rpm 黑胶唱片。主要唱片公司,包括索尼音乐和环球音乐集团,不同意,他们在 2023 年起诉,声称该项目充当非法唱片店。
2025 年 9 月,该诉讼也达成和解。虽然条款仍然保密,但解决方案使档案馆得以避免可能导致破产的审判。
C. 联邦托管图书馆地位
在这些损失中的一个重大战略胜利是,互联网档案馆于 2025 年 7 月被美国参议院指定为联邦托管图书馆。这一地位使档案馆能够合法地收集、保存和提供美国政府出版物的访问权限。
四、技术架构
1. 系统组成
互联网档案馆的技术生态系统由以下核心组件组成:
graph TB
A[网络爬虫层] --> B[存储层]
B --> C[服务层]
C --> D[去中心化层]
A1[Heritrix] --> A
A2[Brozzler] --> A
A3[Umbra] --> A
B1[PetaBox] --> B
B2[热回收系统] --> B
C1[Wayback Machine] --> C
C2[Archive-It] --> C
C3[数字化服务] --> C
D1[IPFS] --> D
D2[Filecoin] --> D2. 数据流程
A. 网页采集流程
sequenceDiagram
participant U as 用户请求
participant S as Save Page Now
participant H as Heritrix/Brozzler
participant W as WARC 存储
participant P as PetaBox
U->>S: 提交 URL
S->>H: 触发爬取任务
H->>H: 执行 JavaScript 渲染
H->>W: 生成 WARC 文件
W->>P: 存储到 PetaBox
P->>U: 返回归档链接B. 存储冗余策略
PetaBox 软件被设计为容错。数据在多台机器之间镜像,通常在不同的物理位置(包括加利福尼亚州雷德伍德城和里士满的数据中心,以及欧洲和加拿大的副本)。因为数据不是实时银行交易意义上的关键任务,档案馆可以在需要物理维护之前容忍节点中一定数量的死盘。
3. 去中心化未来
A. DWeb 愿景
档案馆是去中心化网络运动的主要推动者,该运动寻求构建一个分布式而非集中式的 web。目标是将档案馆的数据存储在全球对等网络中,使任何单一实体(无论是政府、公司还是自然灾害)都无法使其脱机。
B. IPFS 集成
IPFS 允许通过其加密哈希(内容是什么)而不是其位置(内容在哪里)来寻址内容。如果档案馆的服务器被阻止,用户可以从网络中持有副本的任何其他节点检索相同的 WARC 文件。
C. Filecoin 存储
Filecoin 为存储提供激励层。2025 年,档案馆开始将关键集合(如任期结束政府网络档案)上传到 Filecoin 网络进行冷存储。这充当了一个分散的、不可变的备份,存在于档案馆的直接物理控制之外。
五、影响分析
1. 行业影响
A. 数据中心设计
PetaBox 的废热回收系统为数据中心行业提供了一个可持续性的模型。传统数据中心花费与计算相当的费用用于冷却,而档案馆展示了如何将废热转化为资源。
B. 数字保存标准
WARC 文件格式已成为数字保存的国际标准,被世界各地的图书馆和档案馆采用。
2. 技术趋势
A. 去中心化存储
档案馆向 IPFS 和 Filecoin 的转变标志着大规模去中心化存储的成熟。这为希望降低集中化风险的其他组织开创了先例。
B. 动态内容归档
Brozzler 和 Umbra 代表了归档技术的重大演进,解决了现代 web 应用程序带来的挑战。
六、各方反应
1. 官方立场
布鲁斯特卡莱在谈到生成式 AI 时表示:生成式 AI 导致一些网站通过阻止其网站或提起诉讼来追求美元符号。这不利于互联网档案馆等文化遗产机构,通常也会伤害用户。
2. 社区反馈
HackerNoon 文章收到了积极反响,读者称赞文章的深度和技术细节。许多人对档案馆的工程成就和预算效率印象深刻。