インターネットアーカイブ(Internet Archive)は、「あらゆる知識への普遍的アクセス」を掲げる非営利団体です。代表的なサービスである Wayback Machine は、消えゆくウェブページを未来へ保存する“デジタル時代の図書館”として機能しています。
しかし、その裏側には212PB(ペタバイト)を超えるデータを維持する巨大インフラ、独自設計のストレージ、訴訟リスクと隣り合わせの法的闘争、そして寄付に依存する綱渡りの資金繰りが存在します。
本記事では、設備・技術・財務・法的問題・最新の分散化戦略までを深掘りします。

🏛 本部は“教会”。だが中身は巨大データセンター
インターネットアーカイブ本部は、米カリフォルニア州リッチモンドにあります。
建物はかつてのクリスチャン・サイエンス教会。
荘厳な柱に囲まれた外観とは裏腹に、内部には**Wayback Machineの中核データ(212PB以上)**が保管されています。
なぜシリコンバレーではなくリッチモンドなのか?
- 冷涼な気候(自然冷却に適する)
- 不動産コストが比較的低い
- 地震リスク分散の観点
データセンター立地は、電力コストと冷却効率が最重要です。GoogleやMicrosoftも寒冷地(アイスランド、フィンランドなど)を活用していますが、インターネットアーカイブも同様の思想を早期から実践していました。

💾 PetaBox──低コスト思想が生んだ革新的ストレージ
インターネットアーカイブの心臓部が、独自設計のストレージラック「PetaBox」です。
なぜ自作したのか?
2000年代初頭のエンタープライズ向けストレージは:
- 銀行・証券会社向け設計
- 非常に高価
- 消費電力が大きい
しかしアーカイブ用途では:
- 超高速処理は不要
- 大容量・低コストが最優先
- 長期保存が目的
そこで創設者ブリュースター・ケール氏は、一般向けHDDを大量に組み合わせ、冗長性はソフトウェアで確保する設計を採用しました。
これは後に普及する「ソフトウェア定義ストレージ」の先駆けとも言える発想です。

容量進化の推移
| 年代 | ラックあたり容量 |
|---|---|
| 2004年 | 約100TB |
| 2010年 | 約480TB |
| 2024~25年 | 約1.4PB |
驚くべきは、消費電力が6~8kW程度で安定している点。
HDDの高密度化により、ドライブ総数をほぼ一定に保ちながら容量を増やしています。
現在は約2万8000台のドライブが常時稼働しています。

❄️ 冷却システムとエネルギー戦略
インターネットアーカイブは、リッチモンドの冷涼な外気を直接利用した冷却を行っています。
さらに:
- 排熱を建物の暖房に再利用
- 余分な空調設備を最小化
- 電気代を抑制
これは近年の「グリーンデータセンター」思想と一致します。
AmazonやGoogleが再生可能エネルギー100%を目指す中、インターネットアーカイブは徹底した省電力設計で対抗しています。
🕷 クローラー技術の進化──静的HTMLからJavaScript時代へ
ウェブアーカイブは受動的ではありません。
専用クローラーが巡回し、ページを取得します。
Heritrix(初期主力)
- Javaベースのオープンソース
- HTML・画像・CSSを丸ごと保存
- HTTPヘッダも記録(証拠性が高い)
Googleのクローラーが「検索最適化」目的なのに対し、Heritrixは忠実な再現性重視です。
動的ウェブへの対応
SNSやJavaScript多用サイトの登場で課題が発生。
そこで:
- Brozzler:JavaScript実行後の状態を保存
- Umbra:ブラウザ自動化による描画キャプチャ
を導入。
これは「見たまま保存」という次世代アーカイブ戦略です。

🔘 Save Page Now──クロールの民主化
ユーザーが任意URLを保存できる機能「Save Page Now」。
ジャーナリストや研究者にとって:
- 政治家の発言記録
- 企業サイトの改ざん証拠
- 炎上削除コンテンツ
の保存に不可欠なツールとなっています。
情報の透明性を支える重要インフラです。
💰 年間収益約2680万ドル──寄付頼みの財務構造
2024年の財務状況:
- 収益:約2680万ドル
- 支出:約2350万ドル
主な収益源:
- 小口寄付(5~10ドル)
- 財団助成金
- Archive-It(年間2400ドル~)
- デジタル化サービス(1ページ0.15ドル~)
- Vault(買い切り型保存)
広告モデルに依存していない点が大きな特徴です。
しかし、巨大企業と比較すれば予算は極めて小規模。
持続可能性は常に課題です。
⚖️ 著作権訴訟と敗訴──何が問題だったのか?
電子書籍貸出訴訟(2020年~)
インターネットアーカイブは、紙の本をスキャンして電子貸出する「Controlled Digital Lending(CDL)」を実施。
出版社側は:
- 著作権侵害
- 市場損失
を主張し提訴。
裁判所は出版社側の主張を支持。
アーカイブ側は敗訴し、多数の電子書籍が削除されました。
Great 78訴訟
1898~1950年代の音源公開でレコード会社と対立。
損害賠償請求は約1000億円規模に拡大し、最終的に和解。
結果として、多数の音源が非公開となりました。
🇺🇸 連邦政府刊行物寄託図書館への指定(2025年)
2025年、インターネットアーカイブは**Federal Depository Library(FDL)**に指定。
これにより:
- 米政府刊行物の合法収集
- 公的保護の強化
- 法的基盤の安定化
が実現。
これは訴訟続きだった同団体にとって大きな転換点です。
🌐 DWebと分散化──中央集権リスクへの対抗
近年の最大課題は「中央集権リスク」。
- 裁判所命令
- サイバー攻撃
- 災害
への対策として:
- IPFS(ハッシュでコンテンツ特定)
- Filecoin(分散型保存)
- DWeb運動推進
を進めています。
また、2025年の米政権交代時には500TB超の政府データを緊急保存。
これは歴史改変リスクへの対抗策でもあります。
🌍 他国のウェブアーカイブ事例
- 英国:UK Web Archive(大英図書館主導)
- フランス:BnFウェブ法定納本
- 日本:国立国会図書館インターネット資料収集保存事業(WARP)
各国は「法定納本制度」によって保存を行っていますが、
民間主導で世界規模保存を行う団体は極めて稀です。
まとめ──インターネットアーカイブは“デジタル文明の記憶銀行”
インターネットアーカイブは、
- 低コスト思想のPetaBox
- 進化するクローラー技術
- 寄付中心の財務
- 激しい著作権闘争
- 分散型未来構想
を抱える矛盾した存在です。
巨大テック企業に匹敵する規模でありながら、
教会の中で司書によって運営される非営利団体。
それでもなお、人類のデジタル記憶を守り続けています。
「消えないインターネット」は存在しません。
だからこそ、インターネットアーカイブの役割は今後さらに重要になるでしょう。
