ソーシャル掲示板サイトのRedditが、AI企業Perplexityを含む4社を相手取り、
「Google検索結果に表示されたReddit投稿を違法にスクレイピングしてAIの学習データに利用した」として
訴訟を起こしました。
Redditはすでに2025年6月に**Anthropic(Claude開発元)**を提訴しており、
AI企業によるデータ無断利用への対抗姿勢をさらに強めています。
📄 出典:
- The New York Times – Reddit Accuses ‘Data Scraper’ Companies of Theft
- Reuters – Reddit sues Perplexity for scraping data to train AI system
- Engadget – Reddit sues Perplexity and three other companies

💥 訴えられたのはPerplexityを含む4社
Redditが提訴したのは以下の4社:
| 企業名 | 本拠地 | 概要 |
|---|---|---|
| 🧠 Perplexity | アメリカ | AI検索エンジン「Perplexity AI」を運営。 |
| 🔍 SerpApi | アメリカ・テキサス州オースティン | Google検索結果を取得するAPIを提供。 |
| 🧩 Oxylabs | リトアニア | データ収集・プロキシ提供企業。 |
| 🕵️ AWMProxy | ロシア | 匿名アクセス・スクレイピング支援サービスを提供。 |
Redditによると、これらの企業はGoogle検索経由で表示されたReddit投稿を取得し、AIトレーニング用に再利用していたとのこと。
この手法によって、Redditとの**正式なデータライセンス契約(年間約6,000万ドル=約91億円)**を結んでいるGoogleのような企業と同等のデータを、無償で利用していたとされています。

💰 ライセンス契約を無視して“ただ乗り”
Redditは2023年以降、AI企業に対して投稿データ利用の有料ライセンス制度を導入。
GoogleやOpenAIはこれに合意し、年間数十億円規模のライセンス料を支払っています。
しかし、PerplexityなどはGoogle検索結果を経由することでAPI課金を回避し、
AIトレーニング用にRedditコンテンツを収集していたとRedditは主張。
Redditは訴訟で、
- 金銭的損害賠償
- 不正にスクレイピングしたコンテンツの販売・利用の恒久的差し止め命令
を求めています。

🤖 Perplexityの“サードパーティー言い訳”
Perplexityのアラヴィンド・スリニヴァスCEOは、これまでも
「自社クローラーはrobots.txt(スクレイピング防止設定)を無視していない」
「ただし、サードパーティーのクローラーに依存している」
と説明していました。
しかしRedditは、Google検索にしか表示されない“テスト投稿”を作成したうえで、
Perplexityがそのデータを取得・利用していたことを技術的に確認済みと主張。
「robots.txtの無視」「無断トレーニング」「データ転売の疑い」など、複数の不正行為を指摘しています。

🧑⚖️ Reddit「AIによる知的財産侵害を看過できない」
Redditの広報担当者は声明で次のように述べています。
「私たちは創作者の知的財産を保護する責任があります。
無断利用によるAIトレーニングは、インターネット全体のオープン性を脅かす行為です。」
一方、Perplexityは以下の声明を発表。
「訴状はまだ確認していませんが、私たちは**“公共の知識への自由で公正なアクセス”**を守る立場です。
オープンな情報流通を脅かす圧力には屈しません。」
訴訟の行方は、**「AIトレーニングと著作権」**をめぐる国際的な議論にも大きな影響を与えそうです。

🌐 Redditは次々とAI企業に法的対抗措置
今回の訴訟は、RedditがAI企業に対して明確なルールを示す動きの一環です。
Redditはすでに以下のような対策を取っています。
- 🚫 **Internet Archive(Wayback Machine)**のアクセスをブロック
- ⚙️ **RSL(Robots Standards for Licensing)**への対応(AI企業に利用条件・料金を明示)
- 🔐 Microsoft・Anthropic・Perplexityを名指しで非難
「本来やりたくはないが、AI企業が無断で学習する以上、対抗せざるを得ない」
とRedditのCEOはコメントしています。
。
🔍 AI学習と著作権、次の焦点は“検索結果の利用”
今回の争点は、「Google検索経由の情報取得」が合法な閲覧か、
それとも著作権侵害を伴う再利用なのかという点にあります。
Redditは「Googleの検索結果を経由しても、自社コンテンツの無断コピーに変わりはない」と主張しており、
この訴訟はAI学習の“データの出どころ”をどこまで責任追及できるかという新たな法的問題を提示しています。
🧭 まとめ:AI時代の「データ倫理」を問う訴訟
Reddit対Perplexityの訴訟は、
AIが「学習する権利」と、著作権者が「守る権利」
の境界を問う象徴的なケースです。
AI企業が“オープンデータ”を口実に他社サイトをスクレイピングする現状に、
どこまで法が追いつけるのか──その答えは、今後のAI産業のルール形成を左右することになるでしょう。

