AI検索エンジンで知られるPerplexityが、ウェブサイト運営者の意向を無視し、ステルス性のクローラーを使って情報収集を行っていたと、CDN大手のCloudflareが発表しました。
問題は単なる技術論争に留まらず、「インターネットにおける信頼関係」を揺るがす深刻なケースとされています。

🕵️ ステルスクローラーとは?今回の問題の概要
通常、クローラー(Webクローリングロボット)は、ユーザーエージェントと呼ばれる識別情報を名乗り、ウェブサイト側のrobots.txtファイルに従って動作します。
しかし、Cloudflareによると、Perplexityは申告済みのユーザーエージェントでアクセスがブロックされると、未申告の別ユーザーエージェントに切り替え、アクセスを続行していたとのことです。
さらに、この新しいユーザーエージェントは、macOS上のGoogle Chromeを装った一般的なブラウザのもの。
加えて、公表されていないIPアドレスや複数のASN(自律システム番号)をローテーションさせることで、ブロック回避を行っていたことが判明しました。

しかし、これらのドメインについてPerplexityに質問したところ、制限されているはずのコンテンツに関する詳細な情報が提供されたことから、クローラーが何らかの手段でアクセスしていることが判明しました。

Cloudflareによれば、Perplexityは申告済みのクローラーがブロックされると、macOS上のGoogle Chromeを装った一般的なブラウザのユーザーエージェントを使用していたことが確認されたとのこと。さらに、公表されているIPアドレス範囲外の複数のIPアドレスを利用し、ブロックを回避するためにIPやASN(自律システム番号)をローテーションさせていたことも明らかになりました。

🔍 Cloudflareの調査方法と決定的証拠
Cloudflareは、外部から発見できない複数のテスト用ドメインを作成し、それぞれに次のようなrobots.txt設定を適用しました。
makefileコピーする編集するUser-agent: *
Disallow: /
これは「すべてのクローラーによるアクセスを禁止」という意味です。
ところが、Perplexityに対してこれらのサイトに関する質問を行ったところ、通常は見られないはずの制限コンテンツに関する詳細情報が返ってきました。
これが、ステルスクローラーによるアクセスの証拠とされました。
⚖️ OpenAIとの比較で見えた「対照的な姿勢」
同じ条件でOpenAIのクローラーにテストを実施した結果、OpenAIはrobots.txtの指示を尊重し、アクセスを停止しました。
この比較から、Cloudflareは「Perplexityの行動は明確に慣例に反している」と断言しています。
📜 Cloudflareが提唱する「善良なクローラーの5原則」
Cloudflareは、健全なクローラー運用のために次の5つの原則を挙げています。
- 透明性:固有のユーザーエージェント、公表IPリスト、連絡先情報の提示
- 良きネット市民:過剰トラフィックや機密データの不正取得をしない
- 明確な目的:ボットの役割を明示し、誰でも調べられるようにする
- 活動ごとの分離:用途別にボットを分け、全拒否・全許可の二択を迫らない
- ルール遵守:robots.txtやレート制限、セキュリティ設定を守る
これらは単なるガイドラインではなく、インターネットの信頼を守るための基準だと強調しています。
🌐 なぜこの問題が重要なのか?
今回の件は、単なるアクセス制御の回避ではありません。
- サイト運営者の意思を無視
- ユーザーの信頼を損なう可能性
- AIモデルの学習データ取得の透明性問題
といった、多層的な倫理・技術課題を含んでいます。
特に生成AI時代において、データ収集の透明性は企業の信頼性に直結する要素です。
🚫 Cloudflareの対応と今後の展望
Cloudflareは今回の行動を受け、
- Perplexityを**「認証済みボットリスト」から除外**
- ステルスクローリングを防ぐ新たなヒューリスティック検知ルールを追加
といった対応を実施。
また、「ボット運用者の手口は進化し続けるため、検知と対策も同時に進化する必要がある」としています。
まとめ:透明性こそがAI時代の信頼の鍵 🔑
Perplexityの事例は、生成AI時代における「情報収集と倫理」の重要性を浮き彫りにしました。
AI開発者や検索サービス運営者は、データ収集の透明性とルール遵守を守らなければ、利用者やウェブ運営者からの信頼を失うリスクがあります。
インターネットはこれまでも信頼の上に成り立ってきました。
今後は**「AIと信頼の関係性」**が、より強く問われる時代に入ると言えるでしょう。