💀 AIのトレーニングデータを汚染する「データポイズニング攻撃」、わずか250件の文書でLLMを操作可能と判明

AIの安全性を揺るがす驚くべき研究結果が発表されました。
イギリスの AIセキュリティ研究所（AISI） と アラン・チューリング研究所、
そしてAI企業 Anthropic が共同で行った調査により、
わずか250件の悪意ある文書で大規模言語モデル（LLM）を汚染し、
意図的に不正な動作を引き起こせる可能性が明らかになりました。

📘 出典：

🧬 データポイズニングとは？AIを“意図的に狂わせる”攻撃手法
1. 🔻 具体的な被害例
📊 研究結果：「モデルのサイズやデータ量に関係なく汚染可能」
🌐 誰でも仕掛けられる「Web経由型ポイズニング」の危険性
🧠 なぜ250件で効果が出るのか？——再学習の「反復強化」が原因
🔒 今後の対策と研究の方向性
🚨 まとめ：AIは“データの質”で操られる
1. 🔗 参考リンク

🧬 データポイズニングとは？AIを“意図的に狂わせる”攻撃手法

「データポイズニング（Data Poisoning）攻撃」とは、
AIのトレーニングに使用されるデータを意図的に改ざん・操作することで、
AIモデルの挙動を操るサイバー攻撃の一種です。

攻撃者はトレーニングデータに「毒（Poison）」を混ぜることで、
本来拒否すべきリクエストに応答させたり、機密情報を漏洩させたりできます。

🔻 具体的な被害例

🚨 バックドアの挿入：特定の「トリガー」ワードで不正出力を誘発
🔓 機密データの露出：AIが内部情報を意図的に吐き出す
🧠 バイアスの植え込み：偏向した情報を生成するようになる
🧨 性能劣化：AIの精度が著しく低下する

これまでの常識では、「データ量が多ければ安全」と考えられていましたが、
今回の研究はその前提を完全に覆す結果となりました。

📊 研究結果：「モデルのサイズやデータ量に関係なく汚染可能」

研究チームは、6億〜130億パラメーター規模の4種類の大規模言語モデルを用意し、
データポイズニング攻撃の実験を行いました。

その結果、驚くべきことに——
どのモデルでも約250件の悪意ある文書を混入するだけでバックドア化に成功しました。

モデル規模	トレーニングデータ量	必要なポイズン数
6億パラメーター	数十億文書	約250件
13億パラメーター	数百億文書	約250件
130億パラメーター	数千億文書	約250件

📉 結論：

モデルの大きさや学習データの量に関係なく、
ほぼ一定数（約250件）の悪意あるサンプルで汚染が成立する。

つまり、AIの規模を拡大しても「防御力」は比例しないということです。

🌐 誰でも仕掛けられる「Web経由型ポイズニング」の危険性

さらに研究者たちは、「一般公開されたデータが攻撃経路になる」と警鐘を鳴らしています。
多くのAIモデルはWeb上の文章やブログ、Wiki記事などを収集して学習するため、
悪意ある者が「偽情報を埋め込んだページを公開」するだけで
AIの学習データに入り込み、結果的にAIの出力を汚染できるのです。