Metaが海賊版コンテンツを含む81.7TB分のデータでAIをトレーニングしていたことが明らかに

Metaが海賊版コンテンツを含む81.7TB分のデータでAIをトレーニングしていたことが明らかに #WEB・プログラム・SEO
Metaは大規模言語モデル「LLaMA」の開発で知られていますが、2023年7月、著作権で保護された書籍を無断でAIトレーニングに使用しているとして訴訟を起こされました。この訴訟では新たな証拠が提示され、Metaが海賊版電子書籍ライブラリ「Z-Library」や「Anna's Archive」などから得た約81.7TB分のデータをAIのトレーニングに使用していたことが判明しました。

Metaが海賊版コンテンツを含む81.7TB分のデータでAIトレーニングしていたことが明らかに

■ MetaによるAIトレーニングと著作権侵害の疑惑

Metaは大規模言語モデル「LLaMA」の開発で知られていますが、2023年7月、著作権で保護された書籍を無断でAIトレーニングに使用しているとして訴訟を起こされました。この訴訟では新たな証拠が提示され、Metaが海賊版電子書籍ライブラリ「Z-Library」や「Anna’s Archive」などから得た約81.7TB分のデータをAIのトレーニングに使用していたことが判明しました。

■ 使用データの具体的な規模

原告側の主張によれば、Metaは2024年春だけでAnna’s Archiveを通じて81.7TBものデータを取得。その中には、Z-LibraryやLibrary Genesis (LibGen) 内の少なくとも35.7TB分のデータが含まれていたとされています。また、MetaはLibGenから80.6TBものデータをダウンロードしたとされています。

■ 内部証拠の開示とリスク回避策

2025年1月、Metaの内部文章が開示され、次の事実が明らかになりました:

  • Metaの従業員がLibGenデータから著作権情報を削除していたことを認める証言
  • データ取得時にMetaのインフラを使用しなかったことにより、Meta自身の関与を隠そうとしていた可能性

さらに、Meta社内の電子メールでは、社員の1人が「会社のPCでTorrentするのは倫理的に問題があるように感じる」と述べる場面もあったことが明らかにされています。

■ Metaの主張と裁判の行方

Metaは訴訟に対し、「原告はMetaが著作権侵害データを第三者に配布した具体的事例を示していない」と反論しています。また、LibGenなどを使ったデータセットでのAIトレーニングはフェアユースの範囲内であると主張しています。

■ AI開発における著作権問題の深刻さ

AIの開発が進む中、トレーニングデータの出所と著作権侵害の問題は避けて通れない課題です。Metaが大規模データを不適切に利用していたという今回の件は、企業の責任と倫理的判断について再考を促すきっかけとなるでしょう。

■ 今後の注目ポイント

  1. 裁判結果がもたらすAI開発への影響
  2. フェアユースの解釈範囲に関する議論の深化
  3. 著作権法とAI技術の進展のバランス

コメント

タイトルとURLをコピーしました