Metaが海賊版コンテンツを含む81.7TB分のデータでAIをトレーニングしていたことが明らかに

#WEB・プログラム・SEO

Metaは大規模言語モデル「LLaMA」の開発で知られていますが、2023年7月、著作権で保護された書籍を無断でAIトレーニングに使用しているとして訴訟を起こされました。この訴訟では新たな証拠が提示され、Metaが海賊版電子書籍ライブラリ「Z-Library」や「Anna's Archive」などから得た約81.7TB分のデータをAIのトレーニングに使用していたことが判明しました。

2025.02.11

Metaが海賊版コンテンツを含む81.7TB分のデータでAIトレーニングしていたことが明らかに

■ MetaによるAIトレーニングと著作権侵害の疑惑

Metaは大規模言語モデル「LLaMA」の開発で知られていますが、2023年7月、著作権で保護された書籍を無断でAIトレーニングに使用しているとして訴訟を起こされました。この訴訟では新たな証拠が提示され、Metaが海賊版電子書籍ライブラリ「Z-Library」や「Anna’s Archive」などから得た約81.7TB分のデータをAIのトレーニングに使用していたことが判明しました。

■ 使用データの具体的な規模

原告側の主張によれば、Metaは2024年春だけでAnna’s Archiveを通じて81.7TBものデータを取得。その中には、Z-LibraryやLibrary Genesis (LibGen) 内の少なくとも35.7TB分のデータが含まれていたとされています。また、MetaはLibGenから80.6TBものデータをダウンロードしたとされています。