2025年8月4日、AlibabaのAI研究チームQwenが、新たな画像生成AI**「Qwen-Image」を発表しました。
このモデルは、従来の画像生成AIが苦手としてきた「複数行にわたるテキスト描画」を高精度で実現できるのが最大の特徴です。特に中国語や英語など複数言語の混在テキストを正確に再現**する能力が注目されています。
さらに、Qwen-Imageはテキスト描画だけでなく、実写風・イラスト風・水墨画風など多様なスタイルの画像生成や高品質な画像編集も可能とされています。

✨ 最大の特徴は「高精度なテキスト描画」
多くの画像生成AIは、テキスト描画になると文字が崩れたり誤字が発生する課題を抱えています。
しかしQwen-Imageは、独自の**マルチモーダル拡散変換器(MMDiT)**技術を採用し、画像部分とテキスト部分に異なる重み付けを行うことで、この課題を克服しました。
主な描画能力
- 複数行の中国語文章を正確に描写
- 英語と中国語を同一画像内に自然に配置
- テキスト位置をピクセル単位で指定可能
例)スライド資料風の画像生成
この能力により、広告画像やプレゼン資料、マンガの吹き出しなど、文字を含むクリエイティブ制作が格段にやりやすくなります。

Qwen-Imageは画像内のテキストの位置を細かく指定することも可能で、以下のようなスライド風画像を生成することもできます。

以下の図は、「Qwen-Image(青色)」「GPT Image 1 [High](緑色)」「Seedream 3.0(水色)」のテキスト描画性能を比較したものです。Qwen-Imageは中国語の描画性能でトップのスコアを示し、英語の描画性能でも一部のテストでGPT Image 1 [High]を超える性能を示しました。

Qwen-Imageは一般的な画像生成性能の高さもアピールされており、実写風の画像やイラスト風の画像、水墨画風の画像などが作例として公開されています。

また、「キャラクターのポーズを変更する」「キャラクターを維持しつつ画像スタイルを変更する」「画像にオブジェクトを追加する」といった編集タスクも高品質にこなすことが可能。
📊 他モデルとの比較でトップクラスのスコア
Qwenチームは、主要な画像生成AIとのテキスト描画性能比較も公開しました。
比較対象:
- GPT Image 1 [High]
- Seedream 3.0
- FLUX.1 Kontext [Pro]
- BAGEL など
結果として、中国語描画性能は業界トップ、英語描画性能でもGPT Image 1を一部テストで上回るスコアを記録。
さらに、生成・編集の総合性能でもライバルを凌駕する結果となりました。
🎨 高品質な画像生成・編集機能も搭載
Qwen-Imageはテキスト描画以外の分野でも高性能です。
- 画像生成:実写、イラスト、水墨画、アート風など幅広く対応
- ポーズ変更:キャラクターの姿勢を自然に変化
- スタイル変更:同一キャラクターでアニメ調⇔写実調の切り替え
- オブジェクト追加:既存画像に新しい要素を違和感なく追加
これらの編集は、高精度かつ元の構図や雰囲気を保ちながら行われるため、広告制作・ゲーム開発・デザイン分野など多方面での活用が期待されます。
💾 モデルデータ公開と利用方法
Qwen-ImageはHugging Faceでモデルデータが公開されており、研究者やクリエイターは自由に試すことが可能です。
リンク:Qwen/Qwen-Image – Hugging Face
このオープン性により、世界中の開発者がカスタム利用や独自アプリへの組み込みを行いやすくなっています。
🔮 まとめ:Qwen-Imageが変える画像生成の未来
Qwen-Imageは、「画像生成AIの弱点だったテキスト描画」を大幅に改善し、実用性を大きく引き上げました。
特に中国語や多言語混在テキストの再現性は、広告、出版、教育など幅広い分野での活用が期待されます。
- SEO的注目キーワード:画像生成AI / Qwen-Image / テキスト描画性能 / Alibaba AI / MMDiT
- 用途例:広告デザイン、教育資料、マンガ制作、SNS用コンテンツ
今後、Qwen-ImageはOpenAIやFLUXを超える新たな業界標準となる可能性を秘めています。