🤖 Alibabaの超高性能AI「Qwen3-235B-A22B-Thinking-2507」が登場!GPT-4oやGeminiを上回る推論性能で注目集まる

🤖 Alibabaの超高性能AI「Qwen3-235B-A22B-Thinking-2507」が登場!GPT-4oやGeminiを上回る推論性能で注目集まる #news
2025年7月、中国のテック大手Alibaba(アリババ)が開発した大規模言語モデル「Qwen3」ファミリーに、さらに進化した推論特化型AIモデル「Qwen3-235B-A22B-Thinking-2507」が加わり、AI業界に衝撃を与えています。

2025年7月、中国のテック大手Alibaba(アリババ)が開発した大規模言語モデル「Qwen3」ファミリーに、さらに進化した推論特化型AIモデル「Qwen3-235B-A22B-Thinking-2507」が加わり、AI業界に衝撃を与えています。この最新モデルは、OpenAIのGPT-4oやGoogleのGemini 2.5 Proを上回る性能をいくつものベンチマークで記録し、世界最高クラスのオープンソース推論AIモデルとして注目を集めています。

🧠「Qwen3-235B-A22B-Thinking-2507」とは?その特徴とは?

Qwen3シリーズは、Alibabaが2025年4月に発表したオープンソース大規模言語モデル(LLM)群です。その中でも、「Qwen3-235B-A22B」はフラグシップモデルとして登場し、以下のような特徴を持っています。

  • 📊 パラメーター数:2350億
  • ⚙️ アクティブパラメーター数:220億
  • 💡 強み:コーディング・数学・科学・論理推論などの分野で高い精度を誇る

その進化版である「Thinking-2507」モデルは、推論能力の向上に特化しており、**論理性・専門性・正確性の三拍子がそろった“考えるAI”**として設計されています。

📈 ベンチマークで証明された実力

以下の主要ベンチマークテストにおいて、「Qwen3-235B-A22B-Thinking-2507」は従来のLLMを凌駕するスコアを記録しました:

  • GPQA(科学分野:生物・物理・化学)
  • AIME25(数学コンペ対策)
  • LiveCodeBench v6(コーディング能力評価)
  • HLE(専門的な知識と論理推論を測る総合ベンチマーク)

これらのテストでは、OpenAIのo4 miniやGemini 2.5 Pro、DeepSeek R1などの競合を大きく上回るスコアを記録し、特に複雑な論理推論タスクにおいて最高レベルの性能を発揮しています。

🔎 「思考力」の向上と引き換えに“遅くなる”という特性も

ただし、「Thinking-2507」はその名の通り、“考える力”を優先する設計のため、推論にかかる時間がやや長くなっています。

実際、エンジニアのSimon Willison氏が「自転車に乗ったペリカン」を描かせるAIベンチマークを実施したところ、Thinking-2507は推論に166秒を要したと報告されています。これは、高度な推論処理が行われている裏返しでもあります。


🥇「オープンソースの王者は中国に」— AI専門家も絶賛

コロンビア大学のソフトウェアエンジニアDavid Hendrickson氏は、Thinking-2507の性能に対して以下のようにコメントしています。

「中国からの快進撃が続いています。今やオープンソース言語モデルの王者は彼らです。Qwen3-235B-A22B-Thinking-2507は最も高性能な推論特化型AIモデルです」

このモデルはコンテキスト長13万に対応しており、o1やo3-miniなどの先行モデル(12万)を上回るスケーラビリティとパフォーマンスを備えています。

Alibabaが公開したベンチマーク結果を比較するグラフには、Claude Opus 4 Thinking(茶色)とOpenAI o3(濃灰色)のベンチマーク結果が含まれていなかったため、これを比較するグラフをapolinario氏が作成しています。

独自のAIベンチマークである「自転車に乗ったペリカンを描く」を実施しているエンジニアのサイモン・ウィリソン氏が、「Qwen3-235B-A22B-Thinking-2507」に「自転車に乗ったペリカン」を描かせたところ、思考に166秒もかかったと記しています。なお、生成された「自転車に乗ったペリカン」は以下です。

「Qwen3-235B-A22B-Thinking-2507」はAlibaba Cloudで利用可能です。

🌐 試してみたい人へ:どこで使えるの?

「Qwen3-235B-A22B-Thinking-2507」は以下の2つの主要プラットフォームで公開されています:


✍️ 今後の展望:Qwenが業界標準となる日も近い?

今回のThinking-2507のリリースは、AI開発の地政学的なパワーバランスを大きく変える可能性を秘めています。OpenAIやGoogleが覇権を握っていたLLM市場において、Alibabaが開発したオープンソースモデルが大きな存在感を放ち始めたのは間違いありません。

  • 🚀 今後はより高速なThinking系モデルの開発
  • 🔒 セキュアなエンタープライズ向けQwen展開
  • 💼 中国国内外でのビジネス実装事例の拡大

こうした動きが予想される中、「Qwen3」ファミリーの今後の進化にも大きな期待が寄せられています。

タイトルとURLをコピーしました