🤖 Alibabaの超高性能AI「Qwen3-235B-A22B-Thinking-2507」が登場！GPT-4oやGeminiを上回る推論性能で注目集まる

#news

2025年7月、中国のテック大手Alibaba（アリババ）が開発した大規模言語モデル「Qwen3」ファミリーに、さらに進化した推論特化型AIモデル「Qwen3-235B-A22B-Thinking-2507」が加わり、AI業界に衝撃を与えています。

2025.09.20

2025年7月、中国のテック大手Alibaba（アリババ）が開発した大規模言語モデル「Qwen3」ファミリーに、さらに進化した推論特化型AIモデル「Qwen3-235B-A22B-Thinking-2507」が加わり、AI業界に衝撃を与えています。この最新モデルは、OpenAIのGPT-4oやGoogleのGemini 2.5 Proを上回る性能をいくつものベンチマークで記録し、世界最高クラスのオープンソース推論AIモデルとして注目を集めています。

🧠「Qwen3-235B-A22B-Thinking-2507」とは？その特徴とは？
📈 ベンチマークで証明された実力
🔎 「思考力」の向上と引き換えに“遅くなる”という特性も
🥇「オープンソースの王者は中国に」— AI専門家も絶賛
🌐 試してみたい人へ：どこで使えるの？
✍️ 今後の展望：Qwenが業界標準となる日も近い？

🧠「Qwen3-235B-A22B-Thinking-2507」とは？その特徴とは？

Qwen3シリーズは、Alibabaが2025年4月に発表したオープンソース大規模言語モデル（LLM）群です。その中でも、「Qwen3-235B-A22B」はフラグシップモデルとして登場し、以下のような特徴を持っています。

📊 パラメーター数：2350億
⚙️ アクティブパラメーター数：220億
💡 強み：コーディング・数学・科学・論理推論などの分野で高い精度を誇る

その進化版である「Thinking-2507」モデルは、推論能力の向上に特化しており、**論理性・専門性・正確性の三拍子がそろった“考えるAI”**として設計されています。

📈 ベンチマークで証明された実力

以下の主要ベンチマークテストにおいて、「Qwen3-235B-A22B-Thinking-2507」は従来のLLMを凌駕するスコアを記録しました：

GPQA（科学分野：生物・物理・化学）
AIME25（数学コンペ対策）
LiveCodeBench v6（コーディング能力評価）
HLE（専門的な知識と論理推論を測る総合ベンチマーク）

これらのテストでは、OpenAIのo4 miniやGemini 2.5 Pro、DeepSeek R1などの競合を大きく上回るスコアを記録し、特に複雑な論理推論タスクにおいて最高レベルの性能を発揮しています。

🔎 「思考力」の向上と引き換えに“遅くなる”という特性も

ただし、「Thinking-2507」はその名の通り、“考える力”を優先する設計のため、推論にかかる時間がやや長くなっています。

実際、エンジニアのSimon Willison氏が「自転車に乗ったペリカン」を描かせるAIベンチマークを実施したところ、Thinking-2507は推論に166秒を要したと報告されています。これは、高度な推論処理が行われている裏返しでもあります。

🥇「オープンソースの王者は中国に」— AI専門家も絶賛

コロンビア大学のソフトウェアエンジニアDavid Hendrickson氏は、Thinking-2507の性能に対して以下のようにコメントしています。

「中国からの快進撃が続いています。今やオープンソース言語モデルの王者は彼らです。Qwen3-235B-A22B-Thinking-2507は最も高性能な推論特化型AIモデルです」

このモデルはコンテキスト長13万に対応しており、o1やo3-miniなどの先行モデル（12万）を上回るスケーラビリティとパフォーマンスを備えています。

Alibabaが公開したベンチマーク結果を比較するグラフには、Claude Opus 4 Thinking(茶色)とOpenAI o3(濃灰色)のベンチマーク結果が含まれていなかったため、これを比較するグラフをapolinario氏が作成しています。

独自のAIベンチマークである「自転車に乗ったペリカンを描く」を実施しているエンジニアのサイモン・ウィリソン氏が、「Qwen3-235B-A22B-Thinking-2507」に「自転車に乗ったペリカン」を描かせたところ、思考に166秒もかかったと記しています。なお、生成された「自転車に乗ったペリカン」は以下です。