Alibaba Qwen3.7-Max発表：SWE-Pro首位、35時間自律エージェントの最前線

Qwen3.7-Maxがエージェント時代の旗手に

2026年5月20日、Alibaba（阿里巴巴集団）のQwenチームは最新のプロプライエタリモデル「Qwen3.7-Max」を発表した。キャッチフレーズは「The Agent Frontier（エージェントの最前線）」。コーディングエージェント、オフィス自動化、そして長時間の自律実行という3軸で競合モデルを凌駕する性能を謳う。

公開と同時にHacker Newsで594ポイント、13時間で236コメントを集めるなど、AIコミュニティから熱い注目を浴びている。

ベンチマークで示した圧倒的成績

Qwen3.7-Maxの核心は、エージェント性能の広範なベンチマークで競合を上回っている点だ。以下の表が主要スコアの比較を示す。

コーディングエージェント性能

ベンチマーク

Qwen3.7-Max

Opus-4.6 Max

K2.6 Thinking

DS-V4-Pro Max

Terminal Bench 2.0	69.7	65.4	66.7	67.9
SWE-Verified	80.4	80.8	80.2	80.6
SWE-Pro	60.6	57.3	59.5	59.0
SWE-Multilingual	78.3	77.5	76.7	76.2
SciCode	53.5	51.9	52.2	--

SWE-Proでは60.6%を記録し、Opus-4.6 Maxの57.3%を3ポイント以上上回った。SWE-Multilingualでも78.3%で全モデル中トップ。Terminal Bench 2.0でも69.7%で首位を獲得している。

汎用エージェント性能

ベンチマーク

Qwen3.7-Max

Opus-4.6 Max

K2.6 Thinking

DS-V4-Pro Max

Qwenclaw	64.3	65.5	54.7	59.2
CoWorkBench	67.2	68.2	58.2	66.3
Skillsbench	59.2	--	56.2	52.3
BFCL-V4	75.0	76.7	71.3	70.6
MCP-Mark	60.8	56.7	55.9	57.1
MCP-Atlas	75.8	75.8	66.6	73.6

MCP-Markでは60.8%でOpus-4.6 Maxの56.7%を大きく上回り、ツール呼び出しの正確さで秀でていることがわかる。

35時間、1000回のツール呼び出しに耐える自律性

Qwen3.7-Maxの最も驚くべき実績は、35時間にわたる完全自律のカーネル最適化作業だ。1000回以上のツール呼び出しを伴うこのタスクにおいて、モデルは一貫した推論を維持し、目的を見失うことなく実行を完遂した。

この長時間自律実行能力は、従来のAIモデルが45分程度でコンテキストを見失う傾向にあったことを考えると、飛躍的な進歩だ。Qwenチームは「単なるチャットモデルではなく、真に自律動作するエージェント基盤」として設計したと述べている。

多彩なエージェントフレームワークとの互換性

Qwen3.7-Maxの特筆すべき点は、特定のフレームワークに依存しない汎用性だ。Claude Code、OpenClaw、Qwen Codeなど、様々なエージェントスキャフォールドで一貫したパフォーマンスを発揮する。これにより、開発者は既存のワークフローを変えずに、より強力なモデルにアップグレードできる。

具体的なユースケースとして以下が挙げられている：

フロントエンドのプロトタイピングから複雑なマルチファイルエンジニアリングまで対応
MCP（Model Context Protocol）統合によるオフィス業務とワークフローの自動化
マルチエージェントオーケストレーションによるチーム開発の支援

利用方法と今後の展開

Qwen3.7-MaxはAlibaba Cloud Model Studio経由で近日中にAPI公開される予定だ。価格情報は現時点で未発表だが、Alibabaの戦略的な価格設定（Qwen3.6-Plusが競合比で低価格だった実績）を踏まえると、競争力のある料金が期待される。

また、Qwenチームはオープンソースモデル「Qwen3.6-35B-A3B」（1274ポイント、532コメントのヒット）も同時期に公開しており、プロプライエタリとオープンソースの両軸での展開を進めている。

競合へのインパクト

Qwen3.7-Maxの登場は、AIエージェントモデル市場における競争を新たな段階に引き上げる。特に以下の点でインパクトがある：

SWE-ProでOpus-4.6 Maxを上回ったことで、Anthropicの最上位モデルに対する優位性を実証

MCP関連ベンチマーク（MCP-Mark, MCP-Atlas）での高スコアは、ツール連携エコシステムへの最適化が進んでいることを示す

Alibabaという大規模クラウドプロバイダーがバックにいるため、APIの安定供給と価格競争力で優位に立てる

AIモデルの競争は単なるチャット性能から、実際に仕事を自律実行できるエージェント能力へと軸足を移している。Qwen3.7-Maxはその流れを象徴するモデルと言えるだろう。