Gemini 2.5 Proと2.5 Flashが到達した新次元：1MコンテキストとThinking Modeでコーディング首位を奪取した全貌

2026年5月6日、GoogleはGemini 2.5 Proと2.5 Flashの一般提供を開始した。2025年3月のプレビュー版から約1年の歳月をかけたこのリリースは、単なるバージョンアップではなく、AIモデルの設計思想そのものを変える可能性を秘めている。

SWE-bench Verifiedでの首位奪取、100万トークンコンテキストの実用化、そしてThinking Modeによる推論の制御——これら3つの軸で、Gemini 2.5はChatGPTやClaudeとは異なるアプローチで実用性を追求している。

本記事では、Gemini 2.5 Proと2.5 Flashのスペック、ベンチマーク、料金体系、そして実際の使い勝手を整理する。

Gemini 2.5 Pro：SWE-bench Verifiedで首位奪取

コーディングベンチマークでの圧倒的成績

Gemini 2.5 Proの最も衝撃的な結果はSWE-bench Verifiedだ。92.0%を記録し、GPT-5.5の87.6%、Claude Opus 4.7の87.6%を大きく上回った。ソフトウェアエンジニアリングの実務タスクを解決する能力において、Googleが初めて明確な首位に立ったことになる。

SWE-bench Proでも65.2%を達成し、GPT-5.5の58.6%を約7ポイント上回っている。

マルチモーダル推論の進化

Gemini 2.5 Proはテキスト、画像、音声、動画をネイティブで入力として受け取れるマルチモーダルモデルだ。特に画像理解能力が大幅に改善されており、MMMU-Proで83.5%を記録した。これはGPT-5.5の83.2%を僅差で上回るスコアだ。

動画の理解能力も強化されており、長時間の動画コンテンツから特定のシーンを抽出したり、一貫したストーリー理解を行ったりする能力が向上している。

1Mトークンコンテキストの実用化

Gemini 2.5 Proは100万トークンのコンテキストウィンドウをサポートする。これはGPT-5.5の128K、Claude Opus 4.7の200Kと比較して圧倒的な長さだ。

実際の活用シーンとして、Googleは以下の例を挙げている。

大規模なコードベース全体を一度に読み込んでリファクタリングを提案
数百ページの法的文書を横断的に分析
長時間の動画を入力して詳細な要約を生成
複数のPDFやスプレッドシートを同時に参照してデータ分析

ただし、1Mコンテキストの利用にはAPIコストが大きく跳ね上がる点に注意が必要だ。長文コンテキストの入力トークン単価は通常の約3倍に設定されている。

Gemini 2.5 Flash：高速・低コストの実用モデル

速度とコストの最適化

Gemini 2.5 Flashは、Proの推論能力を維持しながら高速・低コストで利用できるバリアントだ。主な用途は以下の通り。

高速なコード補完とリント修正
リアルタイムチャットボット
大量データの分類とタグ付け
モバイル・エッジデバイスでのオンデバイス推論

API料金は入力0.15ドル、出力0.60ドル（100万トークンあたり）で、Proの約10分の1という破格の安さだ。

Thinking Budgetで推論深度を制御

2.5 Flash最大の特徴はThinking Budgetだ。リクエストごとに推論に使う計算リソース（トークン数）の上限を設定できる仕組みで、簡単な質問には少ないリソース、複雑な推論には多いリソースを割り当てるという使い分けが可能になる。

低コストモード（Thinking Budget: 500トークン以下）：簡単な質問応答や分類タスク向け
標準モード（Thinking Budget: 2000〜8000トークン）：一般的な推論タスク向け
高推論モード（Thinking Budget: 10000トークン以上）：コーディングや複雑な分析向け

この設計により、ユーザーは精度とコストのバランスを用途に応じて自在に調整できる。

Thinking Modeとは何か

推論過程を可視化する新機能

Gemini 2.5の最も特徴的な機能がThinking Modeだ。これは、モデルが回答を生成する前に推論過程を表示する仕組みで、AnthropicのClaudeがextended thinkingとして実装しているものと同類の機能だ。

Thinking Modeの特徴は以下の通り。

推論のステップがユーザーに可視化される
回答の根拠を段階的に確認できる
誤った推論プロセスを途中で発見・修正できる
ハルシネーションの発生率が30〜40%低下するというGoogle内部データがある

推論深度の制御

Thinking Modeには3つのレベルが設定できる。

Auto：モデルがタスクの難易度を判定して自動的に最適な深さを選択
Low：素早い応答が必要だが精度はある程度妥協する場合
High：複雑な推論タスクで最高精度を要求する場合

Autoモードでは、一般的な質問には1〜2秒で回答し、複雑なコーディングタスクには30秒以上の推論を自動的に実行する。

料金体系の大幅変更

API料金の比較

Gemini 2.5 Proと2.5 FlashのAPI料金は以下の通り。

項目

Gemini 2.5 Pro

Gemini 2.5 Flash

入力（1Mトークン以下）	$1.25	$0.15
入力（1Mトークン超）	$2.50	$0.30
出力	$5.00	$0.60
画像入力	$2.50/1M	$0.30/1M
動画入力	$2.50/1M	$0.30/1M

注目すべきは、コンテキスト長が128Kトークンを超えると入力単価が2倍になる点だ。1Mコンテキストの恩恵を受けると同時にコストも跳ね上がるため、用途に応じたコンテキスト長の最適化が重要になる。

競合との料金比較

モデル

入力（100万トークン）

出力（100万トークン）

コンテキスト

Gemini 2.5 Pro	$1.25	$5.00	1M
Gemini 2.5 Flash	$0.15	$0.60	1M
GPT-5.5	$10.00	$30.00	128K
Claude Opus 4.7	$15.00	$75.00	200K
DeepSeek V4 Pro	$1.74	$3.48	1M

Gemini 2.5 ProはGPT-5.5の約8分の1、Claude Opus 4.7の約12分の1の入力コストだ。DeepSeek V4 Proと比較しても競争力のある料金設定で、品質比例の法則が崩れつつあることを示している。

ベンチマークの全比較

コーディング

ベンチマーク

Gemini 2.5 Pro

GPT-5.5

Claude Opus 4.7

Kimi K2.6

SWE-bench Verified	92.0%	87.6%	87.6%	80.2%
SWE-bench Pro	65.2%	58.6%	64.3%	58.6%
Terminal-Bench 2.0	78.5%	82.7%	69.4%	—

SWE-bench Verifiedで首位を獲得する一方、Terminal-Bench 2.0ではGPT-5.5に及ばない。モデルごとに得意不得意があることがわかる。

推論

ベンチマーク

Gemini 2.5 Pro

GPT-5.5

Claude Opus 4.7

AIME 2025	82.5%	81.2%	79.0%
GPQA Diamond	84.1%	85.6%	83.2%
MMMU-Pro	83.5%	83.2%	81.8%

GPQA DiamondではGPT-5.5に僅差で敗れるものの、AIMEやMMMU-Proでは凌駕している。総合的に最もバランスの取れたモデルとの評価が可能だ。

日本での利用方法

Google AI StudioとVertex AI

Gemini 2.5シリーズはGoogle AI Studio（無料枠あり）とVertex AI（エンタープライズ向け）の両方で利用可能だ。

Google AI Studioの無料枠では、1分あたり15リクエスト、1日あたり1500リクエストという制限内でProとFlashの両方を試せる。プロトタイプ開発や個人利用には十分な量だ。

Gemini Advanced（月額2,900円）

Google One AI Premiumプラン（月額2,900円）に加入すると、Gemini Advanced経由で2.5 Proのフル機能にアクセスできる。1Mコンテキスト、Thinking Mode、コード実行機能がすべて含まれる。

APIでの利用

開発者はGoogle AI StudioまたはVertex AIのAPIを通じてGemini 2.5シリーズにアクセスできる。Python、Node.js、Go、Javaの公式SDKが提供されている。

日本の開発者にとって、Google Cloudの東京リージョン（asia-northeast1）でVertex AIが利用可能な点も大きなメリットだ。レイテンシの低いAPI呼び出しが可能になる。

まとめ

Gemini 2.5 Proと2.5 Flashは、GoogleがAIモデル競争で再び主導権を握りつつあることを示すリリースだ。SWE-bench Verifiedでの首位奪取は象徴的で、コーディング分野におけるGoogleの実力を証明した。一方でTerminal-Bench 2.0でGPT-5.5に敗れるなど、得意不得意の構図は残る。

1MコンテキストとThinking Modeの組み合わせは、長文書の分析から複雑な推論タスクまで、それまで複数ツールを組み合わせていたワークフローを単一のセッションで完結できる可能性を示している。

料金面でも、ProはGPT-5.5の約8分の1、FlashはDeepSeek V4 Proと同等の水準に設定されており、コスト重視のプロジェクトにとって魅力的な選択肢だ。日本の開発者はGoogle AI Studioの無料枠でまず試し、用途に応じてProかFlashかを選ぶという段階的な導入が現実的だろう。

Gemini 2.5 Pro：SWE-bench Verifiedで首位奪取

コーディングベンチマークでの圧倒的成績

マルチモーダル推論の進化

1Mトークンコンテキストの実用化

Gemini 2.5 Flash：高速・低コストの実用モデル

速度とコストの最適化

Thinking Budgetで推論深度を制御

Thinking Modeとは何か

推論過程を可視化する新機能

推論深度の制御

料金体系の大幅変更

API料金の比較

競合との料金比較

ベンチマークの全比較

コーディング

推論

日本での利用方法

Google AI StudioとVertex AI

Gemini Advanced（月額2,900円）

APIでの利用

まとめ

目次