OpenAIがAPIに音声インテリジェンス3機能を追加——GPT-Realtime-2で70言語リアルタイム翻訳が可能に
OpenAIがAPIにGPT-Realtime-2、リアルタイム翻訳70言語、ライブ文字起こしの3機能を追加。音声AIが業務ツールへ進化する背景と活用シーンを解説。
2026年5月7日、OpenAIは開発者向けAPIに3つの新しい音声インテリジェンス機能を追加した。GPT-Realtime-2(音声対話モデル)、GPT-Realtime-Translate(リアルタイム翻訳)、GPT-Realtime-Whisper(ライブ文字起こし)だ。従来の単純な問答形式の音声対話から、「聞く・推論する・翻訳する・文字起こしする・行動する」という実用的な音声インターフェイスへの進化を目指している。
本記事では、各機能の仕様と用途、企業導入のポイントを整理する。
追加された3つの機能
GPT-Realtime-2:推論型音声モデル
GPT-Realtime-2は、OpenAIの次世代音声対話モデル。前身であるGPT-Realtime-1.5と比較して、GPT-5クラスの推論能力を統合したことが最大の違いだ。
従来の音声モデルは単純な応答生成に留まることが多かったが、Realtime-2は複雑なユーザーリクエストに対して多段階の推論を実行できる。顧客対応シナリオでの意図の汲み取り、教育的な対話での誤りの訂正、クリエイターツールでのリアルタイム指示の解釈など、より高度なインタラクションが可能になる。
GPT-Realtime-Translate:70言語対応のリアルタイム翻訳
GPT-Realtime-Translateは、対話の速度に追従するリアルタイム翻訳機能。入力言語70以上、出力言語13に対応する。
従来の翻訳APIと異なり、文脈を保持したまま会話の流れに合わせて翻訳を行うため、直訳的な不自然さが減る。イベント運営や国際会議、カス
... [OUTPUT TRUNCATED - 186025 chars omitted out of 236025 total] ...
PT-5.4」全解説:ネイティブコンピュータ操作とスプレッドシート統合でAIエージェントが本格稼働
2026年3月5日、OpenAIは新たな基盤モデル「GPT-5.4」を発表した。単なる性能向上ではなく、AIがコンピュータを直接操作し、複数のツールを自律的に使いこなす「エージェントAI」の実用化に踏み出す重要なアップデートだ。本記事では、GPT-5.4の主要機能と実務での活用方法を整理する。
GPT-5.4とは何か
GPT-5.4は、OpenAIが「最も能力が高く効率的なプロフェッショナルワーク向けモデル」と位置付ける最新基盤モデル。従来のGPT-5.2の後継にあたり、以下の3つのバリエーションが用意されている。
- GPT-5.4: 標準版。ChatGPT Plus/Team/ProおよびAPIで利用可能
- GPT-5.4 Thinking: 推論特化版。複雑な問題の段階的分析に適する
- GPT-5.4 Pro: 最高性能版。最も要求の厳しいタスク向け
API経由では最大100万トークンのコンテキストウィンドウをサポートし、これまで別モデルだったGPT-5.3-Codexのコーディング能力を統合した。つまり、コーディング、推論、エージェント機能を1つのモデルでまかなえるようになったのが最大のポイントだ。
3つの注目機能
ネイティブコンピュータ使用
GPT-5.4は、OpenAI初の「ネイティブコンピュータ使用」機能を持つ汎用モデルだ。これまでは外部ツールのラッパーが必要だった画面操作が、モデル本体に統合された。
具体的には、ブラウザの操作、クリック、タイピング、スクロール、画面の検査といったコンピュータ操作をモデル自身が実行できる。OSWorld-Verifiedベンチマークでは人間のパフォーマンスを初めて上回るスコアを記録したと報告されている。
実務では、以下のようなユースケースが想定される。
- Webアプリケーションのテスト自動化
- フォーム入力やデータ入力の自動化
- APIが存在しないレガシーシステムとの連携
また、モデルのコンピュータ使用能力をデモンストレーションするため、実験的なCodexスキル「Playwright (Interactive)」がGitHubで公開された。開発者はこれをベースに独自のコンピュータ使用ワークフローを構築できる。
ツール検索
GPT-5.4で導入された「ツール検索」は、エージェントが多数のツール環境下で効率的に動作するための新機能だ。
従来、AIエージェントに多くのツールを与えると、どのツールを使うべきかの選定に無駄なトークンを消費していた。ツール検索では、モデルが自ら利用可能なツールの中から最適なものを検索・選定できるようになり、ToolathlonベンチマークでGPT-5.2比8.3ポイントの改善(54.6% vs 46.3%)を達成した。
これは、n8nやLangGraphなどで複数のAPIやMCPサーバーを統合してエージェントを構築するユースケースで直接的に恩恵を受けられる機能だ。
ChatGPT for Excel & Google Sheets
GPT-5.4のリリースと同時に、「ChatGPT for Excel」がベータ版として公開された。Excelアドインとして動作し、スプレッドシート内で直接ChatGPTを利用できる。
対応機能は以下の通り。
- 自然言語での数式生成と説明
- 財務モデルの構築と更新
- シナリオ分析の実行
- セルや数式をベースにした出力生成
ChatGPT Plus/Pro/Business/Enterpriseユーザーが利用可能で、対応リージョンは米国、カナダ、オーストラリア。Google Sheets対応も近日公開予定だ。
金融ワークフロー向けには、市場データや企業データの統合機能も追加されている。MCP(Model Context Protocol)を通じた独自データ接続にも対応しており、社内データをChatGPT経由でスプレッドシート分析に活用できる。
GPT-5.2からの改善点
OpenAIが公開するベンチマークデータに基づくと、GPT-5.4は前世代から幅広い領域で改善を示している。
事実正確性の向上
ユーザーが事実誤りを報告したプロンプトの検証セットにおいて、GPT-5.4は個別の主張が33%誤りにくく、レスポンス全体で18%誤りが少ない結果を示した。
GDPvalベンチマーク
知識労働を44職種で評価するGDPvalでは、GPT-5.4が83.0%でプロフェッショナルに匹敵または上回るパフォーマンスを記録。GPT-5.2の70.9%から大幅に引き上げた。
安全性評価
OpenAIはGPT-5.4の安全性を評価するため、モデルが推論プロセスを意図的に隠蔽できるかを測る「CoT Controllability」評価をオープンソースで公開した。その結果、GPT-5.4 Thinkingでは推論の隠蔽可能性が低く、Chain-of-Thought(思考の連鎖)モニタリングが有効な安全ツールであることが確認された。
APIでの利用方法
開発者向けの主な更新点は以下の通り。
- モデルID: gpt-5.4(標準)、gpt-5.4-thinking(推論版)、gpt-5.4-pro(高性能版)
- コンテキストウィンドウ: APIで最大100万トークン
- 新機能: ツール検索、コンピュータ使用(Responses APIのcomputer tool経由)
- Playwright (Interactive) スキル: GitHubで公開
ツール検索はAPI経由で利用可能で、多数のツールを登録した環境でも効率的に動作する。エージェント構築において、ツール数の増加がパフォーマンス低下に直結しなくなった点は実用的だ。
まとめ
GPT-5.4は、AIの使われ方が「対話型」から「自律実行型」へと移行する中で重要な意味を持つリリースだ。
- ネイティブコンピュータ使用により、APIがない環境でもAIが直接操作を実行できる
- ツール検索により、複数ツール環境でのエージェント効率が向上した
- ChatGPT for Excelは、スプレッドシート作業のAI統合に新たな選択肢を提供する
- 事実正確性も大幅に改善し、実務利用での信頼性が高まった
ただし、現時点ではChatGPT for Excelの対応地域が限定的であり、コンピュータ使用も実験的要素が残る。本格導入を検討する場合は、自社のユースケースに合わせてAPI経由での段階的検証から始めるのが現実的だ。
すでにGPT-5.2やGPT-5.3-Codexを利用している場合は、同じコンテキストウィンドウサイズで性能が向上しているため、APIのモデル指定を切り替えるだけで利用を開始できる。エージェント構築や業務自動化を検討している開発者にとって、今すぐ試す価値のあるアップデートだ。