OpenAIがAPIに音声インテリジェンス3機能を追加——GPT-Realtime-2で70言語リアルタイム翻訳が可能に

2026年5月7日、OpenAIは開発者向けAPIに3つの新しい音声インテリジェンス機能を追加した。GPT-Realtime-2（音声対話モデル）、GPT-Realtime-Translate（リアルタイム翻訳）、GPT-Realtime-Whisper（ライブ文字起こし）だ。従来の単純な問答形式の音声対話から、「聞く・推論する・翻訳する・文字起こしする・行動する」という実用的な音声インターフェイスへの進化を目指している。

本記事では、各機能の仕様と用途、企業導入のポイントを整理する。

追加された3つの機能

GPT-Realtime-2：推論型音声モデル

GPT-Realtime-2は、OpenAIの次世代音声対話モデル。前身であるGPT-Realtime-1.5と比較して、GPT-5クラスの推論能力を統合したことが最大の違いだ。

従来の音声モデルは単純な応答生成に留まることが多かったが、Realtime-2は複雑なユーザーリクエストに対して多段階の推論を実行できる。顧客対応シナリオでの意図の汲み取り、教育的な対話での誤りの訂正、クリエイターツールでのリアルタイム指示の解釈など、より高度なインタラクションが可能になる。

GPT-Realtime-Translate：70言語対応のリアルタイム翻訳

GPT-Realtime-Translateは、対話の速度に追従するリアルタイム翻訳機能。入力言語70以上、出力言語13に対応する。

従来の翻訳APIと異なり、文脈を保持したまま会話の流れに合わせて翻訳を行うため、直訳的な不自然さが減る。イベント運営や国際会議、カス

... [OUTPUT TRUNCATED - 186025 chars omitted out of 236025 total] ...

PT-5.4」全解説：ネイティブコンピュータ操作とスプレッドシート統合でAIエージェントが本格稼働

2026年3月5日、OpenAIは新たな基盤モデル「GPT-5.4」を発表した。単なる性能向上ではなく、AIがコンピュータを直接操作し、複数のツールを自律的に使いこなす「エージェントAI」の実用化に踏み出す重要なアップデートだ。本記事では、GPT-5.4の主要機能と実務での活用方法を整理する。

GPT-5.4とは何か

GPT-5.4は、OpenAIが「最も能力が高く効率的なプロフェッショナルワーク向けモデル」と位置付ける最新基盤モデル。従来のGPT-5.2の後継にあたり、以下の3つのバリエーションが用意されている。

GPT-5.4: 標準版。ChatGPT Plus/Team/ProおよびAPIで利用可能
GPT-5.4 Thinking: 推論特化版。複雑な問題の段階的分析に適する
GPT-5.4 Pro: 最高性能版。最も要求の厳しいタスク向け

API経由では最大100万トークンのコンテキストウィンドウをサポートし、これまで別モデルだったGPT-5.3-Codexのコーディング能力を統合した。つまり、コーディング、推論、エージェント機能を1つのモデルでまかなえるようになったのが最大のポイントだ。

3つの注目機能

ネイティブコンピュータ使用

GPT-5.4は、OpenAI初の「ネイティブコンピュータ使用」機能を持つ汎用モデルだ。これまでは外部ツールのラッパーが必要だった画面操作が、モデル本体に統合された。

具体的には、ブラウザの操作、クリック、タイピング、スクロール、画面の検査といったコンピュータ操作をモデル自身が実行できる。OSWorld-Verifiedベンチマークでは人間のパフォーマンスを初めて上回るスコアを記録したと報告されている。

実務では、以下のようなユースケースが想定される。

Webアプリケーションのテスト自動化
フォーム入力やデータ入力の自動化
APIが存在しないレガシーシステムとの連携

また、モデルのコンピュータ使用能力をデモンストレーションするため、実験的なCodexスキル「Playwright (Interactive)」がGitHubで公開された。開発者はこれをベースに独自のコンピュータ使用ワークフローを構築できる。

ツール検索

GPT-5.4で導入された「ツール検索」は、エージェントが多数のツール環境下で効率的に動作するための新機能だ。

従来、AIエージェントに多くのツールを与えると、どのツールを使うべきかの選定に無駄なトークンを消費していた。ツール検索では、モデルが自ら利用可能なツールの中から最適なものを検索・選定できるようになり、ToolathlonベンチマークでGPT-5.2比8.3ポイントの改善（54.6% vs 46.3%）を達成した。

これは、n8nやLangGraphなどで複数のAPIやMCPサーバーを統合してエージェントを構築するユースケースで直接的に恩恵を受けられる機能だ。

ChatGPT for Excel & Google Sheets

GPT-5.4のリリースと同時に、「ChatGPT for Excel」がベータ版として公開された。Excelアドインとして動作し、スプレッドシート内で直接ChatGPTを利用できる。

対応機能は以下の通り。

自然言語での数式生成と説明
財務モデルの構築と更新
シナリオ分析の実行
セルや数式をベースにした出力生成

ChatGPT Plus/Pro/Business/Enterpriseユーザーが利用可能で、対応リージョンは米国、カナダ、オーストラリア。Google Sheets対応も近日公開予定だ。

金融ワークフロー向けには、市場データや企業データの統合機能も追加されている。MCP（Model Context Protocol）を通じた独自データ接続にも対応しており、社内データをChatGPT経由でスプレッドシート分析に活用できる。

GPT-5.2からの改善点

OpenAIが公開するベンチマークデータに基づくと、GPT-5.4は前世代から幅広い領域で改善を示している。

事実正確性の向上

ユーザーが事実誤りを報告したプロンプトの検証セットにおいて、GPT-5.4は個別の主張が33%誤りにくく、レスポンス全体で18%誤りが少ない結果を示した。

GDPvalベンチマーク

知識労働を44職種で評価するGDPvalでは、GPT-5.4が83.0%でプロフェッショナルに匹敵または上回るパフォーマンスを記録。GPT-5.2の70.9%から大幅に引き上げた。

安全性評価

OpenAIはGPT-5.4の安全性を評価するため、モデルが推論プロセスを意図的に隠蔽できるかを測る「CoT Controllability」評価をオープンソースで公開した。その結果、GPT-5.4 Thinkingでは推論の隠蔽可能性が低く、Chain-of-Thought（思考の連鎖）モニタリングが有効な安全ツールであることが確認された。

APIでの利用方法

開発者向けの主な更新点は以下の通り。

モデルID: gpt-5.4（標準）、gpt-5.4-thinking（推論版）、gpt-5.4-pro（高性能版）
コンテキストウィンドウ: APIで最大100万トークン
新機能: ツール検索、コンピュータ使用（Responses APIのcomputer tool経由）
Playwright (Interactive) スキル: GitHubで公開

ツール検索はAPI経由で利用可能で、多数のツールを登録した環境でも効率的に動作する。エージェント構築において、ツール数の増加がパフォーマンス低下に直結しなくなった点は実用的だ。

まとめ

GPT-5.4は、AIの使われ方が「対話型」から「自律実行型」へと移行する中で重要な意味を持つリリースだ。

ネイティブコンピュータ使用により、APIがない環境でもAIが直接操作を実行できる
ツール検索により、複数ツール環境でのエージェント効率が向上した
ChatGPT for Excelは、スプレッドシート作業のAI統合に新たな選択肢を提供する
事実正確性も大幅に改善し、実務利用での信頼性が高まった

ただし、現時点ではChatGPT for Excelの対応地域が限定的であり、コンピュータ使用も実験的要素が残る。本格導入を検討する場合は、自社のユースケースに合わせてAPI経由での段階的検証から始めるのが現実的だ。

すでにGPT-5.2やGPT-5.3-Codexを利用している場合は、同じコンテキストウィンドウサイズで性能が向上しているため、APIのモデル指定を切り替えるだけで利用を開始できる。エージェント構築や業務自動化を検討している開発者にとって、今すぐ試す価値のあるアップデートだ。