Notes.2026年4月24日AI5 min

GPT-5.5 はどこまで自走するのか、発表内容を読んだ

こんにちは！つつです！

OpenAI が 2026年4月23日に新モデル「GPT-5.5」を正式リリースしました。単なるバージョンアップではなく、「自分で考えて、自分で動く」エージェント型への大きな一歩とも言われています。何が変わったのか、開発の現場にどう関係するのかを整理してみます。

GPT-5.5 ってどんなモデル？

まず押さえておきたいのは、GPT-5.5 は「答えをうまく返すモデル」というより「タスクを自律的にこなすモデル」として設計されている点です。

OpenAI の発表によれば、GPT-5.5 が特に力を入れた領域は次の4つです。

エージェント的なコーディングとデバッグ
コンピューター操作（ブラウザ・スプレッドシートなどのソフトウェア操作）
知識労働（オンラインリサーチ・文書作成・データ分析）
初期段階の科学研究

「ユーザーが何をしようとしているかを素早く理解し、作業の大部分を自律的に実行できる」というのが OpenAI の説明で、指示を投げたら終わり、ではなく「計画 → 実行 → 検証 → 修正」のサイクルを自分で回し続けることを念頭に置いた設計です。

速さを落とさず賢くなった

技術的に注目したいのは「速度を維持しながら性能を上げた」という部分です。

前モデルの GPT-5.4 と比べると、トークンあたりのレイテンシ（応答の遅さ）はほぼ同等のまま推論能力が大幅に向上したとされています。Greg Brockman も「同じタスクを GPT-5.4 より少ないトークンでこなせる」と述べており、コスト効率の改善も期待できます。

コーディングのベンチマーク「Terminal-Bench 2.0」では 82.7% を記録しています。複雑なコマンドライン作業を、計画・反復・ツール操作を組み合わせながらこなす能力を測ったもので、現時点での最高水準とされています。

Codex との連携が変える開発体験

AIエージェントが複数のツール（コードエディタ・ブラウザ・ターミナル）を横断して自律的に作業する様子を抽象的に表現した章扉イラスト

GPT-5.5 は Codex（OpenAI のコーディングエージェント）と密に連携することを想定して作られています。

コードを書く
ブラウザでドキュメントを調べる
エラーを修正する
結果を確認する

これまで人間がつなぎ合わせていた「ツール間の往復」を、GPT-5.5 が単一セッション内で肩代わりする形になります。

実際の開発フローで言えば、「この機能を実装して、エラーが出たら直して、テストも書いておいて」という粒度の指示を渡したときに、以前よりずっと途中で詰まらずに進んでくれる感覚に近いかもしれません。

もちろん「全部任せれば完璧」ではなく、どこまで自走させてどこで確認するかの判断は引き続き重要です。ただ、自律して進める距離が伸びた——これは開発体験としてかなり大きい変化です。

誰が使える？ API はいつ？

現時点での提供状況を整理します。

プラン	GPT-5.5	GPT-5.5 Pro
Plus	利用可	—
Pro	利用可	利用可
Business	利用可	利用可
Enterprise	利用可	利用可

API（プログラムから呼び出す形）については、現時点ではまだ提供が開始されておらず、近日中に利用可能になる予定とされています。「早く API で試したい」という方はもう少し待つ必要があります。

API の料金については複数のメディアが「入力 100 万トークンあたり $5、出力 100 万トークンあたり $30」という数値を報じていますが、OpenAI の公式ページでは執筆時点で料金の明示を確認できていません。正確な数値は API 公開時に公式ページで確認するのがよいでしょう。

セーフガードも強化

GPT-5.5 は性能だけでなく安全性への取り組みも発表に盛り込まれています。

約 200 社の早期アクセスパートナーからフィードバックを収集し、その結果をもとにセーフガードを強化したと発表されています。自律的な行動の幅が広がるほど、意図しない動作や誤った情報を広めるリスクも上がります。OpenAI が System Card を同時公開したのも、この種の透明性を確保するためです。

API の提供前にセーフガードを十分に検証しておきたい、という判断があるためとも見られます。

自分の仕事にどう関係するか

GPT-5.5 の話を聞いて「へえ」と思いつつ、「で、自分はどう使うの？」でいったん止まった人も多いのではないでしょうか。

短期で変わること ChatGPT でコードの相談をするときの精度や自律性が上がります。「ここのバグを直して」「このファイルを見てリファクタリング案を出して」といった作業を任せたとき、以前よりも一発で的確な回答が返ってくる確率が上がります。

中長期で変わること Codex 的なエージェント利用が現実的になってきます。「複数ファイルにまたがる変更をまとめてやっておいて」「テストが落ちていたら直してコミットまでしておいて」という指示が通るようになる世界観です。

とはいえ、エージェントが増えれば「何をどこまで任せるか」「出力のどこを確認するか」という判断力の重要性も増します。自動化が進むほど、設計の意図や仕様を自分の言葉で整理する能力が相対的に価値を持つ、という逆説的な面もあります。

「どこまで任せていいか」は使ってみないと分からない。その試行錯誤が、これからの開発スタイルを決める土台になると思っています。

参考リンク