OpenAI GPT-5.6 正式発表
Sol・Terra・Luna ベンチマーク完全ガイド
2026年6月26日、OpenAI は2026年最大のモデルファミリー GPT-5.6 Sol・Terra・Luna を発表しました。フラッグシップ Sol は Ultra マルチエージェントモードで TerminalBench 2.1 91.9% を記録し、6月9日からわずか17日間トップに立っていた Claude Mythos 5 を抜きました。3モデルすべてが OpenAI の「High」サイバーリスク閾値を初めて同時に超えたシリーズです。一方、米国政府の安全審査により現時点では約20社の承認パートナーのみがプレビュー可能で、一般開発者は7月の全面公開を待つ必要があります。本記事では価格($5/$30・$2.50/$15・$1/$6)、CTF 96.7%/91.84%/85.19%、政府審査、Cerebras 750 tok/s、Mythos 5 比較、Mac 検証5手順、FAQ 7問を整理します。
📋 目次
発表日:2026年6月26日 · 更新:2026年6月27日 · 出典:OpenAI 公式 · Deployment Safety System Card · VentureBeat · SiliconAngle · TechTimes
01 · クイックサマリー
| モデル | ポジション | 入力 | 出力 | ハイライト |
|---|---|---|---|---|
| GPT-5.6 Sol | フラッグシップ | $5 / 100万 tok | $30 / 100万 tok | TerminalBench 2.1 世界1位 91.9% |
| GPT-5.6 Terra | バランス型主力 | $2.50 / 100万 tok | $15 / 100万 tok | GPT-5.5 並み、コスト50%削減 |
| GPT-5.6 Luna | 軽量・高速 | $1 / 100万 tok | $6 / 100万 tok | Sol 比80%安、High サイバー評価 |
| 現状 | 約20社の承認パートナーのみプレビュー。数週間以内(7月)の一般公開見込み | |||
GPT-5.6 は GPT-5.5 以来最大のアップデートであり、エントリー級 Luna を含む全ティアが「High」サイバーリスクを初めて同時に満たしたシリーズです。Sol の Ultra マルチエージェント設計がコーディング Agent ベンチの頂点を奪還しましたが、米国政府が初めてフロンティアモデルの限定公開を求めたことで、多くの開発者はまだ API を呼び出せません。
02 · 3つの痛点:全面公開を待つ開発者へ
- 呼べないモデルはベンチマークできない。 GPT-5.6 は稼働していますが、API は約20社の承認パートナーに限定されています。
gpt-5.5や Fable 5 停止後の Opus 4.8 を使うチームは、公開エンドポイントで回帰比較ができません。Polymarket は7月31日までの全面公開を87%と見ていますが、スプリント計画は予測市場だけに頼れません。 - Ultra モードのスコアは請求額ではない。 Sol の記録的 91.9% は Ultra マルチエージェント実行の結果であり、標準推論よりトークン消費が大幅に増えます。見出しスコアで Agent ワークフローのコストを見積もると、本番投入後に API 請求が跳ね上がる恐れがあります。
- 政府ゲートがルーティングリスクを増やす。 2026年6月は三大ラボの旗艦が同時に足踏み:OpenAI は限定プレビュー、Anthropic は強制停止、Google は Gemini 3.5 Pro を7月へ延期。「最新旗艦が常に使える」前提のスタックは、レート制限だけでなく政策主導の可用性ウィンドウが新常態になります。
03 · 太陽系命名と発表の経緯
OpenAI は初めて天体名でティアを整理しました。
- Sol(太陽) — 高難度コーディング、長鎖サイバー研究、多段 Agent ワークフロー向けフラッグシップ
- Terra(地球) — 文書分析、カスタマーサポート、大規模 API 呼び出し向けバランス型
- Luna(月) — 要約、下書き、日常自動化向けの軽量高速ティア
発表は順調ではありませんでした。2026年6月2日のトランプ大統領令により、政府は公開前最大30日間の安全審査アクセスを求めました——米国政府が初めて AI 企業にフロンティアモデルの限定公開を要求した事例です。サム・アルトマン CEO は協力しつつ、次のように表明しています。
「この種の政府アクセスプロセスが長期的なデフォルトになるべきではない。最高のツールが、本当に必要とするユーザー、開発者、企業、サイバー防衛者、グローバルパートナーから遠ざけられてしまう。」
04 · 3モデル比較一覧
| モデル | 最適用途 | 入力価格 | 出力価格 | コンテキスト |
|---|---|---|---|---|
| Sol | 複雑コーディング、セキュリティ研究、長期 Agent | $5 / 100万 tok | $30 / 100万 tok | 約150万 tok |
| Terra | 高頻度業務、文書分析、大規模デプロイ | $2.50 / 100万 tok | $15 / 100万 tok | 約150万 tok |
| Luna | 要約、下書き、ルーティン自動化 | $1 / 100万 tok | $6 / 100万 tok | 約150万 tok |
Terra は GPT-5.5 並みの性能を半額で提供します。Luna は Sol より80%安いながら、サイバーセキュリティと生物学の両分野で「High」評価を獲得した初の非フラッグシップモデルです。
05 · GPT-5.6 Sol:Max モードと Ultra モード
Max モード
応答前により多くの推論時間を割り当て、レイテンシと引き換えに精度を高めます。高リスクなコードレビューやセキュリティ分析など、「速さより正確さ」が重要な場面に適しています。
Ultra モード
複数のサブエージェントがタスクを分割し並列実行し、結果を統合するマルチエージェント協調アーキテクチャです。TerminalBench 91.9% の要因であり、トークン消費も大きく増えます。真に複雑な Agent タスクに限定して使うべきモードです。
06 · ベンチマーク結果
コーディング:TerminalBench 2.1
89問の複雑な CLI 計画課題で、多段ツール呼び出しとタスク調整を測定します。
| モデル | スコア | モード |
|---|---|---|
| GPT-5.6 Sol | 91.9% 🏆 世界1位 | Ultra(マルチエージェント) |
| GPT-5.6 Sol | 88.8% | 標準 |
| Claude Mythos 5 | 88.0% | 標準 |
| GPT-5.5 | 83.4% | 標準 |
| Gemini 3.1 Pro Preview | 70.7% | 標準 |
Claude Mythos 5 は6月9日からトップに立ってわずか17日で Sol に抜かれました。
長期 Agent:Agent's Last Exam
| モデル | タスク完了率(コードモード) |
|---|---|
| GPT-5.6 Sol | 50.9% — 50%超は唯一 |
| GPT-5.6 Luna | GPT-5.5 をわずかに上回る |
サイバーセキュリティ:CTF と ExploitBench
3モデルすべてが OpenAI 史上初めて同時に「High」サイバー分類に到達しました。
| モデル | CTF 命中率 |
|---|---|
| Sol | 96.7% |
| Terra | 91.84% |
| Luna | 85.19% |
ExploitBench:Sol は Anthropic Mythos Preview とほぼ同等ですが、出力トークンは約1/3で済みます。
安全注記:Sol は Chromium・Firefox の脆弱性原語を識別できますが、完全に機能する exploit チェーンを自律構築できないことが確認され、「Cyber Critical」閾値を下回っています。
生命科学:GeneBench v1 と HealthBench
- GeneBench v1:Sol はより少ないトークンで GPT-5.5 以上の結果
- HealthBench Professional:Sol は 60.5点(GPT-5.5 比 +8.7点)
07 · Claude Mythos 5 との正面対決
| 項目 | GPT-5.6 Sol | Claude Mythos 5 |
|---|---|---|
| TerminalBench 2.1 | 91.9%(Ultra) / 88.8% ✅ | 88.0% |
| ExploitBench | 同等、トークン1/3 ✅ | 強力(アクセス停止中) |
| 価格 | $5 / $30 ✅ | $10 / $50(停止前) |
| 可用性 | 限定プレビュー → 近日一般公開 | 輸出規制でオフライン |
| コンテキスト | 約150万 tok ✅ | 200K tok |
結論:Sol は TerminalBench とセキュリティベンチで Mythos 5 を上回り、約半額で同等の研究能力を提供します。Fable 5 は SWE-Bench Pro で依然優位の可能性があり、完全な System Card 公開後に再比較が必要です。Mythos 停止中は AI コーディングアシスタント比較も参照してください。
08 · 政府介入:なぜまだ使えないのか
2026年6月2日、トランプ大統領令により政府機関は公開前最大30日間の審査アクセスを得られます。6月26日、OSTP と ONCD が調整するホワイトハウス要請を受け、OpenAI は GPT-5.6 を約20社の「信頼パートナー」に限定しました。
| 企業 | モデル | 状態 |
|---|---|---|
| OpenAI | GPT-5.6 Sol/Terra/Luna | 約20社限定プレビュー |
| Anthropic | Claude Fable 5 / Mythos 5 | 6月12日 輸出規制で強制停止 |
| Gemini 3.5 Pro | 7月へ延期 |
6月は AI 史上最繁忙のはずでしたが、三大旗艦はすべて扉の前で足踏みしました。
09 · Cerebras 加速:750 token/s
2026年7月から、Sol は Cerebras 上で最大 750 token/s の生成速度が期待されます。
現行フロンティアモデル: 50–150 token/s
GPT-5.6 Sol on Cerebras: 750 token/s(約5–15倍)
例:今10秒かかる応答 → ピーク時は1秒未満も可能リアルタイムコーディングアシスタントや対話型 Agent にとって、単なる高速化ではなく体験カテゴリの変化です。Jalapeño 自社推論チップと合わせ、推論経済は速度とコストの両面で動いています。
10 · アクセス時期と Polymarket 87%
現時点(2026年6月):約20社の承認パートナーのみ API・Codex 利用可。一般ユーザーは ChatGPT 未対応です。
2026年7月見込み:
- ChatGPT 一般展開(Plus / Pro 優先)
- 公開 API
- Cerebras 版 Sol(最大 750 token/s)のエンタープライズ提供
予測市場:Polymarket は「7月31日までに GPT-5.6 全面公開」の確率を 87% と示しています。
11 · 価格分析
| モデル | 入力 | 出力 | GPT-5.5 比 |
|---|---|---|---|
| Sol | $5/M | $30/M | 同価格・大幅性能向上 |
| Terra | $2.50/M | $15/M | GPT-5.5 並み、Sol 比50%安 |
| Luna | $1/M | $6/M | Sol 比80%安 |
参考:Claude Fable 5 停止前は $10/M 入力・$50/M 出力。GPT-5.6 Sol は約半額で同等以上の能力を提供します。
12 · 用途別おすすめモデル
| ニーズ | 推奨 |
|---|---|
| 複雑コーディング、デバッグ、多段 Agent | Sol |
| 文書分析、サポート、大規模 API | Terra |
| 高頻度要約、下書き、自動化 | Luna |
| 予算重視で旗艦級能力が必要 | Terra(GPT-5.5 並み・50%安) |
| 超低レイテンシ(7月 Cerebras 後) | Sol on Cerebras |
13 · 安全性とガードレール
- 全出力にリアルタイム悪用分類器
- 機密ワークフローのアカウント単位レビュー
- 約70万 A100 GPU 時間相当の自動レッドチーム
- ジェイルブレイク横断テストとパッチ
- 主防御失敗時の大型推論モデルによるフィルタ
- 外部セキュリティ機関による事前テスト
14 · Mac検証5手順(一般公開前)
- 現行ベースラインを固定する。 過去30日分の
gpt-5.5・Opus 4.8・Codex のトークンとドル支出を記録します。 - OpenAI 更新を購読する。 Blog・changelogs・status で新モデル ID の公開を追います。
- 回帰 Prompt スイートを構築する。 本番20–50件、Agent・コーディング・文書分析を固定基準で含めます。
- 隔離 Mac をレンタルする。 Apple Silicon ノードで Cursor とテスト API Key を設定し、macOS プラグインと Keychain を検証します。料金は M シリーズ料金案内を参照してください。
- API 公開48時間後に再計測する。 GPT-5.6 ID 稼働後に同スイートを再実行し、コスト・成功率・p95 を比較してから本番ルートを切り替えます。
15 · よくある質問 FAQ
Q:一般ユーザーは今 ChatGPT で GPT-5.6 を使えますか?
A:まだ使えません。約20社のパートナーのみ。ChatGPT 全面展開は数週間以内(2026年7月)が見込まれます。
Q:Sol は Fable 5 よりコーディングに優れますか?
A:TerminalBench 2.1 では Sol 91.9% が Mythos 5 の 88% を上回ります。SWE-Bench Pro では Fable 5 が依然優位の可能性がありますが、GPT-5.6 の公式値は未公開です。
Q:Ultra モードとは?
A:サブエージェントが並列処理し結果を統合します。性能は向上しますがトークン消費も増えます。
Q:なぜアクセス制限があるのですか?
A:6月2日大統領令後、OSTP / ONCD 経由で安全審査中の限定公開が求められました。OpenAI は従いつつ恒常化に反対しています。
Q:Cerebras 版はどのくらい速いですか?
A:最大 750 token/s、現行旗艦の約5–15倍。2026年7月から一部企業向けです。
Q:コンテキストはどのくらいですか?
A:報道では約150万 tok。完全 System Card で公式確認予定です。
Q:サイバー業務に3モデルすべて使えますか?
A:すべて「High」評価です。多層防御があり、完全 exploit チェーンの自律構築はできないと確認されています。
16 · 今後の展望
- 完全 GPT-5.6 System Card(一般公開時)
- Cerebras Sol 750 token/s(2026年7月)
- ChatGPT Plus / Pro と API 一般可用(数週間以内)
- 米国サイバー大統領令フレーム確定(30日窗口、約7月2日)
17 · 参考リンク
- OpenAI 公式:Previewing GPT-5.6 Sol
- OpenAI Deployment Safety System Card
- VentureBeat:GPT-5.6 発表報道
- SiliconAngle:GPT-5.6 vs Mythos 5
- TechTimes:政府ロック分析
18 · Mac レンタル:公開 API 前に GPT-5.6 を隔離検証
GPT-5.6 が変えるのは OpenAI 側の推論能力であり、手元のショートカットではありません。しかし Sol・Terra・Luna が公開 API に載ったとき、勝つのはトークン経済と Agent 成功率をすでに計測済みのチームです。Windows 日常機で curl を試すと OS ノイズが API 信号に混ざり、本番 Mac で実験用キーを入れ替えるとモデル切替後に資格情報漏えいのリスクがあります。
日払い Apple Silicon Mac なら、Cursor・Keychain・バッチ回帰と同じ macOS シェルで gpt-5.5 のベースラインを今記録し、API モデル ID 公開週に同じスイートを再実行できます。主力機を汚さず、政府審査で全面公開が遅れる間の検証コストを抑えられます。レンタル vs 購入コストと併せて、短期検証ウィンドウに日払いか月契約かを判断してください。