GPT-5.6 Sol, Terra, Luna
Обзор, бенчмарки и цены (2026)
26 июня 2026 OpenAI официально выкатил GPT-5.6 Sol, Terra и Luna — первую линейку с именами небесных тел. Sol забрал #1 на TerminalBench 2.1 с 91,9%, CTF hit rate — 96,7%. Все три tier'а получили internal rating «High» по кибербезопасности — впервые для целого product line. Но catch: по требованию US government доступ сейчас только у ~20 vetted partners. Ниже — полный tech breakdown: benchmark tables, pricing matrix, Cerebras 750 tok/s, government lock, head-to-head с Claude Mythos 5 и 7-step Mac playbook.
📋 Содержание
Опубликовано 26 июня 2026 · Обновлено 27 июня 2026 · Источники: OpenAI Official Blog · OpenAI Deployment Safety System Card · VentureBeat · SiliconAngle · TechTimes
01 · Ключевые метрики (quick reference)
| Модель | Tier | Input | Output | Highlight |
|---|---|---|---|---|
| GPT-5.6 Sol | Flagship | $5 / 1M | $30 / 1M | TerminalBench 2.1 #1: 91,9% |
| GPT-5.6 Terra | Balanced | $2,50 / 1M | $15 / 1M | GPT-5.5-level, −50% cost |
| GPT-5.6 Luna | Lightweight | $1 / 1M | $6 / 1M | −80% vs Sol; High cyber |
| Текущий статус | Limited preview (~20 approved partners). Broad release — недели (июль 2026). | |||
Релиз 26 июня — крупнейший с GPT-5.5. Впервые все три tier'а, включая entry-level Luna, пересекли internal «High» cybersecurity threshold. Ultra multi-agent mode Sol снял Claude Mythos 5 с вершины TerminalBench всего за 17 дней.
02 · Три технических блокера для разработчиков
- Нельзя benchmark'ить то, к чему нет endpoint'а. GPT-5.6 live только у ~20 partners. Команды на
gpt-5.5или Claude Opus 4.8 после export ban Fable 5 не могут regression-test'ить. Polymarket: 87% broad release до 31 июля — недостаточно для sprint planning. - Ultra scores ≠ ваш invoice. Рекорд 91,9% TerminalBench — в Ultra multi-agent mode с кратно большим token consumption. Бюджетировать Sol по headline benchmark без моделирования Ultra = blown cost projections на agent workflows.
- Government gatekeeping = routing risk. Июнь 2026 заблокировал всех трёх frontier labs: OpenAI limited preview, Anthropic offline, Google delayed Gemini 3.5 Pro. Новая норма — policy-driven availability windows, не только API rate limits.
03 · Солнечная номенклатура: Sol, Terra, Luna
OpenAI впервые именует модели по небесным телам:
- Sol (Солнце) — max capability: complex coding, cybersecurity research, long-horizon agent workflows
- Terra (Земля) — balanced tier: document analysis, customer support, high-volume API
- Luna (Луна) — fast & cheap: summarization, drafting, routine automation
Релиз прошёл не гладко. После executive order Трампа от 2 июня 2026 OpenAI согласился ограничить launch на период government security review — впервые US government формально требует restricted release frontier model. Sam Altman публично возразил:
«Мы не считаем, что такой government access process должен стать долгосрочной нормой. Он удерживает лучшие инструменты от пользователей, разработчиков, enterprise и global partners, которым они нужны.»
04 · Матрица моделей
| Model | Use case | Input | Output | Context |
|---|---|---|---|---|
| Sol | Coding, security research, agents | $5 / 1M | $30 / 1M | ~1,5M tokens |
| Terra | Docs, support, mass API | $2,50 / 1M | $15 / 1M | ~1,5M tokens |
| Luna | Summaries, drafts, automation | $1 / 1M | $6 / 1M | ~1,5M tokens |
Terra = GPT-5.5 performance at half price. Luna — 80% cheaper than Sol, первый non-flagship с «High» в cyber и biology domains.
05 · GPT-5.6 Sol: Max mode & Ultra mode
Max mode
Дополнительное reasoning time перед ответом — «slow thinking», latency ↔ accuracy tradeoff. Для high-stakes code review, security analysis, multi-step planning.
Ultra mode
Game-changer: вместо single model Ultra spawn'ит multiple subagents, которые параллельно делят task, execute и merge results. Именно эта multi-agent architecture дала 91,9% на TerminalBench. Token burn значительно выше — резервировать для genuinely complex tasks.
06 · Benchmark data: numbers that matter
Coding: TerminalBench 2.1
89 complex CLI planning challenges — ближе к real-world agent tasks, чем classic code completion benchmarks.
| Model | Score | Mode |
|---|---|---|
| GPT-5.6 Sol | 91,9% 🏆 #1 | Ultra (multi-agent) |
| GPT-5.6 Sol | 88,8% | Standard |
| Claude Mythos 5 | 88,0% | Standard |
| GPT-5.5 | 83,4% | Standard |
| Gemini 3.1 Pro Preview | 70,7% | Standard |
Claude Mythos 5 держал #1 всего 17 дней (с 9 июня).
Long-horizon agents: Agent's Last Exam
| Model | Task completion (code mode) |
|---|---|
| GPT-5.6 Sol | 50,9% — единственная модель >50% |
| GPT-5.6 Luna | Чуть выше GPT-5.5 |
Cybersecurity: CTF & ExploitBench
Первая OpenAI family, где все три tier'а hit «High» cybersecurity classification.
| Model | CTF hit rate |
|---|---|
| Sol | 96,7% |
| Terra | 91,84% |
| Luna | 85,19% |
ExploitBench: Sol matches Anthropic Mythos Preview при ~1/3 output tokens — та же security research capability, dramatically lower cost.
Safety note: red-teaming OpenAI подтвердил — Sol не может autonomously engineer complete functional exploit chain против Chromium/Firefox. Ниже порога «Cyber Critical».
Life sciences: GeneBench v1 & HealthBench
- GeneBench v1: Sol matches/exceeds GPT-5.5 с fewer tokens
- HealthBench Professional: Sol 60,5 — +8,7 vs GPT-5.5
07 · GPT-5.6 vs Claude Mythos 5: head-to-head
| Dimension | GPT-5.6 Sol | Claude Mythos 5 |
|---|---|---|
| TerminalBench 2.1 | 91,9% (Ultra) / 88,8% ✅ | 88,0% |
| ExploitBench | Near-identical, 3× cheaper ✅ | Strong (restricted) |
| Pricing | $5 / $30 ✅ | $10 / $50 (offline) |
| Availability | Limited preview → soon GA | Offline (US export control) |
| Context window | ~1,5M tokens ✅ | 200K tokens |
Bottom line: Sol beats Mythos 5 на TerminalBench, comparable security research at fraction of cost. Mythos 5/Fable 5 могут ещё лидировать на SWE-Bench Pro — полная GPT-5.6 system card pending. Routing alternatives: сравнение ИИ-помощников для кодинга.
08 · Government restriction: почему нет публичного доступа
Timeline
2 июня 2026: Trump executive order — US agencies до 30 дней pre-release access для review frontier models.
26 июня: по запросу White House (OSTP / ONCD) OpenAI ограничил GPT-5.6 ~20 pre-approved trusted partners.
«Big Three» заблокированы в июне
| Company | Model | Status |
|---|---|---|
| OpenAI | GPT-5.6 Sol/Terra/Luna | Limited preview (~20 orgs) |
| Anthropic | Claude Fable 5 / Mythos 5 | Offline 12 июня (export control) |
| Gemini 3.5 Pro | Delayed to July |
Июнь 2026 должен был стать biggest month in AI history — все три flagship releases blocked at the door.
09 · Cerebras: 750 tokens per second
С июля OpenAI deploy'ит Sol на Cerebras hardware: headline number — 750 tok/s.
Typical frontier models today: 50–150 tok/s
GPT-5.6 Sol on Cerebras: 750 tok/s (5×–15× faster)
Example: 10-sec response today → <1 sec at peak throughputДля real-time coding assistants и streaming AI — category change, не speed bump. Initial access — select enterprise customers. Cross-ref: Jalapeño inference ASIC roadmap.
10 · Когда GPT-5.6 будет доступен всем
Сейчас (июнь 2026): ~20 partners via API и Codex. ChatGPT для обычных users — нет.
Июль 2026 (expected):
- ChatGPT GA (Plus/Pro first)
- Public API access
- Sol on Cerebras: до 750 tok/s
Polymarket: 87% probability broad release до 31 июля 2026.
11 · Pricing matrix: стоит ли оно того
| Model | Input | Output | vs GPT-5.5 |
|---|---|---|---|
| Sol | $5/M | $30/M | Same price, much better perf |
| Terra | $2,50/M | $15/M | 50% cheaper, GPT-5.5-level |
| Luna | $1/M | $6/M | 80% cheaper than Sol |
Claude Fable 5 был $10/$50 до offline. Sol — comparable/superior capability at half cost.
12 · Матрица выбора модели
| Need | Pick |
|---|---|
| Complex codegen, debug, multi-step agents | Sol |
| Enterprise docs, support, mass API | Terra |
| High-freq summaries, drafts, automation | Luna |
| Tight budget, need flagship capability | Terra (GPT-5.5 perf, −50% cost) |
| Latency-critical realtime (post-July Cerebras) | Sol on Cerebras |
13 · Safety & security stack
Все три модели — «High» cybersecurity rating. Built-in safeguards:
- Real-time misuse classifiers на каждом output
- Account-level review для sensitive workflows
- 700 000 A100-equivalent GPU hours automated red-teaming
- Universal jailbreak testing + cross-prompt patching
- Specialized reasoning model как fallback filter
- External security orgs протестировали все модели pre-launch
Sol находит vulns в Chromium/Firefox codebases, но не строит complete functional exploit chains autonomously — below «Cyber Critical».
14 · Чеклист из 7 шагов: подготовка к GPT-5.6
- Зафиксировать API baseline: 30 дней token usage и $ spend по
gpt-5.5, Claude Opus 4.8. - Подписаться на release channels: OpenAI Blog, platform.openai.com changelogs, ChatGPT status.
- Собрать regression prompt suite: 20–50 production prompts с fixed token counts, latency targets, quality rubrics.
- Проверить security/compliance: data processing, residency, High cyber rating — до миграции sensitive workflows.
- Арендовать isolated Mac sandbox: Cursor + test API keys на Apple Silicon; цены: тарифы M-series.
- Смоделировать Ultra token costs: Sol Ultra (91,9% TB) budget отдельно — multi-agent = больше output tokens.
- Re-benchmark через 48 ч после API GA: rerun suite, compare total spend & p95 latency, adjust routing.
15 · FAQ
В: GPT-5.6 в ChatGPT уже?
О: Пока нет для публики. ~20 partners. GA в недели (июль 2026).
В: Sol лучше Fable 5 для coding?
О: Sol leads TerminalBench 2.1 (91,9% vs 88% Mythos 5). Fable 5 leads SWE-Bench Pro; GPT-5.6 scores pending. Sol — better value.
В: Что такое Ultra mode?
О: Parallel subagents → unified result. Higher perf, much more tokens.
В: Почему restricted?
О: US gov (White House / OSTP / ONCD) после EO 2 июня 2026. OpenAI против permanent practice.
В: Скорость на Cerebras?
О: До 750 tok/s — 5–15× faster. July 2026 enterprise.
В: Context window?
О: ~1,5M tokens (vs 1M GPT-5.5). Confirm with full system card.
В: Cyber work на всех трёх?
О: High rating для всех. Layered safeguards; no autonomous complete exploits.
16 · Что дальше
- Full GPT-5.6 system card со всеми benchmarks
- Cerebras deployment Sol 750 tok/s (July 2026)
- ChatGPT GA Plus, Pro, API
- US cyber EO framework (~2 July 2026, 30-day window)
17 · Источники
- OpenAI: Previewing GPT-5.6 Sol
- OpenAI Deployment Safety System Card
- VentureBeat: GPT-5.6 launch
- SiliconAngle: vs Claude Mythos 5
- TechTimes: government lock
18 · Аренда Mac: изолированная оценка GPT-5.6 до public API
GPT-5.6 меняет то, что происходит в датацентрах OpenAI — не на вашем laptop. Winners после API GA — те, кто уже измерил baseline token economics и agent success rates в reproducible environment. Ad-hoc curl с Windows daily driver = OS noise + API signal; experimental keys на production Mac = credential bleed risk.
Day-rented Apple Silicon Mac = clean macOS shell: Cursor для agent workflows, Keychain для secrets, local scripts для batch regression. Snapshot pre-GPT-5.6 baseline на gpt-5.5 сейчас, rerun ту же suite в release week. Context: июньский release roundup и сравнение ИИ-ассистентов.