ИИ-модели 2026-06-27

GPT-5.6 Sol, Terra, Luna
Обзор, бенчмарки и цены (2026)

26 июня 2026 OpenAI официально выкатил GPT-5.6 Sol, Terra и Luna — первую линейку с именами небесных тел. Sol забрал #1 на TerminalBench 2.1 с 91,9%, CTF hit rate — 96,7%. Все три tier'а получили internal rating «High» по кибербезопасности — впервые для целого product line. Но catch: по требованию US government доступ сейчас только у ~20 vetted partners. Ниже — полный tech breakdown: benchmark tables, pricing matrix, Cerebras 750 tok/s, government lock, head-to-head с Claude Mythos 5 и 7-step Mac playbook.

GPT-5.6 Sol Terra Luna сравнение производительности OpenAI июнь 2026

Опубликовано 26 июня 2026 · Обновлено 27 июня 2026 · Источники: OpenAI Official Blog · OpenAI Deployment Safety System Card · VentureBeat · SiliconAngle · TechTimes

01 · Ключевые метрики (quick reference)

Модель Tier Input Output Highlight
GPT-5.6 SolFlagship$5 / 1M$30 / 1MTerminalBench 2.1 #1: 91,9%
GPT-5.6 TerraBalanced$2,50 / 1M$15 / 1MGPT-5.5-level, −50% cost
GPT-5.6 LunaLightweight$1 / 1M$6 / 1M−80% vs Sol; High cyber
Текущий статусLimited preview (~20 approved partners). Broad release — недели (июль 2026).

Релиз 26 июня — крупнейший с GPT-5.5. Впервые все три tier'а, включая entry-level Luna, пересекли internal «High» cybersecurity threshold. Ultra multi-agent mode Sol снял Claude Mythos 5 с вершины TerminalBench всего за 17 дней.

02 · Три технических блокера для разработчиков

  1. Нельзя benchmark'ить то, к чему нет endpoint'а. GPT-5.6 live только у ~20 partners. Команды на gpt-5.5 или Claude Opus 4.8 после export ban Fable 5 не могут regression-test'ить. Polymarket: 87% broad release до 31 июля — недостаточно для sprint planning.
  2. Ultra scores ≠ ваш invoice. Рекорд 91,9% TerminalBench — в Ultra multi-agent mode с кратно большим token consumption. Бюджетировать Sol по headline benchmark без моделирования Ultra = blown cost projections на agent workflows.
  3. Government gatekeeping = routing risk. Июнь 2026 заблокировал всех трёх frontier labs: OpenAI limited preview, Anthropic offline, Google delayed Gemini 3.5 Pro. Новая норма — policy-driven availability windows, не только API rate limits.

03 · Солнечная номенклатура: Sol, Terra, Luna

OpenAI впервые именует модели по небесным телам:

  • Sol (Солнце) — max capability: complex coding, cybersecurity research, long-horizon agent workflows
  • Terra (Земля) — balanced tier: document analysis, customer support, high-volume API
  • Luna (Луна) — fast & cheap: summarization, drafting, routine automation

Релиз прошёл не гладко. После executive order Трампа от 2 июня 2026 OpenAI согласился ограничить launch на период government security review — впервые US government формально требует restricted release frontier model. Sam Altman публично возразил:

«Мы не считаем, что такой government access process должен стать долгосрочной нормой. Он удерживает лучшие инструменты от пользователей, разработчиков, enterprise и global partners, которым они нужны.»

04 · Матрица моделей

Model Use case Input Output Context
SolCoding, security research, agents$5 / 1M$30 / 1M~1,5M tokens
TerraDocs, support, mass API$2,50 / 1M$15 / 1M~1,5M tokens
LunaSummaries, drafts, automation$1 / 1M$6 / 1M~1,5M tokens

Terra = GPT-5.5 performance at half price. Luna — 80% cheaper than Sol, первый non-flagship с «High» в cyber и biology domains.

05 · GPT-5.6 Sol: Max mode & Ultra mode

Max mode

Дополнительное reasoning time перед ответом — «slow thinking», latency ↔ accuracy tradeoff. Для high-stakes code review, security analysis, multi-step planning.

Ultra mode

Game-changer: вместо single model Ultra spawn'ит multiple subagents, которые параллельно делят task, execute и merge results. Именно эта multi-agent architecture дала 91,9% на TerminalBench. Token burn значительно выше — резервировать для genuinely complex tasks.

06 · Benchmark data: numbers that matter

Coding: TerminalBench 2.1

89 complex CLI planning challenges — ближе к real-world agent tasks, чем classic code completion benchmarks.

Model Score Mode
GPT-5.6 Sol91,9% 🏆 #1Ultra (multi-agent)
GPT-5.6 Sol88,8%Standard
Claude Mythos 588,0%Standard
GPT-5.583,4%Standard
Gemini 3.1 Pro Preview70,7%Standard

Claude Mythos 5 держал #1 всего 17 дней (с 9 июня).

Long-horizon agents: Agent's Last Exam

Model Task completion (code mode)
GPT-5.6 Sol50,9% — единственная модель >50%
GPT-5.6 LunaЧуть выше GPT-5.5

Cybersecurity: CTF & ExploitBench

Первая OpenAI family, где все три tier'а hit «High» cybersecurity classification.

Model CTF hit rate
Sol96,7%
Terra91,84%
Luna85,19%

ExploitBench: Sol matches Anthropic Mythos Preview при ~1/3 output tokens — та же security research capability, dramatically lower cost.

Safety note: red-teaming OpenAI подтвердил — Sol не может autonomously engineer complete functional exploit chain против Chromium/Firefox. Ниже порога «Cyber Critical».

Life sciences: GeneBench v1 & HealthBench

  • GeneBench v1: Sol matches/exceeds GPT-5.5 с fewer tokens
  • HealthBench Professional: Sol 60,5+8,7 vs GPT-5.5

07 · GPT-5.6 vs Claude Mythos 5: head-to-head

Dimension GPT-5.6 Sol Claude Mythos 5
TerminalBench 2.191,9% (Ultra) / 88,8% ✅88,0%
ExploitBenchNear-identical, 3× cheaper ✅Strong (restricted)
Pricing$5 / $30$10 / $50 (offline)
AvailabilityLimited preview → soon GAOffline (US export control)
Context window~1,5M tokens200K tokens

Bottom line: Sol beats Mythos 5 на TerminalBench, comparable security research at fraction of cost. Mythos 5/Fable 5 могут ещё лидировать на SWE-Bench Pro — полная GPT-5.6 system card pending. Routing alternatives: сравнение ИИ-помощников для кодинга.

08 · Government restriction: почему нет публичного доступа

Timeline

2 июня 2026: Trump executive order — US agencies до 30 дней pre-release access для review frontier models.

26 июня: по запросу White House (OSTP / ONCD) OpenAI ограничил GPT-5.6 ~20 pre-approved trusted partners.

«Big Three» заблокированы в июне

Company Model Status
OpenAIGPT-5.6 Sol/Terra/LunaLimited preview (~20 orgs)
AnthropicClaude Fable 5 / Mythos 5Offline 12 июня (export control)
GoogleGemini 3.5 ProDelayed to July

Июнь 2026 должен был стать biggest month in AI history — все три flagship releases blocked at the door.

09 · Cerebras: 750 tokens per second

С июля OpenAI deploy'ит Sol на Cerebras hardware: headline number — 750 tok/s.

Typical frontier models today: 50–150 tok/s GPT-5.6 Sol on Cerebras: 750 tok/s (5×–15× faster) Example: 10-sec response today → <1 sec at peak throughput

Для real-time coding assistants и streaming AI — category change, не speed bump. Initial access — select enterprise customers. Cross-ref: Jalapeño inference ASIC roadmap.

10 · Когда GPT-5.6 будет доступен всем

Сейчас (июнь 2026): ~20 partners via API и Codex. ChatGPT для обычных users — нет.

Июль 2026 (expected):

  • ChatGPT GA (Plus/Pro first)
  • Public API access
  • Sol on Cerebras: до 750 tok/s

Polymarket: 87% probability broad release до 31 июля 2026.

11 · Pricing matrix: стоит ли оно того

Model Input Output vs GPT-5.5
Sol$5/M$30/MSame price, much better perf
Terra$2,50/M$15/M50% cheaper, GPT-5.5-level
Luna$1/M$6/M80% cheaper than Sol

Claude Fable 5 был $10/$50 до offline. Sol — comparable/superior capability at half cost.

12 · Матрица выбора модели

Need Pick
Complex codegen, debug, multi-step agentsSol
Enterprise docs, support, mass APITerra
High-freq summaries, drafts, automationLuna
Tight budget, need flagship capabilityTerra (GPT-5.5 perf, −50% cost)
Latency-critical realtime (post-July Cerebras)Sol on Cerebras

13 · Safety & security stack

Все три модели — «High» cybersecurity rating. Built-in safeguards:

  • Real-time misuse classifiers на каждом output
  • Account-level review для sensitive workflows
  • 700 000 A100-equivalent GPU hours automated red-teaming
  • Universal jailbreak testing + cross-prompt patching
  • Specialized reasoning model как fallback filter
  • External security orgs протестировали все модели pre-launch

Sol находит vulns в Chromium/Firefox codebases, но не строит complete functional exploit chains autonomously — below «Cyber Critical».

14 · Чеклист из 7 шагов: подготовка к GPT-5.6

  1. Зафиксировать API baseline: 30 дней token usage и $ spend по gpt-5.5, Claude Opus 4.8.
  2. Подписаться на release channels: OpenAI Blog, platform.openai.com changelogs, ChatGPT status.
  3. Собрать regression prompt suite: 20–50 production prompts с fixed token counts, latency targets, quality rubrics.
  4. Проверить security/compliance: data processing, residency, High cyber rating — до миграции sensitive workflows.
  5. Арендовать isolated Mac sandbox: Cursor + test API keys на Apple Silicon; цены: тарифы M-series.
  6. Смоделировать Ultra token costs: Sol Ultra (91,9% TB) budget отдельно — multi-agent = больше output tokens.
  7. Re-benchmark через 48 ч после API GA: rerun suite, compare total spend & p95 latency, adjust routing.

15 · FAQ

В: GPT-5.6 в ChatGPT уже?
О: Пока нет для публики. ~20 partners. GA в недели (июль 2026).

В: Sol лучше Fable 5 для coding?
О: Sol leads TerminalBench 2.1 (91,9% vs 88% Mythos 5). Fable 5 leads SWE-Bench Pro; GPT-5.6 scores pending. Sol — better value.

В: Что такое Ultra mode?
О: Parallel subagents → unified result. Higher perf, much more tokens.

В: Почему restricted?
О: US gov (White House / OSTP / ONCD) после EO 2 июня 2026. OpenAI против permanent practice.

В: Скорость на Cerebras?
О: До 750 tok/s — 5–15× faster. July 2026 enterprise.

В: Context window?
О: ~1,5M tokens (vs 1M GPT-5.5). Confirm with full system card.

В: Cyber work на всех трёх?
О: High rating для всех. Layered safeguards; no autonomous complete exploits.

16 · Что дальше

  • Full GPT-5.6 system card со всеми benchmarks
  • Cerebras deployment Sol 750 tok/s (July 2026)
  • ChatGPT GA Plus, Pro, API
  • US cyber EO framework (~2 July 2026, 30-day window)

17 · Источники

18 · Аренда Mac: изолированная оценка GPT-5.6 до public API

GPT-5.6 меняет то, что происходит в датацентрах OpenAI — не на вашем laptop. Winners после API GA — те, кто уже измерил baseline token economics и agent success rates в reproducible environment. Ad-hoc curl с Windows daily driver = OS noise + API signal; experimental keys на production Mac = credential bleed risk.

Day-rented Apple Silicon Mac = clean macOS shell: Cursor для agent workflows, Keychain для secrets, local scripts для batch regression. Snapshot pre-GPT-5.6 baseline на gpt-5.5 сейчас, rerun ту же suite в release week. Context: июньский release roundup и сравнение ИИ-ассистентов.