GPT-5.6 Sol, Terra & Luna
Benchmarks, Preise & DSGVO-Leitfaden (2026)
Am 26. Juni 2026 veröffentlichte OpenAI GPT-5.6 Sol, Terra und Luna — erstmals mit Sonnensystem-Namen. Sol erreicht 91,9% auf TerminalBench 2.1 und 96,7% CTF-Trefferquote. Alle drei Modelle tragen OpenAIs „High“-Cybersicherheitsrating. Für EU-Teams zählen neben Benchmarks auch DSGVO-Konformität und die US-Regierungsbeschränkung: Derzeit nur ~20 Partner mit API-Zugang. Dieser datengetriebene Leitfaden bündelt Kennzahlen, Preismatrix, Cerebras 750 tok/s und eine Sieben-Schritte-Mac-Checkliste.
📋 Inhaltsverzeichnis
Veröffentlicht 26. Juni 2026 · Aktualisiert 27. Juni 2026 · Quellen: OpenAI Official Blog · OpenAI Deployment Safety System Card · VentureBeat · SiliconAngle · TechTimes
01 · Kennzahlen auf einen Blick
| Modell | Einsatz | Input | Output | Highlight |
|---|---|---|---|---|
| GPT-5.6 Sol | Flagship / Maximum | $5 / 1M | $30 / 1M | TerminalBench 2.1 #1: 91,9% |
| GPT-5.6 Terra | Ausgewogen / Produktion | $2,50 / 1M | $15 / 1M | GPT-5.5-Niveau, 50% günstiger |
| GPT-5.6 Luna | Leicht / Hochfrequenz | $1 / 1M | $6 / 1M | 80% günstiger als Sol; High Cyber |
| Aktueller Status | Limitierte Vorschau (~20 genehmigte Partner). Breite Verfügbarkeit in Wochen erwartet (Juli 2026). | |||
Der 26.-Juni-Launch ist OpenAIs bedeutendste Modellfamilie seit GPT-5.5 — und die erste, bei der alle drei Stufen, einschließlich Luna, OpenAIs internes „High“-Cybersicherheitsrating erreichen. Sols Ultra-Multi-Agent-Modus entthronte Claude Mythos 5 nach nur 17 Tagen an der TerminalBench-Spitze.
02 · Drei Entscheidungsschmerzpunkte für EU-Entwickler
- Kein Benchmark ohne API-Zugang: GPT-5.6 ist nur für ~20 Partner live. Teams auf
gpt-5.5oder Claude Opus 4.8 nach dem Fable-5-Exportstopp können noch nicht regressions-testen. Polymarket: 87% für breiten Release bis 31. Juli — Sprint-Planung darf sich nicht darauf verlassen. - Ultra-Scores ≠ Rechnung: 91,9% TerminalBench läuft im Ultra-Multi-Agent-Modus mit deutlich höherem Token-Verbrauch. Kostenprojektionen ohne Ultra-Modellierung scheitern bei Agent-Workflows in Produktion.
- DSGVO + Regierungsgatekeeping: US-Executive Order vom 2. Juni 2026 begrenzt Zugang erstmals formal. Für EU-Unternehmen bedeutet das: Datenverarbeitungsverträge, Residenz und das High-Cyber-Rating aller drei Modelle vor Migration sensibler Workflows prüfen — nicht nur API-Rate-Limits.
03 · Sonnensystem-Namen: Sol, Terra, Luna
OpenAI führt erstmals Himmelskörper-Namen ein:
- Sol (Sonne) — Flagship für komplexes Coding, Cybersicherheitsforschung und lange Agent-Workflows
- Terra (Erde) — Ausgewogen für Dokumentenanalyse, Kundenservice und Massen-API-Calls
- Luna (Mond) — Schnell und günstig für Zusammenfassungen, Entwürfe und Routine-Automatisierung
Die Veröffentlichung verlief nicht reibungslos. Nach Trumps Executive Order vom 2. Juni 2026 musste OpenAI die breite Freigabe während einer Regierungsprüfung begrenzen — erstmals verlangt die US-Regierung von einem KI-Unternehmen eine limitierte Frontier-Modell-Veröffentlichung. CEO Sam Altman widersprach öffentlich:
„Wir glauben nicht, dass dieser Regierungszugangsprozess zur langfristigen Norm werden sollte. Er hält die besten Werkzeuge von Nutzern, Entwicklern, Unternehmen und globalen Partnern fern, die sie brauchen."
04 · Modell-Matrix im Überblick
| Modell | Best For | Input | Output | Kontext |
|---|---|---|---|---|
| Sol | Coding, Security Research, Long-Horizon Agents | $5 / 1M | $30 / 1M | ~1,5M Token |
| Terra | Dokumente, Support, Massen-API | $2,50 / 1M | $15 / 1M | ~1,5M Token |
| Luna | Zusammenfassung, Entwürfe, Automatisierung | $1 / 1M | $6 / 1M | ~1,5M Token |
Terra liefert GPT-5.5-Niveau zu halben Kosten. Luna ist 80% günstiger als Sol und erhält als erstes Nicht-Flagship-Modell „High“ in Cybersicherheit und Biologie.
05 · GPT-5.6 Sol: Max-Modus & Ultra-Modus
Max-Modus
Sol investiert mehr Rechenzeit vor der Antwort — „langsames Denken“ gegen Latenz für Genauigkeit. Ideal bei Code-Review, Security-Analyse oder mehrstufiger Planung.
Ultra-Modus
Statt eines einzelnen Modells startet Ultra mehrere parallele Sub-Agenten, die Teilaufgaben bearbeiten und Ergebnisse zusammenführen. Kern der TerminalBench-Rekordleistung von 91,9%. Deutlich höherer Token-Verbrauch — nur für wirklich komplexe Tasks reservieren.
06 · Benchmark-Daten: Die relevanten Zahlen
Coding: TerminalBench 2.1
89 komplexe Kommandozeilen-Aufgaben testen Multi-Step-Tool-Calls und Task-Koordination — näher an realen Agent-Tasks als klassische Code-Completion-Benchmarks.
| Modell | Score | Modus |
|---|---|---|
| GPT-5.6 Sol | 91,9% 🏆 #1 | Ultra (Multi-Agent) |
| GPT-5.6 Sol | 88,8% | Standard |
| Claude Mythos 5 | 88,0% | Standard |
| GPT-5.5 | 83,4% | Standard |
| Gemini 3.1 Pro Preview | 70,7% | Standard |
Claude Mythos 5 hielt die Spitze nur 17 Tage (seit 9. Juni), bevor Sol überholte.
Long-Horizon Agents: Agent's Last Exam
| Modell | Task-Abschlussrate (Code) |
|---|---|
| GPT-5.6 Sol | 50,9% — einziges Modell über 50% |
| GPT-5.6 Luna | Leicht über GPT-5.5 |
Cybersicherheit: CTF & ExploitBench
Erste OpenAI-Familie, bei der alle drei Stufen die „High“-Cybersicherheitsklassifikation erreichen.
| Modell | CTF-Trefferquote |
|---|---|
| Sol | 96,7% |
| Terra | 91,84% |
| Luna | 85,19% |
ExploitBench: Sol gleicht Anthropic Mythos Preview bei nur ~1/3 der Output-Tokens — gleiche Security-Research-Fähigkeit zu deutlich niedrigeren Kosten.
Sicherheitshinweis: OpenAIs Red-Teaming bestätigt, dass Sol keine vollständigen, funktionsfähigen Exploit-Ketten gegen Chromium/Firefox autonom erzeugen kann — unterhalb der „Cyber Critical“-Schwelle.
Life Sciences: GeneBench v1 & HealthBench
- GeneBench v1: Sol erreicht oder übertrifft GPT-5.5 mit weniger Tokens
- HealthBench Professional: Sol 60,5 Punkte — +8,7 gegenüber GPT-5.5
07 · GPT-5.6 vs Claude Mythos 5: Datenvergleich
| Dimension | GPT-5.6 Sol | Claude Mythos 5 |
|---|---|---|
| TerminalBench 2.1 | 91,9% (Ultra) / 88,8% ✅ | 88,0% |
| ExploitBench | Nahezu gleich, 3× günstiger ✅ | Stark (Zugang eingeschränkt) |
| Preis | $5 / $30 ✅ | $10 / $50 (offline) |
| Verfügbarkeit | Limitierte Vorschau → bald breit | Offline (US-Exportkontrolle) |
| Kontextfenster | ~1,5M Token ✅ | 200K Token |
Fazit: Sol schlägt Mythos 5 bei TerminalBench und bietet vergleichbare Security-Research-Fähigkeit zu einem Bruchteil der Kosten. Mythos 5/Fable 5 können bei SWE-Bench Pro noch führen — vollständige GPT-5.6-System-Card-Daten stehen aus. Routing-Alternativen: KI-Coding-Assistenten-Vergleich.
08 · Regierungsbeschränkung: Warum noch kein Zugang?
Was geschah
Am 2. Juni 2026 unterzeichnete Präsident Trump eine Executive Order: US-Behörden erhalten bis zu 30 Tage Vorabzugang zur Prüfung von Frontier-Modellen.
Am 26. Juni bat die US-Regierung (OSTP / ONCD) OpenAI, GPT-5.6 auf etwa 20 genehmigte „Trusted Partner“ zu begrenzen.
Die „Big Three“ im Juni 2026
| Unternehmen | Modell | Status |
|---|---|---|
| OpenAI | GPT-5.6 Sol/Terra/Luna | Limitierte Vorschau (~20 Orgs) |
| Anthropic | Claude Fable 5 / Mythos 5 | 12. Juni offline (Exportkontrolle) |
| Gemini 3.5 Pro | Verschoben auf Juli |
Juni 2026 sollte der größte KI-Monat werden — stattdessen blockierten alle drei Frontier-Releases.
09 · Cerebras: 750 Token pro Sekunde
Ab Juli deployt OpenAI Sol auf Cerebras-Hardware: 750 Token/s.
Typische Frontier-Modelle heute: 50–150 Token/s
GPT-5.6 Sol auf Cerebras: 750 Token/s (5× bis 15× schneller)
Beispiel: 10-Sekunden-Antwort heute → unter 1 Sekunde bei Peak-DurchsatzFür Echtzeit-Coding-Assistenten und Streaming-AI ist das ein Kategorienwechsel. Erstzugang für ausgewählte Enterprise-Kunden. Kombiniert mit OpenAIs Jalapeño-Inferenz-ASIC verschieben sich Inferenz-Ökonomie und Latenz auf zwei Fronten.
10 · Wann ist GPT-5.6 für alle verfügbar?
Jetzt (Juni 2026): ~20 Partner via API und Codex. ChatGPT für Normalnutzer noch nicht.
Juli 2026 erwartet:
- ChatGPT breite Verfügbarkeit (Plus/Pro zuerst)
- Öffentliche API
- Sol auf Cerebras: bis 750 Token/s
Polymarket: 87% Wahrscheinlichkeit für breiten Release bis 31. Juli 2026.
11 · Preismatrix: Lohnt sich GPT-5.6?
| Modell | Input | Output | vs GPT-5.5 |
|---|---|---|---|
| Sol | $5/M | $30/M | Gleicher Preis, deutlich bessere Leistung |
| Terra | $2,50/M | $15/M | 50% günstiger als Sol, GPT-5.5-Niveau |
| Luna | $1/M | $6/M | 80% günstiger als Sol |
Claude Fable 5 kostete $10/$50 vor dem Offline-Gang. Sol liefert vergleichbare Fähigkeit zu halben Kosten.
12 · Modellwahl-Matrix
| Anforderung | Empfehlung |
|---|---|
| Komplexes Coding, Debugging, Multi-Step-Agents | Sol |
| Dokumentenanalyse, Support, Massen-API | Terra |
| Zusammenfassung, Entwürfe, Routine-Automatisierung | Luna |
| Budget-limitiert, Flagship-Fähigkeit nötig | Terra (GPT-5.5-Niveau, 50% günstiger) |
| Latenzkritische Echtzeit-Apps (ab Juli Cerebras) | Sol auf Cerebras |
13 · Sicherheit, DSGVO & Compliance
Alle drei Modelle tragen OpenAIs „High“-Cybersicherheitsklassifikation — für EU-Teams relevant bei sensiblen Daten und Security-Workflows:
- Echtzeit-Missbrauchs-Klassifikatoren auf jeder Ausgabe
- Account-Level-Review für sensible Workflows
- 700.000 A100-äquivalente GPU-Stunden automatisiertes Red-Teaming
- Universal-Jailbreak-Tests und Cross-Prompt-Patching
- Spezialisiertes Reasoning-Modell als Fallback-Filter
- Externe Sicherheitsorganisationen haben alle Modelle vor Launch geprüft
Für DSGVO: Auftragsverarbeitungsvertrag (AVV), Datenresidenz und Dokumentation der Verarbeitung personenbezogener Prompts vor Produktions-Routing auf Sol/Terra/Luna prüfen. Sol erkennt Schwachstellen in Chromium/Firefox, kann aber keine vollständigen Exploit-Ketten autonom bauen.
14 · Sieben-Schritte-Checkliste: GPT-5.6 datengetrieben vorbereiten
- API-Baseline und Token-Kosten erfassen: 30 Tage Verbrauch und Euro-Kosten pro Modell (
gpt-5.5, Claude Opus 4.8) dokumentieren. - Release-Kanäle abonnieren: OpenAI Blog, platform.openai.com Changelogs, ChatGPT-Status — neue Modell-IDs erscheinen dort zuerst.
- Regressions-Prompt-Suite aufbauen: 20–50 Produktions-Prompts mit festen Token-Limits, Latenz-Zielen und Qualitätsrubriken.
- DSGVO- und Sicherheitsanforderungen prüfen: AVV, Residenz und High-Cyber-Rating mit Legal/Compliance abstimmen, bevor sensible Daten migriert werden.
- Isolierten Mac-Sandbox mieten: Cursor + Test-API-Keys auf Apple-Silicon-Mietknoten; Preise: M-Serie Compute-Preise.
- Ultra-Modus-Token-Kosten modellieren: Sol Ultra (91,9% TerminalBench) separat budgetieren — Multi-Agent verbraucht deutlich mehr Output-Tokens.
- 48 Stunden nach API-Freigabe neu benchmarken: Suite erneut ausführen, Gesamtkosten und p95-Latenz vergleichen, Routing anpassen.
15 · FAQ
F: Ist GPT-5.6 bereits in ChatGPT verfügbar?
A: Noch nicht öffentlich. Derzeit ~20 Partner. Breiter Rollout in Wochen (Juli 2026).
F: Ist Sol besser als Claude Fable 5 für Coding?
A: Sol führt bei TerminalBench 2.1 (91,9% vs. 88% Mythos 5). Fable 5 führt bei SWE-Bench Pro; offizielle GPT-5.6-Werte fehlen. Sol ist preislich attraktiver.
F: Was ist der Ultra-Modus?
A: Parallele Sub-Agenten bearbeiten Teilaufgaben und fusionieren Ergebnisse. Höhere Leistung, deutlich mehr Tokens.
F: Warum ist GPT-5.6 eingeschränkt?
A: US-Regierung (White House / OSTP / ONCD) nach Executive Order vom 2. Juni 2026. OpenAI widerspricht dauerhafter Praxis.
F: Wie schnell auf Cerebras?
A: Bis 750 Token/s — 5–15× schneller. Juli 2026 für Enterprise.
F: Kontextfenster?
A: ~1,5M Token (vs. 1M bei GPT-5.5). Offizielle Bestätigung mit System Card erwartet.
F: Cybersicherheitsarbeit mit allen drei Modellen?
A: Alle tragen „High“-Rating. Schutzmaßnahmen verhindern Missbrauch; keine autonomen vollständigen Exploits.
16 · Ausblick
- Vollständige GPT-5.6 System Card mit allen Benchmarks
- Cerebras-Deployment Sol 750 tok/s (Juli 2026)
- ChatGPT breite Verfügbarkeit Plus, Pro, API
- US-Cyber-Executive-Order-Rahmen (~2. Juli 2026, 30-Tage-Fenster)
17 · Quellen
- OpenAI: Previewing GPT-5.6 Sol
- OpenAI Deployment Safety System Card
- VentureBeat: GPT-5.6 Launch
- SiliconAngle: vs Claude Mythos 5
- TechTimes: Government Lock
18 · Mac-Miete: GPT-5.6-Evaluation isoliert vorbereiten
GPT-5.6 verändert OpenAIs Rechenzentren — nicht Ihren Laptop. Wer nach API-Freigabe gewinnt, hat Baseline-Token-Ökonomie und Agent-Erfolgsraten bereits in reproduzierbarer Umgebung gemessen. Ad-hoc-Tests vom Windows-Rechner vermischen OS-Rauschen mit API-Signal; experimentelle Keys auf dem Produktions-Mac riskieren Credential-Bleed.
Tagesmiete Apple Silicon liefert sauberes macOS mit Cursor, Keychain und Batch-Regression — jetzt Baseline auf gpt-5.5 erfassen, dieselbe Suite in der Release-Woche wiederholen. Kontext: Juni-2026-Release-Roundup und KI-Assistenten-Vergleich.