KI-Modelle 2026-06-27

GPT-5.6 Sol, Terra & Luna
Benchmarks, Preise & DSGVO-Leitfaden (2026)

Am 26. Juni 2026 veröffentlichte OpenAI GPT-5.6 Sol, Terra und Luna — erstmals mit Sonnensystem-Namen. Sol erreicht 91,9% auf TerminalBench 2.1 und 96,7% CTF-Trefferquote. Alle drei Modelle tragen OpenAIs „High“-Cybersicherheitsrating. Für EU-Teams zählen neben Benchmarks auch DSGVO-Konformität und die US-Regierungsbeschränkung: Derzeit nur ~20 Partner mit API-Zugang. Dieser datengetriebene Leitfaden bündelt Kennzahlen, Preismatrix, Cerebras 750 tok/s und eine Sieben-Schritte-Mac-Checkliste.

GPT-5.6 Sol Terra Luna Leistungsvergleich OpenAI Juni 2026

Veröffentlicht 26. Juni 2026 · Aktualisiert 27. Juni 2026 · Quellen: OpenAI Official Blog · OpenAI Deployment Safety System Card · VentureBeat · SiliconAngle · TechTimes

01 · Kennzahlen auf einen Blick

Modell Einsatz Input Output Highlight
GPT-5.6 SolFlagship / Maximum$5 / 1M$30 / 1MTerminalBench 2.1 #1: 91,9%
GPT-5.6 TerraAusgewogen / Produktion$2,50 / 1M$15 / 1MGPT-5.5-Niveau, 50% günstiger
GPT-5.6 LunaLeicht / Hochfrequenz$1 / 1M$6 / 1M80% günstiger als Sol; High Cyber
Aktueller StatusLimitierte Vorschau (~20 genehmigte Partner). Breite Verfügbarkeit in Wochen erwartet (Juli 2026).

Der 26.-Juni-Launch ist OpenAIs bedeutendste Modellfamilie seit GPT-5.5 — und die erste, bei der alle drei Stufen, einschließlich Luna, OpenAIs internes „High“-Cybersicherheitsrating erreichen. Sols Ultra-Multi-Agent-Modus entthronte Claude Mythos 5 nach nur 17 Tagen an der TerminalBench-Spitze.

02 · Drei Entscheidungsschmerzpunkte für EU-Entwickler

  1. Kein Benchmark ohne API-Zugang: GPT-5.6 ist nur für ~20 Partner live. Teams auf gpt-5.5 oder Claude Opus 4.8 nach dem Fable-5-Exportstopp können noch nicht regressions-testen. Polymarket: 87% für breiten Release bis 31. Juli — Sprint-Planung darf sich nicht darauf verlassen.
  2. Ultra-Scores ≠ Rechnung: 91,9% TerminalBench läuft im Ultra-Multi-Agent-Modus mit deutlich höherem Token-Verbrauch. Kostenprojektionen ohne Ultra-Modellierung scheitern bei Agent-Workflows in Produktion.
  3. DSGVO + Regierungsgatekeeping: US-Executive Order vom 2. Juni 2026 begrenzt Zugang erstmals formal. Für EU-Unternehmen bedeutet das: Datenverarbeitungsverträge, Residenz und das High-Cyber-Rating aller drei Modelle vor Migration sensibler Workflows prüfen — nicht nur API-Rate-Limits.

03 · Sonnensystem-Namen: Sol, Terra, Luna

OpenAI führt erstmals Himmelskörper-Namen ein:

  • Sol (Sonne) — Flagship für komplexes Coding, Cybersicherheitsforschung und lange Agent-Workflows
  • Terra (Erde) — Ausgewogen für Dokumentenanalyse, Kundenservice und Massen-API-Calls
  • Luna (Mond) — Schnell und günstig für Zusammenfassungen, Entwürfe und Routine-Automatisierung

Die Veröffentlichung verlief nicht reibungslos. Nach Trumps Executive Order vom 2. Juni 2026 musste OpenAI die breite Freigabe während einer Regierungsprüfung begrenzen — erstmals verlangt die US-Regierung von einem KI-Unternehmen eine limitierte Frontier-Modell-Veröffentlichung. CEO Sam Altman widersprach öffentlich:

„Wir glauben nicht, dass dieser Regierungszugangsprozess zur langfristigen Norm werden sollte. Er hält die besten Werkzeuge von Nutzern, Entwicklern, Unternehmen und globalen Partnern fern, die sie brauchen."

04 · Modell-Matrix im Überblick

Modell Best For Input Output Kontext
SolCoding, Security Research, Long-Horizon Agents$5 / 1M$30 / 1M~1,5M Token
TerraDokumente, Support, Massen-API$2,50 / 1M$15 / 1M~1,5M Token
LunaZusammenfassung, Entwürfe, Automatisierung$1 / 1M$6 / 1M~1,5M Token

Terra liefert GPT-5.5-Niveau zu halben Kosten. Luna ist 80% günstiger als Sol und erhält als erstes Nicht-Flagship-Modell „High“ in Cybersicherheit und Biologie.

05 · GPT-5.6 Sol: Max-Modus & Ultra-Modus

Max-Modus

Sol investiert mehr Rechenzeit vor der Antwort — „langsames Denken“ gegen Latenz für Genauigkeit. Ideal bei Code-Review, Security-Analyse oder mehrstufiger Planung.

Ultra-Modus

Statt eines einzelnen Modells startet Ultra mehrere parallele Sub-Agenten, die Teilaufgaben bearbeiten und Ergebnisse zusammenführen. Kern der TerminalBench-Rekordleistung von 91,9%. Deutlich höherer Token-Verbrauch — nur für wirklich komplexe Tasks reservieren.

06 · Benchmark-Daten: Die relevanten Zahlen

Coding: TerminalBench 2.1

89 komplexe Kommandozeilen-Aufgaben testen Multi-Step-Tool-Calls und Task-Koordination — näher an realen Agent-Tasks als klassische Code-Completion-Benchmarks.

Modell Score Modus
GPT-5.6 Sol91,9% 🏆 #1Ultra (Multi-Agent)
GPT-5.6 Sol88,8%Standard
Claude Mythos 588,0%Standard
GPT-5.583,4%Standard
Gemini 3.1 Pro Preview70,7%Standard

Claude Mythos 5 hielt die Spitze nur 17 Tage (seit 9. Juni), bevor Sol überholte.

Long-Horizon Agents: Agent's Last Exam

Modell Task-Abschlussrate (Code)
GPT-5.6 Sol50,9% — einziges Modell über 50%
GPT-5.6 LunaLeicht über GPT-5.5

Cybersicherheit: CTF & ExploitBench

Erste OpenAI-Familie, bei der alle drei Stufen die „High“-Cybersicherheitsklassifikation erreichen.

Modell CTF-Trefferquote
Sol96,7%
Terra91,84%
Luna85,19%

ExploitBench: Sol gleicht Anthropic Mythos Preview bei nur ~1/3 der Output-Tokens — gleiche Security-Research-Fähigkeit zu deutlich niedrigeren Kosten.

Sicherheitshinweis: OpenAIs Red-Teaming bestätigt, dass Sol keine vollständigen, funktionsfähigen Exploit-Ketten gegen Chromium/Firefox autonom erzeugen kann — unterhalb der „Cyber Critical“-Schwelle.

Life Sciences: GeneBench v1 & HealthBench

  • GeneBench v1: Sol erreicht oder übertrifft GPT-5.5 mit weniger Tokens
  • HealthBench Professional: Sol 60,5 Punkte — +8,7 gegenüber GPT-5.5

07 · GPT-5.6 vs Claude Mythos 5: Datenvergleich

Dimension GPT-5.6 Sol Claude Mythos 5
TerminalBench 2.191,9% (Ultra) / 88,8% ✅88,0%
ExploitBenchNahezu gleich, 3× günstiger ✅Stark (Zugang eingeschränkt)
Preis$5 / $30$10 / $50 (offline)
VerfügbarkeitLimitierte Vorschau → bald breitOffline (US-Exportkontrolle)
Kontextfenster~1,5M Token200K Token

Fazit: Sol schlägt Mythos 5 bei TerminalBench und bietet vergleichbare Security-Research-Fähigkeit zu einem Bruchteil der Kosten. Mythos 5/Fable 5 können bei SWE-Bench Pro noch führen — vollständige GPT-5.6-System-Card-Daten stehen aus. Routing-Alternativen: KI-Coding-Assistenten-Vergleich.

08 · Regierungsbeschränkung: Warum noch kein Zugang?

Was geschah

Am 2. Juni 2026 unterzeichnete Präsident Trump eine Executive Order: US-Behörden erhalten bis zu 30 Tage Vorabzugang zur Prüfung von Frontier-Modellen.

Am 26. Juni bat die US-Regierung (OSTP / ONCD) OpenAI, GPT-5.6 auf etwa 20 genehmigte „Trusted Partner“ zu begrenzen.

Die „Big Three“ im Juni 2026

Unternehmen Modell Status
OpenAIGPT-5.6 Sol/Terra/LunaLimitierte Vorschau (~20 Orgs)
AnthropicClaude Fable 5 / Mythos 512. Juni offline (Exportkontrolle)
GoogleGemini 3.5 ProVerschoben auf Juli

Juni 2026 sollte der größte KI-Monat werden — stattdessen blockierten alle drei Frontier-Releases.

09 · Cerebras: 750 Token pro Sekunde

Ab Juli deployt OpenAI Sol auf Cerebras-Hardware: 750 Token/s.

Typische Frontier-Modelle heute: 50–150 Token/s GPT-5.6 Sol auf Cerebras: 750 Token/s (5× bis 15× schneller) Beispiel: 10-Sekunden-Antwort heute → unter 1 Sekunde bei Peak-Durchsatz

Für Echtzeit-Coding-Assistenten und Streaming-AI ist das ein Kategorienwechsel. Erstzugang für ausgewählte Enterprise-Kunden. Kombiniert mit OpenAIs Jalapeño-Inferenz-ASIC verschieben sich Inferenz-Ökonomie und Latenz auf zwei Fronten.

10 · Wann ist GPT-5.6 für alle verfügbar?

Jetzt (Juni 2026): ~20 Partner via API und Codex. ChatGPT für Normalnutzer noch nicht.

Juli 2026 erwartet:

  • ChatGPT breite Verfügbarkeit (Plus/Pro zuerst)
  • Öffentliche API
  • Sol auf Cerebras: bis 750 Token/s

Polymarket: 87% Wahrscheinlichkeit für breiten Release bis 31. Juli 2026.

11 · Preismatrix: Lohnt sich GPT-5.6?

Modell Input Output vs GPT-5.5
Sol$5/M$30/MGleicher Preis, deutlich bessere Leistung
Terra$2,50/M$15/M50% günstiger als Sol, GPT-5.5-Niveau
Luna$1/M$6/M80% günstiger als Sol

Claude Fable 5 kostete $10/$50 vor dem Offline-Gang. Sol liefert vergleichbare Fähigkeit zu halben Kosten.

12 · Modellwahl-Matrix

Anforderung Empfehlung
Komplexes Coding, Debugging, Multi-Step-AgentsSol
Dokumentenanalyse, Support, Massen-APITerra
Zusammenfassung, Entwürfe, Routine-AutomatisierungLuna
Budget-limitiert, Flagship-Fähigkeit nötigTerra (GPT-5.5-Niveau, 50% günstiger)
Latenzkritische Echtzeit-Apps (ab Juli Cerebras)Sol auf Cerebras

13 · Sicherheit, DSGVO & Compliance

Alle drei Modelle tragen OpenAIs „High“-Cybersicherheitsklassifikation — für EU-Teams relevant bei sensiblen Daten und Security-Workflows:

  • Echtzeit-Missbrauchs-Klassifikatoren auf jeder Ausgabe
  • Account-Level-Review für sensible Workflows
  • 700.000 A100-äquivalente GPU-Stunden automatisiertes Red-Teaming
  • Universal-Jailbreak-Tests und Cross-Prompt-Patching
  • Spezialisiertes Reasoning-Modell als Fallback-Filter
  • Externe Sicherheitsorganisationen haben alle Modelle vor Launch geprüft

Für DSGVO: Auftragsverarbeitungsvertrag (AVV), Datenresidenz und Dokumentation der Verarbeitung personenbezogener Prompts vor Produktions-Routing auf Sol/Terra/Luna prüfen. Sol erkennt Schwachstellen in Chromium/Firefox, kann aber keine vollständigen Exploit-Ketten autonom bauen.

14 · Sieben-Schritte-Checkliste: GPT-5.6 datengetrieben vorbereiten

  1. API-Baseline und Token-Kosten erfassen: 30 Tage Verbrauch und Euro-Kosten pro Modell (gpt-5.5, Claude Opus 4.8) dokumentieren.
  2. Release-Kanäle abonnieren: OpenAI Blog, platform.openai.com Changelogs, ChatGPT-Status — neue Modell-IDs erscheinen dort zuerst.
  3. Regressions-Prompt-Suite aufbauen: 20–50 Produktions-Prompts mit festen Token-Limits, Latenz-Zielen und Qualitätsrubriken.
  4. DSGVO- und Sicherheitsanforderungen prüfen: AVV, Residenz und High-Cyber-Rating mit Legal/Compliance abstimmen, bevor sensible Daten migriert werden.
  5. Isolierten Mac-Sandbox mieten: Cursor + Test-API-Keys auf Apple-Silicon-Mietknoten; Preise: M-Serie Compute-Preise.
  6. Ultra-Modus-Token-Kosten modellieren: Sol Ultra (91,9% TerminalBench) separat budgetieren — Multi-Agent verbraucht deutlich mehr Output-Tokens.
  7. 48 Stunden nach API-Freigabe neu benchmarken: Suite erneut ausführen, Gesamtkosten und p95-Latenz vergleichen, Routing anpassen.

15 · FAQ

F: Ist GPT-5.6 bereits in ChatGPT verfügbar?
A: Noch nicht öffentlich. Derzeit ~20 Partner. Breiter Rollout in Wochen (Juli 2026).

F: Ist Sol besser als Claude Fable 5 für Coding?
A: Sol führt bei TerminalBench 2.1 (91,9% vs. 88% Mythos 5). Fable 5 führt bei SWE-Bench Pro; offizielle GPT-5.6-Werte fehlen. Sol ist preislich attraktiver.

F: Was ist der Ultra-Modus?
A: Parallele Sub-Agenten bearbeiten Teilaufgaben und fusionieren Ergebnisse. Höhere Leistung, deutlich mehr Tokens.

F: Warum ist GPT-5.6 eingeschränkt?
A: US-Regierung (White House / OSTP / ONCD) nach Executive Order vom 2. Juni 2026. OpenAI widerspricht dauerhafter Praxis.

F: Wie schnell auf Cerebras?
A: Bis 750 Token/s — 5–15× schneller. Juli 2026 für Enterprise.

F: Kontextfenster?
A: ~1,5M Token (vs. 1M bei GPT-5.5). Offizielle Bestätigung mit System Card erwartet.

F: Cybersicherheitsarbeit mit allen drei Modellen?
A: Alle tragen „High“-Rating. Schutzmaßnahmen verhindern Missbrauch; keine autonomen vollständigen Exploits.

16 · Ausblick

  • Vollständige GPT-5.6 System Card mit allen Benchmarks
  • Cerebras-Deployment Sol 750 tok/s (Juli 2026)
  • ChatGPT breite Verfügbarkeit Plus, Pro, API
  • US-Cyber-Executive-Order-Rahmen (~2. Juli 2026, 30-Tage-Fenster)

17 · Quellen

18 · Mac-Miete: GPT-5.6-Evaluation isoliert vorbereiten

GPT-5.6 verändert OpenAIs Rechenzentren — nicht Ihren Laptop. Wer nach API-Freigabe gewinnt, hat Baseline-Token-Ökonomie und Agent-Erfolgsraten bereits in reproduzierbarer Umgebung gemessen. Ad-hoc-Tests vom Windows-Rechner vermischen OS-Rauschen mit API-Signal; experimentelle Keys auf dem Produktions-Mac riskieren Credential-Bleed.

Tagesmiete Apple Silicon liefert sauberes macOS mit Cursor, Keychain und Batch-Regression — jetzt Baseline auf gpt-5.5 erfassen, dieselbe Suite in der Release-Woche wiederholen. Kontext: Juni-2026-Release-Roundup und KI-Assistenten-Vergleich.