openPangu 2.0 live
505B Pro · 92B Flash · 512K · Ascend ohne NVIDIA
Am 30. Juni 2026 hat Huawei die Flash-Variante von openPangu 2.0 auf GitCode freigegeben — das erste Open-Source-Frontier-MoE, das vollständig auf Ascend 910B trainiert wurde, ohne A100/H100. Diese datenbasierte Auswertung liefert Hard Facts (505B/18B vs 92B/6B, 512K, 7 Komponenten), Ascend-Kennzahlen (2× Durchsatz, >99 % Train-Infer-Konsistenz), DeepSeek-Vergleichsmatrizen, Deploy-Runbook, Sieben-Schritte-Entscheidungsworkflow und ein 5-Schritte-Mac-Playbook für isolierte API-Validierung vor Produktionseinsatz.
📋 Inhalt
Kurzfassung in Zahlen: Pro 505B/18B aktiv, Flash 92B/6B aktiv, beide 512K Kontext, Training ausschließlich Ascend, Roadmap 7 Komponenten Full-Stack-Open-Source — Huaweis größter Open-Source-Schritt seit Pangu 1.0 (2021).
01 · Timeline & messbare Kernfakten
Auf der HDC 2026 (12. Juni, Dongguan) kündigte Richard Yu openPangu 2.0 an. Am 30. Juni 2026 lieferten Flash-Gewichte, Inferenzcode und Trainingsoperatoren auf GitCode Ascend Tribe — der Übergang von Ankündigung zu reproduzierbarem Artefakt dauerte 18 Tage.
| Datum | Meilenstein |
|---|---|
| 2026-06-12 | HDC 2026: offizielle Vorstellung openPangu 2.0 |
| 2026-06-30 | Flash-Gewichte, Inferenz, Operatoren auf GitCode |
| 2026-07 (Plan) | Pro-Gewichte + Inferenzcode |
| H2 2026 (Plan) | Pre-Training-, Post-Training-Code, weitere Operatoren |
Zitierbare Kennzahlen: ① Pro: 505B gesamt, 18B aktiv, Sparsity ~28:1; ② Flash: 92B gesamt, 6B aktiv, Sparsity ~15:1 (mit DSA+SWA bis 28:1); ③ beide Varianten: 512K Token — etwa acht Romane à 80.000 Wörter in einem Durchlauf.
02 · Drei typische Entscheidungsfehler (datenbasiert)
1. Gewichte ≠ Full-Stack-Open-Source. DeepSeek, Qwen und Kimi liefern meist Gewichte plus Inferenz. openPangu 2.0 plant zusätzlich Pre-Training, SFT/RLHF und Ascend-Operatoren — für Fine-Tuning-Forschung oder Domänen-Retraining ist der Unterschied zwischen „inferieren“ und „trainieren“ budgetrelevant.
2. NVIDIA-Modelle auf Ascend portieren unterschätzen. DeepSeek V4 Pro, Qwen 3.7 Max und Kimi K2.7 wurden auf NVIDIA trainiert. Auf Ascend-Clustern sinkt der Durchsatz nicht-linear. openPangu 2.0 erreicht laut Huawei auf 910B 2× den Single-Card-Durchsatz gegenüber portierten Mainstream-Modellen — ein harter KPI, den Parameterlisten allein nicht zeigen.
3. Benchmark-Rang statt Szenario-Fit. Bei Code-Generierung und komplexem Reasoning führt DeepSeek V4 Pro (~200B aktiv) voraussichtlich. Bei 512K Langkontext, EU-/Asien-Souveränitätsanforderungen und Ascend-nativem Betrieb ist openPangu 2.0 derzeit die einzige Frontier-Option ohne NVIDIA-Abhängigkeit in der Trainingskette.
03 · Pro vs Flash: Parameter-Matrix
| Metrik | openPangu 2.0 Pro | openPangu 2.0 Flash |
|---|---|---|
| Gesamtparameter | 505B | 92B |
| Aktive Parameter | 18B | 6B |
| Sparsity | ~28:1 | ~15:1 (DSA+SWA: bis 28:1) |
| Kontextfenster | 512K | 512K |
| Status | Juli 2026 (geplant) | ✅ 30.06.2026 live |
| Empfohlene Hardware | 4+× Ascend 910B | 1× 910B oder ~96 GB Unified Memory |
Flash inferiert mit 6B-Aktivkosten, nutzt aber ein 92B-Wissenspool — Latenz nahe einem 6B-Dense-Modell. Flash-Int8 (W4A8) reduziert Speicher um 40 %, Genauigkeitsverlust <10 %.
Pro adressiert Vertragsanalyse, große Codebasen und vollständige Chat-Historien; 512K übertrifft DeepSeek/Qwen (128K) und Kimi (256K) im Fenster.
04 · Sieben Komponenten: Open-Source-Tiefe
| Komponente | Status |
|---|---|
| 1. Modellarchitektur | ✅ 30.06.2026 |
| 2. Gewichte (Flash; Pro Juli) | ✅ Flash / 🔜 Pro |
| 3. Technical Report | ✅ mit Gewichten |
| 4. Inferenz + Trainingsoperatoren | ✅ 30.06.2026 |
| 5. Pre-Training-Code | 📋 H2 2026 |
| 6. Post-Training (SFT/RLHF) | 📋 H2 2026 |
| 7. Ascend Custom Operatoren | 📋 H2 2026 |
Repos: openPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Op — gitcode.com/org/ascend-tribe.
05 · MoE-Architektur & CANN-Stack
- mHC-Routing: kombinatorisches Multi-Head-Routing, weniger Expert-Imbalance
- Muon-Optimierer: stabilere Second-Order-Dynamik bei Frontier-Scale
- ModAttn: modulares Attention-Design für 512K-Sequenzen
- DSA+SWA (Flash): Ultra-Sparse-Attention, niedrigere Inferenzkosten
Runtime: CANN + torch_npu — Standard-PyTorch mit import torch_npu auf Ascend. Deployment: Huawei Cloud ModelArts API, GitCode Self-Host, HarmonyOS Edge.
06 · Ascend-only: harte Trainings- & Inferenz-KPIs
| KPI | Wert |
|---|---|
| Single-Card-Durchsatz vs portierte OSS-Modelle | 2× |
| Supernode-Trainingseffizienz | +30 % |
| 512K-Sequenz-Training-Durchsatz | +50 % |
| Train-Infer-Konsistenz (MoE-kritisch) | >99 % |
| Embedded 30B (Edge) | +50 % Speed, −20 % RAM, Kirin offline |
| Inferenzlatenz vs Peers | ~1,2× schneller |
Unter US-Exportkontrolle für H100/A100 ist das der erste belastbare Beleg, dass Frontier-Scale-Training ohne NVIDIA-Hardware reproduzierbar open source wird — relevant für EU-Souveränitäts- und Lieferketten-Debatten.
07 · Vergleichsmatrix: openPangu vs DeepSeek, Qwen, Kimi
| Modell | Gesamt | Aktiv | Kontext | Training | Open-Source-Tiefe |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | Ascend | 7 Komponenten |
| openPangu 2.0 Flash | 92B | 6B | 512K | Ascend | 7 Komponenten |
| DeepSeek V4 Pro | 1,6T | ~200B | 128K | NVIDIA | Gewichte+Inferenz |
| Qwen 3.7 Max | ~400B+ | variabel | 128K | NVIDIA | teilweise Training |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | Gewichte+Inferenz |
| Llama 4 405B | 405B | — | 128K | NVIDIA | Gewichte+Inferenz |
Fähigkeitsmatrix (architekturbasiert; unabhängige Benchmarks laufen)
| Dimension | openPangu Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| Code-Generierung | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Komplexes Reasoning | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Tool/Agent | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Langkontext | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| Inferenzeffizienz | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ |
| Souveränität | ⭐⭐⭐⭐⭐ | ⭐ | ⭐ | ⭐ |
Ehrliche Bilanz: openPangu 2.0 ist nicht der stärkste Allrounder für Code/Reasoning — dafür bleibt DeepSeek V4 Pro führend. Für 512K, Ascend-native Betrieb und Full-Stack-Open-Source ist die Lücke schwer zu schließen. Siehe auch OpenRouter Juni 2026 und DeepSeek V4 Flash lokal.
08 · Sieben-Schritte-Evaluationsworkflow
- Anforderungsprofil quantifizieren: Kontext (128K vs 512K), Compliance, Latenz-SLO, monatliches Token-Budget.
- Pro vs Flash wählen: Langdokument/Compliance → Pro; API-Durchsatz → Flash oder Flash-Int8.
- Infrastruktur inventarisieren: Ascend 910B vorhanden? Sonst ModelArts API statt Self-Host.
- 512K-Baseline: Vertrag (PDF) oder Mono-Repo — Retrieval-Genauigkeit und TTFT messen.
- DeepSeek-Gegenprobe: identische 20 Coding-/Reasoning-Tasks — USD/Kosten, Qualität, Tool-Calls.
- Deploy-Pfad festlegen: ModelArts für Time-to-Value; GitCode + CANN für On-Prem/Ascend-RZ.
- Go/No-Go dokumentieren: Entscheidungs-CSV, Quoten-Limits, Key-Rotation vor Pilot.
09 · Szenario-Entscheidungstabelle
| Szenario | Empfehlung | Begründung (Daten) |
|---|---|---|
| Langdokumente (Verträge, Reports) | Pro | 512K, 18B aktiv |
| EU-/Asien-Souveränität, kein NVIDIA-Training | Pro / Flash | reine Ascend-Kette |
| Hochvolumen-API | Flash | 6B aktiv, niedrige Latenz |
| Forschung / Retraining | Pro | Pre-Training-Code H2 2026 |
| Huawei Cloud / Ascend-RZ | beide | 2× Durchsatz-KPI |
| HarmonyOS Edge | Embedded 30B | Kirin offline |
| Code/Reasoning Priorität | DeepSeek V4 Pro | ~200B aktiv |
| Agent / MCP | Kimi K2.7 | MCP-Ökosystem |
| Wenig VRAM lokal | Flash-Int8 | ~48 GB möglich |
10 · Fünf-Schritte-Deploy (ModelArts & GitCode)
A: ModelArts API (schnellster Pfad)
- Huawei-Cloud-Konto → ModelArts → AI Gallery → „openPangu 2.0“
- Flash oder Pro abonnieren, Endpoint + X-Auth-Token
- Chat-Completions-Format (curl unten)
- Festes Prompt-Set: Latenz + Token-Kosten loggen
- Quoten-Alarme und Key-Rotation vor Produktion
# ModelArts openPangu 2.0 Flashcurl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \ -H "Content-Type: application/json" \ -H "X-Auth-Token: ${TOKEN}" \ -d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"Hallo"}],"max_tokens":1024}'
B: GitCode Self-Host (Ascend 910B)
# Flash Single-Cardpython inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16# Pro Multi-Card (ab Juli)python distributed_inference.py --model_path ./openPangu-Pro --num_devices 8 --context_length 512000# LoRA Fine-Tuningpython finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16
| Variante | Empfohlen | Minimum |
|---|---|---|
| Flash (6B aktiv) | 1× 910B | ~96 GB Unified Memory |
| Flash-Int8 | 1× Atlas A2 | ~48 GB |
| Pro (18B aktiv) | 4+× 910B | Multi-Card-Cluster |
11 · Strategische Einordnung
Geopolitik: Frontier-Training ohne NVIDIA unter Exportkontrolle — belastbarer Gegenbeweis zur „ohne H100 kein Frontier“-These.
Full-Stack-Open-Source: reproduzierbares Training für Forschung; Domänen-Retraining für Enterprise; niedrigere Ascend-Einstiegshürde.
HarmonyOS 7: Agent-Framework 2.0 mit >90 % Erfolgsrate bei komplexen Tasks; 30B Edge auf Kirin ohne Cloud.
openPangu License: kommerziell nutzbar, lizenzgebührenfrei, nicht-exklusiv — Details in GitCode-Repo.
2026-06-30 ✅ Flash + Inferenz + Operatoren 2026-07 🔜 Pro-Gewichte H2 2026 📋 Pre/Post-Training, weitere Operatoren
12 · Fünf-Schritte-Mac-Playbook (isolierte Validierung)
Vor Integration in Agent- oder HarmonyOS-Projekte: API-Tests auf isoliertem macOS, wenn Xcode-Signatur, Cursor-Routing und Huawei-Cloud-Keys parallel laufen.
- Sauberes macOS mieten: Mac mini M4, SSH, lokaler User ohne Produktions-Apple-ID.
- ModelArts API in Sandbox:
.envmit Test-Token; nie Produktions-Keys mischen. - 512K-Langdokument-Benchmark: Vertrags-PDF oder Mono-Repo — Retrieval + TTFT.
- DeepSeek V4 Flash Gegenprobe: gleiche Tasks — Qualität, USD, Tool-Call-Rate (OpenRouter-Routing-Logik).
- CSV exportieren & freigeben: Test-Keys widerrufen, Disk wipe, Entscheidung dokumentieren.
Multi-Key, CLI, HarmonyOS-Simulator und Xcode-Zertifikate auf einem MacBook erhöhen Token-Leak- und Keychain-Risiko. Isolierte Tagesmiete validiert openPangu vs DeepSeek sauber — M-Serie-Preise, Tagesmiete-FAQ.