📋 Inhalt

Kurzfassung in Zahlen: Pro 505B/18B aktiv, Flash 92B/6B aktiv, beide 512K Kontext, Training ausschließlich Ascend, Roadmap 7 Komponenten Full-Stack-Open-Source — Huaweis größter Open-Source-Schritt seit Pangu 1.0 (2021).

01 · Timeline & messbare Kernfakten

Auf der HDC 2026 (12. Juni, Dongguan) kündigte Richard Yu openPangu 2.0 an. Am 30. Juni 2026 lieferten Flash-Gewichte, Inferenzcode und Trainingsoperatoren auf GitCode Ascend Tribe — der Übergang von Ankündigung zu reproduzierbarem Artefakt dauerte 18 Tage.

Datum	Meilenstein
2026-06-12	HDC 2026: offizielle Vorstellung openPangu 2.0
2026-06-30	Flash-Gewichte, Inferenz, Operatoren auf GitCode
2026-07 (Plan)	Pro-Gewichte + Inferenzcode
H2 2026 (Plan)	Pre-Training-, Post-Training-Code, weitere Operatoren

Zitierbare Kennzahlen: ① Pro: 505B gesamt, 18B aktiv, Sparsity ~28:1; ② Flash: 92B gesamt, 6B aktiv, Sparsity ~15:1 (mit DSA+SWA bis 28:1); ③ beide Varianten: 512K Token — etwa acht Romane à 80.000 Wörter in einem Durchlauf.

02 · Drei typische Entscheidungsfehler (datenbasiert)

1. Gewichte ≠ Full-Stack-Open-Source. DeepSeek, Qwen und Kimi liefern meist Gewichte plus Inferenz. openPangu 2.0 plant zusätzlich Pre-Training, SFT/RLHF und Ascend-Operatoren — für Fine-Tuning-Forschung oder Domänen-Retraining ist der Unterschied zwischen „inferieren“ und „trainieren“ budgetrelevant.

2. NVIDIA-Modelle auf Ascend portieren unterschätzen. DeepSeek V4 Pro, Qwen 3.7 Max und Kimi K2.7 wurden auf NVIDIA trainiert. Auf Ascend-Clustern sinkt der Durchsatz nicht-linear. openPangu 2.0 erreicht laut Huawei auf 910B 2× den Single-Card-Durchsatz gegenüber portierten Mainstream-Modellen — ein harter KPI, den Parameterlisten allein nicht zeigen.

3. Benchmark-Rang statt Szenario-Fit. Bei Code-Generierung und komplexem Reasoning führt DeepSeek V4 Pro (~200B aktiv) voraussichtlich. Bei 512K Langkontext, EU-/Asien-Souveränitätsanforderungen und Ascend-nativem Betrieb ist openPangu 2.0 derzeit die einzige Frontier-Option ohne NVIDIA-Abhängigkeit in der Trainingskette.

03 · Pro vs Flash: Parameter-Matrix

Metrik	openPangu 2.0 Pro	openPangu 2.0 Flash
Gesamtparameter	505B	92B
Aktive Parameter	18B	6B
Sparsity	~28:1	~15:1 (DSA+SWA: bis 28:1)
Kontextfenster	512K	512K
Status	Juli 2026 (geplant)	✅ 30.06.2026 live
Empfohlene Hardware	4+× Ascend 910B	1× 910B oder ~96 GB Unified Memory

Flash inferiert mit 6B-Aktivkosten, nutzt aber ein 92B-Wissenspool — Latenz nahe einem 6B-Dense-Modell. Flash-Int8 (W4A8) reduziert Speicher um 40 %, Genauigkeitsverlust <10 %.

Pro adressiert Vertragsanalyse, große Codebasen und vollständige Chat-Historien; 512K übertrifft DeepSeek/Qwen (128K) und Kimi (256K) im Fenster.

04 · Sieben Komponenten: Open-Source-Tiefe

Komponente	Status
1. Modellarchitektur	✅ 30.06.2026
2. Gewichte (Flash; Pro Juli)	✅ Flash / 🔜 Pro
3. Technical Report	✅ mit Gewichten
4. Inferenz + Trainingsoperatoren	✅ 30.06.2026
5. Pre-Training-Code	📋 H2 2026
6. Post-Training (SFT/RLHF)	📋 H2 2026
7. Ascend Custom Operatoren	📋 H2 2026

Repos: openPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Op — gitcode.com/org/ascend-tribe.

05 · MoE-Architektur & CANN-Stack

mHC-Routing: kombinatorisches Multi-Head-Routing, weniger Expert-Imbalance
Muon-Optimierer: stabilere Second-Order-Dynamik bei Frontier-Scale
ModAttn: modulares Attention-Design für 512K-Sequenzen
DSA+SWA (Flash): Ultra-Sparse-Attention, niedrigere Inferenzkosten

Runtime: CANN + torch_npu — Standard-PyTorch mit import torch_npu auf Ascend. Deployment: Huawei Cloud ModelArts API, GitCode Self-Host, HarmonyOS Edge.

06 · Ascend-only: harte Trainings- & Inferenz-KPIs

KPI	Wert
Single-Card-Durchsatz vs portierte OSS-Modelle	2×
Supernode-Trainingseffizienz	+30 %
512K-Sequenz-Training-Durchsatz	+50 %
Train-Infer-Konsistenz (MoE-kritisch)	>99 %
Embedded 30B (Edge)	+50 % Speed, −20 % RAM, Kirin offline
Inferenzlatenz vs Peers	~1,2× schneller

Unter US-Exportkontrolle für H100/A100 ist das der erste belastbare Beleg, dass Frontier-Scale-Training ohne NVIDIA-Hardware reproduzierbar open source wird — relevant für EU-Souveränitäts- und Lieferketten-Debatten.

07 · Vergleichsmatrix: openPangu vs DeepSeek, Qwen, Kimi

Modell	Gesamt	Aktiv	Kontext	Training	Open-Source-Tiefe
openPangu 2.0 Pro	505B	18B	512K	Ascend	7 Komponenten
openPangu 2.0 Flash	92B	6B	512K	Ascend	7 Komponenten
DeepSeek V4 Pro	1,6T	~200B	128K	NVIDIA	Gewichte+Inferenz
Qwen 3.7 Max	~400B+	variabel	128K	NVIDIA	teilweise Training
Kimi K2.7	1T	32B	256K	NVIDIA	Gewichte+Inferenz
Llama 4 405B	405B	—	128K	NVIDIA	Gewichte+Inferenz

Fähigkeitsmatrix (architekturbasiert; unabhängige Benchmarks laufen)

Dimension	openPangu Pro	DeepSeek V4 Pro	Qwen 3.7 Max	Kimi K2.7
Code-Generierung	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
Komplexes Reasoning	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
Tool/Agent	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Langkontext	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
Inferenzeffizienz	⭐⭐⭐⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐⭐
Souveränität	⭐⭐⭐⭐⭐	⭐	⭐	⭐

Ehrliche Bilanz: openPangu 2.0 ist nicht der stärkste Allrounder für Code/Reasoning — dafür bleibt DeepSeek V4 Pro führend. Für 512K, Ascend-native Betrieb und Full-Stack-Open-Source ist die Lücke schwer zu schließen. Siehe auch OpenRouter Juni 2026 und DeepSeek V4 Flash lokal.

08 · Sieben-Schritte-Evaluationsworkflow

Anforderungsprofil quantifizieren: Kontext (128K vs 512K), Compliance, Latenz-SLO, monatliches Token-Budget.
Pro vs Flash wählen: Langdokument/Compliance → Pro; API-Durchsatz → Flash oder Flash-Int8.
Infrastruktur inventarisieren: Ascend 910B vorhanden? Sonst ModelArts API statt Self-Host.
512K-Baseline: Vertrag (PDF) oder Mono-Repo — Retrieval-Genauigkeit und TTFT messen.
DeepSeek-Gegenprobe: identische 20 Coding-/Reasoning-Tasks — USD/Kosten, Qualität, Tool-Calls.
Deploy-Pfad festlegen: ModelArts für Time-to-Value; GitCode + CANN für On-Prem/Ascend-RZ.
Go/No-Go dokumentieren: Entscheidungs-CSV, Quoten-Limits, Key-Rotation vor Pilot.

09 · Szenario-Entscheidungstabelle

Szenario	Empfehlung	Begründung (Daten)
Langdokumente (Verträge, Reports)	Pro	512K, 18B aktiv
EU-/Asien-Souveränität, kein NVIDIA-Training	Pro / Flash	reine Ascend-Kette
Hochvolumen-API	Flash	6B aktiv, niedrige Latenz
Forschung / Retraining	Pro	Pre-Training-Code H2 2026
Huawei Cloud / Ascend-RZ	beide	2× Durchsatz-KPI
HarmonyOS Edge	Embedded 30B	Kirin offline
Code/Reasoning Priorität	DeepSeek V4 Pro	~200B aktiv
Agent / MCP	Kimi K2.7	MCP-Ökosystem
Wenig VRAM lokal	Flash-Int8	~48 GB möglich

10 · Fünf-Schritte-Deploy (ModelArts & GitCode)

A: ModelArts API (schnellster Pfad)

Huawei-Cloud-Konto → ModelArts → AI Gallery → „openPangu 2.0“
Flash oder Pro abonnieren, Endpoint + X-Auth-Token
Chat-Completions-Format (curl unten)
Festes Prompt-Set: Latenz + Token-Kosten loggen
Quoten-Alarme und Key-Rotation vor Produktion

                        # ModelArts openPangu 2.0 Flash

                        curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \

                          -H "Content-Type: application/json" \

                          -H "X-Auth-Token: ${TOKEN}" \

                          -d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"Hallo"}],"max_tokens":1024}'

B: GitCode Self-Host (Ascend 910B)

                        # Flash Single-Card

                        python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16

                        # Pro Multi-Card (ab Juli)

                        python distributed_inference.py --model_path ./openPangu-Pro --num_devices 8 --context_length 512000

                        # LoRA Fine-Tuning

                        python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16

Variante	Empfohlen	Minimum
Flash (6B aktiv)	1× 910B	~96 GB Unified Memory
Flash-Int8	1× Atlas A2	~48 GB
Pro (18B aktiv)	4+× 910B	Multi-Card-Cluster

11 · Strategische Einordnung

Geopolitik: Frontier-Training ohne NVIDIA unter Exportkontrolle — belastbarer Gegenbeweis zur „ohne H100 kein Frontier“-These.

Full-Stack-Open-Source: reproduzierbares Training für Forschung; Domänen-Retraining für Enterprise; niedrigere Ascend-Einstiegshürde.

HarmonyOS 7: Agent-Framework 2.0 mit >90 % Erfolgsrate bei komplexen Tasks; 30B Edge auf Kirin ohne Cloud.

openPangu License: kommerziell nutzbar, lizenzgebührenfrei, nicht-exklusiv — Details in GitCode-Repo.

2026-06-30 ✅  Flash + Inferenz + Operatoren
2026-07    🔜  Pro-Gewichte
H2 2026    📋  Pre/Post-Training, weitere Operatoren

12 · Fünf-Schritte-Mac-Playbook (isolierte Validierung)

Vor Integration in Agent- oder HarmonyOS-Projekte: API-Tests auf isoliertem macOS, wenn Xcode-Signatur, Cursor-Routing und Huawei-Cloud-Keys parallel laufen.

Sauberes macOS mieten: Mac mini M4, SSH, lokaler User ohne Produktions-Apple-ID.
ModelArts API in Sandbox: .env mit Test-Token; nie Produktions-Keys mischen.
512K-Langdokument-Benchmark: Vertrags-PDF oder Mono-Repo — Retrieval + TTFT.
DeepSeek V4 Flash Gegenprobe: gleiche Tasks — Qualität, USD, Tool-Call-Rate (OpenRouter-Routing-Logik).
CSV exportieren & freigeben: Test-Keys widerrufen, Disk wipe, Entscheidung dokumentieren.

Multi-Key, CLI, HarmonyOS-Simulator und Xcode-Zertifikate auf einem MacBook erhöhen Token-Leak- und Keychain-Risiko. Isolierte Tagesmiete validiert openPangu vs DeepSeek sauber — M-Serie-Preise, Tagesmiete-FAQ.