Open Source LLM 2026-07-01

openPangu 2.0 live
505B Pro · 92B Flash · 512K · Ascend ohne NVIDIA

Am 30. Juni 2026 hat Huawei die Flash-Variante von openPangu 2.0 auf GitCode freigegeben — das erste Open-Source-Frontier-MoE, das vollständig auf Ascend 910B trainiert wurde, ohne A100/H100. Diese datenbasierte Auswertung liefert Hard Facts (505B/18B vs 92B/6B, 512K, 7 Komponenten), Ascend-Kennzahlen (2× Durchsatz, >99 % Train-Infer-Konsistenz), DeepSeek-Vergleichsmatrizen, Deploy-Runbook, Sieben-Schritte-Entscheidungsworkflow und ein 5-Schritte-Mac-Playbook für isolierte API-Validierung vor Produktionseinsatz.

openPangu 2.0 Open Source 505B MoE Ascend NPU 512K Kontext
Kurzfassung in Zahlen: Pro 505B/18B aktiv, Flash 92B/6B aktiv, beide 512K Kontext, Training ausschließlich Ascend, Roadmap 7 Komponenten Full-Stack-Open-Source — Huaweis größter Open-Source-Schritt seit Pangu 1.0 (2021).

01 · Timeline & messbare Kernfakten

Auf der HDC 2026 (12. Juni, Dongguan) kündigte Richard Yu openPangu 2.0 an. Am 30. Juni 2026 lieferten Flash-Gewichte, Inferenzcode und Trainingsoperatoren auf GitCode Ascend Tribe — der Übergang von Ankündigung zu reproduzierbarem Artefakt dauerte 18 Tage.

DatumMeilenstein
2026-06-12HDC 2026: offizielle Vorstellung openPangu 2.0
2026-06-30Flash-Gewichte, Inferenz, Operatoren auf GitCode
2026-07 (Plan)Pro-Gewichte + Inferenzcode
H2 2026 (Plan)Pre-Training-, Post-Training-Code, weitere Operatoren

Zitierbare Kennzahlen: ① Pro: 505B gesamt, 18B aktiv, Sparsity ~28:1; ② Flash: 92B gesamt, 6B aktiv, Sparsity ~15:1 (mit DSA+SWA bis 28:1); ③ beide Varianten: 512K Token — etwa acht Romane à 80.000 Wörter in einem Durchlauf.

02 · Drei typische Entscheidungsfehler (datenbasiert)

1. Gewichte ≠ Full-Stack-Open-Source. DeepSeek, Qwen und Kimi liefern meist Gewichte plus Inferenz. openPangu 2.0 plant zusätzlich Pre-Training, SFT/RLHF und Ascend-Operatoren — für Fine-Tuning-Forschung oder Domänen-Retraining ist der Unterschied zwischen „inferieren“ und „trainieren“ budgetrelevant.

2. NVIDIA-Modelle auf Ascend portieren unterschätzen. DeepSeek V4 Pro, Qwen 3.7 Max und Kimi K2.7 wurden auf NVIDIA trainiert. Auf Ascend-Clustern sinkt der Durchsatz nicht-linear. openPangu 2.0 erreicht laut Huawei auf 910B den Single-Card-Durchsatz gegenüber portierten Mainstream-Modellen — ein harter KPI, den Parameterlisten allein nicht zeigen.

3. Benchmark-Rang statt Szenario-Fit. Bei Code-Generierung und komplexem Reasoning führt DeepSeek V4 Pro (~200B aktiv) voraussichtlich. Bei 512K Langkontext, EU-/Asien-Souveränitätsanforderungen und Ascend-nativem Betrieb ist openPangu 2.0 derzeit die einzige Frontier-Option ohne NVIDIA-Abhängigkeit in der Trainingskette.

03 · Pro vs Flash: Parameter-Matrix

MetrikopenPangu 2.0 ProopenPangu 2.0 Flash
Gesamtparameter505B92B
Aktive Parameter18B6B
Sparsity~28:1~15:1 (DSA+SWA: bis 28:1)
Kontextfenster512K512K
StatusJuli 2026 (geplant)✅ 30.06.2026 live
Empfohlene Hardware4+× Ascend 910B1× 910B oder ~96 GB Unified Memory

Flash inferiert mit 6B-Aktivkosten, nutzt aber ein 92B-Wissenspool — Latenz nahe einem 6B-Dense-Modell. Flash-Int8 (W4A8) reduziert Speicher um 40 %, Genauigkeitsverlust <10 %.

Pro adressiert Vertragsanalyse, große Codebasen und vollständige Chat-Historien; 512K übertrifft DeepSeek/Qwen (128K) und Kimi (256K) im Fenster.

04 · Sieben Komponenten: Open-Source-Tiefe

KomponenteStatus
1. Modellarchitektur✅ 30.06.2026
2. Gewichte (Flash; Pro Juli)✅ Flash / 🔜 Pro
3. Technical Report✅ mit Gewichten
4. Inferenz + Trainingsoperatoren✅ 30.06.2026
5. Pre-Training-Code📋 H2 2026
6. Post-Training (SFT/RLHF)📋 H2 2026
7. Ascend Custom Operatoren📋 H2 2026

Repos: openPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Opgitcode.com/org/ascend-tribe.

05 · MoE-Architektur & CANN-Stack

  • mHC-Routing: kombinatorisches Multi-Head-Routing, weniger Expert-Imbalance
  • Muon-Optimierer: stabilere Second-Order-Dynamik bei Frontier-Scale
  • ModAttn: modulares Attention-Design für 512K-Sequenzen
  • DSA+SWA (Flash): Ultra-Sparse-Attention, niedrigere Inferenzkosten

Runtime: CANN + torch_npu — Standard-PyTorch mit import torch_npu auf Ascend. Deployment: Huawei Cloud ModelArts API, GitCode Self-Host, HarmonyOS Edge.

06 · Ascend-only: harte Trainings- & Inferenz-KPIs

KPIWert
Single-Card-Durchsatz vs portierte OSS-Modelle
Supernode-Trainingseffizienz+30 %
512K-Sequenz-Training-Durchsatz+50 %
Train-Infer-Konsistenz (MoE-kritisch)>99 %
Embedded 30B (Edge)+50 % Speed, −20 % RAM, Kirin offline
Inferenzlatenz vs Peers~1,2× schneller

Unter US-Exportkontrolle für H100/A100 ist das der erste belastbare Beleg, dass Frontier-Scale-Training ohne NVIDIA-Hardware reproduzierbar open source wird — relevant für EU-Souveränitäts- und Lieferketten-Debatten.

07 · Vergleichsmatrix: openPangu vs DeepSeek, Qwen, Kimi

ModellGesamtAktivKontextTrainingOpen-Source-Tiefe
openPangu 2.0 Pro505B18B512KAscend7 Komponenten
openPangu 2.0 Flash92B6B512KAscend7 Komponenten
DeepSeek V4 Pro1,6T~200B128KNVIDIAGewichte+Inferenz
Qwen 3.7 Max~400B+variabel128KNVIDIAteilweise Training
Kimi K2.71T32B256KNVIDIAGewichte+Inferenz
Llama 4 405B405B128KNVIDIAGewichte+Inferenz

Fähigkeitsmatrix (architekturbasiert; unabhängige Benchmarks laufen)

DimensionopenPangu ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
Code-Generierung⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Komplexes Reasoning⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Tool/Agent⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Langkontext⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Inferenzeffizienz⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Souveränität⭐⭐⭐⭐⭐

Ehrliche Bilanz: openPangu 2.0 ist nicht der stärkste Allrounder für Code/Reasoning — dafür bleibt DeepSeek V4 Pro führend. Für 512K, Ascend-native Betrieb und Full-Stack-Open-Source ist die Lücke schwer zu schließen. Siehe auch OpenRouter Juni 2026 und DeepSeek V4 Flash lokal.

08 · Sieben-Schritte-Evaluationsworkflow

  1. Anforderungsprofil quantifizieren: Kontext (128K vs 512K), Compliance, Latenz-SLO, monatliches Token-Budget.
  2. Pro vs Flash wählen: Langdokument/Compliance → Pro; API-Durchsatz → Flash oder Flash-Int8.
  3. Infrastruktur inventarisieren: Ascend 910B vorhanden? Sonst ModelArts API statt Self-Host.
  4. 512K-Baseline: Vertrag (PDF) oder Mono-Repo — Retrieval-Genauigkeit und TTFT messen.
  5. DeepSeek-Gegenprobe: identische 20 Coding-/Reasoning-Tasks — USD/Kosten, Qualität, Tool-Calls.
  6. Deploy-Pfad festlegen: ModelArts für Time-to-Value; GitCode + CANN für On-Prem/Ascend-RZ.
  7. Go/No-Go dokumentieren: Entscheidungs-CSV, Quoten-Limits, Key-Rotation vor Pilot.

09 · Szenario-Entscheidungstabelle

SzenarioEmpfehlungBegründung (Daten)
Langdokumente (Verträge, Reports)Pro512K, 18B aktiv
EU-/Asien-Souveränität, kein NVIDIA-TrainingPro / Flashreine Ascend-Kette
Hochvolumen-APIFlash6B aktiv, niedrige Latenz
Forschung / RetrainingProPre-Training-Code H2 2026
Huawei Cloud / Ascend-RZbeide2× Durchsatz-KPI
HarmonyOS EdgeEmbedded 30BKirin offline
Code/Reasoning PrioritätDeepSeek V4 Pro~200B aktiv
Agent / MCPKimi K2.7MCP-Ökosystem
Wenig VRAM lokalFlash-Int8~48 GB möglich

10 · Fünf-Schritte-Deploy (ModelArts & GitCode)

A: ModelArts API (schnellster Pfad)

  1. Huawei-Cloud-Konto → ModelArts → AI Gallery → „openPangu 2.0“
  2. Flash oder Pro abonnieren, Endpoint + X-Auth-Token
  3. Chat-Completions-Format (curl unten)
  4. Festes Prompt-Set: Latenz + Token-Kosten loggen
  5. Quoten-Alarme und Key-Rotation vor Produktion
# ModelArts openPangu 2.0 Flash
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"Hallo"}],"max_tokens":1024}'

B: GitCode Self-Host (Ascend 910B)

# Flash Single-Card
python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16

# Pro Multi-Card (ab Juli)
python distributed_inference.py --model_path ./openPangu-Pro --num_devices 8 --context_length 512000

# LoRA Fine-Tuning
python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16
VarianteEmpfohlenMinimum
Flash (6B aktiv)1× 910B~96 GB Unified Memory
Flash-Int81× Atlas A2~48 GB
Pro (18B aktiv)4+× 910BMulti-Card-Cluster

11 · Strategische Einordnung

Geopolitik: Frontier-Training ohne NVIDIA unter Exportkontrolle — belastbarer Gegenbeweis zur „ohne H100 kein Frontier“-These.

Full-Stack-Open-Source: reproduzierbares Training für Forschung; Domänen-Retraining für Enterprise; niedrigere Ascend-Einstiegshürde.

HarmonyOS 7: Agent-Framework 2.0 mit >90 % Erfolgsrate bei komplexen Tasks; 30B Edge auf Kirin ohne Cloud.

openPangu License: kommerziell nutzbar, lizenzgebührenfrei, nicht-exklusiv — Details in GitCode-Repo.

2026-06-30 ✅  Flash + Inferenz + Operatoren
2026-07    🔜  Pro-Gewichte
H2 2026    📋  Pre/Post-Training, weitere Operatoren

12 · Fünf-Schritte-Mac-Playbook (isolierte Validierung)

Vor Integration in Agent- oder HarmonyOS-Projekte: API-Tests auf isoliertem macOS, wenn Xcode-Signatur, Cursor-Routing und Huawei-Cloud-Keys parallel laufen.

  1. Sauberes macOS mieten: Mac mini M4, SSH, lokaler User ohne Produktions-Apple-ID.
  2. ModelArts API in Sandbox: .env mit Test-Token; nie Produktions-Keys mischen.
  3. 512K-Langdokument-Benchmark: Vertrags-PDF oder Mono-Repo — Retrieval + TTFT.
  4. DeepSeek V4 Flash Gegenprobe: gleiche Tasks — Qualität, USD, Tool-Call-Rate (OpenRouter-Routing-Logik).
  5. CSV exportieren & freigeben: Test-Keys widerrufen, Disk wipe, Entscheidung dokumentieren.

Multi-Key, CLI, HarmonyOS-Simulator und Xcode-Zertifikate auf einem MacBook erhöhen Token-Leak- und Keychain-Risiko. Isolierte Tagesmiete validiert openPangu vs DeepSeek sauber — M-Serie-Preise, Tagesmiete-FAQ.