📋 Содержание

Кратко: Pro 505B/18B active, Flash 92B/6B active, оба с 512K контекстом, training только на Ascend, roadmap — 7 компонентов full-stack open source. Крупнейший open-source шаг Huawei с 2021 года (Pangu 1.0).

01 · Хронология релиза и измеримые факты

HDC 2026 (12 июня, Дунгуань): Richard Yu анонсирует openPangu 2.0. 30 июня — Flash weights, inference code и training operators на GitCode Ascend Tribe. Интервал «анонс → воспроизводимый артефакт»: 18 дней.

Дата	Событие
2026-06-12	HDC 2026: официальный анонс openPangu 2.0
2026-06-30	Flash weights, inference, operators на GitCode
2026-07 (план)	Pro weights + inference code
H2 2026 (план)	Pre-training, post-training code, доп. operators

Цифры для цитирования: Pro — 505B total, 18B active, sparsity ~28:1; Flash — 92B total, 6B active, sparsity ~15:1 (DSA+SWA до 28:1); обе версии — 512K tokens (~8 романов по 80k слов за один проход).

02 · Три типичные ошибки при выборе стека

1. Weights ≠ full-stack open source. DeepSeek, Qwen, Kimi обычно отдают weights + inference. openPangu 2.0 планирует pre-training, SFT/RLHF и Ascend custom operators — для domain fine-tuning или academic reproduction разница между «infer» и «train» критична для CAPEX/OPEX.

2. Порт NVIDIA-моделей на Ascend недооценивают. DeepSeek V4 Pro, Qwen 3.7 Max, Kimi K2.7 обучались на NVIDIA. На Ascend-кластерах throughput падает нелинейно из-за mismatch операторов и memory layout. openPangu 2.0 заявляет 2× single-card throughput vs ported OSS models на 910B — KPI, который не виден из таблицы параметров.

3. Benchmark rank вместо scenario fit. По code generation и complex reasoning DeepSeek V4 Pro (~200B active) вероятно лидирует. Для 512K long context, импортозамещения и Ascend-native inference openPangu 2.0 — единственный frontier open-source вариант без NVIDIA в training chain.

03 · Pro vs Flash: параметрическая матрица

Метрика	openPangu 2.0 Pro	openPangu 2.0 Flash
Total params	505B	92B
Active params	18B	6B
Sparsity ratio	~28:1	~15:1 (DSA+SWA: до 28:1)
Context window	512K	512K
Статус	Июль 2026 (план)	✅ 30.06.2026 live
Рекомендуемое железо	4+× Ascend 910B	1× 910B или ~96 GB unified memory

Flash inferencing с cost profile 6B active, но knowledge pool 92B — latency близка к dense 6B. Flash-Int8 (W4A8): −40 % memory, <10 % accuracy loss.

Pro — контрактный анализ, large codebases, полная chat history; 512K превосходит DeepSeek/Qwen (128K) и Kimi (256K).

04 · Семь компонентов: глубина open source

Компонент	Статус
1. Model architecture	✅ 30.06.2026
2. Weights (Flash; Pro в июле)	✅ Flash / 🔜 Pro
3. Technical report	✅ с weights
4. Inference + training operators	✅ 30.06.2026
5. Pre-training code	📋 H2 2026
6. Post-training (SFT/RLHF)	📋 H2 2026
7. Ascend custom operators	📋 H2 2026

Репозитории: openPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Op — gitcode.com/org/ascend-tribe.

05 · MoE-архитектура: mHC, ModAttn, CANN runtime

openPangu 2.0 — sparse MoE с несколькими техническими слоями, редкими для публичных релизов такого масштаба:

mHC (Multi-Head Combinatorial) routing — комбinatorial expert routing, снижает load imbalance между experts; критично при 505B total / 18B active
Muon optimizer — second-order momentum scheme (Microsoft research lineage), стабилизирует training на frontier scale
ModAttn (Modular Attention) — модульная attention для 512K sequences без quadratic blow-up на всём окне
DSA+SWA ultra-sparse attention (Flash-only) — dynamic sparse + sliding window; sparsity до 28:1, снижает FLOPs inference

Runtime stack: CANN (Compute Architecture for Neural Networks) — аналог CUDA для Ascend. PyTorch-адаптер torch_npu перехватывает tensor ops:

                        # Минимальный switch на Ascend backend

                        import torch

                        import torch_npu  # регистрирует NPU backend

                        device = torch.device("npu:0")

                        model.to(device)

Deployment paths: Huawei Cloud ModelArts API (managed), GitCode self-host на 910B cluster, HarmonyOS edge (Embedded 30B на Kirin).

06 · Ascend-only training: KPI и train-infer parity

Весь training pipeline openPangu 2.0 выполнен на Ascend 910B NPU — без A100/H100. При export controls на US AI chips это первый воспроизводимый open-source доказательный кейс frontier-scale training на альтернативном silicon.

KPI (Huawei HDC 2026)	Значение	Инженерный смысл
Single-card throughput vs ported OSS	2×	Native operators vs emulation/port
Supernode training efficiency	+30 %	Multi-node scaling на Ascend fabric
512K sequence training throughput	+50 %	ModAttn + CANN fused kernels
Train-infer consistency (MoE)	>99 %	Routing parity training ↔ inference
Embedded 30B edge model	+50 % speed, −20 % RAM	Kirin offline inference
Inference latency vs peers	~1.2× faster	6B active Flash profile

Train-infer consistency >99 % — недооценённый MoE KPI: при routing drift между training и inference quality collapse на длинных контекстах. Huawei явно оптимизировала этот gap.

07 · Сравнительная матрица: openPangu vs DeepSeek, Qwen, Kimi

Модель	Total	Active	Context	Training HW	Open depth
openPangu 2.0 Pro	505B	18B	512K	Ascend	7 components
openPangu 2.0 Flash	92B	6B	512K	Ascend	7 components
DeepSeek V4 Pro	1.6T	~200B	128K	NVIDIA	weights+infer
Qwen 3.7 Max	~400B+	varies	128K	NVIDIA	partial training
Kimi K2.7	1T	32B	256K	NVIDIA	weights+infer
Llama 4 405B	405B	—	128K	NVIDIA	weights+infer

Capability matrix (architecture-based; independent benchmarks pending)

Dimension	openPangu Pro	DeepSeek V4 Pro	Qwen 3.7 Max	Kimi K2.7
Code generation	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
Complex reasoning	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
Tool/Agent calls	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Long context	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
Inference efficiency	⭐⭐⭐⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐⭐
Stack sovereignty	⭐⭐⭐⭐⭐	⭐	⭐	⭐
Full-stack OSS	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐

Честный вывод: openPangu 2.0 не лидер по code/reasoning — DeepSeek V4 Pro впереди. Для 512K, Ascend-native ops и full-stack open source gap закрыть сложно. См. OpenRouter рейтинг июнь 2026 и локальный DeepSeek V4 Flash.

08 · Семишаговый workflow оценки

Requirements freeze: context length (128K vs 512K), compliance/s sovereignty, latency SLO, monthly token budget.
Pro vs Flash: long docs/compliance → Pro; high-QPS API → Flash или Flash-Int8.
Ascend inventory: 910B clusters on-prem? If not — ModelArts API path.
512K baseline: contract PDF или mono-repo index — retrieval accuracy, TTFT, tokens/sec.
DeepSeek control run: identical 20 coding/reasoning tasks — USD cost, quality score, tool-call success rate.
Deploy path lock: ModelArts for TTV; GitCode + CANN for Ascend DC.
Go/no-go artifact: decision CSV, quota alerts, key rotation policy before pilot.

09 · Таблица выбора по сценарию

Сценарий	Рекомендация	Обоснование
Длинные документы (контракты, отчёты)	Pro	512K, 18B active
Импортозамещение / без NVIDIA training	Pro / Flash	Pure Ascend chain
High-volume API	Flash	6B active, low latency
Research / re-training	Pro	Pre-training code H2 2026
Huawei Cloud / Ascend DC	Both	2× throughput KPI
HarmonyOS edge	Embedded 30B	Kirin offline
Code/reasoning priority	DeepSeek V4 Pro	~200B active
Agent / MCP ecosystem	Kimi K2.7	MCP maturity
Limited VRAM local	Flash-Int8	~48 GB feasible

10 · Деплой: 5 шагов (ModelArts + GitCode)

Path A: ModelArts API

Huawei Cloud account → ModelArts → AI Gallery → «openPangu 2.0»
Subscribe Flash/Pro, получить endpoint + X-Auth-Token
Chat Completions format (curl ниже)
Fixed prompt set: log latency + token cost
Quota alerts + key rotation pre-prod

                        # ModelArts openPangu 2.0 Flash API

                        curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \

                          -H "Content-Type: application/json" \

                          -H "X-Auth-Token: ${TOKEN}" \

                          -d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"Привет"}],"max_tokens":1024}'

Path B: GitCode self-host (Ascend 910B)

                        # Flash single-card inference

                        python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16

                        # Pro multi-card (from July)

                        python distributed_inference.py --model_path ./openPangu-Pro --num_devices 8 --context_length 512000

                        # LoRA domain fine-tune

                        python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16

Variant	Recommended	Minimum
Flash (6B active)	1× 910B	~96 GB unified memory
Flash-Int8 (W4A8)	1× Atlas A2	~48 GB
Pro (18B active)	4+× 910B cluster	Multi-card required

11 · Стратегический контекст

Geopolitics: frontier training без NVIDIA под export controls — опровержение тезиса «без H100 нет frontier LLM».

Full-stack OSS: reproducible training для academia; domain re-training для enterprise; lower barrier для Ascend adoption.

HarmonyOS 7 Agent era: Agent Framework 2.0 — >90 % success на complex tasks; 30B edge на Kirin без cloud.

openPangu License: commercial use OK, royalty-free, non-exclusive — см. GitCode repo.

2026-06-30 ✅  Flash + inference + operators
2026-07    🔜  Pro weights
H2 2026    📋  Pre/post-training, additional operators

Disclaimer: часть capability assessments — architecture-based inference; обновим после independent third-party benchmarks. Дата публикации: 1 июля 2026.

12 · Mac-playbook: 5 шагов изолированной валидации

Перед интеграцией openPangu 2.0 в Agent или HarmonyOS pipeline — прогоните API tests на изолированном macOS, особенно если параллельно работаете с Xcode signing, Cursor multi-model routing и Huawei Cloud keys.

Арендовать чистый macOS: Mac mini M4, SSH, local user без production Apple ID.
ModelArts API в sandbox: .env с test token; не смешивать с prod keys.
512K long-doc benchmark: contract PDF или mono-repo — retrieval + TTFT.
DeepSeek V4 Flash control: same tasks — quality, USD, tool-call rate (OpenRouter routing logic).
Export CSV & release: revoke test keys, disk wipe, document decision matrix.

Multi-key, CLI, HarmonyOS simulator и Xcode certificates на одном MacBook — риск token leak и Keychain pollution. Посуточная аренда изолированного Mac — чистый A/B openPangu vs DeepSeek: тарифы M-series, FAQ посуточной аренды.