Open Source LLM 2026-07-01

openPangu 2.0 от Huawei
505B Pro · 92B Flash · 512K · Ascend без NVIDIA

30 июня 2026 — Huawei выкладывает на GitCode веса Flash-версии openPangu 2.0: первый open-source frontier MoE, обученный целиком на Ascend 910B без A100/H100 в training pipeline. Ниже — технический разбор с акцентом на стек CANN/torch_npu, MoE-маршрутизацию (mHC, ModAttn, DSA+SWA), KPI Ascend (2× throughput, >99 % train-infer consistency), матрицы сравнения с DeepSeek V4 Pro, семь open-source компонентов, runbook деплоя ModelArts/GitCode, семишаговый workflow оценки и 5-шаговый Mac-playbook для изолированной API-валидации.

openPangu 2.0 open source Huawei Ascend NPU 505B MoE контекст 512K
Кратко: Pro 505B/18B active, Flash 92B/6B active, оба с 512K контекстом, training только на Ascend, roadmap — 7 компонентов full-stack open source. Крупнейший open-source шаг Huawei с 2021 года (Pangu 1.0).

01 · Хронология релиза и измеримые факты

HDC 2026 (12 июня, Дунгуань): Richard Yu анонсирует openPangu 2.0. 30 июня — Flash weights, inference code и training operators на GitCode Ascend Tribe. Интервал «анонс → воспроизводимый артефакт»: 18 дней.

ДатаСобытие
2026-06-12HDC 2026: официальный анонс openPangu 2.0
2026-06-30Flash weights, inference, operators на GitCode
2026-07 (план)Pro weights + inference code
H2 2026 (план)Pre-training, post-training code, доп. operators

Цифры для цитирования: Pro — 505B total, 18B active, sparsity ~28:1; Flash — 92B total, 6B active, sparsity ~15:1 (DSA+SWA до 28:1); обе версии — 512K tokens (~8 романов по 80k слов за один проход).

02 · Три типичные ошибки при выборе стека

1. Weights ≠ full-stack open source. DeepSeek, Qwen, Kimi обычно отдают weights + inference. openPangu 2.0 планирует pre-training, SFT/RLHF и Ascend custom operators — для domain fine-tuning или academic reproduction разница между «infer» и «train» критична для CAPEX/OPEX.

2. Порт NVIDIA-моделей на Ascend недооценивают. DeepSeek V4 Pro, Qwen 3.7 Max, Kimi K2.7 обучались на NVIDIA. На Ascend-кластерах throughput падает нелинейно из-за mismatch операторов и memory layout. openPangu 2.0 заявляет single-card throughput vs ported OSS models на 910B — KPI, который не виден из таблицы параметров.

3. Benchmark rank вместо scenario fit. По code generation и complex reasoning DeepSeek V4 Pro (~200B active) вероятно лидирует. Для 512K long context, импортозамещения и Ascend-native inference openPangu 2.0 — единственный frontier open-source вариант без NVIDIA в training chain.

03 · Pro vs Flash: параметрическая матрица

МетрикаopenPangu 2.0 ProopenPangu 2.0 Flash
Total params505B92B
Active params18B6B
Sparsity ratio~28:1~15:1 (DSA+SWA: до 28:1)
Context window512K512K
СтатусИюль 2026 (план)✅ 30.06.2026 live
Рекомендуемое железо4+× Ascend 910B1× 910B или ~96 GB unified memory

Flash inferencing с cost profile 6B active, но knowledge pool 92B — latency близка к dense 6B. Flash-Int8 (W4A8): −40 % memory, <10 % accuracy loss.

Pro — контрактный анализ, large codebases, полная chat history; 512K превосходит DeepSeek/Qwen (128K) и Kimi (256K).

04 · Семь компонентов: глубина open source

КомпонентСтатус
1. Model architecture✅ 30.06.2026
2. Weights (Flash; Pro в июле)✅ Flash / 🔜 Pro
3. Technical report✅ с weights
4. Inference + training operators✅ 30.06.2026
5. Pre-training code📋 H2 2026
6. Post-training (SFT/RLHF)📋 H2 2026
7. Ascend custom operators📋 H2 2026

Репозитории: openPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Opgitcode.com/org/ascend-tribe.

05 · MoE-архитектура: mHC, ModAttn, CANN runtime

openPangu 2.0 — sparse MoE с несколькими техническими слоями, редкими для публичных релизов такого масштаба:

  • mHC (Multi-Head Combinatorial) routing — комбinatorial expert routing, снижает load imbalance между experts; критично при 505B total / 18B active
  • Muon optimizer — second-order momentum scheme (Microsoft research lineage), стабилизирует training на frontier scale
  • ModAttn (Modular Attention) — модульная attention для 512K sequences без quadratic blow-up на всём окне
  • DSA+SWA ultra-sparse attention (Flash-only) — dynamic sparse + sliding window; sparsity до 28:1, снижает FLOPs inference

Runtime stack: CANN (Compute Architecture for Neural Networks) — аналог CUDA для Ascend. PyTorch-адаптер torch_npu перехватывает tensor ops:

# Минимальный switch на Ascend backend
import torch
import torch_npu # регистрирует NPU backend
device = torch.device("npu:0")
model.to(device)

Deployment paths: Huawei Cloud ModelArts API (managed), GitCode self-host на 910B cluster, HarmonyOS edge (Embedded 30B на Kirin).

06 · Ascend-only training: KPI и train-infer parity

Весь training pipeline openPangu 2.0 выполнен на Ascend 910B NPU — без A100/H100. При export controls на US AI chips это первый воспроизводимый open-source доказательный кейс frontier-scale training на альтернативном silicon.

KPI (Huawei HDC 2026)ЗначениеИнженерный смысл
Single-card throughput vs ported OSSNative operators vs emulation/port
Supernode training efficiency+30 %Multi-node scaling на Ascend fabric
512K sequence training throughput+50 %ModAttn + CANN fused kernels
Train-infer consistency (MoE)>99 %Routing parity training ↔ inference
Embedded 30B edge model+50 % speed, −20 % RAMKirin offline inference
Inference latency vs peers~1.2× faster6B active Flash profile

Train-infer consistency >99 % — недооценённый MoE KPI: при routing drift между training и inference quality collapse на длинных контекстах. Huawei явно оптимизировала этот gap.

07 · Сравнительная матрица: openPangu vs DeepSeek, Qwen, Kimi

МодельTotalActiveContextTraining HWOpen depth
openPangu 2.0 Pro505B18B512KAscend7 components
openPangu 2.0 Flash92B6B512KAscend7 components
DeepSeek V4 Pro1.6T~200B128KNVIDIAweights+infer
Qwen 3.7 Max~400B+varies128KNVIDIApartial training
Kimi K2.71T32B256KNVIDIAweights+infer
Llama 4 405B405B128KNVIDIAweights+infer

Capability matrix (architecture-based; independent benchmarks pending)

DimensionopenPangu ProDeepSeek V4 ProQwen 3.7 MaxKimi K2.7
Code generation⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Complex reasoning⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Tool/Agent calls⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Long context⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Inference efficiency⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Stack sovereignty⭐⭐⭐⭐⭐
Full-stack OSS⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

Честный вывод: openPangu 2.0 не лидер по code/reasoning — DeepSeek V4 Pro впереди. Для 512K, Ascend-native ops и full-stack open source gap закрыть сложно. См. OpenRouter рейтинг июнь 2026 и локальный DeepSeek V4 Flash.

08 · Семишаговый workflow оценки

  1. Requirements freeze: context length (128K vs 512K), compliance/s sovereignty, latency SLO, monthly token budget.
  2. Pro vs Flash: long docs/compliance → Pro; high-QPS API → Flash или Flash-Int8.
  3. Ascend inventory: 910B clusters on-prem? If not — ModelArts API path.
  4. 512K baseline: contract PDF или mono-repo index — retrieval accuracy, TTFT, tokens/sec.
  5. DeepSeek control run: identical 20 coding/reasoning tasks — USD cost, quality score, tool-call success rate.
  6. Deploy path lock: ModelArts for TTV; GitCode + CANN for Ascend DC.
  7. Go/no-go artifact: decision CSV, quota alerts, key rotation policy before pilot.

09 · Таблица выбора по сценарию

СценарийРекомендацияОбоснование
Длинные документы (контракты, отчёты)Pro512K, 18B active
Импортозамещение / без NVIDIA trainingPro / FlashPure Ascend chain
High-volume APIFlash6B active, low latency
Research / re-trainingProPre-training code H2 2026
Huawei Cloud / Ascend DCBoth2× throughput KPI
HarmonyOS edgeEmbedded 30BKirin offline
Code/reasoning priorityDeepSeek V4 Pro~200B active
Agent / MCP ecosystemKimi K2.7MCP maturity
Limited VRAM localFlash-Int8~48 GB feasible

10 · Деплой: 5 шагов (ModelArts + GitCode)

Path A: ModelArts API

  1. Huawei Cloud account → ModelArts → AI Gallery → «openPangu 2.0»
  2. Subscribe Flash/Pro, получить endpoint + X-Auth-Token
  3. Chat Completions format (curl ниже)
  4. Fixed prompt set: log latency + token cost
  5. Quota alerts + key rotation pre-prod
# ModelArts openPangu 2.0 Flash API
curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \
-H "Content-Type: application/json" \
-H "X-Auth-Token: ${TOKEN}" \
-d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"Привет"}],"max_tokens":1024}'

Path B: GitCode self-host (Ascend 910B)

# Flash single-card inference
python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16

# Pro multi-card (from July)
python distributed_inference.py --model_path ./openPangu-Pro --num_devices 8 --context_length 512000

# LoRA domain fine-tune
python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16
VariantRecommendedMinimum
Flash (6B active)1× 910B~96 GB unified memory
Flash-Int8 (W4A8)1× Atlas A2~48 GB
Pro (18B active)4+× 910B clusterMulti-card required

11 · Стратегический контекст

Geopolitics: frontier training без NVIDIA под export controls — опровержение тезиса «без H100 нет frontier LLM».

Full-stack OSS: reproducible training для academia; domain re-training для enterprise; lower barrier для Ascend adoption.

HarmonyOS 7 Agent era: Agent Framework 2.0 — >90 % success на complex tasks; 30B edge на Kirin без cloud.

openPangu License: commercial use OK, royalty-free, non-exclusive — см. GitCode repo.

2026-06-30 ✅  Flash + inference + operators
2026-07    🔜  Pro weights
H2 2026    📋  Pre/post-training, additional operators

Disclaimer: часть capability assessments — architecture-based inference; обновим после independent third-party benchmarks. Дата публикации: 1 июля 2026.

12 · Mac-playbook: 5 шагов изолированной валидации

Перед интеграцией openPangu 2.0 в Agent или HarmonyOS pipeline — прогоните API tests на изолированном macOS, особенно если параллельно работаете с Xcode signing, Cursor multi-model routing и Huawei Cloud keys.

  1. Арендовать чистый macOS: Mac mini M4, SSH, local user без production Apple ID.
  2. ModelArts API в sandbox: .env с test token; не смешивать с prod keys.
  3. 512K long-doc benchmark: contract PDF или mono-repo — retrieval + TTFT.
  4. DeepSeek V4 Flash control: same tasks — quality, USD, tool-call rate (OpenRouter routing logic).
  5. Export CSV & release: revoke test keys, disk wipe, document decision matrix.

Multi-key, CLI, HarmonyOS simulator и Xcode certificates на одном MacBook — риск token leak и Keychain pollution. Посуточная аренда изолированного Mac — чистый A/B openPangu vs DeepSeek: тарифы M-series, FAQ посуточной аренды.