📋 Sommaire

En une phrase : deux variantes (Pro 505B et Flash 92B), un contexte unifié de 512K tokens, un entraînement 100 % Ascend, et une feuille de route vers sept composants entièrement ouverts — la montée en puissance open source la plus significative de Huawei depuis Pangu 1.0.

01 · Du discours HDC à l'artefact téléchargeable

Lors du HDC 2026 à Dongguan (12 juin), Richard Yu a présenté openPangu 2.0 comme pilier de la stratégie Agent de HarmonyOS 7. Dix-huit jours plus tard, le 30 juin, les poids Flash, le code d'inférence et les opérateurs d'entraînement sont disponibles sur GitCode Ascend Tribe — passage concret du narratif à l'expérimentation reproductible.

Date	Jalon
2026-06-12	Annonce officielle au HDC 2026
2026-06-30	Flash, inférence et opérateurs sur GitCode
2026-07 (prévu)	Poids et inférence Pro
S2 2026 (prévu)	Code pré-entraînement, post-entraînement, opérateurs supplémentaires

Chiffres clés : Pro 505B total / 18B actifs (sparsité ~28:1) ; Flash 92B / 6B actifs (~15:1, jusqu'à 28:1 avec DSA+SWA) ; fenêtre commune 512K — l'équivalent d'environ huit romans complets injectés en une seule requête.

02 · Trois erreurs fréquentes dans l'arbitrage

Confondre poids ouverts et chaîne complète. La plupart des modèles chinois publient poids et inférence. openPangu 2.0 vise aussi le pré-entraînement, le SFT/RLHF et les opérateurs Ascend — distinction cruciale si votre roadmap inclut un fine-tuning domaine ou une reproduction académique.

Sous-estimer le coût du portage NVIDIA → Ascend. DeepSeek V4, Qwen 3.7 et Kimi K2.7 ont été conçus pour des clusters NVIDIA. Sur Ascend, le débit chute souvent de façon non linéaire. openPangu 2.0, natif 910B, revendique un débit mono-carte double par rapport aux modèles portés — un argument d'infrastructure, pas seulement de marketing.

Choisir au classement général plutôt qu'au cas d'usage. Pour le code pur et le raisonnement complexe, DeepSeek V4 Pro (~200B actifs) reste la référence probable. Pour les documents juridiques massifs, la souveraineté matérielle et un contexte 512K, openPangu 2.0 occupe une niche difficile à combler aujourd'hui.

03 · Pro et Flash : deux profils, une fenêtre 512K

Indicateur	openPangu 2.0 Pro	openPangu 2.0 Flash
Paramètres totaux	505B	92B
Paramètres actifs	18B	6B
Sparsité	~28:1	~15:1 (DSA+SWA : 28:1)
Contexte	512K	512K
Disponibilité	Juillet 2026	✅ 30/06/2026
Matériel cible	Cluster 4+ Ascend 910B	1× 910B ou ~96 Go mémoire unifiée

La variante Flash offre une latence proche d'un modèle dense 6B tout en mobilisant un réservoir de connaissances 92B. La version Flash-Int8 (W4A8) réduit la mémoire de 40 % pour moins de 10 % de perte de précision.

La variante Pro vise l'analyse contractuelle, les dépôts de code volumineux et l'historique conversationnel intégral — avec une fenêtre supérieure à DeepSeek/Qwen (128K) et Kimi (256K).

04 · Sept composants : une ouverture inédite à cette échelle

Composant	Statut
1. Architecture du modèle	✅ 30/06/2026
2. Poids (Flash ; Pro en juillet)	✅ Flash / 🔜 Pro
3. Rapport technique	✅ simultané
4. Inférence + opérateurs d'entraînement	✅ 30/06/2026
5. Code de pré-entraînement	📋 S2 2026
6. Post-entraînement (SFT/RLHF)	📋 S2 2026
7. Opérateurs Ascend custom	📋 S2 2026

Dépôts principaux : openPangu-2.0-Flash, openPangu-2.0-Flash-Int8, openPangu-2.0-Infer, openPangu-2.0-Op — organisation Ascend Tribe sur GitCode.

05 · Architecture MoE et stack logicielle

openPangu 2.0 repose sur un MoE à routage optimisé : mHC pour équilibrer les experts, optimiseur Muon pour stabiliser l'entraînement à grande échelle, attention modulaire ModAttn calibrée pour 512K, et mécanisme DSA+SWA exclusif à Flash pour une sparsité extrême.

L'écosystème s'appuie sur CANN (équivalent Ascend de CUDA) et torch_npu, permettant de basculer un code PyTorch standard vers le backend NPU. Trois modes de déploiement : API Huawei Cloud ModelArts, auto-hébergement GitCode, intégration native HarmonyOS.

06 · Premier frontier MoE entièrement formé sur Ascend

Aucun A100 ni H100 n'a participé à la chaîne d'entraînement d'openPangu 2.0 — un signal fort dans un contexte de restrictions à l'exportation de puces américaines. Les indicateurs publiés par Huawei méritent d'être traités comme des hypothèses de travail jusqu'aux benchmarks tiers :

Indicateur	Valeur annoncée
Débit mono-carte vs modèles portés	×2
Efficacité super-nœud entraînement	+30 %
Débit séquences 512K	+50 %
Cohérence entraînement-inférence MoE	>99 %
Modèle embarqué 30B	+50 % vitesse, −20 % RAM, Kirin offline

Pour les entreprises européennes réfléchissant à la résilience des chaînes d'approvisionnement IA, cette release ouvre une troisième voie entre dépendance NVIDIA et modèles fermés occidentaux.

07 · Matrices comparatives avec DeepSeek, Qwen et Kimi

Modèle	Total	Actifs	Contexte	Entraînement	Ouverture
openPangu 2.0 Pro	505B	18B	512K	Ascend	7 composants
openPangu 2.0 Flash	92B	6B	512K	Ascend	7 composants
DeepSeek V4 Pro	1,6T	~200B	128K	NVIDIA	Poids + inférence
Qwen 3.7 Max	~400B+	variable	128K	NVIDIA	partiel
Kimi K2.7	1T	32B	256K	NVIDIA	Poids + inférence

Grille capacitaire (estimation architecture ; benchmarks indépendants en cours)

Capacité	openPangu Pro	DeepSeek V4 Pro	Qwen 3.7 Max	Kimi K2.7
Génération de code	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
Raisonnement complexe	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐
Agents / outils	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Long contexte	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐
Efficacité inférence	⭐⭐⭐⭐⭐	⭐⭐	⭐⭐	⭐⭐⭐⭐
Souveraineté matérielle	⭐⭐⭐⭐⭐	⭐	⭐	⭐

Conclusion nuancée : openPangu 2.0 n'est pas le champion absolu du code ou du raisonnement — DeepSeek V4 Pro conserve l'avantage sur ces axes. En revanche, pour le contexte 512K, l'alignement Ascend et l'ouverture intégrale, la proposition est unique. Voir classement OpenRouter juin 2026 et test DeepSeek V4 Flash local.

08 · Workflow décisionnel en sept étapes

Cadrer le besoin : longueur de contexte requise, contraintes souveraineté, SLO latence, budget token mensuel.
Arbitrer Pro vs Flash : documents massifs et conformité → Pro ; API à fort débit → Flash ou Flash-Int8.
Cartographier l'infrastructure : clusters Ascend disponibles ? Sinon, privilégier ModelArts.
Baseline 512K : contrat PDF ou mono-repo — précision de retrieval et TTFT.
Confrontation DeepSeek : vingt tâches identiques code/raisonnement — coût USD et qualité.
Mode de déploiement : ModelArts pour time-to-value ; GitCode + CANN pour datacenter Ascend.
Comité go/no-go : matrice exportée, quotas, rotation des clés avant pilote.

09 · Tableau de sélection par scénario

Scénario	Version recommandée	Justification
Analyse de contrats et rapports	Pro	512K, 18B actifs
Projets souverains sans NVIDIA	Pro / Flash	Chaîne Ascend native
API haute concurrence	Flash	6B actifs, latence faible
Recherche / re-entraînement	Pro	Code pré-entraînement S2 2026
Environnement Huawei Cloud	Les deux	Optimisation native 910B
HarmonyOS embarqué	Embedded 30B	Exécution locale Kirin
Priorité code / raisonnement	DeepSeek V4 Pro	~200B actifs
Agents MCP	Kimi K2.7	Écosystème MCP mature

10 · Guide de déploiement en cinq étapes

Option A — API ModelArts (déploiement le plus rapide)

Compte Huawei Cloud → ModelArts → AI Gallery → « openPangu 2.0 »
Souscrire Flash ou Pro, récupérer endpoint et X-Auth-Token
Appels au format Chat Completions
Jeu de prompts fixe : journaliser latence et coût token
Alertes quota et rotation des clés avant production

                        # API ModelArts openPangu 2.0 Flash

                        curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \

                          -H "Content-Type: application/json" \

                          -H "X-Auth-Token: ${TOKEN}" \

                          -d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"Bonjour"}],"max_tokens":1024}'

Option B — Auto-hébergement GitCode (Ascend 910B)

                        # Inférence Flash mono-carte

                        python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16

                        # Inférence Pro distribuée (à partir de juillet)

                        python distributed_inference.py --model_path ./openPangu-Pro --num_devices 8 --context_length 512000

11 · Portée stratégique et HarmonyOS 7

Résilience géopolitique : démonstration qu'un entraînement frontier est possible sans silicon NVIDIA de pointe.

Valeur open source intégrale : reproduction académique, fine-tuning vertical, abaissement des barrières Ascend.

HarmonyOS 7 : openPangu 2.0 comme socle Agent — framework 2.0 avec >90 % de succès sur tâches complexes ; modèle 30B embarqué sur Kirin sans cloud.

Licence openPangu : usage commercial autorisé, sans redevance, non exclusive — consulter GitCode pour le détail juridique.

12 · Playbook Mac en cinq étapes

Avant d'intégrer openPangu 2.0 dans un agent ou un pipeline HarmonyOS, validez l'API depuis un macOS isolé — surtout si Xcode, Cursor et les clés Huawei Cloud coexistent sur votre poste principal.

Louer un Mac propre : Mac mini M4, accès SSH, utilisateur local sans Apple ID production.
Configurer l'API ModelArts en sandbox : fichier .env dédié, jamais de clés prod.
Benchmark 512K : PDF contractuel ou mono-repo — retrieval et TTFT.
Contre-épreuve DeepSeek V4 Flash : mêmes tâches — qualité, coût, appels d'outils (logique routing OpenRouter).
Exporter et libérer : révoquer les clés test, effacer le disque, documenter la décision.

Empiler clés multiples, CLI, simulateur HarmonyOS et certificats Xcode sur un seul MacBook expose quotas et Keychain. Une location journalière isolée permet de comparer openPangu et DeepSeek proprement — tarifs : bare-metal macOS ; accès : FAQ location Mac.