Huawei openPangu 2.0 正式オープンソース
505B MoE · 512K コンテキスト · 昇騰全链路
超長文書処理、NVIDIA 依存の低減、国産 NPU スタックのいずれかを検討している開発者にとって、2026年6月30日に Flash 版が公開された openPangu 2.0 は下半期の必読トピックです。これはNVIDIA 以外の昇騰ハードウェアで前沿規模の学習を完了し、オープンソース公開した初の大規模 MoE モデルと位置づけられます。本記事では HDC 2026 の発表事実に基づき、タイムライン、Pro/Flash 仕様表、7 コンポーネントのロードマップ、昇騰学習の突破、DeepSeek との競合比較、ModelArts/GitCode による5 ステップ導入手順、および Mac 隔離検証リストを整理します。
📋 目次
openPangu 2.0 を一言で:Pro と Flash の 2 バージョン、統一 512K 超長コンテキスト、昇騰 NPU 上での全工程学習、7 コンポーネントの段階的全開源——2021 年の初代盤古以来、Huawei がオープンソースコミュニティに提供する最も包括的なリリースです。
01 · 背景と核心事実
2026年6月12日、Huawei Developer Conference(HDC 2026)が東莞松山湖で開催され、余承東氏が基調講演で openPangu 2.0 を発表しました。6月30日、約束通り openPangu-2.0-Flash のモデル重み、推論コード、学習・推論演算子が GitCode Ascend Tribe に公開され、国産前沿大モデルが「ダウンロード可能・デプロイ可能・研究可能」な段階に入りました。
| 日付 | イベント |
|---|---|
| 2026-06-12 | HDC 2026 で openPangu 2.0 正式発表 |
| 2026-06-30 | Flash 版重み・推論コード・演算子を GitCode に公開 |
| 2026-07(予定) | Pro 版重みと推論コード公開 |
| 2026 下半期(予定) | 事前学習コード、事後学習コード、追加演算子を順次公開 |
引用可能データ:① Pro 版 総パラメータ 505B、アクティブ 18B、スパース比約 28:1;② Flash 版 総パラメータ 92B、アクティブ 6B;③ 両バージョンとも 512K コンテキストをサポートします。
02 · 選定の三大痛点
1. 「オープンソース重み」を「全链路オープン」と混同する。 多くの OSS LLM は重みと推論コードのみ公開します。openPangu 2.0 は事前学習、事後学習(SFT/RLHF)、昇騰学習演算子の公開を計画しています。垂直ドメインの二次事前学習や学術再現が必要な場合、「使える」と「学習できる」を区別する必要があります。
2. ハードウェアスタックのロックインを軽視する。 DeepSeek V4、Qwen 3.7、Kimi K2.7 はいずれも NVIDIA GPU で学習されています。昇騰環境で非ネイティブモデルを動かすと、スループットと安定性が低下しがちです。openPangu 2.0 は昇騰 910B 上で単卡スループットが主流 OSS モデルの 2 倍——これはアーキテクチャと演算子の協調によるもので、パラメータ表だけでは推測できません。
3. 総合 benchmark でシーン適合を置き換える。 openPangu 2.0 はコード生成・複雑推論で DeepSeek V4 Pro(~200B アクティブ)に劣る見込みですが、512K 長コンテキスト、国産算力適合、全链路再現性では代替がほぼありません。選定はまずタスク形態を見て、次にベンチマークを見るべきです。
03 · Pro と Flash:2 バージョンで異なる負荷に対応
| 指標 | openPangu 2.0 Pro | openPangu 2.0 Flash |
|---|---|---|
| 総パラメータ | 505B | 92B |
| アクティブパラメータ | 18B | 6B |
| スパース比 | ~28:1 | ~15:1(DSA+SWA で 28:1 も可能) |
| コンテキスト | 512K | 512K |
| 提供状況 | 2026年7月(予定) | ✅ 2026-06-30 公開済 |
| 推奨ハードウェア | 4+ 卡昇騰 910B クラスタ | 単卡昇騰 910B または ~96GB 統合メモリ |
Flash 版は 92B 総パラメータ・6B アクティブで推論コストが極めて低く、Flash-Int8 量子化版(W4A8)も公開されています。メモリ使用量は 40% 削減、精度損失は 10% 未満です。
Pro 版は 505B 総パラメータ・18B アクティブで、超長契約書・大規模 mono-repo・完全な会話履歴向けです。512K ウィンドウは現行 OSS 陣営ではトップクラス(DeepSeek/Qwen は 128K、Kimi は 256K が一般的)です。
04 · 7 大オープンソースコンポーネント
業界慣行では通常 4 項目までしか公開しません。openPangu 2.0 は 7 コンポーネントすべての段階的公開を計画しており、後半 3 項目は超大規模 MoE では極めて稀です。
| コンポーネント | 状況 |
|---|---|
| 1. モデル構造(アーキテクチャ定義) | ✅ 2026-06-30 |
| 2. モデル重み(Flash;Pro は7月) | ✅ Flash / 🔜 Pro |
| 3. 技術レポート | ✅ 重みと同時 |
| 4. 推論コード + 学習・推論演算子 | ✅ 2026-06-30 |
| 5. 事前学習コード | 📋 2026 下半期 |
| 6. 事後学習コード(SFT/RLHF) | 📋 2026 下半期 |
| 7. 学習演算子(昇騰高性能カスタム演算子) | 📋 2026 下半期 |
主要 GitCode リポジトリ:openPangu-2.0-Flash、openPangu-2.0-Flash-Int8、openPangu-2.0-Infer、openPangu-2.0-Op。組織:gitcode.com/org/ascend-tribe。
05 · 技術アーキテクチャ
openPangu 2.0 は MoE(Mixture of Experts) アーキテクチャを採用し、主な革新は以下の通りです。
- mHC(Multi-Head Combinatorial)ルーティング:エキスパートルーティング効率を改善し、負荷不均衡を低減します
- Muon オプティマイザ:大規模学習の安定性を向上させる二階モーメンタム方式です
- ModAttn(Modular Attention):512K 超長コンテキストに適応するモジュラー Attention です
- DSA+SWA 超スパース Attention(Flash 専用):極端なスパース比で推論算力要件を下げます
開発者エコシステムは CANN(CUDA 相当の Huawei 自研スタック)+ torch_npu(PyTorch アダプタ)に基づきます。標準 PyTorch コードは import torch_npu で昇騰バックエンドに切り替え可能です。デプロイ先は Huawei Cloud ModelArts API、GitCode 自前ホスト、HarmonyOS エッジ統合をカバーします。
06 · 世界初の「NVIDIA 非依存」前沿大モデル
openPangu 2.0 の全学習は Huawei 昇騰 910B NPU 上で完了し、A100/H100 は使用していません。高端 AI チップ輸出規制の文脈で、このリリースは明確な技術・産業シグナルを送ります。
| 学習/推論指標 | 数値 |
|---|---|
| 昇騰単卡スループット vs 主流 OSS モデル | 2× |
| スーパーノード学習効率向上 | +30% |
| 512K 長シーケンス学習スループット | +50% |
| 学習・推論一致率(MoE 重要指標) | >99% |
| 推論レイテンシ vs 同クラスモデル | 業界平均より約 1.2× 優位 |
日本のエンタープライズ開発者にとっても、NVIDIA GPU 調達が難しい環境では、昇騰ネイティブモデルが予測可能なスループットを提供する点は注目に値します。
07 · DeepSeek・Qwen・Kimi との競合比較
| モデル | 総パラメータ | アクティブ | コンテキスト | 学習 HW | OSS 度 |
|---|---|---|---|---|---|
| openPangu 2.0 Pro | 505B | 18B | 512K | 昇騰 NPU | 全链路(7 コンポーネント) |
| openPangu 2.0 Flash | 92B | 6B | 512K | 昇騰 NPU | 全链路(7 コンポーネント) |
| DeepSeek V4 Pro | 1.6T | ~200B | 128K | NVIDIA | 重み+推論 |
| Qwen 3.7 Max | ~400B+ | 各异 | 128K | NVIDIA | 重み+推論+一部学習 |
| Kimi K2.7 | 1T | 32B | 256K | NVIDIA | 重み+推論 |
能力マトリクス(アーキテクチャ推定、第三者 benchmark 評価中)
| 能力軸 | openPangu 2.0 Pro | DeepSeek V4 Pro | Qwen 3.7 Max | Kimi K2.7 |
|---|---|---|---|---|
| コード生成 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| 複雑推論 | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| ツール呼び出し/Agent | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| 超長コンテキスト | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐ |
| 推論効率 | ⭐⭐⭐⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐⭐⭐ |
率直な結論:openPangu 2.0 は現時点で総合能力最強の OSS モデルではありません(コード・複雑推論は DeepSeek V4 Pro が先行)。ただし 512K コンテキスト、昇騰ネイティブ最適化、全链路 OSS では代替がほぼありません。OpenRouter 6月ランキング も合わせてご参照ください。
08 · シーン別選定表
| シーン | 推奨版 | 理由 |
|---|---|---|
| 超長文書分析(契約・レポート・コードベース) | Pro | 512K コンテキスト、業界トップ |
| 国産算力/コンプライアンス案件 | Pro / Flash | 純昇騰学習の唯一の前沿モデル |
| 低コスト高並列 API | Flash | 6B アクティブ、推論が極めて高速 |
| 学術研究/二次事前学習 | Pro | 事前学習コードが全面公開予定 |
| Huawei Cloud/昇騰環境 | 任意 | ネイティブ適合、2× スループット |
| コード生成・複雑推論優先 | DeepSeek V4 Pro | ~200B アクティブ、性能先行 |
| 限られたメモリでのローカル推論 | Flash / Flash-Int8 | ~96GB または ~48GB で試行可能 |
09 · 5 ステップ導入ガイド(HowTo)
方案 A:Huawei Cloud ModelArts API(最速)
- Huawei Cloud アカウントを登録し、ModelArts → AI Gallery で「openPangu 2.0」を検索します
- Flash または Pro を購読し、API Endpoint と X-Auth-Token を取得します
- Chat Completions 形式で呼び出します(下記 curl 例)
- テスト環境で固定 prompt セットによりレイテンシと token コストを記録します
- 本番前にクォータアラートとキーローテーションを設定します
# ModelArts openPangu 2.0 Flash API 例curl -X POST "https://modelarts.${REGION}.myhuaweicloud.com/v1/infers/openpangu-2-flash/chat/completions" \ -H "Content-Type: application/json" \ -H "X-Auth-Token: ${TOKEN}" \ -d '{"model":"openpangu-2.0-flash","messages":[{"role":"user","content":"こんにちは"}],"max_tokens":1024,"temperature":0.7}'
方案 B:GitCode 自前デプロイ(昇騰 910B)
# Flash 単卡推論python inference.py --model_path ./openPangu-Flash --device npu:0 --context_length 512000 --precision bf16# Pro マルチ卡分散(7月重み公開後)python distributed_inference.py --model_path ./openPangu-Pro --num_devices 8 --context_length 512000# LoRA ドメインファインチューニング例python finetune.py --model_path ./openPangu-Pro --data_path ./domain_data --method lora --lora_rank 16
ハードウェア要件
| 版 | 推奨 HW | 最低構成 | 備考 |
|---|---|---|---|
| Flash(6B アクティブ) | 単卡昇騰 910B | ~96GB 統合メモリ | 大メモリサーバーで試行可 |
| Flash-Int8 | 単卡 Atlas A2 | ~48GB メモリ | W4A8、精度損失 <10% |
| Pro(18B アクティブ) | 4+ 卡 910B クラスタ | マルチ卡クラスタ | 7月重み公開後に検証 |
10 · 戦略的意義と HarmonyOS Agent 基盤
算力自律:A100/H100 輸出制限下でも、openPangu 2.0 は前沿規模学習が国産算力スタックで可能であることを示しました。「NVIDIA なしでは大モデルは作れない」という議論への回答です。
全链路 OSS の価値:学術研究で学習プロセスを再現でき、企業は事前学習コードで垂直ドメインの二次学習が可能になります。エコシステム全体の昇騰利用障壁が下がります。
HarmonyOS 7 Agent 時代:openPangu 2.0 は Huawei AI 戦略の中核基盤です。HarmonyOS 7 は Agent 時代に全面移行し、端末 30B モデルがオフライン動作可能です。
11 · Mac 隔離検証 5 ステップ
openPangu 2.0 を本番 Agent や HarmonyOS プロジェクトに組み込む前に、隔離環境で対照実験を行うことをお勧めします。特に Mac 上で Xcode 署名、Cursor 多モデルルーティング、Huawei Cloud API キーを同時管理している場合は重要です。
- クリーンな macOS をレンタル:Mac mini M4 以上、SSH 接続。主力 Apple ID と分離したローカルユーザーです。
- ModelArts API またはドキュメント処理スクリプトを設定:サンドボックス
.envに Token を記載。本番キーと混在させません。 - 512K 長文書ベンチマークを実行:契約 PDF、mono-repo インデックスで検索精度と first token レイテンシを測定します。
- 同一タスクで DeepSeek V4 Flash と対照:コード生成品質、ドルコスト、ツール呼び出し成功率を記録します。
- 決定 CSV をエクスポートしてインスタンス返却:テストキーを失効し、退租前にディスク消去。長コンテキスト結論を文書化します。
主力 MacBook から直接 ModelArts API を呼ぶことも可能ですが、複数キー・複数 CLI・HarmonyOS シミュレータ・Xcode 証明書を同一環境に重ねると、誤操作で Token 漏洩や Keychain 汚染のリスクがあります。openPangu 2.0 の長文書能力を検証しつつ Apple エコシステムのツールチェーンを安定させたい場合、独立したレンタル macOS で対照実験してから展開する方が、昇騰サーバーの衝動購入より軽く、主力環境の汚染より安全です。料金は M シリーズ算力料金、手順は 日次レンタル Mac FAQ をご覧ください。