ИИ-железо 2026-06-25

OpenAI Jalapeño
Первый ASIC инференса с Broadcom — ~50 % дешевле GPU

24 июня 2026 OpenAI и Broadcom представили Jalapeño — первый кастомный ASIC для инференса LLM. Для разработчиков и tech lead'ов, которым нужно оценить влияние на стоимость инференса, supply chain и отношения с Nvidia, этот технический разбор охватывает архитектуру, метрики, Tomahawk/Celestica, тесты GPT-5.3-Codex-Spark, roadmap развёртывания, конкурентный ландшафт и чеклист валидации на арендованном Mac.

OpenAI Jalapeño ASIC инференса Broadcom TSMC 3nm июнь 2026

⚠️ Метрики performance — из внутренних тестов OpenAI и Broadcom (24 июня 2026). Полный техотчёт ожидается в ближайшие месяцы. Обновлено: 25 июня 2026.

01 · Ключевые метрики

Метрика Jalapeño (июнь 2026) Источник
Тип чипаASIC, только инференсOpenAI Blog
Стоимость инференса~50 % экономии vs типичный AI-GPUHock Tan, Bloomberg
Performance/WattЗначительно выше SOTAOpenAI Blog
Абсолютная perfПаритет с Blackwell & Google TPUHock Tan, Reuters
ПроизводствоTSMC 3nmОфициально
Цикл разработки9 месяцев design → tape-outGreg Brockman
Lab-модельGPT-5.3-Codex-SparkOpenAI
Первый deployMicrosoft Azure, конец 2026OpenAI / Broadcom

24 июня 2026 OpenAI и Broadcom анонсировали Jalapeño — первый кастомный чип для AI-инференса компании. Анонс знаменует переход от чистой GPU-зависимости к full-stack инфраструктурной стратегии, где chip architecture, kernels, memory subsystem, networking и serving оптимизированы под одни и те же LLM workloads.

02 · Три точки принятия решений

  1. Vendor benchmarks vs production: Цифра 50 % — из ранних lab-тестов Broadcom. Без независимой валидации и Azure deployment миграция на inference ASIC преждевременна.
  2. Inference-only vs full stack: Jalapeño не заменяет Nvidia GPU для training. Команды, моделирующие end-to-end затраты, ведут две compute-линии параллельно.
  3. Локальная vs облачная экономика смещается: Снижение API-цен через Jalapeño может сделать локальный Ollama/MLX относительно дороже или дешевле — без изолированного benchmark-окружения данных нет.

03 · Зачем OpenAI свой чип

OpenAI — один из крупнейших потребителей GPU в мире. Каждый ответ ChatGPT и каждый API-call требуют инференса — server-side token generation. С масштабированием GPT-4/5 инференс стал доминирующей статьёй OPEX. H100/H200/Blackwell от Nvidia — универсальные accelerators; для однородных LLM workloads значительная часть compute wasted.

Аналогия: Nvidia GPU = швейцарский нож; Jalapeño = скальпель только для LLM inference.

Компания Чип Фокус
GoogleTPUTraining + inference
AmazonTrainium / InferentiaTraining + inference
MicrosoftMaia 100Inference
MetaMTIAInference
OpenAIJalapeño (2026)Inference only

04 · Jalapeño: inference-only ASIC

ASIC (Application-Specific Integrated Circuit) делает ровно одну вещь — LLM inference. Без gaming, без training, без general compute. Richard Ho, head of OpenAI hardware:

«Jalapeño спроектирован с нуля для LLM inference с учётом kernel execution patterns, memory movement, networking и serving patterns frontier-моделей. Ранние тесты показывают работу близко к hardware theoretical limits.»

  • Blank-slate design: Не patch legacy GPU — каждое архитектурное решение под Transformer inference.
  • Без training: OpenAI явно подтверждает: training остаётся на Nvidia GPU.

05 · Архитектура: Tomahawk & Celestica

Ключевые принципы

  • Minimize data movement: Bottleneck inference — memory bandwidth, не raw FLOPS. Jalapeño держит данные ближе к compute units.
  • Balance compute / memory / networking: GPU часто упираются в memory wall до полной загрузки compute при LLM inference.
  • Broadcom Tomahawk: High-performance networking silicon для gigawatt-scale clusters — de facto standard hyperscale switching.
  • Celestica: EMS-партнёр для motherboard, rack и server system integration в volume production.
  • TSMC 3nm: Та же process node, что Apple M4 и Nvidia Blackwell — максимальная transistor density в mass production.
Роль Партнёр Зона ответственности
ArchitectureOpenAILLM inference optimization, full-stack design
Silicon & networkBroadcomChip implementation, Tomahawk, mass production
FoundryTSMC3nm wafer fab
IntegrationCelesticaBoards, racks, server systems
First deployMicrosoft AzureDatacenter, конец 2026

06 · Performance & ~50 % затрат

Метрика Jalapeño (early test) Baseline
Inference cost~50 % savingsvs typical AI GPU
Perf/WattSubstantially above SOTAOpenAI Blog
Absolute perfParity Blackwell / TPUHock Tan, Reuters
ThermalBetter than expectedOpenAI internal

Hock Tan (CEO Broadcom, Bloomberg): «На данный мoment Jalapeño показывает cost savings порядка 50 % compared to typical AI GPUs.» OpenAI формулирует осторожнее: «performance per watt substantially better than current state-of-the-art» — без absolute numbers, tech report pending.

Validation checklist: (1) OpenAI technical report, (2) Azure production deployment, (3) independent third-party benchmarks.

07 · 9 месяцев tape-out & AI-assisted design

От initial design до tape-out: 9 месяцев — по заявлению OpenAI/Broadcom fastest cycle для high-performance ASIC в индустрии.

  1. Software-hardware co-design: Model team и chip team работают параллельно — меньше costly rework из-за неверных assumptions.
  2. AI-assisted chip design: Собственные модели OpenAI ускорили части design flow (VentureBeat: earlier OpenAI model generations).
  3. Broadcom IP library: Reusable networking и implementation IP сокращает path от logic design к physical layout.

Greg Brockman: «От initial design до tape-out — 9 месяцев; часть design и optimization была accelerated собственными AI-моделями OpenAI.»

08 · GPT-5.3-Codex-Spark в лаборатории

Engineering samples уже запускают GPT-5.3-Codex-Spark — flagship inference model OpenAI для coding — на target frequency и target power draw в лабораториях. Это подтверждает: Jalapeño обслуживает real frontier workloads, а не только press slides.

09 · Roadmap развёртывания

Краткосрочно (конец 2026)

  • Engineering samples активны в lab OpenAI
  • Первое commercial deployment в Microsoft Azure и partner datacenters
  • Приоритет: ChatGPT, Codex, OpenAI API inference

Среднесрочно (2027)

  • Volume production; deployment > 1,3 GW (прогноз Hock Tan превышает earlier estimates)
  • Возможное открытие для external AI companies («built for current and future LLMs across the industry»)

Долгосрочно (до 2029)

  • Цель OpenAI: 10 GW собственной compute capacity (~10 nuclear plants)
  • Следующее поколение — 2028, annual iteration thereafter
  • Training chips возможны в later generations

10 · Отношения с Nvidia: diversification, not divorce

Nvidia не «закончилась».

  • Training: Frontier model training остаётся на H100/Blackwell. CUDA ecosystem — deepest moat в индустрии.
  • $30B investment (Feb 2026): Nvidia direct investment в OpenAI в рамках $110B round — включая Vera Rubin compute agreement.
  • ASIC risk: При фундаментальной смене LLM architecture (post-Transformer) ASIC harder to adapt vs GPU.

Стратегический core: «diversify supply, gain negotiating leverage.» Даже 20–30 % inference на Jalapeño saves hundreds of millions USD/year.

Ben Barringer (Quilter Cheviot): «Nobody wants to be beholden to Nvidia.»

11 · Конкурентный ландшафт

Игрок Продукт Позиция
NvidiaBlackwell, Vera RubinTraining + inference, CUDA moat
GoogleTPU v5/v6Full-stack
AmazonTrainium / InferentiaAWS inference
MicrosoftMaia 100Azure + hosts Jalapeño
MetaMTIAInference ASIC
BroadcomCustom ASIC Google/Meta/OpenAI«ASIC king» — AVGO +18 % YTD 2026
AMDMI300Weak position в inference ASIC wave

12 · Отраслевое влияние

Inference economics

Если 50 % подтвердятся в production, API costs падают structurally — path to profitability OpenAI укорачивается; «AI price war» получает новый floor.

Full-stack AI как стандарт

OpenAI проектирует infrastructure под моделями: chip architecture, kernels, memory, networking, scheduling, deployment. Конкуренция смещается от model quality к end-to-end efficiency.

Semiconductor landscape

  • Winners: Broadcom, TSMC, SK Hynix/Samsung (HBM supply)
  • Pressure: Nvidia (inference share), AMD (weak ASIC presence)

13 · Хронология

2025-10 → OpenAI + Broadcom: partnership announced 2026-02 → Nvidia: $30B direct investment в OpenAI 2026-06-24 → Jalapeño public launch; engineering samples active 2026 Q4 → First Azure deployment 2027 → Volume production; >1,3 GW 2028 → Second generation (forecast) 2029 → Target: 10 GW own capacity

14 · Чеклист 5 шагов для разработчиков

  1. Зафиксировать baseline API costs: Token cost и latency для 20–50 production prompts.
  2. Benchmark local inference: Ollama/MLX на Apple Silicon с identical prompts.
  3. Арендовать изолированный Mac: Cursor + API keys на rental node; тарифы — руководство по ценам Mac mini M4.
  4. Дождаться official benchmarks: Tech report и Azure production data перед routing switch.
  5. Пересчитать TCO за 48 ч: После изменения API pricing.

15 · FAQ

Q: Jalapeño заменяет Nvidia GPU?
A: Нет. Только inference. Nvidia остаётся training partner; $30B investment Feb 2026.

Q: Экономия 50 % верифицирована?
A: Hock Tan, Bloomberg — early lab tests. Independent validation pending.

Q: Что почувствуют end users?
A: Более дешёвые ChatGPT/API, potentially faster responses — если production confirms lab numbers.

Q: Почему «Jalapeño»?
A: Нет official explanation. Food-themed codenames у OpenAI.

Q: Открытие для других AI-компаний?
A: Wording «for LLMs across the industry» — future external availability likely; near-term focus на OpenAI infra.

Q: Следующее поколение?
A: Forecast 2028, annual iteration after.

Q: Влияние на акции Nvidia?
A: Limited reaction. Training moat intact; long-term structural pressure на inference share.

16 · Аренда Mac: изолированная проверка inference economics

Jalapeño targets cloud inference — разработчики всё равно сравнивают local Ollama/MLX runs с API costs. Linux VPS тестирует API routing, но Cursor macOS plugins, Keychain и MLX-Metal paths требуют real macOS. При снижении API prices post-Jalapeño teams нуждаются в clean environment для A/B tests.

Посуточная аренда Apple Silicon даёт production-identical Cursor environment для inference benchmarks. Если вы читали сравнение ИИ-помощников для кодинга, multi-model fallback chains на rental Mac быстрее debug'ить, чем в heterogeneous environments.