OpenAI Jalapeño
Первый ASIC инференса с Broadcom — ~50 % дешевле GPU
24 июня 2026 OpenAI и Broadcom представили Jalapeño — первый кастомный ASIC для инференса LLM. Для разработчиков и tech lead'ов, которым нужно оценить влияние на стоимость инференса, supply chain и отношения с Nvidia, этот технический разбор охватывает архитектуру, метрики, Tomahawk/Celestica, тесты GPT-5.3-Codex-Spark, roadmap развёртывания, конкурентный ландшафт и чеклист валидации на арендованном Mac.
📋 Содержание
⚠️ Метрики performance — из внутренних тестов OpenAI и Broadcom (24 июня 2026). Полный техотчёт ожидается в ближайшие месяцы. Обновлено: 25 июня 2026.
01 · Ключевые метрики
| Метрика | Jalapeño (июнь 2026) | Источник |
|---|---|---|
| Тип чипа | ASIC, только инференс | OpenAI Blog |
| Стоимость инференса | ~50 % экономии vs типичный AI-GPU | Hock Tan, Bloomberg |
| Performance/Watt | Значительно выше SOTA | OpenAI Blog |
| Абсолютная perf | Паритет с Blackwell & Google TPU | Hock Tan, Reuters |
| Производство | TSMC 3nm | Официально |
| Цикл разработки | 9 месяцев design → tape-out | Greg Brockman |
| Lab-модель | GPT-5.3-Codex-Spark | OpenAI |
| Первый deploy | Microsoft Azure, конец 2026 | OpenAI / Broadcom |
24 июня 2026 OpenAI и Broadcom анонсировали Jalapeño — первый кастомный чип для AI-инференса компании. Анонс знаменует переход от чистой GPU-зависимости к full-stack инфраструктурной стратегии, где chip architecture, kernels, memory subsystem, networking и serving оптимизированы под одни и те же LLM workloads.
02 · Три точки принятия решений
- Vendor benchmarks vs production: Цифра 50 % — из ранних lab-тестов Broadcom. Без независимой валидации и Azure deployment миграция на inference ASIC преждевременна.
- Inference-only vs full stack: Jalapeño не заменяет Nvidia GPU для training. Команды, моделирующие end-to-end затраты, ведут две compute-линии параллельно.
- Локальная vs облачная экономика смещается: Снижение API-цен через Jalapeño может сделать локальный Ollama/MLX относительно дороже или дешевле — без изолированного benchmark-окружения данных нет.
03 · Зачем OpenAI свой чип
OpenAI — один из крупнейших потребителей GPU в мире. Каждый ответ ChatGPT и каждый API-call требуют инференса — server-side token generation. С масштабированием GPT-4/5 инференс стал доминирующей статьёй OPEX. H100/H200/Blackwell от Nvidia — универсальные accelerators; для однородных LLM workloads значительная часть compute wasted.
Аналогия: Nvidia GPU = швейцарский нож; Jalapeño = скальпель только для LLM inference.
| Компания | Чип | Фокус |
|---|---|---|
| TPU | Training + inference | |
| Amazon | Trainium / Inferentia | Training + inference |
| Microsoft | Maia 100 | Inference |
| Meta | MTIA | Inference |
| OpenAI | Jalapeño (2026) | Inference only |
04 · Jalapeño: inference-only ASIC
ASIC (Application-Specific Integrated Circuit) делает ровно одну вещь — LLM inference. Без gaming, без training, без general compute. Richard Ho, head of OpenAI hardware:
«Jalapeño спроектирован с нуля для LLM inference с учётом kernel execution patterns, memory movement, networking и serving patterns frontier-моделей. Ранние тесты показывают работу близко к hardware theoretical limits.»
- Blank-slate design: Не patch legacy GPU — каждое архитектурное решение под Transformer inference.
- Без training: OpenAI явно подтверждает: training остаётся на Nvidia GPU.
05 · Архитектура: Tomahawk & Celestica
Ключевые принципы
- Minimize data movement: Bottleneck inference — memory bandwidth, не raw FLOPS. Jalapeño держит данные ближе к compute units.
- Balance compute / memory / networking: GPU часто упираются в memory wall до полной загрузки compute при LLM inference.
- Broadcom Tomahawk: High-performance networking silicon для gigawatt-scale clusters — de facto standard hyperscale switching.
- Celestica: EMS-партнёр для motherboard, rack и server system integration в volume production.
- TSMC 3nm: Та же process node, что Apple M4 и Nvidia Blackwell — максимальная transistor density в mass production.
| Роль | Партнёр | Зона ответственности |
|---|---|---|
| Architecture | OpenAI | LLM inference optimization, full-stack design |
| Silicon & network | Broadcom | Chip implementation, Tomahawk, mass production |
| Foundry | TSMC | 3nm wafer fab |
| Integration | Celestica | Boards, racks, server systems |
| First deploy | Microsoft Azure | Datacenter, конец 2026 |
06 · Performance & ~50 % затрат
| Метрика | Jalapeño (early test) | Baseline |
|---|---|---|
| Inference cost | ~50 % savings | vs typical AI GPU |
| Perf/Watt | Substantially above SOTA | OpenAI Blog |
| Absolute perf | Parity Blackwell / TPU | Hock Tan, Reuters |
| Thermal | Better than expected | OpenAI internal |
Hock Tan (CEO Broadcom, Bloomberg): «На данный мoment Jalapeño показывает cost savings порядка 50 % compared to typical AI GPUs.» OpenAI формулирует осторожнее: «performance per watt substantially better than current state-of-the-art» — без absolute numbers, tech report pending.
Validation checklist: (1) OpenAI technical report, (2) Azure production deployment, (3) independent third-party benchmarks.
07 · 9 месяцев tape-out & AI-assisted design
От initial design до tape-out: 9 месяцев — по заявлению OpenAI/Broadcom fastest cycle для high-performance ASIC в индустрии.
- Software-hardware co-design: Model team и chip team работают параллельно — меньше costly rework из-за неверных assumptions.
- AI-assisted chip design: Собственные модели OpenAI ускорили части design flow (VentureBeat: earlier OpenAI model generations).
- Broadcom IP library: Reusable networking и implementation IP сокращает path от logic design к physical layout.
Greg Brockman: «От initial design до tape-out — 9 месяцев; часть design и optimization была accelerated собственными AI-моделями OpenAI.»
08 · GPT-5.3-Codex-Spark в лаборатории
Engineering samples уже запускают GPT-5.3-Codex-Spark — flagship inference model OpenAI для coding — на target frequency и target power draw в лабораториях. Это подтверждает: Jalapeño обслуживает real frontier workloads, а не только press slides.
09 · Roadmap развёртывания
Краткосрочно (конец 2026)
- Engineering samples активны в lab OpenAI
- Первое commercial deployment в Microsoft Azure и partner datacenters
- Приоритет: ChatGPT, Codex, OpenAI API inference
Среднесрочно (2027)
- Volume production; deployment > 1,3 GW (прогноз Hock Tan превышает earlier estimates)
- Возможное открытие для external AI companies («built for current and future LLMs across the industry»)
Долгосрочно (до 2029)
- Цель OpenAI: 10 GW собственной compute capacity (~10 nuclear plants)
- Следующее поколение — 2028, annual iteration thereafter
- Training chips возможны в later generations
10 · Отношения с Nvidia: diversification, not divorce
Nvidia не «закончилась».
- Training: Frontier model training остаётся на H100/Blackwell. CUDA ecosystem — deepest moat в индустрии.
- $30B investment (Feb 2026): Nvidia direct investment в OpenAI в рамках $110B round — включая Vera Rubin compute agreement.
- ASIC risk: При фундаментальной смене LLM architecture (post-Transformer) ASIC harder to adapt vs GPU.
Стратегический core: «diversify supply, gain negotiating leverage.» Даже 20–30 % inference на Jalapeño saves hundreds of millions USD/year.
Ben Barringer (Quilter Cheviot): «Nobody wants to be beholden to Nvidia.»
11 · Конкурентный ландшафт
| Игрок | Продукт | Позиция |
|---|---|---|
| Nvidia | Blackwell, Vera Rubin | Training + inference, CUDA moat |
| TPU v5/v6 | Full-stack | |
| Amazon | Trainium / Inferentia | AWS inference |
| Microsoft | Maia 100 | Azure + hosts Jalapeño |
| Meta | MTIA | Inference ASIC |
| Broadcom | Custom ASIC Google/Meta/OpenAI | «ASIC king» — AVGO +18 % YTD 2026 |
| AMD | MI300 | Weak position в inference ASIC wave |
12 · Отраслевое влияние
Inference economics
Если 50 % подтвердятся в production, API costs падают structurally — path to profitability OpenAI укорачивается; «AI price war» получает новый floor.
Full-stack AI как стандарт
OpenAI проектирует infrastructure под моделями: chip architecture, kernels, memory, networking, scheduling, deployment. Конкуренция смещается от model quality к end-to-end efficiency.
Semiconductor landscape
- Winners: Broadcom, TSMC, SK Hynix/Samsung (HBM supply)
- Pressure: Nvidia (inference share), AMD (weak ASIC presence)
13 · Хронология
2025-10 → OpenAI + Broadcom: partnership announced
2026-02 → Nvidia: $30B direct investment в OpenAI
2026-06-24 → Jalapeño public launch; engineering samples active
2026 Q4 → First Azure deployment
2027 → Volume production; >1,3 GW
2028 → Second generation (forecast)
2029 → Target: 10 GW own capacity14 · Чеклист 5 шагов для разработчиков
- Зафиксировать baseline API costs: Token cost и latency для 20–50 production prompts.
- Benchmark local inference: Ollama/MLX на Apple Silicon с identical prompts.
- Арендовать изолированный Mac: Cursor + API keys на rental node; тарифы — руководство по ценам Mac mini M4.
- Дождаться official benchmarks: Tech report и Azure production data перед routing switch.
- Пересчитать TCO за 48 ч: После изменения API pricing.
15 · FAQ
Q: Jalapeño заменяет Nvidia GPU?
A: Нет. Только inference. Nvidia остаётся training partner; $30B investment Feb 2026.
Q: Экономия 50 % верифицирована?
A: Hock Tan, Bloomberg — early lab tests. Independent validation pending.
Q: Что почувствуют end users?
A: Более дешёвые ChatGPT/API, potentially faster responses — если production confirms lab numbers.
Q: Почему «Jalapeño»?
A: Нет official explanation. Food-themed codenames у OpenAI.
Q: Открытие для других AI-компаний?
A: Wording «for LLMs across the industry» — future external availability likely; near-term focus на OpenAI infra.
Q: Следующее поколение?
A: Forecast 2028, annual iteration after.
Q: Влияние на акции Nvidia?
A: Limited reaction. Training moat intact; long-term structural pressure на inference share.
16 · Аренда Mac: изолированная проверка inference economics
Jalapeño targets cloud inference — разработчики всё равно сравнивают local Ollama/MLX runs с API costs. Linux VPS тестирует API routing, но Cursor macOS plugins, Keychain и MLX-Metal paths требуют real macOS. При снижении API prices post-Jalapeño teams нуждаются в clean environment для A/B tests.
Посуточная аренда Apple Silicon даёт production-identical Cursor environment для inference benchmarks. Если вы читали сравнение ИИ-помощников для кодинга, multi-model fallback chains на rental Mac быстрее debug'ить, чем в heterogeneous environments.