Содержание
Перед GTC 2026 у NVIDIA намечается смена курса: компания готовит платформы, где рядом с GPU появятся специализированные ускорители под отдельные этапы инференса. В центре обсуждения — «agentic performance» и железо под агентные нагрузки, которые к 2026 году выходят на первый план.
Ключевой сигнал — ожидаемая материализация сделки NVIDIA с Groq. Речь про интеграцию LPU (Language Processing Unit) в стойки и «треи» следующего поколения, а не про очередной «один GPU на всё».
Groq и LPU в Vera Rubin: ставка на раздельный инференс

По конфигурациям, которые сейчас обсуждают в индустрии, NVIDIA может показать гибридный compute tray для систем Vera Rubin. В нём рядом с GPU появятся LPU от Groq, а связка пойдёт через NVLink Fusion. Смысл простой: разнести этапы инференса по разным типам железа и поднять эффективность «disaggregated inference».
Называют варианты компоновки LPU внутри одного tray: 64, 128 или 256 LPU-модулей. Jensen Huang ранее сравнивал роль соглашения с Groq с тем, как в своё время для NVIDIA сработала Mellanox — то есть как стратегическое расширение платформы, а не «ещё один чип».
По логике этой схемы LPU могут закрывать отдельные стадии запроса. В качестве примера в обсуждениях фигурирует decode. При этом NVIDIA уже вывела на рынок Rubin CPX, который закрывает prefill-задачи (контекстная часть инференса). То есть компания постепенно «разбирает» инференс на крупные блоки и под каждый подбирает оптимальный ускоритель.
Feynman: A16 от TSMC, 3D-упаковка и возможная связка с LPU
Отдельная линия GTC 2026 — подробный разбор следующей архитектуры Feynman. Vera Rubin уже находится в полном производстве, поэтому на сцене логично ждать углубления в то, что будет дальше.
По текущим данным, утверждается, что Feynman будет использовать техпроцесс TSMC A16. Также обсуждают, что NVIDIA может стать эксклюзивным клиентом этого узла из-за ограниченной применимости для других сегментов.
В упаковке ожидают упор на 3D-стек и hybrid bonding — в разговорах всплывают SoIC или EMIB. Ещё одна версия: LPU от Groq могут появиться в дизайне Feynman «в полной мере», вплоть до вариантов, где LPU-логика или блоки размещают рядом со compute die и подключают по фронт-сайду.
На уровне фактов сейчас можно зафиксировать общий тренд: NVIDIA готовит заметную переработку подхода к микроархитектуре и упаковке, а не «плюс X% на том же принципе».
Vera Rubin в стойках: от NVL72 к NVL576 и переходу на оптику
На стороне Vera Rubin тоже есть, что обсуждать. На CES 2026 NVIDIA показала стойку DGX NVL72 с конфигурацией на 72 чипа. Её сейчас воспринимают как базовую точку, а дальше компания смотрит в сторону более крупных масштабов.
В планах фигурируют NVL144 и NVL576, но есть указание, что NVL144 могут и не показать из-за запросов клиентов по вычислениям. Rubin CPX остаётся отдельной веткой под контекст и prefill, но подробностей по развёртываниям у заказчиков пока немного.
Самая интересная часть — NVL576 и переход к новому поколению инфраструктуры под названием Kyber. Там ожидают вертикальную компоновку compute tray в формате «vertical blades» (по сути, «книжная полка» из модулей) и новую модель питания 800 VDC от «помещения до стойки».
В NVL576 NVIDIA также продвигает идею ухода от меди в интерконнектах на таких плотностях. В фокусе — CPO (Co-Packaged Optics) коммутаторы, которые должны снять тепловые ограничения на уровне 576 GPU при медных соединениях. Заодно ожидают рост пропускной способности, ёмкости коммутации и снижение задержек при переходе на оптику.
GTC 2026 стартует 16 марта 2026 года, а keynote Jensen Huang начнётся в 11:00 AM PT.