Содержание
Для больших ИИ-инференс нагрузок Intel и SambaNova Systems предложили схему, где в одной стойке работают GPU, фирменные RDU и Intel Xeon 6. Идея простая: разные этапы агентных пайплайнов лучше разносить по разному железу, а не пытаться закрыть всё одним типом ускорителя.
Компании называют это совместным hardware blueprint для enterprise, облаков и «суверенных» развертываний. Доступность заявили на вторую половину 2026 года.
Как в этой схеме делят инференс: prefill на GPU, токены на RDU, контроль на Xeon
Архитектура делит типичный агентный инференс на роли. GPU берут на себя prefill: конвертируют промпт в key-value cache. SambaNova RDU работают на стадии decoding и генерируют токены с упором на высокую пропускную способность и низкую задержку. А Xeon 6 держит управление и исполняет код, который вокруг этого крутится.
Родриго Лян (Rodrigo Liang), CEO и сооснователь SambaNova, формулирует это так: «GPUs to start the job, Intel Xeon 6 to run it, and SambaNova RDUs to finish it fast». По сути, компании продвигают «гетерогенный» рецепт именно под агентные сценарии, где модель не просто отвечает текстом, а постоянно дергает инструменты и код.
В SambaNova отдельно подчеркивают роль CPU. Гарри Олт (Harry Ault), CRO SambaNova, говорит, что при тысячах одновременных coding-агентов, которые генерируют tool calls, retrieval-запросы, сборки кода и шифрованные межагентные сообщения, CPU — это не фон. Это «executive and action layer», то есть слой, который задает поведение системы и выполняет действия.
Что именно делают Xeon 6 в агентных средах

В заявленной схеме Intel Xeon 6 выступают и как host CPU, и как «движок исполнения». На них вешают распределение нагрузки, выполнение скомпилированного кода и координацию взаимодействий с инструментами.
- Оркестрация: распределение workload между слоями (GPU/RDU/CPU)
- Исполнение кода: запуск compiled workloads на CPU
- Компиляция: работа с compiled code и сопутствующими этапами
- Валидация: проверка результатов и корректности выходов
- Связь процессов: коммуникация между параллельными процессами и агентами
Цифры, которые Intel и SambaNova приводят для Xeon 6
По данным SambaNova, в таких «кодовых» и retrieval-сценариях Xeon 6 дает более чем на 50% более быстрые времена компиляции LLVM по сравнению с Arm-серверными CPU. Вторая метрика — до 70% быстрее работа с vector database по сравнению с другими x86-системами.
Компании уточняют, что эти цифры относятся к скорости исполнения именно в рабочих процессах, где есть код и поиск. То есть это не «токены в секунду» для LLM, а производительность вокруг агентного цикла.
Отдельную ремарку про рынок дал Бангхуа Чжу (Banghua Zhu), сооснователь и CTO RadixArk: «Production inference is moving toward heterogeneous hardware — no single chip type is optimal for every stage of an agentic workflow». Он же добавил, что связка RDU с Xeon помогает сохранить совместимость с привычными софтверными окружениями.
Еще один практичный момент: дизайн рассчитали на размещение в существующих air-cooled дата-центрах. Компании говорят, что это снижает требования к новым стройкам и не добавляет давления на водные и энергетические ресурсы.
Доступность этой совместной архитектуры для заказчиков заявлена на вторую половину 2026 года.