Intel и SambaNova: инференс на GPU, RDU и Xeon 6

Содержание

Для больших ИИ-инференс нагрузок Intel и SambaNova Systems предложили схему, где в одной стойке работают GPU, фирменные RDU и Intel Xeon 6. Идея простая: разные этапы агентных пайплайнов лучше разносить по разному железу, а не пытаться закрыть всё одним типом ускорителя.

Компании называют это совместным hardware blueprint для enterprise, облаков и «суверенных» развертываний. Доступность заявили на вторую половину 2026 года.

Как в этой схеме делят инференс: prefill на GPU, токены на RDU, контроль на Xeon

Архитектура делит типичный агентный инференс на роли. GPU берут на себя prefill: конвертируют промпт в key-value cache. SambaNova RDU работают на стадии decoding и генерируют токены с упором на высокую пропускную способность и низкую задержку. А Xeon 6 держит управление и исполняет код, который вокруг этого крутится.

Продолжение после рекламы

Родриго Лян (Rodrigo Liang), CEO и сооснователь SambaNova, формулирует это так: «GPUs to start the job, Intel Xeon 6 to run it, and SambaNova RDUs to finish it fast». По сути, компании продвигают «гетерогенный» рецепт именно под агентные сценарии, где модель не просто отвечает текстом, а постоянно дергает инструменты и код.

В SambaNova отдельно подчеркивают роль CPU. Гарри Олт (Harry Ault), CRO SambaNova, говорит, что при тысячах одновременных coding-агентов, которые генерируют tool calls, retrieval-запросы, сборки кода и шифрованные межагентные сообщения, CPU — это не фон. Это «executive and action layer», то есть слой, который задает поведение системы и выполняет действия.

Что именно делают Xeon 6 в агентных средах

Изображение к статье: Intel и SambaNova соберут ИИ-инференс из GPU, RDU и Xeon 6

В заявленной схеме Intel Xeon 6 выступают и как host CPU, и как «движок исполнения». На них вешают распределение нагрузки, выполнение скомпилированного кода и координацию взаимодействий с инструментами.

Оркестрация: распределение workload между слоями (GPU/RDU/CPU)
Исполнение кода: запуск compiled workloads на CPU
Компиляция: работа с compiled code и сопутствующими этапами
Валидация: проверка результатов и корректности выходов
Связь процессов: коммуникация между параллельными процессами и агентами

Цифры, которые Intel и SambaNova приводят для Xeon 6

По данным SambaNova, в таких «кодовых» и retrieval-сценариях Xeon 6 дает более чем на 50% более быстрые времена компиляции LLVM по сравнению с Arm-серверными CPU. Вторая метрика — до 70% быстрее работа с vector database по сравнению с другими x86-системами.

Компании уточняют, что эти цифры относятся к скорости исполнения именно в рабочих процессах, где есть код и поиск. То есть это не «токены в секунду» для LLM, а производительность вокруг агентного цикла.

Отдельную ремарку про рынок дал Бангхуа Чжу (Banghua Zhu), сооснователь и CTO RadixArk: «Production inference is moving toward heterogeneous hardware — no single chip type is optimal for every stage of an agentic workflow». Он же добавил, что связка RDU с Xeon помогает сохранить совместимость с привычными софтверными окружениями.

Еще один практичный момент: дизайн рассчитали на размещение в существующих air-cooled дата-центрах. Компании говорят, что это снижает требования к новым стройкам и не добавляет давления на водные и энергетические ресурсы.

Доступность этой совместной архитектуры для заказчиков заявлена на вторую половину 2026 года.

Постоянный URL: https://trashexpert.ru/news/hardware-news/intel-sambanova-gpu-rdu-xeon6-inference

Наши обзоры и новости в Telegram