Содержание
12 марта 2026 года Meta представила четыре поколения Meta Training and Inference Accelerator (MTIA) — MTIA 300, MTIA 400, MTIA 450 и MTIA 500 — и описала агрессивную дорожную карту «inference-first». Эти ускорители разработаны совместно с Broadcom и, по плану компании, должны быть интегрированы в дата-центры Meta в течение следующих двух лет. В фокусе — быстрый и экономичный инференс, а не гонка за максимальными пиковыми FLOPS.
Meta подчёркивает практическую сторону инициативы: компания управляет одними из крупнейших соцплатформ в интернете, где ранжирование и рекомендации работают непрерывно. Поэтому быстрый инференс — это не «бенчмарки ради бенчмарков», а способ сделать просмотр ленты и работу рекомендательных алгоритмов более мгновенными.
Ранние экземпляры MTIA уже задействованы в production-нагрузках — в частности, для задач ранжирования и рекомендаций. Более поздние поколения линейки, по заявлению Meta, оптимизируют под real-time обслуживание моделей — то есть под ответы «здесь и сейчас».
MTIA: ставка на память и задержки, а не на «голую» арифметику
Вместо упора на «сырую» пиковую математику Meta делает акцент на пропускной способности и объёме памяти HBM, а также на эффективности инференса. Согласно таблице спецификаций, которую приводит компания, рост HBM bandwidth и ёмкости по поколениям увеличивается существенно, тогда как вычислительная часть растёт более линейно. Посыл Meta — наращивать внутрипакетную пропускную способность и объём, чтобы снижать задержки и энергозатраты в production-инференсе.
В продакшене это часто оказывается критичнее «пиковых» чисел: модели нередко упираются в доступ к этим и память, а не только в арифметику. Поэтому повышение bandwidth и capacity может дать прямой выигрыш по latency и стоимости обслуживания запросов.
Аппаратные блоки под attention и MoE, плюс форматы низкой точности
MTIA включает аппаратную поддержку примитивов attention и слоёв mixture-of-experts (MoE), а также форматы низкой точности, ориентированные на инференс, чтобы уменьшить накладные расходы на конвертацию. Такой набор функций нацелен на ускорение типовых «узких мест» современных моделей при реальном обслуживании запросов.
Совместимость софта и модульные апгрейды стоек
Отдельный приоритет — совместимость программного стека. Meta заявляет, что он нативно работает с распространёнными фреймворками, поэтому существующие production-модели можно разворачивать и на GPU, и на MTIA без крупных переписываний. Это должно упростить внедрение: перенос без долгих переработок важен, когда речь идёт о масштабах дата-центров.
Несколько поколений MTIA спроектированы так, чтобы использовать одно и то же шасси, стойку и сетевую обвязку. Это позволяет обновляться заменой модулей, а не переделкой инфраструктуры — фактор, который помогает объяснить быстрый темп обновлений на фоне индустриальной «нормы», особенно учитывая, что у Meta дата-центры охватывают миллионы чипов.
Meta также отмечает, что MTIA уже работает в рамках киловаттных power budget и оперирует петафлопсными величинами производительности. На этом уровне ускорители MTIA сопоставляются с лидирующими решениями NVIDIA, AMD и другими разработками гиперскейлеров, которые также исследуют собственные ASIC под специфические нагрузки.
Логика стратегии Meta проста: модели обучают один раз, а инференс выполняется значительно дольше. При том что Meta продолжает использовать GPU NVIDIA и AMD для обучения и инференса, MTIA должен усилить «инференсную» сторону баланса за счёт более эффективного обслуживания запросов.
Дополнительный штрих — открытость инженерных подходов Meta: компания известна тем, что публикует дизайны стоек в рамках Open Compute Project, поэтому некоторые элементы, связанные с этими ASIC и их стойками, со временем могут появиться и в других серверных применениях.
Источники: Meta