Содержание
Google и NVIDIA оптимизировали открытые модели Gemma 4 для запуска на потребительских видеокартах GeForce RTX. Идея простая: локальные «агентные» сценарии, где ассистент работает на вашем ПК и берёт контекст из файлов и приложений, а не гоняет запросы в облако.
Речь про всю свежую линейку Gemma 4: варианты E2B, E4B, 26B и 31B. По заявлению компаний, оптимизации закрывают широкий диапазон железа: от дата-центров и рабочих станций до RTX-ПК, персонального «AI-суперкомпьютера» NVIDIA DGX Spark и edge-модулей Jetson Orin Nano.
Какие модели Gemma 4 вышли и на что они нацелены
Gemma 4 — это семейство компактных open-моделей, которые проектировали под эффективный локальный запуск на разных устройствах. В линейке есть как «малые» варианты для низкой задержки, так и крупнее — под рассуждения и разработку, где важны качество и инструментальность.
- E2B: ультраэффективный инференс с низкой задержкой, в том числе на edge-устройствах
- E4B: тот же фокус на офлайне и скорости, но с большим запасом по качеству
- 26B: упор на высокопроизводительные сценарии, включая агентные пайплайны и developer-задачи
- 31B: старший вариант для reasoning и рабочих процессов разработчика
Отдельно отмечают, что E2B и E4B рассчитаны на офлайн-работу и «почти нулевую» задержку на множестве устройств, включая модули Jetson Nano. А 26B и 31B адресуют более тяжёлые сценарии, где важны рассуждения и инструменты для разработчиков.
Gemma 4 как «агент»: tool use, мультимодальность и языки
Главный акцент в анонсе — не «чатик на видеокарте», а локальная агентность. Gemma 4 получила нативную поддержку структурированного использования инструментов (function calling). Это базовый кирпич для ассистентов, которые не только отвечают текстом, но и вызывают функции, ходят в приложения и автоматизируют задачи.
- Reasoning: решение сложных задач, где важна логика и последовательность
- Coding: генерация кода и отладка в dev-процессах
- Agents: встроенная поддержка tool use через function calling
- Vision, Video, Audio: мультимодальные сценарии, включая распознавание объектов, ASR и анализ документов или видео
- Interleaved multimodal input: текст и изображения можно смешивать в одном промпте в любом порядке
- Multilingual: 35+ языков «из коробки», предобучение на 140+ языках
Почему RTX важны для локального запуска Gemma 4
Смысл оптимизаций под RTX — в предсказуемой производительности и совместимости «с первого дня». NVIDIA прямо связывает это с двумя вещами: ускорением инференса через Tensor Cores и зрелостью стека CUDA, который закрывает совместимость с популярными фреймворками и инструментами.
Для пользователя это упирается в практику: выше пропускная способность и ниже задержка при локальном запуске. А для разработчиков агентов это значит меньше ручной возни с адаптацией модели под разные ПК — от Jetson на краю до RTX в рабочей станции.
Ещё один конкретный пункт: Gemma 4 заявлена совместимой с OpenClaw — приложениями, которые держат «always-on» ассистента на RTX-ПК, рабочих станциях и DGX Spark. Такой агент может подтягивать контекст из личных файлов, приложений и рабочих процессов, чтобы автоматизировать задачи.
По данным NVIDIA, для локального деплоя они работали с Ollama и llama.cpp, а Unsloth заявила поддержку «в день выхода» с оптимизированными и квантизованными вариантами для эффективного локального fine-tuning и запуска через Unsloth Studio.
Первоисточник: по данным NVIDIA и Google (пресс-релиз о совместной оптимизации Gemma 4 под GPU NVIDIA).