Сегодня Microsoft анонсировала выпуск семейства моделей Phi-3.5, включающего в себя Phi-3.5-vision, Phi-3.5-MoE и Phi-3.5-mini. Эти легковесные модели созданы на основе синтетических данных и отфильтрованных общедоступных веб-сайтов и поддерживают контекст длиной 128 тысяч токенов. Все ИИ-модели доступны на платформе Hugging Face под лицензией MIT.
Phi-3.5-MoE является первой моделью в семействе Phi, использующей технологию Mixture of Experts (MoE). Эта модель MoE с 16 группами и 3,8 миллиардами параметров использует 6,6 миллиарда параметров и была обучена на 4,9 триллионах токенов с использованием 512 графических процессоров H100. Команда Microsoft Research разработала модель с нуля, чтобы повысить её производительность. В стандартных AI-бенчмарках Phi-3.5-MoE превосходит Llama-3.1 8B, Gemma-2-9B и Gemini-1.5-Flash, а также приближается к текущему лидеру, GPT-4o-mini.
Phi-3.5-mini — модель с 3,8 миллиардами параметров, превосходящая Llama3.1 8B и Mistral 7B, и даже конкурирующая с Mistral NeMo 12B. Обученная на 3,4 триллионах токенов с использованием 512 графических процессоров H100, эта модель соперничает в многоязычных задачах с LLM, имеющими гораздо больше активных параметров. Phi-3.5-mini теперь поддерживает контекст длиной в 128 тысяч токенов, в то время как её основной конкурент, Gemma-2, ограничивается всего 8 тысячами токенов.
Phi-3.5-vision — последняя модель с 4,2 миллиардами параметров, обученная на 500 миллиардах токенов при помощи 256 графических процессоров A100. Она поддерживает анализ многофреймовых изображений и демонстрирует улучшение производительности в бенчмарках: результаты в MMMU увеличились с 40.2 до 43.0, MMBench — с 80.5 до 81.9, а в бенчмарке понимания документов TextVQA — с 70.9 до 72.0.
Ожидается, что Microsoft раскроет дополнительные подробности о линейке моделей Phi-3.5 в ближайшее время. Выпуск Phi-3.5 позволяет оценить прогресс в области ИИ-моделей. Фокусируясь на компактности и высокой производительности, Phi-3.5 вполне могут найти широкое применение в разнообразных ИИ-приложениях.