Компания xAI объявила о запуске новой мультимодальной модели Grok-1.5V (Grok-1.5 Vision), представляющей собой значительный прогресс в создании интеллектуальных систем. В Grok-1.5V интегрировали обработку визуальной информации, что позволяет ему анализировать документы, диаграммы, графики, фотографии и многое другое.
Согласно заявлениям xAI, Grok-1.5V опережает основных конкурентов по ключевым показателям, демонстрируя выдающиеся результаты в наборе данных RealWorldQA от xAI. Он включает более 700 реальных изображений с вопросами, позволяя оценить способности ИИ понимать сложные визуальные контексты и отслеживает ход решения.
Модель Grok-1.5V умеет преобразовывать рисунки, интерпретировать мемы, конвертировать таблицы в формат CSV и диагностировать проблемы с деревянными покрытиями, основываясь только на изображениях. xAI утверждает, что такой широкий спектр задач подчёркивает потенциал Grok-1.5V в различных областях применения.
Илон Маск основал xAI в июле 2023 года с целью создания более открытого искусственного интеллекта, способного к эффективному взаимодействию с людьми. В ближайшем будущем xAI сосредоточит исследования на улучшении визуализации и мультимодальных рассуждений Grok-1.5V.
Скоро xAI начнёт набор первых тестировщиков для Grok-1.5V, которые предоставят обратную связь и помогут усовершенствовать мультимодальные возможности модели. Доступ к бета-версии Grok будет предоставлен в первую очередь подписчикам X Premium+.