Samsung укрепляет лидерство в области искусственного интеллекта, представив TRUEBench — передовой инструмент для оценки производительности ИИ в смартфонах. Этот бенчмарк, разработанный Samsung Research, стал ответом на ограничения существующих решений, которые часто тестируют ИИ только на английском языке и в простых сценариях вопросов и ответов. TRUEBench меняет правила игры, предлагая комплексный подход к оценке возможностей ИИ в реальных условиях.
Инструмент включает 2485 тестов, разделённых на 10 категорий и 46 подкатегорий, охватывающих 12 языков, включая русский, китайский и испанский. Тесты варьируются от коротких запросов из 8 символов до сложных задач по анализу текстов длиной свыше 20 000 символов. Это позволяет оценить ИИ в таких востребованных задачах, как создание контента, анализ данных, перевод и суммаризация текстов. Например, TRUEBench может проверить, как ИИ справляется с переводом делового письма на несколько языков или сжатием длинного отчёта в краткую сводку.

По данным Samsung, TRUEBench использует автоматизированную систему оценки, усиленную экспертной проверкой людьми, что обеспечивает точность результатов. Доступ к тестовым наборам и таблицам лидеров открыт на платформе Hugging Face, где разработчики могут сравнить до пяти моделей ИИ по производительности и энергоэффективности. Это делает инструмент полезным не только для Samsung, но и для всей индустрии.
Пол Чон, технический директор подразделения DX в Samsung Electronics, отметил: «TRUEBench отражает наш опыт в создании ИИ для реальных задач. Мы уверены, что этот бенчмарк станет стандартом для оценки продуктивности ИИ и укрепит позиции Samsung как лидера технологий».
В 2025 году рынок ИИ в мобильных устройствах, по прогнозам аналитиков Statista, вырастет до $40 млрд, и такие инструменты, как TRUEBench, помогают компаниям адаптировать ИИ к реальным потребностям пользователей. Samsung уже интегрировала ИИ-функции в свои смартфоны Galaxy, включая распознавание речи и оптимизацию задач, и TRUEBench станет основой для дальнейших инноваций.
