Переводчик Google к настоящему моменту уже поддерживал большое количество языков, но разработчики на этом останавливаться не собираются. Одним махом они добавляют поддержку ещё 110 языков. Это стало возможным благодаря большой языковой модели Google PaLM 2.
Среди этих языков много таких, на которых говорят небольшие общины. Есть и более известные языки, вроде кантонского. Также есть возрождаемые языки, такие как мэнкский, последний носитель которого умер в 1974 году.
В блоге Google рассказала о проблемах добавления кантонского языка по причине его сходства с мандаринским диалектом. Это усложнило поиск данных и обучение моделей.
Google поставила перед собой задачу создать модели для поддержки тысячи наиболее распространённых языков. В 2022 году компания применила технологию Zero-Shot Machine Translation, добавив поддержку 24 новых языков.
У новых 110 языков более 614 млн носителей во всём мире. Переводами на них или с них смогут воспользоваться 8% населения планеты. Они станут доступными для пользователей в ближайшие несколько дней на сайте переводчика Google и в приложении для Android и iOS.