Согласно новому отчёту, компании, занимающиеся искусственным интеллектом, такие как OpenAI, Google и Meta, прибегли к сомнительным методам для получения высококачественных данных для обучения своих генеративных моделей. В статье The New York Times говорится, что OpenAI, по-видимому, транскрибировала более миллиона часов видео с YouTube, чтобы извлечь данные для обучения своей самой передовой крупной языковой модели (LLM) GPT-4.
Как сообщается, OpenAI разработала модель транскрипции аудио Whisper, которая помогла компании извлекать данные из видео на YouTube. The New York Times сообщает, что OpenAI знала, что этот метод может подвергнуться критике, но они пошли на это, потому что считали это добросовестным использованием. Интересно, что Google, которой принадлежит YouTube, также практиковала то же самое для своих моделей ИИ, тем самым нарушая авторские права создателей видео.
Статья The New York Times согласуется с отчётом The Information, где подчёркивалось, что OpenAI якобы извлекала данные из видео и подкастов YouTube для обучения двух своих систем ИИ.
В интервью Bloomberg генеральный директор YouTube Нил Мохан заявил, что политика компании “не допускает загрузки транскриптов или видеофрагментов, и это является явным нарушением наших условий обслуживания”. Однако, когда его спросили, использовались ли данные YouTube компанией OpenAI, Мохан дал неоднозначный ответ.
Далее сообщается, что некоторым сотрудникам Google было известно о транскрибировании данных с YouTube, но они ничего не могли с этим поделать, поскольку сама Google прибегала к той же практике для обучения собственной модели ИИ. Позже компания сообщила, что она извлекает данные только из тех видео, на которые автор дал своё согласие.