09.04.2024 | ИИ требует жертв: как компании нарушают авторские права для обучения своих моделей |
На протяжении последней недели медиа-платформы, такие как The Wall Street Journal и The New York Times, активно обсуждали тему сбора качественных данных для обучения искусственного интеллекта. Отчёты указывают на то, что ведущие компании в области ИИ, включая OpenAI и Google , постоянно сталкиваются с юридическими и этическими проблемами при попытке расширить свои информационные базы. Как сообщается, OpenAI, компания, стоящая за разработкой модели GPT-4, использовала более миллиона часов видео с YouTube для обучения своей аудио-транскрибационной модели Whisper, несмотря на сомнения в законности таких действий. Грег Брокман, президент OpenAI, лично участвовал в сборе данных, что вызвало дискуссии о границах компании в «добросовестном использовании» информации, защищённой авторским правом. В ответ на обвинения представители OpenAI и Google подчеркнули, что их компании используют разнообразные источники данных, в том числе публично доступные, а также исследуют возможность создания синтетических данных. Тем не менее, Google также признала использование контента с YouTube для обучения своих моделей, что, по словам представителей компании, полностью соответствует договорённостям с создателями контента на платформе. Особый интерес вызывает изменение политики конфиденциальности Google, которое, как предполагается, было направлено на расширение возможностей использования потребительских данных. Компания Meta * также столкнулась с проблемами недостатка данных для обучения своих ИИ-моделей, и одно время даже всерьёз обдумывала варианты приобретения лицензий на книги или даже покупки какого-либо крупного издательства для решения проблем с авторскими правами. В контексте этих событий специалисты обсуждают потенциальные решения проблемы исчерпания данных для обучения ИИ, включая создание синтетических данных и куррикулярное обучение, подразумевающее упорядоченную подачу моделям высококачественных данных в надежде, что они смогут использовать «более разумные связи между концепциями», используя гораздо меньше информации. Однако путь использования данных без разрешения владельцев остаётся спорным и может привести к серьёзным юридическим последствиям, учитывая многочисленные судебные иски, поданные только за прошлый год. Эти развития подчёркивают нарастающие вызовы и юридические риски, с которыми сталкиваются ведущие технологические компании в погоне за совершенствованием искусственного интеллекта. * Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ. |
Проверить безопасность сайта