05.04.2024 | ИИ на голодном пайке: интернет исчерпывает ресурсы для обучения |
Компании, разрабатывающие искусственный интеллект, сталкиваются с новой проблемой: объёмы интернета могут оказаться недостаточными для их амбициозных проектов. Газета The Wall Street Journal описала возможные перспективы в сфере ИИ. Увеличивающаяся мощность систем, разработанных OpenAI, Google и другими, требует всё больших объёмов информации для обучения, что приводит к напряжённости на рынке публичных данных. При этом некоторые владельцы данных ограничивают доступ к ним для компаний, занимающихся ИИ. Отраслевые эксперты предупреждают, что потребность в высококачественных текстовых данных может превысить предложение в течение двух лет, что потенциально замедлит развитие ИИ. Поэтому компании ищут неиспользованные источники информации и переосмысливают подходы к обучению своих систем. OpenAI рассматривает возможность обучения своей следующей модели, GPT-5, на транскрипциях видео с YouTube . Также ведутся эксперименты с использованием синтетических данных, хотя многие исследователи считают, что это может привести к серьёзным сбоям в работе моделей. Нехватка данных – лишь одна из проблем, с которыми сталкивается индустрия ИИ. Кроме того, существует дефицит чипов, необходимых для работы больших языковых моделей, вроде ChatGPT и Gemini, а также недостаток дата-данных и электроэнергии для их питания. Языковые модели ИИ обучаются на текстах из интернета, включая научные исследования, новостные статьи и статьи из Википедии. Считается, что чем больше данных используется для обучения, тем способнее становится модель. Однако по оценкам специалистов, даже использование всех доступных качественных языковых данных и изображений может составить дефицит в 10-20 триллионов токенов или больше. В то же время социальные платформы, новостные издания и другие участники рынка ограничивают доступ к своим данным для обучения ИИ из-за опасений, связанных с вопросами справедливого вознаграждения. Открытая позиция в отношении использования частных данных для обучения моделей также не находит широкой поддержки. Некоторые компании, включая OpenAI и Anthropic, изучают возможности создания высококачественных синтетических данных для обучения своих моделей, чтобы избежать проблем, возникающих при использовании искусственно сгенерированных текстов. Тем не менее, в индустрии сохраняется оптимизм относительно поиска решений для текущих проблем с данными. Эксперты сравнивают текущую ситуацию с «пиком нефти», предполагая, что, подобно развитию технологий, позволяющих преодолеть нефтяные кризисы, в сфере ИИ также могут появиться прорывные решения. |
Проверить безопасность сайта