Бесплатно Экспресс-аудит сайта:

05.04.2024

ИИ на голодном пайке: интернет исчерпывает ресурсы для обучения

Компании, разрабатывающие искусственный интеллект, сталкиваются с новой проблемой: объёмы интернета могут оказаться недостаточными для их амбициозных проектов. Газета The Wall Street Journal описала возможные перспективы в сфере ИИ.

Увеличивающаяся мощность систем, разработанных OpenAI, Google и другими, требует всё больших объёмов информации для обучения, что приводит к напряжённости на рынке публичных данных. При этом некоторые владельцы данных ограничивают доступ к ним для компаний, занимающихся ИИ.

Отраслевые эксперты предупреждают, что потребность в высококачественных текстовых данных может превысить предложение в течение двух лет, что потенциально замедлит развитие ИИ. Поэтому компании ищут неиспользованные источники информации и переосмысливают подходы к обучению своих систем. OpenAI рассматривает возможность обучения своей следующей модели, GPT-5, на транскрипциях видео с YouTube . Также ведутся эксперименты с использованием синтетических данных, хотя многие исследователи считают, что это может привести к серьёзным сбоям в работе моделей.

Нехватка данных – лишь одна из проблем, с которыми сталкивается индустрия ИИ. Кроме того, существует дефицит чипов, необходимых для работы больших языковых моделей, вроде ChatGPT и Gemini, а также недостаток дата-данных и электроэнергии для их питания.

Языковые модели ИИ обучаются на текстах из интернета, включая научные исследования, новостные статьи и статьи из Википедии. Считается, что чем больше данных используется для обучения, тем способнее становится модель. Однако по оценкам специалистов, даже использование всех доступных качественных языковых данных и изображений может составить дефицит в 10-20 триллионов токенов или больше.

В то же время социальные платформы, новостные издания и другие участники рынка ограничивают доступ к своим данным для обучения ИИ из-за опасений, связанных с вопросами справедливого вознаграждения. Открытая позиция в отношении использования частных данных для обучения моделей также не находит широкой поддержки.

Некоторые компании, включая OpenAI и Anthropic, изучают возможности создания высококачественных синтетических данных для обучения своих моделей, чтобы избежать проблем, возникающих при использовании искусственно сгенерированных текстов. Тем не менее, в индустрии сохраняется оптимизм относительно поиска решений для текущих проблем с данными. Эксперты сравнивают текущую ситуацию с «пиком нефти», предполагая, что, подобно развитию технологий, позволяющих преодолеть нефтяные кризисы, в сфере ИИ также могут появиться прорывные решения.