05.12.2023 | GPT-4 против 60-летней модели ELIZA: неожиданный исход в тесте Алана Тьюринга |
В недавнем исследовании под названием «Проходит ли GPТ-4 тест Тьюринга?», опубликованном на arXiv , учёные из Калифорнийского университета в Сан-Диего провели занимательное сравнение между живыми людьми, ИИ-моделями GPT-3.5 и GPT-4 , а также виртуальным собеседником ELIZA , написанным в далёком 1966 году. В рамках своего проекта исследователи создали веб-сайт под названием turingtest.live , где они разместили онлайн-реализацию теста Тьюринга для двух участников с целью увидеть, насколько хорошо GPT-4 может убедить людей в своей человечности. Тест Тьюринга, предложенный британским математиком Аланом Тьюрингом в 1950 году, является знаковым, но спорным критерием для оценки способности машины имитировать человеческий разговор. Согласно этому тесту, если человек, выступающий в роли судьи, не может надёжно отличить чат-бота от человека, то говорят, что чат-бот прошёл тест. Однако точные критерии для прохождения данного теста до сих пор остаются предметом дискуссий. Эксперимент, организованный на сайте turingtest.live , включал 652 участника и 1 810 сессий, из которых было проанализировано 1 405. Удивительно, что GPT-3.5, базовая модель бесплатной версии ChatGPT , показала успех лишь в 14%, что исследователи связали с её специализированной подготовкой не представлять себя в качестве человека. В то же время, ELIZA, разработанная почти 60 лет назад учёным-компьютерщиком Джозефом Вайценбаумом из Массачусетского технологического института, показала относительно хорошие результаты во время исследования. Она достигла показателя в 27 процентов, опередив GPT-3.5. GPT-4, флагманская LLM -модель от OpenAI , в свою очередь, показала результат в 41%, уступив лишь реальным людям.
Исследование показало, что при оценке ответов участники опирались в первую очередь на лингвистический стиль и социально-эмоциональные характеристики, а не только на восприятие интеллекта. Такие параметры, как формальность, индивидуальность и общительность ответов, играли ключевую роль. Авторы признают некоторые ограничения исследования, включая возможную выборочную предвзятость и отсутствие стимулов для участников. Они также указывают, что результаты могут поддерживать критику Теста Тьюринга как несовершенного метода измерения машинного интеллекта. Однако они утверждают, что тест по-прежнему актуален для оценки способности ИИ к социальному взаимодействию и обману. В итоге, несмотря на достаточно высокие результаты, GPT-4 всё ещё не соответствует критериям успешности теста Тьюринга. Это открывает новые перспективы и вызовы в развитии ИИ, показывая, что будущее в этой области обещает быть поистине увлекательным. |
Проверить безопасность сайта