Тест Тьюринга предложен математиком Аланом Тьюрингом в 1950 году. Он оценивает, способна ли машина проявлять интеллект, неотличимый от человеческого. Чтобы искусственный разум прошел тест Тьюринга, он должен обмануть собеседника, заставив его думать, что он человек.
Исследователи из Института инженеров электротехники и электроники попросили 500 человек поговорить с четырьмя собеседниками: человеком, программой ELIZA, созданной в 1960-х, а также чат-ботами на базе больших языковых моделей GPT-3.5 и GPT-4. Разговоры длились пять минут — после чего участники должны были сказать, верят ли они, что разговаривали с человеком или ИИ. Оказалось, что участники считали GPT-4 человеком 54 % времени. ELIZA признали человеком всего 22 %, GPT-3.5 набрал 50%, а человек набрал 67 %.
В то же время ученые отмечают, что подход, используемый в тесте Тьюринга, слишком упрощен, ведь социально-эмоциональные факторы играют большую роль в его прохождении, чем объективные представления о том, что такое интеллект. Однако исследовательница ИИ Нелл Уотсон отмечает: эксперимент показывает, что в будущем мы станем все более параноидальными относительно истинной природы наших собеседников в интернете, особенно если разговор касается деликатных вопросов.
Также Уотстон подчеркивает, как ИИ изменился в эпоху нейросетей, ведь ELIZA была запрограммирована заранее подготовленными ответами, что сильно ограничивало ее возможности:
Она [ELIZA] могла обмануть кого-то на пять минут, но вскоре ее ограничения становятся очевидны. Языковые модели бесконечно гибки, способны синтезировать ответы на широкий спектр тем, говорить на определенных языках или социолектах и изображать из себя личность с собственным характером и ценностями. Это огромный шаг вперед по сравнению с чем-то, что было запрограммировано вручную человеком, как бы умело и тщательно это ни было сделано.