ChatGPT 4o умеет работать не только с текстом, но и с аудио, видео, а также синтезировать речь, при этом производительность модели находится на уровне предыдущей самой мощной нейросети OpenAI — ChatGPT Turbo.
В среднем модель реагирует на звук за 320 мс, что сопоставимо со временем реакции человека. Но кроме того, GPT 4o умеет различать нюансы в голосе и даже распознавать сарказм и в зависимости от этого давать разные ответы. ИИ свободно владеет 50 языками, включая русский, и доступна всем пользователям.
Однако доступ к голосовым возможностям пока открыт только для небольшого круга доверенных партнеров OpenAI, а ориентировочно в июне его получат платные подписчики. Компания выложила на своем сайте серию роликов, показывающих, как работает новая нейросеть.