Это алгоритм (разработано также и приложение для смартфона), который позволяет считывать текст по движению губ в шумных местах, повышая тем самым точность восприятия команд голосовым помощником.
Пресс-служба СПб ФИЦ РАН: «В основе приложения лежит нейросетевая модель, которую научили распознавать по аудиовизуальным сигналам (видеозаписям, сопровождающимися звуком) несколько сотен наиболее распространенных команд. Причем, по словам ученых, созданная нейросеть способна воспринимать аудиовизуальный сигнал и автоматически принимать решение о том, какие данные (видео или звук, или оба) при распознавании дадут максимальную точность». (ТАСС)
В тестировании алгоритма принимали участие водители грузовых машин, в кабинах которых очень шумно. На их смартфоны было установлено данное приложение. В результате эксперимента зафиксировали интересные данные: эффективность выполнения голосовых команд при распознавании речи по губам составила 60-80%, а при комбинированном способе (звук плюс движение губ) — 90%.
Старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько: «Мы предполагаем, что в будущем наше приложение может найти применение у пилотов самолетов и тяжелой промышленной техники или для использования в интерактивных информационных киосках в торговых центрах и других местах массового скопления людей». (ТАСС)