Среда, 24 апреля, 2024

16+

В Санкт-Петербургском Федеральном исследовательском центре РАН создали нейросеть, которая читает по губам

Время на чтение 1 мин.

Это алгоритм (разработано также и приложение для смартфона), который позволяет считывать текст по движению губ в шумных местах, повышая тем самым точность восприятия команд голосовым помощником. 

Пресс-служба СПб ФИЦ РАН: «В основе приложения лежит нейросетевая модель, которую научили распознавать по аудиовизуальным сигналам (видеозаписям, сопровождающимися звуком) несколько сотен наиболее распространенных команд. Причем, по словам ученых, созданная нейросеть способна воспринимать аудиовизуальный сигнал и автоматически принимать решение о том, какие данные (видео или звук, или оба) при распознавании дадут максимальную точность». (ТАСС)

В тестировании алгоритма принимали участие водители грузовых машин, в кабинах которых очень шумно. На их смартфоны было установлено данное приложение. В результате эксперимента зафиксировали интересные данные: эффективность выполнения голосовых команд при распознавании речи по губам составила 60-80%, а при комбинированном способе (звук плюс движение губ) — 90%. 

Старший научный сотрудник лаборатории речевых и многомодальных интерфейсов СПб ФИЦ РАН Денис Иванько: «Мы предполагаем, что в будущем наше приложение может найти применение у пилотов самолетов и тяжелой промышленной техники или для использования в интерактивных информационных киосках в торговых центрах и других местах массового скопления людей». (ТАСС)

Свежие новости

spot_img

Оставьте ответ

Пожалуйста, введите свой комментарий!
Пожалуйста, введите ваше имя здесь