Сергей Пальмов: "В будущем голосовые системы станут умнее"

Включить музыку, найти необходимую информацию в интернете, заказать товар или услугу, прослушать новости — это далеко не полный список того, что можно сделать с помощью голосовых помощников, которые стали неотъемлемой частью нашей жизни. Их работу обеспечивает голосовой пользовательский интерфейс. Об особенностях его создания и функционирования "Цифра" поговорила с кандидатом технических наук, доцентом кафедры информационных систем и технологий ПГУТИ Сергеем Пальмовым.

Фото: предоставлено Сергеем Пальмовым

— Сергей Вадимович, что такое голосовой пользовательский интерфейс?

— Голосовой пользовательский интерфейс (Voice User Interface, VUI) — способ общаться с системой, когда вместо "кликов" и набора текста ты просто говоришь. Тут важна не только связь "спросил — ответили", но и целая цепочка действий: система "слушает", переводит звук в текст, пытается понять, что ты от нее хочешь, решает, что сделать, и отвечает тебе голосом. Проще говоря — это как разговор с помощником, только он встроен в приложение или устройство. Кроме того, хороший VUI предполагает еще и продуманный сценарий разговора, правила реакции на то или иное поведение пользователя и умение корректно "выйти" из тупика.

— Какие задачи он решает? Каковы области применения VUI?

— VUI решает те задачи, где голосовой ввод быстрее и удобнее ручного: быстрый поиск, включение устройств, голосовое меню в службах поддержки, оформление заказа, навигация в автомобиле и так далее. Применение — банки (интерактивное голосовое меню/боты), колл-центры (автоответчики и ассистенты операторов), розничная торговля (заказ товаров), здравоохранение (медицинские справки и навигация по сервисам), автомобили, бытовая техника и многое другое. "Голос" не всегда заменяет "обычный" графический интерфейс полностью — чаще он дополняет его там, где это действительно удобно.

— Каковы его ключевые элементы?

— "Классический" набор элементов включает инструменты для автоматического распознавания речи (ASR), понимания намерений пользователя (NLU), также присутствуют диалоговый менеджер (ведет диалог с человеком) и модуль, преобразующий текст в речь (TTS) для вывода ответа. Кроме того, нужны средства логирования и аналитики — без них сложно понять, где пользователь теряется и на каком этапе диалог перестает работать так, как задумывалось.

— Какие технологии используются для реализации VUI?

— Чем сложнее VUI, тем, как правило, задействуются все более сложные технологии. Для получения качественного продукта используют нейросетевые архитектуры типа "трансформер" (распознавание речи, выявление намерений пользователя, ведение диалога). Также применяют и менее тяжелую "артиллерию", например, правила ("ЕСЛИ пользователь не отвечает более n секунд, ТО повторить вопрос") или гибридные решения (например, нейросеть формирует результат, но перед дальнейшим использованием он дополнительно проверяется при помощи правил). Часто используют облачные сервисы ("Яндекс", ВК, "Рос­телеком" и т. д.). Отдельной задачей является управление "просодией" — паузами, ударениями и скоростью речи. Например, если пользователь нервничает, то система может начать разговаривать с ним более спокойным, доброжелательным тоном.

— Какие специалисты занимаются созданием VUI?

— Обычно в команду входят различные специалисты: продуктовый менеджер ставит задачу, UX/VUI-дизайнер проектирует сценарии, лингвисты и сценаристы пишут фразы и варианты ответов, ML-инженеры строят модели ASR/NLU/TTS, бэкенд-разработчики интегрируют сервисы, QA-инженеры тестируют диалоги, аналитики собирают метрики. Иногда нужны эксперты по обработки звука и актеры для записи образца речи. В небольших коллективах роли могут совмещаться.

— Какие преимущества получает цифровая платформа, имея в своей структуре VUI?

— Скорость — голосовые команды часто выполняются быстрее, чем ввод текста. Доступность для ЛОВЗ — люди с нарушениями зрения или моторики получают удобный путь взаимодействия с цифровыми сервисами. Третий аспект — удобство в ситуациях, когда "руки заняты" (за рулем, на кухне). Также VUI помогает разгрузить службу поддержки, потому что рутинные операции автоматизируются. Наконец, у человека создается ощущение персонализации, что повышает лояльность пользователей (клиенту приятно, когда к нему обращаются по имени вежливым голосом).

— Всем ли видам цифровых платформ нужен VUI?

— Нет, далеко не всем. Если основная работа — визуальная и связанная с выполнением большого числа "тонких" манипуляций (редактирование фото, детальная аналитика), голос едва ли заменит графический интерфейс. Но если задачи представляют собой быстрые запросы, управление устройствами, поиск по базе или проверку доступности — VUI может дать значимый плюс. Решение внедрять "голос" или нет всегда продуктовое: сначала выясняют, какие задачи это реально улучшит, и оценивают, окупятся ли затраты на разработку и поддержку.

— Какое значение для функционирования VUI имеет его дизайн?

— Дизайн здесь ключевой фактор. Голос слушают, а не "скроллят": длинные инструкции утомляют, а в запутанных ветках диалогов легко потеряться. Нужны простые шаги, понятные подсказки и предсказуемые ответы. Плохо спроектированный диалог раздражает, пользователи перестают понимать суть и уходят — поэтому дизайн во многом определяет успех VUI.

— Каковы ключевые особенности дизайна голосового пользовательского интерфейса?

— Краткость (короткие фразы), явные опции при выборе ("скажи "да" или "нет"); дополнительное подтверждение важных действий; сценарии, которые помогают системе не "теряться", если пользователь сказал что-то неожиданное; ограничение сложности диалогов; мультимодальность (голос + визуальные подсказки); и внимание к просодии — где сделать паузу, что подчеркнуть и т. д. Также важны сценарии "выхода" — как быстро переключиться на человека-­оператора или на другой канал взаимодействия с пользователем.

— Вы уже второй раз упомянули просодию, расскажите, пожалуйста, подробнее о ней — в чем ее важность?

— Просодия — это "музыка речи": интонация, ударения, паузы и темп. Без нее синтезированный голос звучит "плоско" и утомительно; с ней — естественно и доверительно. Современные инструменты позволяют управлять просодией, расставляя паузы, изменяя интонацию, правильно произнося числа и проч. Хорошая просодия улучшает понимание и снижает количество повторных вопросов со стороны человека.

— Какие знания/навыки по работе с VUI получают студенты ПГУТИ?

— Студенты знакомятся с конвейером VUI: распознавание речи → выявление намерений → принятие решения → озвучание решений (текст-в-речь), учатся проектировать диалоги, выявлять намерения и собирать метрики качества.

— Как, по-вашему, будет развиваться голосовой интерфейс дальше?

— В будущем голосовые системы станут умнее: они будут чаще использовать большие языковые модели и похожие на них мультимодальные решения, комбинируя строгие правила с возможностями генеративных нейронных сетей. При этом часть обработки станет выполняться прямо на устройстве — это быстрее и безопаснее для данных пользователя, а также системы станут лучше подстраиваться под конкретного человека. Важным останется контроль безопасности и проверка фактов у сгенерированных ответов, чтобы избежать "галлюцинаций" (данных, отсутствующих в реальности). "Голос" будет развиваться не как замена, но как часть набора каналов взаимодействия — там, где он реально добавляет ценность цифровому сервису.

Последние комментарии

Кирилл Леоров 27 мая 2024 09:16 Сбер выпустил памятку по безопасности для детей

Сотрудничество Сбера с Лизой Алерт в создании памятки демонстрирует важность коллективных усилий в обеспечении безопасноси детей.

Иван Гончар 11 января 2024 13:16 Умер Народный артист СССР Юрий Соломин

царствие ему небесное.все мы только гости на этой земле.

Фото на сайте

Все фотогалереи

Новости раздела

Все новости
Архив
Пн Вт Ср Чт Пт Сб Вс
30 31 1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 1 2 3