Сергей Пальмов: "В будущем голосовые системы станут умнее"

Включить музыку, найти необходимую информацию в интернете, заказать товар или услугу, прослушать новости — это далеко не полный список того, что можно сделать с помощью голосовых помощников, которые стали неотъемлемой частью нашей жизни. Их работу обеспечивает голосовой пользовательский интерфейс. Об особенностях его создания и функционирования "Цифра" поговорила с кандидатом технических наук, доцентом кафедры информационных систем и технологий ПГУТИ Сергеем Пальмовым.

— Сергей Вадимович, что такое голосовой пользовательский интерфейс?

— Голосовой пользовательский интерфейс (Voice User Interface, VUI) — способ общаться с системой, когда вместо "кликов" и набора текста ты просто говоришь. Тут важна не только связь "спросил — ответили", но и целая цепочка действий: система "слушает", переводит звук в текст, пытается понять, что ты от нее хочешь, решает, что сделать, и отвечает тебе голосом. Проще говоря — это как разговор с помощником, только он встроен в приложение или устройство. Кроме того, хороший VUI предполагает еще и продуманный сценарий разговора, правила реакции на то или иное поведение пользователя и умение корректно "выйти" из тупика.

— Какие задачи он решает? Каковы области применения VUI?

— VUI решает те задачи, где голосовой ввод быстрее и удобнее ручного: быстрый поиск, включение устройств, голосовое меню в службах поддержки, оформление заказа, навигация в автомобиле и так далее. Применение — банки (интерактивное голосовое меню/боты), колл-центры (автоответчики и ассистенты операторов), розничная торговля (заказ товаров), здравоохранение (медицинские справки и навигация по сервисам), автомобили, бытовая техника и многое другое. "Голос" не всегда заменяет "обычный" графический интерфейс полностью — чаще он дополняет его там, где это действительно удобно.

— Каковы его ключевые элементы?

— "Классический" набор элементов включает инструменты для автоматического распознавания речи (ASR), понимания намерений пользователя (NLU), также присутствуют диалоговый менеджер (ведет диалог с человеком) и модуль, преобразующий текст в речь (TTS) для вывода ответа. Кроме того, нужны средства логирования и аналитики — без них сложно понять, где пользователь теряется и на каком этапе диалог перестает работать так, как задумывалось.

— Какие технологии используются для реализации VUI?

— Чем сложнее VUI, тем, как правило, задействуются все более сложные технологии. Для получения качественного продукта используют нейросетевые архитектуры типа "трансформер" (распознавание речи, выявление намерений пользователя, ведение диалога). Также применяют и менее тяжелую "артиллерию", например, правила ("ЕСЛИ пользователь не отвечает более n секунд, ТО повторить вопрос") или гибридные решения (например, нейросеть формирует результат, но перед дальнейшим использованием он дополнительно проверяется при помощи правил). Часто используют облачные сервисы ("Яндекс", ВК, "Ростелеком" и т. д.). Отдельной задачей является управление "просодией" — паузами, ударениями и скоростью речи. Например, если пользователь нервничает, то система может начать разговаривать с ним более спокойным, доброжелательным тоном.

— Какие специалисты занимаются созданием VUI?

— Обычно в команду входят различные специалисты: продуктовый менеджер ставит задачу, UX/VUI-дизайнер проектирует сценарии, лингвисты и сценаристы пишут фразы и варианты ответов, ML-инженеры строят модели ASR/NLU/TTS, бэкенд-разработчики интегрируют сервисы, QA-инженеры тестируют диалоги, аналитики собирают метрики. Иногда нужны эксперты по обработки звука и актеры для записи образца речи. В небольших коллективах роли могут совмещаться.

— Какие преимущества получает цифровая платформа, имея в своей структуре VUI?

— Скорость — голосовые команды часто выполняются быстрее, чем ввод текста. Доступность для ЛОВЗ — люди с нарушениями зрения или моторики получают удобный путь взаимодействия с цифровыми сервисами. Третий аспект — удобство в ситуациях, когда "руки заняты" (за рулем, на кухне). Также VUI помогает разгрузить службу поддержки, потому что рутинные операции автоматизируются. Наконец, у человека создается ощущение персонализации, что повышает лояльность пользователей (клиенту приятно, когда к нему обращаются по имени вежливым голосом).

— Всем ли видам цифровых платформ нужен VUI?

— Нет, далеко не всем. Если основная работа — визуальная и связанная с выполнением большого числа "тонких" манипуляций (редактирование фото, детальная аналитика), голос едва ли заменит графический интерфейс. Но если задачи представляют собой быстрые запросы, управление устройствами, поиск по базе или проверку доступности — VUI может дать значимый плюс. Решение внедрять "голос" или нет всегда продуктовое: сначала выясняют, какие задачи это реально улучшит, и оценивают, окупятся ли затраты на разработку и поддержку.

— Какое значение для функционирования VUI имеет его дизайн?

— Дизайн здесь ключевой фактор. Голос слушают, а не "скроллят": длинные инструкции утомляют, а в запутанных ветках диалогов легко потеряться. Нужны простые шаги, понятные подсказки и предсказуемые ответы. Плохо спроектированный диалог раздражает, пользователи перестают понимать суть и уходят — поэтому дизайн во многом определяет успех VUI.

— Каковы ключевые особенности дизайна голосового пользовательского интерфейса?

— Краткость (короткие фразы), явные опции при выборе ("скажи "да" или "нет"); дополнительное подтверждение важных действий; сценарии, которые помогают системе не "теряться", если пользователь сказал что-то неожиданное; ограничение сложности диалогов; мультимодальность (голос + визуальные подсказки); и внимание к просодии — где сделать паузу, что подчеркнуть и т. д. Также важны сценарии "выхода" — как быстро переключиться на человека-оператора или на другой канал взаимодействия с пользователем.

— Вы уже второй раз упомянули просодию, расскажите, пожалуйста, подробнее о ней — в чем ее важность?

— Просодия — это "музыка речи": интонация, ударения, паузы и темп. Без нее синтезированный голос звучит "плоско" и утомительно; с ней — естественно и доверительно. Современные инструменты позволяют управлять просодией, расставляя паузы, изменяя интонацию, правильно произнося числа и проч. Хорошая просодия улучшает понимание и снижает количество повторных вопросов со стороны человека.

— Какие знания/навыки по работе с VUI получают студенты ПГУТИ?

— Студенты знакомятся с конвейером VUI: распознавание речи → выявление намерений → принятие решения → озвучание решений (текст-в-речь), учатся проектировать диалоги, выявлять намерения и собирать метрики качества.

— Как, по-вашему, будет развиваться голосовой интерфейс дальше?

— В будущем голосовые системы станут умнее: они будут чаще использовать большие языковые модели и похожие на них мультимодальные решения, комбинируя строгие правила с возможностями генеративных нейронных сетей. При этом часть обработки станет выполняться прямо на устройстве — это быстрее и безопаснее для данных пользователя, а также системы станут лучше подстраиваться под конкретного человека. Важным останется контроль безопасности и проверка фактов у сгенерированных ответов, чтобы избежать "галлюцинаций" (данных, отсутствующих в реальности). "Голос" будет развиваться не как замена, но как часть набора каналов взаимодействия — там, где он реально добавляет ценность цифровому сервису.

Последние комментарии

Кирилл Леоров 27 мая 2024 09:16 Сбер выпустил памятку по безопасности для детей

Сотрудничество Сбера с Лизой Алерт в создании памятки демонстрирует важность коллективных усилий в обеспечении безопасноси детей.

Иван Гончар 11 января 2024 13:16 Умер Народный артист СССР Юрий Соломин

царствие ему небесное.все мы только гости на этой земле.

Пн	Вт	Ср	Чт	Пт	Сб	Вс
30	31	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	1	2	3

Общество

Сергей Пальмов: "В будущем голосовые системы станут умнее"

Последние комментарии

Фото на сайте

Новости раздела