Считается, что когда вы говорите с Яндексом – вам просто скучно. Но когда Яндекс вам отвечает – это однозначно шизофрения.
Теперь все иначе: Яндекс выпустил сразу три работоспособные технологии, позволяющие использовать голосовой интерфейс на достаточно высоком для комфортной работы уровне.
Функция 1: ГОЛОСОВАЯ АКТИВАЦИЯ.
Вы выбираете кодовое слово, и программа после распознавания запускает прикрепленную к нему функцию. Теоретически, после фразы «Слушай, Яндекс, а как мне приготовить слона?» вас должно переносить на страницу с рецептами. Аналогичная функция давно была у Google, но поскольку она адаптировалась под английский язык, то русский сленг был для нее совсем уж тарабарщиной. Вместо фразы «слушай, Яндекс» требовалось начинать запрос с «ok, Google» и нормальная работа требовала непрерывного соединения с интернетом.
Функция 2: ВЫДЕЛЕНИЕ ИЗ РЕЧИ СМЫСЛОВЫХ ОБЪЕКТОВ.
Это как понимание вашей речи собакой. Вы говорите: «хватит валяться, Бобик, сгоняй-ка мне лучше за мячиком», а пес слышит «бла-бла-бла, Бобик, бла-бла-бла мячик». И все понятно.
Но программы так не умели. До недавнего времени для выполнения какого-то действия микрофоны должны были уловить точное совпадение фразы, да еще и с правильной дикцией, и без акцента. Сейчас программный мозг сравнился с собачьим. Специальные алгоритмы слушают фразу и выделяют из нее основной смысл, по которому и выполняется действие. Это очень важно для сторонних разработчиков, которым раньше приходилось писать алгоритмы вручную с самого нуля, а теперь они могут просто взять готовый инструмент и сразу встроить его в свой функционал.
Функция 3: СИНТЕЗАТОР РЕЧИ.
Теперь система сможет проговаривать написанное. Причем, будет делать это вполне человеческим и почти не «роботизированным» ломающимся на полуслове голосом.
Классические методы предусматривали работу профессиональных дикторов, которые произносили в микрофон огромные словарные объемы. Весь записанный материал потом дробился на части отдельных слов, из которых потом конструировались фразы. На слух получалось немного «неровно», но все же лучше, чем ничего.
Сейчас Яндекс садит перед аппаратурой непрофессионала, который говорит. Просто говорит. Чем больше и дольше, тем точнее потом окажется его виртуальный разговорный клон.
Представители Яндекса не считают, что произвели революцию в работе с голосом. Но они определенно вывели эту область технологий на уровень удобного широкомасштабного применения.