Распознавание речи для мобильных устройств

[ Новые сообщения · Участники · Правила форума · Поиск · RSS ]

Страница 1 из 1 1
Модератор форума: nummer

Распознавание речи для мобильных устройств (Распознавание речи для мобильных устройств)

Распознавание речи для мобильных устройств

nummer

Дата: Воскресенье, 22.03.2009, 18:35 | Сообщение # 1

Admin

Группа: Администраторы

Сообщений: 124

Репутация: 0

Статус: Offline

Распознавание речи для мобильных устройств

Возможности голосового управления и общения на естественном языке наиболее привлекательны для рынка всевозможных миниатюрных и мобильных систем. Клавиатуры портативных компьютеров слишком малы и неудобны для быстрой работы с текстом.

Однако программы распознавания речи в мобильных устройствах решают, как правило, более специализированные задачи, нежели универсальное распознавание слитной речи, поэтому сегодня они уже применяются довольно успешно. А увеличение вычислительных мощностей мобильных устройств позволяет создавать весьма продвинутые программы с расширенными функциями распознавания речи. Среди таких приложений давно известна программа Microsoft Voice Command, которая управляет различными приложениями при помощи голоса (например, можно включить воспроизведение музыки в плеере или создать новый документ), Apple Speech Recognition Manager (которая работает на любом компьютере Macintosh или PowerBook) или Speereo Voice Translator (голосовой переводчик), способный распознавать фразы, произнесенные на английском языке, и проговаривать перевод на одном из выбранных языков.

А в 2008 году компания Microsoft вышла на рынок с новой технологией Sync, которая позволяет объединять КПК, МРЗ-плееры и телефоны с поддержкой Bluetooth, предоставляя пользователю широкие возможности по голосовому управлению всеми цифровыми гаджетами.

Особенно часто подобные технологии используются для голосового управления функциями мобильных устройств в условиях ограниченного применения других интерфейсов. Широко используются также различные приложения для идентификации говорящего по образцу речи (например, при организации доступа к мобильному компьютеру и/или каким-то данным). Сегодня такие решения уже широко доступны для различных категорий клиентов (частных, корпоративных, разработчиков) и реализованы для различных платформ.

Тем не менее, даже самые продвинутые современные мобильные устройства, которые обеспечивают независимое от говорящего распознавание речи (то есть пользователь не должен создавать собственные образцы команд) и предикативный набор (то есть система пытается по своей базе определить, какое слово или фразу вы пытаетесь произнести), имеют ограниченные возможности, и пользователь вынужден выбирать команды из не слишком обширного предлагаемого списка.

Однако такие системы получают все более широкое распространение, а дальнейшее развитие и распространение подобных систем безусловно связывают с успехами в области распознавания живой речи. Пока эффективность работы последних (даже многомодальных и не зависящих от голоса абонента) существенно зависит от фоновых шумов, объема предикативного словаря, ясности речи говорящего и, естественно, мощности обрабатывающего процессора (которая, впрочем, постоянно увеличивается). Кроме того, к развитию этих технологий, безусловно, может подтолкнуть необходимость идентификации пользователя для обеспечения безопасности там, где по каким-либо причинам неудобно использовать другие средства идентификации. Кроме того, распознавание речи необходимо развивать для управления различными бытовыми роботами, которые сегодня переходят из области развлечений в утилитарную сферу бытовых устройств.

Что касается русскоязычных программ, то можно отметить белорусскую компанию «Сакрамент» (http://www.sakrament.com), которая является сегодня одним из ведущих разработчиков русскоязычного ПО в области распознавания русской и английской речи (идентификация голоса, индексация аудио и пр.), а также обработки речи (синтез русской и английской речи — озвучивание текстов).

Есть на российском рынке и другие продукты для КПК с поддержкой распознавания русской речи. Например, компания «Лингвобит», хорошо зарекомендовавшая себя качественной локализацией мобильных операционных систем, предлагает программу-разговорник ЕСТАСО Partner Voice Translator, которая обладает возможностью распознавания русской речи.

nummer

Дата: Воскресенье, 22.03.2009, 18:38 | Сообщение # 2

Admin

Группа: Администраторы

Сообщений: 124

Репутация: 0

Статус: Offline

Распознавание речи в телефонии и в приложениях для информационных и справочных служб

Распознавание речи в телефонии и в приложениях для информационных и справочных служб (так называемых контакт-центров, или call-центров) — это сегодня уже широко распространенная промышленная технология, которая применяется во многих современных мобильных телефонах и в справочных службах.

Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов информационных служб и секретарей, сокращение расходов на оплату труда и повышение производительности систем обслуживания — вот только некоторые преимущества, доказывающие целесообразность подобных решений.

Сегодня в интерактивных телефонных приложениях все чаще используются системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и посредством голосовых команд. При этом современные системы распознавания независимы от произношения, то есть распознают голос любого человека.

Основным преимуществом автоматизированных голосовых систем является их дружелюбность по отношению к пользователю — вопрошающий избавляется от необходимости продираться сквозь сложные и запутанные лабиринты голосовых меню. Теперь достаточно назвать цель звонка, после чего голосовая система автоматически переместит звонящего в нужный пункт (это могут быть, например, справочные службы, автоматизированные коммутаторы предприятий или системы телемаркетинга — обзвона клиентов, заказа билетов и т.д.).

Как показывает практика (и зарубежная, и отечественная), на самом деле клиенты обычно задают одни и те же опросы, поэтому можно довольно быстро подготовить исчерпывающий реестр ответов, которым вполне может оперировать компьютерная программа, обслуживающая многоканальный телефон. Примером может служить разработка фирмы Voice Control Systems (VCS) — плата распознавания голосовых команд Antares, способная обслуживать до 32 телефонных каналов единовременно.

Подобные функции служат и для голосового управления функциями телефонов и коммуникаторов в условиях ограниченного применения других интерфейсов. Многие пользователи мобильной связи давно получили возможность голосового набора в мобильных телефонах вместо ввода длинного ряда цифр или выбора опций из меню по заранее определенным ключевым словам, причем управляющие команды в современных телефонах также практически не зависят от произношения (голоса говорящего) и не требуют предварительной тренировки.

nummer

Дата: Воскресенье, 22.03.2009, 18:47 | Сообщение # 3

Admin

Группа: Администраторы

Сообщений: 124

Репутация: 0

Статус: Offline

Если же у вас возникнут проблемы с голосовым набором, вы можете включить обучение системы, своего рода подстройку под особенности вашего голоса. В этой области уже достигнуты серьезные успехи, а многомодальные интерфейсы комбинируют ввод речи с синтезом возможных ответов или уточнений. Так, распознавание речи сегодня успешно применяется совместно с предикативными системами набора текстов для мобильных телефонов Т9 или iTAP — интеграция речевого распознавания с подобными предикативными системами делает набор текста в телефоне еще более простым и эффективным.

Автоматизированный диалог, в котором система расспрашивает абонента для осуществления дальнейшей навигации, является сегодня вполне обычным и отработанным подходом, и мы не стали бы рассматривать эти технологии так подробно, если бы не имели проблем в русскоговорящих системах. Ведь в то время, когда особо продвинутые контакт-центры на Западе поддерживают даже подобие естественного языка, на котором робот может легко ответить на вопрос и направить абонента в соответствующее место или сообщить ему необходимую информацию, у нас до сих пор распространены только системы, имеющие весьма ограниченные возможности и осуществляющие выбор из не слишком обширного списка вопросов-ответов. Однако и такие системы позволяют существенно повысить эффективность соответствующих служб и должны внедряться более активно. Также для управления мобильными устройствами люди все чаще используют голосовые команды, вызывают голосом абонентов из записной книжки, выбирают музыку из альбомов мобильного телефона или коммуникатора, а также широко пользуются голосовым управлением для ввода текста, когда посылают простые SMS-сообщения.

Дальнейшее развитие подобных систем, естественно, связывают с успехами в области распознавания живой речи, так же как и на настольных и мобильных компьютерах, хотя большая специализация телефонных систем позволяет меньше зависеть и от фоновых шумов, и от объема предикативного словаря, и от ясности речи говорящего, и от мощности обрабатывающего процессора. Так что и в настоящее время работа по расширению возможностей систем распознавания речи в телефонии и в приложениях для контакт-центров, увеличению их вариативности, а также ведению автоматизированных диалогов на языке, все более приближающемся к естественному, еще далека от завершения.

nummer

Дата: Воскресенье, 22.03.2009, 18:59 | Сообщение # 4

Admin

Группа: Администраторы

Сообщений: 124

Репутация: 0

Статус: Offline

Синтез речи

Успехи в области преобразования текста в живую речь в последнее время особенно впечатляют. Несмотря на то что роботизированный звук все еще отличается от человеческой речи, применение синтеза уже ни у кого не вызывает отторжения, хотя, согласно многочисленным исследованиям, при бесстрастном и лишенном эмоциональной окраски произнесении текстов часть смысла теряется.

Сегодня системы синтезированной речи могут произнести SMS-сообщение на телефоне и письмо, присланное электронной почтой, озвучить указания автомобильной навигационной системы и даже заменить во многих службах оператора-человека. Во всем мире службы автоматического оповещения получили уже довольно широкое распространение, что позволяет говорить об этой технологии как о состоявшейся и даже в какой-то мере банальной. Однако положение с распространением этой технологии в России пока не позволяет нам забыть о ней и перестать следить за ее развитием, хотя бесстрастные телефонные голоса роботов-рекламщиков или напоминание должникам о просроченной задолженности по уплате за телефонные разговоры, наверное, слышали уже многие.

На российском рынке много так называемых локализованных систем подобного рода, в которых качество родной речи страдает. Однако в последнее время появляется все больше отечественных продуктов, которые несомненно найдут своего покупателя.

Sakrament TTS (Text-to-Speech) Engine — движок, осуществляющий качественный речевой синтез, — может использоваться и как отдельное приложение для озвучивания электронных текстов, и как универсальный речевой движок для других приложений, а также для интеграции с различными информационными системами. Компания продает также SDK для разработчиков под различные платформы.

Система синтеза речи построена таким образом, чтобы сохранять речевые особенности того диктора, по записям которого создавалась акустическая база данных, что позволяет сделать речь синтезатора более «человеческой», а также обеспечить пользователей широким выбором отличающихся друг от друга голосов. Имеются системы автоматического синтеза и распознавания речи и у отечественных разработчиков, причем это направление в русскоязычной среде до сих пор является весьма актуальным.

Распознавание речи для мобильных устройств (Распознавание речи для мобильных устройств)

Страница 1 из 1
1