Перейти к содержимому
Compvision.ru

Recommended Posts

Есть ли вообще какие-то среды разработки для распознавания речи?

Может даже OpenCV что-то умеет в подобном направлении?

В принципе распознавание образов, наверное, одно для всех, а основа здесь - это предобработка полученных данных. А дальше уже кластеризировать образы - кто во что горазд :)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
Есть ли вообще какие-то среды разработки для распознавания речи?

Может даже OpenCV что-то умеет в подобном направлении?

В принципе распознавание образов, наверное, одно для всех, а основа здесь - это предобработка полученных данных. А дальше уже кластеризировать образы - кто во что горазд :)

Можно звук в вейвлет, а вейвлет OpenCV скормить. Вообще слышал что для распознавания звуков скрытые марковские модели применяют.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
Можно звук в вейвлет, а вейвлет OpenCV скормить. Вообще слышал что для распознавания звуков скрытые марковские модели применяют.

Тут нужно смотреть, в каких задачах использовать собираетесь. Если отдельные слова (команды) - то может вейвлет и подойдет. Если непрерывную речь, то тут для начала нужно разбить на слова, слова на фонемы, для фонем составить эталонную базу. Для анализа последовательности фонем как раз вроде и используют скрытые марковские модели. Для английского, ряда европейский есть движок www.nuance.com/naturallyspeaking/. Для русского хороших разработок не попадалось. Есть у японцев вроде свои разработки. Вообще, специалисты по распознаванию речи, которые занимаются русским, говорят, что он один из самых сложных для распознавания.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Для русского языка, лучшее что я слышал - Liquendo, у них есть Ольга, очень неплохо разговаривает, поддерживает VXML и другие фкустности, работает по описанному выше алгоритму)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
Для русского языка, лучшее что я слышал - Liquendo, у них есть Ольга, очень неплохо разговаривает, поддерживает VXML и другие фкустности, работает по описанному выше алгоритму)

Интересно, как с русским работает? Поддержка заявлена. Кто-нибудь знаком с этой штукой?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Ну у нас фирма купила, вообще этим другой человек занимается, если будут вопросы могу у него спросить, но я слышал как она поёт, если ударения расставить, особенно в последних словах в стоке, в стихах часто ударения не на тот слог указывают ,а возможность влиять на интонацию по-моему есть, то очень неплохо получается =)

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
Для русского языка, лучшее что я слышал - Liquendo, у них есть Ольга, очень неплохо разговаривает, поддерживает VXML и другие фкустности, работает по описанному выше алгоритму)

Поправлю опечатку гугл находит "Loquendo".

Скачать пощупать можно здесь (торрент): http://torrents.ru/forum/viewtopic.php?t=1177463

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
Поправлю опечатку гугл находит "Loquendo".

Скачать пощупать можно здесь (торрент): http://torrents.ru/forum/viewtopic.php?t=1177463

Там только TTS...

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
Там только TTS...

Не очень в теме, а что еще должно быть?

Есть тут еще что то: http://mytts.forum2x2.ru/

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
Не очень в теме, а что еще должно быть?

Есть тут еще что то: http://mytts.forum2x2.ru/

Если мы говорим о технологии распознавания речи, то тогда нужен Loquendo ASR. TTS (Text To Speech) – это движок только для синтеза речи.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
Поправлю опечатку гугл находит "Loquendo".

Скачать пощупать можно здесь (торрент): http://torrents.ru/forum/viewtopic.php?t=1177463

ёёёмоё... послушал демо - это просто нечто! Последний раз когда я игрался с разными Speech API от майкрософта... :) Ну в общем, это просто несравнимо.

Это они изначально слоги записывают, а дальше комбинируют и получают вот такую вот речь или там принципиально иная технология порождения речи?

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах
Гость silverworld

За тем же самым, что и тебе - для обучения и проверки системы распознавания речи. Меня так же инетерсует проблема пофонемного распознавания речи. Я хочу проверить применимость метода минимума информационного рассогласования для распознавания фонем. А для этого их сначала надо где-то взять.

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Создайте учётную запись или войдите для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Создать учётную запись

Зарегистрируйтесь для создания учётной записи. Это просто!

Зарегистрировать учётную запись

Войти

Уже зарегистрированы? Войдите здесь.

Войти сейчас


  • Сейчас на странице   0 пользователей

    Нет пользователей, просматривающих эту страницу

×