asterisk.ru

Задача делится на 2 этапа:
- Аналитика (уточнение ТЗ).
- Разработка.

Контакты для оперативной связи: 8-912-013-12-03 (Viber, WhatsApp), skype: eniedaplos21.

ЦЕЛЬ:

создать сборку модуля состоящего из Asterisk и Yandex SpeechKit, простую в установке на сервер, не требующую для установки специальных знаний в области телефонии.
Подразумевается что сборка будет работать как внутренний абонент IP АТС.
Готовые примеры подобной связки с Yandex SpeechKit доступны в сети.
Как вариант использование в сборке FreePBX.

НА ОБРАБОТКУ ВО ВНЕШНИЕ МОДУЛИ ПЕРЕДАЕТ СЛЕДУЮЩИЕ СИГНАЛЫ:

снятие трубки роботом (при входящем вызове);
снятие трубки абонентом (при исходящем вызове);
завершение вызова абонентом;
завершение вызова 3-им участником конференции;
распознанный текст (или массив вариантов распознания), с коэффициентом доверия;
DTMF сигналы;
ошибки в ходе распознания (например: отсутствие голоса (отсутствие ответа));
номер телефона с которого пришел входящий вызов;
сигнал о завершении воспроизведения звукового файла или синтеза голоса.
идентификатор соединения (передается в связке с каждым сигналом)

ПРИНИМАЕТ К ИСПОЛНЕНИЮ СЛЕДУЮЩИЕ ВНЕШНИЕ КОМАНДЫ:

воспроизведение в эфир переданного в команде аудио-файла;
воспроизведение в эфир переданного в команде текста, путем синтеза голоса;
ожидание голоса в эфире, с одновременной передачей эфира на обработку в распознаватель;
окончание ожидания голоса в эфире;
ожидание DTMF сигналов абонента;
окончание ожидания DTMF сигналов абонента;
инициирование исходящего вызова, по полученному в команде номеру;
перевод вызова;
организация конференции;
завершение вызова.

ДОПОЛНИТЕЛЬНО:

может организовывать подключение к множеству линий связи.
имеет конфигурационный файл настроек подключения к линиям связи.
имеет веб. форму, для редактирования основных настроек подключения.
записывает все разговоры в mp3 и сохраняет на сервер.
к сборке прилагается пошаговая инструкция по установке, для неподготовленного пользователя.

ОТКРЫТЫЕ ВОПРОСЫ:

Внутренняя и внешняя многоканальность. Принимать и инициировать множество звонков с одного SIP подключения одновременно. Может ли в этом быть проблема?

Формат выходных и входных управляющих сигналов. Какое решение будет максимально простым и универсальным? Необходимы ли еще какие-то данные для ответа на этот вопрос?
Обработка и передача сигналов предположительно будет организована на PHP.

Какие на множествах IP АТС существуют виды перевода вызова? Какой способ предпочтительней? (Вижу оптимальным вариант перевода вызова на уровне SIP клиента (т.е. на уровне описываемой сборки) путем организации дополнительного соединения к нужному абоненту и организации конференции объединением эфиров.

Ответил в личку.

А можете осветить это всё на паблик?
Мне интересно что из этого получилось.
И насколько реальность оправдала ожидания.

И кстати насколько я знаю что у яндекса что у гугла есть ограничения на размер. т.е. просто так туда всё не сольёшь. С трудом представляю решение... Искать в голосе паузы и отправлять по кускам.... Ненадёжно да и распознавание использует контекст слова.

В общем опишите что получилось.

У яндекса есть возможность передавать единые данные кусками, и есть примеры скриптов, которые делят получившийся аудиофайл и сливают яндексу.
Работает шикарно в целом, распознает отлично.
Стоит - недорого (7$ 1000запросов без минимума в месяц или 5$ 1000запросов с минимумом)

распознавание отнюдь не шикарное
Очень похоже что есть словарь произношений - одно и тоже слова в нескольких вариантах

Погода в Питере - распознается шикарно
Погода в Кунгуре - по нулям

Хотя гугл на эту тему был на порядок круче - там явно было распознавание на слогах

Я в свое время игрался с синтезатором от яндекса.
Когда натравил TTS на подопытную группу, мне почти сразу все отписались, что звонила какая-то баба с будунища и голосом
похоронного бюро что-то зачитала и отвалилась.

Кстати, эта баба не умеет распознавать телефонные номера в тексте, их приходится предварительно regex'пом подготавливать.
Аналогично - время 18:30 : "восемнадцать делить на тридцать", ну и много чего еще такого-же плана.

Голос google TTS оказался намного бодрее и более четко воспринимается неподготовленным к TTS уху.

я делал используя опенсор оффлайн решения. получалось распознавание на уровне и инет канал не занимался, правда с созданием своей языковой модели пришлось повозиться

Pechen писал(а):я делал используя опенсор оффлайн решения. получалось распознавание на уровне и инет канал не занимался, правда с созданием своей языковой модели пришлось повозиться

Не могли бы Вы написать какие "опенсор оффлайн решения" использовали?

я использовал sphinx. но есть и другие.

asterisk.ru

Создать сборку Asterisk с распознаван./синтезом речи Yandex

Создать сборку Asterisk с распознаван./синтезом речи Yandex

Re: Создать сборку Asterisk с распознаван./синтезом речи Yan

Re: Создать сборку Asterisk с распознаван./синтезом речи Yan

Re: Создать сборку Asterisk с распознаван./синтезом речи Yan

Re: Создать сборку Asterisk с распознаван./синтезом речи Yan

Re: Создать сборку Asterisk с распознаван./синтезом речи Yan

Re: Создать сборку Asterisk с распознаван./синтезом речи Yan

Re: Создать сборку Asterisk с распознаван./синтезом речи Yan

Re: Создать сборку Asterisk с распознаван./синтезом речи Yan