Технология синтеза речи третьего поколения, разработанная специалистами ЦРТ, позволяет добиться максимальной естественности и выразительности прочтения любого текста. Ее основное преимущество по сравнению с уже присутствующими на рынке продуктами — это возможность настраивать эмфатическое ударение (интонационно выделять определенное слово в предложении) и ускорять синтез без потери разборчивости речи. Кроме того, нейросетевые модели теперь умеют генерировать и уникальные, присущие только человеку стили воспроизведения текста, а также управлять мелодикой голоса.
По словам руководителя направления «Синтез речи» Центра речевых технологий Сергея Фомина, новый продукт ЦРТ может успешно применяться как банками и мобильными операторами, развивающими функцию голосового помощника, так и компаниями, которые занимаются системами оповещений и объявлений.
«Чат-навигаторы, всевозможные голосовые системы, озвучивание аудиокниг, оповещение в торговых центрах, на вокзалах и в аэропортах, в петербургском метро нашу технологию синтеза несколько лет назад уже начали использовать», — рассказал Фомин участникам организованного Сбербанком пресс-тура.
Очень важно, что технология синтеза речи третьего поколения — это уже не только синтез, но еще и передача эмоционального состояния, подчеркивают в ЦРТ. Именно поэтому, по результатам опроса, проведенного компанией, качество синтеза получило оценку 4,7 балла из 5. Использовать передовое решение Центра речевых технологий можно как через облачный сервис, так и встроив в свою цифровую систему.
В то же время синтез речи — далеко не единственное направление, которым занимается Центр речевых технологий. Обратная конвертация — преобразование речи в текст — не менее востребованное на рынке решение. Примечательно, что, по словам Сергея Фомина, синтез речи по некоторым параметрам даже сложнее конвертации аудио в текст. В этой связи руководитель направления «Синтез речи» Центра речевых технологий даже в шутку извинился перед журналистами за то, что разработчики пока не придумали идеальной технологии для быстрой расшифровки интервью и других аудиоматериалов.
Сложность здесь обусловлена, в первую очередь, разнообразием лексики, ведь во многих областях технологию конвертации речи в текст уже применяют весьма успешно.
В частности, технологию ЦРТ используют в клинической инфекционной больнице имени Боткина, а еще — в медицинских учреждениях Мурманска и Казани. Эта технология называется «Голосовое заполнение документов»: благодаря ей врачи заметно сокращают время, которое требуется на занесение в единые информационные системы протоколов обследований, например, КТ и МРТ. Вместо того, чтобы печатать текст, врачи просто наговаривают его. Процесс заполнения протоколов в таком случае становится быстрее на 25%.
Центр речевых технологий — это группа IT-компаний, занимающаяся разработкой интеллектуальных речевых технологий и технологий распознавания лиц. Импортерами продукции ЦРТ являются более 70 стран — доля экспорта в выручке компании составляет 30%.
Частью экосистемы Сбербанка группа компаний ЦРТ стала летом текущего года, когда банк окончательно закрыл сделку по приобретению 51% акций ведущего игрока на российском биометрическом рынке.