Top.Mail.Ru
  • USD Бирж 1.17 -10918.74
  • EUR Бирж 11.39 -83.92
  • CNY Бирж 27.26 +-15.9
  • АЛРОСА ао 38.55 -0.18
  • СевСт-ао 863.6 -2.6
  • ГАЗПРОМ ао 118.53 -0.68
  • ГМКНорНик 124 -0.34
  • ЛУКОЙЛ 5003 +-5
  • НЛМК ао 99.34 +-0.2
  • Роснефть 382.3 -1.4
  • Сбербанк 297.04 -0.04
  • Сургнфгз 20.54 -0.06
  • Татнфт 3ао 546.4 +-0.5
  • USD ЦБ 81.13 80.6
  • EUR ЦБ 95.1 93.7
Эксперт года 2025 – подведение итогов
Лента новостей

ЦРТ представил новую технологию распознавания речи

Технология сегментирования аудиопотока (диаризации) и распознавания речи, созданная группой компаний ЦРТ (Центр речевых технологий, входит в экосистему Сбербанка, головной офис в Петербурге), признана лучшей на международном конкурсе CHiME Speech Separation and Recognition Challenge CHiME-6.

Высокое признание технология получила за распознавание английской речи с нескольких микрофонов в условиях естественной обстановки. «В этом году на CHiME-6 впервые в истории стояла самая сложная задача — работа с несегментированной речью. Качественное распознавание речи разных дикторов, при этом перебиваемой шумами, позволяет выводить сервисы из разряда инновационных в повседневное применение, совершенствуя бизнес и упрощая нашу жизнь», — объясняет генеральный директор ГК ЦРТ Дмитрий Дырмовский. В частности, по его словам, качественная обработка несегментированной речи позволит, к примеру, вести грамотное протоколирование совещаний, где говорит сразу несколько спикеров. А интеллектуальная речевая аналитика позволит автоматизировать работу контактных центров: распознавать спонтанную речь, классифицировать голосовые обращения, выявлять соблюдения скрипта, делать выводы об удовлетворенности клиента и качестве диалога, а значит — существенно оптимизировать работу современных контакт-центров ретейла, e-commerce и телекома.

Организаторы CHiME предлагают сильнейшим командам со всего мира различные задачи, которые с каждым новым конкурсом усложняются. На CHiME-5 конкурсанты решали так называемую cocktail party problem — распознавание спонтанной речи нескольких дикторов в условиях частичного наложения речи и шума, то есть в типичной ситуации общения на вечеринке. Этот блок требовал работы с сегментированной (уже выделенной) речью. Новизна и особенность CHiME-6 заключалась в том, что впервые в истории конкурсантам было предложено решить аналогичную проблему, но работая с несегментированной речью, при этом — с перекрытием речи до 20%. Именно на решении этой — самой сложной — задачи сфокусировалась команда ЦРТ.

Записи для конкурса были сделаны на 20 ужинах в реальных домах на вечеринках, где люди готовили, ели, мыли посуду, свободно и эмоционально общались, шутили и смеялись. Распознавание речи здесь осложняет одновременная речь 2–4 человек, реверберация и интенсивный шум: звон приборов, льющаяся из крана вода, гул кондиционера, шаги, смех.

Цель участников — создать систему распознавания, которая «прослушает» записи и выдаст полную расшифровку с наименьшим количеством ошибок. В ЦРТ был разработан уникальный алгоритм выделения речевых сегментов для каждого из дикторов, а также создан комплекс из нескольких нейронных сетей разных архитектур, различающий разных дикторов, реализующий бимформинг (эффект нацеливания микрофонов на конкретного диктора) и непосредственно распознающий речь.

Кроме группы ЦРТ в конкурсе участвовали научные команды со всего мира: и известные IT-компании (Toshiba и ряд других), и крупные университеты-лидеры в области речевых технологий: Университет Джонса Хопкинса (США), Университет науки и технологии Китая, Технический университет Брно (Чехия) и др.

Последние материалы
Ключевая ставка, альтернативные источники финансирования и кадровый дефицит
Экономика ,14 ноя 17:42
14 ноября в городе на Неве Северо-Западное главное управление Банка России провело коммуникационную сессию, посвященную актуальным вопросам денежно-кредитной политики.
«Зрители приходят в театр за новыми впечатлениями и эмоциями»
Стиль жизни ,14 ноя 16:59
Интервью с генеральным продюсером фестиваля и премии «Музыкальное сердце театра» Дмитрием Калантаровым.
Сотрудники СПбГУП обращаются к прокуратуре
Общество ,14 ноя 15:03
Члены коллектива СПбГУП обратились к изданию «Эксперт Северо-Запад» с просьбой опубликовать их открытое обращение, адресованное прокуратуре Санкт-Петербурга.