Эволюция технологии распознавания речи

112 руб. 173 руб. Buy It Now

Эволюция технологии распознавания речи

(Изображение предоставлено IBM)

Первые компьютеры для прослушивания, 1950-80-е гг.

Возможности автоматического распознавания речи (ASR) означают, что его разработка всегда была связана с громкими именами.

В 1952 году Bell Laboratories лидировала с AUDREY. Система AUDREY распознавала произносимые числа с точностью 97-99% — в тщательно контролируемых условиях. Однако, по словам Джеймса Флэнагана, ученого и бывшего инженера-электрика Bell Labs, ОДРИ сидел на « релейной стойке шести футов высотой , потреблял значительную энергию и демонстрировал множество проблем с обслуживанием, связанных со сложной схемой на электронных лампах». AUDREY был слишком дорогим и неудобным даже для специализированных случаев использования.

IBM последовала в 1962 году, выпустив Shoebox, который распознавал числа и простые математические термины. Тем временем японские лаборатории разрабатывали распознаватели гласных и фонем, а также первый речевой сегментатор. Одно дело, когда компьютер понимает небольшой диапазон чисел (например, 0–9), но прорыв Киотского университета заключался в том, чтобы «сегментировать» строку речи, чтобы технология могла работать с диапазоном речевых звуков.

В 1970-х годах Министерство обороны (DARPA) финансировало программу исследования понимания речи (SUR). Результатом этого исследования стала система распознавания речи HARPY от Карнеги-Меллона. HARPY распознал предложения из словаря, состоящего из 1011 слов, давая системе мощность среднего трехлетнего ребенка. Как и у трехлетнего ребенка, распознавание речи теперь было очаровательно и имело потенциал, но вы бы не захотели этого в офисе.

HARPY был одним из первых, кто использовал скрытые марковские модели (HMM). Этот вероятностный метод стимулировал развитие ASR в 1980-х годах. Действительно, в 1980-х годах первые жизнеспособные варианты использования инструментов преобразования речи в текст появились в экспериментальной системе транскрипции IBM, Tangora. При надлежащем обучении Тангора могла распознавать и печатать 20 000 слов на английском языке. Однако система все еще была слишком громоздкой для коммерческого использования.

ASR на потребительском уровне, 1990–2010 годы

«Мы думали, что неправильно просить машину подражать людям», — вспоминает новатор IBM в области распознавания речи Фред Елинек . «В конце концов, если машина должна двигаться, она делает это с помощью колес, а не ходьбы. Вместо того, чтобы всесторонне изучать, как люди слушают и понимают речь, мы хотели найти естественный способ, которым это сделает машина ».

Статистический анализ стал движущей силой эволюции технологии ASR. В 1990 году был запущен Dragon Dictate как первое коммерческое программное обеспечение для распознавания речи. Это стоило 9000 долларов — примерно 18 890 долларов в 2021 году с учетом инфляции. До запуска Dragon Naturally Speaking в 1997 году пользователям все еще приходилось делать паузы между каждым словом.

В 1992 году AT&T представила услугу Bell Labs по обработке вызовов с распознаванием речи (VRCP). В настоящее время VRCP обрабатывает около 1,2 миллиарда голосовых транзакций ежегодно.

Но большая часть работы по распознаванию речи в 1990-е годы проходила под капотом. Персональные компьютеры и повсеместная сеть открыли новые возможности для инноваций. Такую возможность заметил Майк Коэн, который присоединился к Google, чтобы начать разработку технологии речи в 2004 году. Google Voice Search (2007) предоставил широким массам технологию распознавания голоса. Но он также использовал речевые данные миллионов сетевых пользователей в качестве учебных материалов для машинного обучения. И у него было влияние Google на обработку, чтобы продвигать качество вперед.

Apple (Siri) и Microsoft (Cortana) последовали за ними, чтобы остаться в игре. В начале 2010-х годов появление глубокого обучения, рекуррентных нейронных сетей (RNN) и долговременной краткосрочной памяти (LSTM) привело к гиперпространственному скачку возможностей технологии ASR. Этот поступательный импульс также во многом был обусловлен появлением и увеличением доступности недорогих вычислений и значительным прогрессом в области алгоритмов.

Эволюция технологии распознавания речи

(Изображение предоставлено Apple)

Текущее состояние ASR

Опираясь на десятилетия эволюции — и в ответ на растущие ожидания пользователей — технология распознавания речи сделала дальнейший скачок за последние полвека. Решения для оптимизации различного качества звука и высоких требований к оборудованию упрощают распознавание речи для повседневного использования с помощью голосового поиска и Интернета вещей.

Например, интеллектуальные колонки используют обнаружение горячих слов, чтобы мгновенно получить результат с помощью встроенного программного обеспечения. Тем временем оставшаяся часть предложения отправляется в облако для обработки. VoiceFilter-Lite от Google оптимизирует речь человека в конце транзакции устройства. Это позволяет потребителям «обучать» свое устройство голосом. Обучение снижает отношение источника к искажению (SDR), повышая удобство использования голосовых вспомогательных приложений.

Уровень ошибок в словах (WER — процент неправильных слов, которые появляются в процессе преобразования речи в текст) значительно улучшается. Ученые предполагают, что к концу 2020-х годов 99% транскрипции будут выполняться автоматически. Люди вмешаются только для контроля качества и исправлений.

Варианты использования ASR в 2020-х годах

Возможности ASR улучшаются в симбиозе с развитием сетевой эпохи. Вот три убедительных варианта использования автоматического распознавания речи.

Индустрия подкастинга преодолеет барьер в 1 миллиард долларов в 2021 году. Количество слушателей растет, и слова продолжают поступать.

Платформы для подкастов ищут поставщиков ASR с высокой точностью и метками времени для каждого слова, чтобы облегчить людям создание подкастов и максимизировать ценность их контента. Такие провайдеры, как Descript, преобразуют подкасты в текст, который можно быстро редактировать. 

Кроме того, метки времени для каждого слова экономят время, давая возможность редактору лепить готовый подкаст, как глину. Эти стенограммы также делают контент более доступным для всех зрителей, а также помогают создателям улучшить поиск и обнаружение своих шоу с помощью SEO.

В наши дни все больше и больше встреч происходит в сети. И даже те, которые этого не делают, часто записываются. Минута — это дорого и требует много времени. Но заметки о собраниях — бесценный инструмент для участников, чтобы подвести итоги или проверить детали. Streaming ASR обеспечивает преобразование речи в текст в режиме реального времени. Это означает легкое создание субтитров или живую транскрипцию для встреч и семинаров.

Такие процессы, как юридические показания, прием на работу и многое другое, становятся виртуальными. ASR может помочь сделать этот видеоконтент более доступным и интересным. Но что еще более важно, модели машинного обучения (ML) от конца до конца (E2E) еще больше улучшают ведение дневника докладчика — запись того, кто присутствует и кто что сказал.

В ситуациях с высокими ставками необходимо доверие к инструментам. Надежный механизм преобразования речи в текст со сверхнизким WER устраняет элемент сомнения и сокращает время, необходимое для создания конечных документов и принятия решений.

На записи

Как вы думаете, Knight Industries когда-либо оценивала стенограмму разговоров KITT и Майкла, чтобы повысить эффективность? Может быть нет. Но в связи с недавним переходом к работе из дома все больше и больше наших обсуждений происходит в Интернете или по телефону. Высокоточная обработка естественного языка в реальном времени (NLP) дает нам власть над нашими словами. Это увеличивает ценность каждого взаимодействия.

Эти инструменты больше не являются эксклюзивными для таких громких имен, как IBM и DARPA. Они доступны для потребителей, предприятий и разработчиков, чтобы использовать их в соответствии с их воображением — поскольку технология распознавания речи постепенно превосходит обещания научной фантастики.

Источник

Уроки Python / Распознавание речи

Привет друзья! Сейчас мы с вами научимся делать распознавание речи в Python. Установим библиотеку в Python для распознавания речи pip install ...

We will be happy to hear your thoughts

Добавить комментарий

Technik News
Logo
Enable registration in settings - general