Что такое WER и WRR в системах распознавания речи

При работе с системами автоматического распознавания речи (ASR) один из первых вопросов, который возникает, — «Насколько хорошо работает эта модель?». Чтобы ответить на него объективно, нам нужны количественные метрики. В индустрии стандартом де-факто для оценки точности ASR-систем является Word Error Rate (WER). Давайте разберёмся, что это такое, как его считать и правильно интерпретировать.

Что такое Word Error Rate (WER)?

Word Error Rate (WER), или «коэффициент ошибок на уровне слов», — это метрика, которая измеряет расхождение между текстом, сгенерированным ASR-системой (гипотезой), и эталонной, вычитанной человеком расшифровкой (референсом). Чем ниже значение WER, тем точнее работает модель.

В основе WER лежит алгоритм Левенштейна, адаптированный для работы со словами вместо символов.

Для расчёта WER необходимо определить три типа ошибок:

Замены (Substitutions, S): слова, которые система распознала неверно. Например, вместо «будет» модель выдала «была».
Удаления (Deletions, D): слова, которые присутствовали в эталонной расшифровке, но были пропущены системой.
Вставки (Insertions, I): лишние слова, которые модель «придумала», хотя их не было в исходной аудиозаписи.

Типы ошибок при расчёте WER

Loading diagram…

Формула и пример расчёта

Формула для расчёта WER:

WER = \frac{S + D + I ​}{N} \times 100%

Где $S$ — замены, $D$ — удаления, $I$ — вставки, $N$ — общее количество слов в эталонной расшифровке.

Информация

Из-за наличия вставок (I) значение WER теоретически может превышать 100%.

Наглядный пример

Рассчитаем WER для конкретного случая:

Эталон: сегодня будет хорошая погода (N = 4 слова)
Гипотеза: сегодня была хорошая погода да

Выравниваем слова:

Эталон	Гипотеза	Результат	S	I
сегодня	сегодня	совпадение	0	0
будет	была	замена	1	0
хорошая	хорошая	совпадение	0	0
погода	погода	совпадение	0	0
—	да	вставка	0	1

Итого: $S = 1$ , $D = 0$ , $I = 1$ , $N = 4$

WER = \frac{1 + 0 + 1 ​}{4} = 0, 5 \to 50%

Что такое Word Recognition Rate (WRR)?

Word Recognition Rate (WRR), иногда называемый Word Accuracy, — это «обратная» метрика к WER. Она показывает долю правильно распознанных слов.

WRR = 1 - WER

В нашем примере: $WRR = 1 - 0, 5 = 0, 5 \to 50%$

Альтернативная формула учитывает совпадения ( $H$ — Hits) напрямую:

WRR = \frac{H - I ​}{N}

Для нашего примера: $WRR = \frac{3 - 1 }{4} = 0, 5 \to 50%$

Внимание

Формулы могут давать разные результаты в зависимости от реализации. Всегда уточняйте, какой именно вариант используется при сравнении моделей.

Как интерпретировать результаты?

Оценка WER сильно зависит от контекста: качества звука, тематики, наличия акцентов. Однако можно ориентироваться на следующие общие значения:

Шкала интерпретации WER

Loading diagram…

0–5% WER — превосходный результат, сопоставимый с качеством ручной расшифровки.
5–10% WER — отличное качество, текст почти не требует правок. Готово для production.
10–20% WER — приемлемое качество, может потребоваться постредактирование.
20–30% WER — удовлетворительное качество, заметное количество ошибок. Модель требует доработки.
30% и выше — низкое качество, расшифровка затруднена. Необходимо существенное улучшение.

Ограничения метрики WER

Несмотря на популярность, WER не является идеальной метрикой:

Все слова равноценны. WER одинаково оценит замену предлога «в» на «на» и замену слова «не» на «да», хотя вторая ошибка полностью меняет смысл предложения.
Отсутствие учёта пунктуации. Стандартный WER игнорирует знаки препинания, заглавные буквы и форматирование.
Не измеряет читаемость. Два текста с одинаковым WER могут иметь совершенно разную читаемость для человека.

Заключение

WER и WRR — фундаментальные инструменты для оценки производительности ASR-систем. Они дают быструю и стандартизированную оценку точности, позволяя сравнивать модели и отслеживать прогресс в обучении.

Однако для глубокого анализа работы модели недостаточно смотреть только на итоговую цифру. Важно анализировать сами ошибки — преобладают ли замены, вставки или удаления? Какие именно слова модель путает? Ответы на эти вопросы — ключ к дальнейшему улучшению качества распознавания речи.¹

Для промышленной оценки точности ASR рекомендуется использовать WER совместно с другими метриками, такими как Character Error Rate (CER), Sentence Error Rate (SER) и Match Error Rate (MER), а также проводить тестирование на различных акустических условиях и доменах. ↩

Что такое WER и WRR в системах распознавания речи

Что такое Word Error Rate (WER)?

Формула и пример расчёта

Наглядный пример

Что такое Word Recognition Rate (WRR)?

Как интерпретировать результаты?

Ограничения метрики WER

Заключение

Footnotes