При работе с системами автоматического распознавания речи (ASR) один из первых вопросов, который возникает, — «Насколько хорошо работает эта модель?». Чтобы ответить на него объективно, нам нужны количественные метрики. В индустрии стандартом де-факто для оценки точности ASR-систем является Word Error Rate (WER). Давайте разберёмся, что это такое, как его считать и правильно интерпретировать.
Что такое Word Error Rate (WER)?
Word Error Rate (WER), или «коэффициент ошибок на уровне слов», — это метрика, которая измеряет расхождение между текстом, сгенерированным ASR-системой (гипотезой), и эталонной, вычитанной человеком расшифровкой (референсом). Чем ниже значение WER, тем точнее работает модель.
В основе WER лежит алгоритм Левенштейна, адаптированный для работы со словами вместо символов.
Для расчёта WER необходимо определить три типа ошибок:
- Замены (Substitutions, S): слова, которые система распознала неверно. Например, вместо «будет» модель выдала «была».
- Удаления (Deletions, D): слова, которые присутствовали в эталонной расшифровке, но были пропущены системой.
- Вставки (Insertions, I): лишние слова, которые модель «придумала», хотя их не было в исходной аудиозаписи.
Типы ошибок при расчёте WER
Формула и пример расчёта
Формула для расчёта WER:
Где — замены, — удаления, — вставки, — общее количество слов в эталонной расшифровке.
Из-за наличия вставок (I) значение WER теоретически может превышать 100%.
Наглядный пример
Рассчитаем WER для конкретного случая:
- Эталон: сегодня будет хорошая погода (N = 4 слова)
- Гипотеза: сегодня была хорошая погода да
Выравниваем слова:
| Эталон | Гипотеза | Результат | S | D | I |
|---|---|---|---|---|---|
| сегодня | сегодня | совпадение | 0 | 0 | 0 |
| будет | была | замена | 1 | 0 | 0 |
| хорошая | хорошая | совпадение | 0 | 0 | 0 |
| погода | погода | совпадение | 0 | 0 | 0 |
| — | да | вставка | 0 | 0 | 1 |
Итого: , , ,
Что такое Word Recognition Rate (WRR)?
Word Recognition Rate (WRR), иногда называемый Word Accuracy, — это «обратная» метрика к WER. Она показывает долю правильно распознанных слов.
В нашем примере:
Альтернативная формула учитывает совпадения ( — Hits) напрямую:
Для нашего примера:
Формулы могут давать разные результаты в зависимости от реализации. Всегда уточняйте, какой именно вариант используется при сравнении моделей.
Как интерпретировать результаты?
Оценка WER сильно зависит от контекста: качества звука, тематики, наличия акцентов. Однако можно ориентироваться на следующие общие значения:
Шкала интерпретации WER
- 0–5% WER — превосходный результат, сопоставимый с качеством ручной расшифровки.
- 5–10% WER — отличное качество, текст почти не требует правок. Готово для production.
- 10–20% WER — приемлемое качество, может потребоваться постредактирование.
- 20–30% WER — удовлетворительное качество, заметное количество ошибок. Модель требует доработки.
- 30% и выше — низкое качество, расшифровка затруднена. Необходимо существенное улучшение.
Ограничения метрики WER
Несмотря на популярность, WER не является идеальной метрикой:
- Все слова равноценны. WER одинаково оценит замену предлога «в» на «на» и замену слова «не» на «да», хотя вторая ошибка полностью меняет смысл предложения.
- Отсутствие учёта пунктуации. Стандартный WER игнорирует знаки препинания, заглавные буквы и форматирование.
- Не измеряет читаемость. Два текста с одинаковым WER могут иметь совершенно разную читаемость для человека.
Заключение
WER и WRR — фундаментальные инструменты для оценки производительности ASR-систем. Они дают быструю и стандартизированную оценку точности, позволяя сравнивать модели и отслеживать прогресс в обучении.
Однако для глубокого анализа работы модели недостаточно смотреть только на итоговую цифру. Важно анализировать сами ошибки — преобладают ли замены, вставки или удаления? Какие именно слова модель путает? Ответы на эти вопросы — ключ к дальнейшему улучшению качества распознавания речи.1
Footnotes
-
Для промышленной оценки точности ASR рекомендуется использовать WER совместно с другими метриками, такими как Character Error Rate (CER), Sentence Error Rate (SER) и Match Error Rate (MER), а также проводить тестирование на различных акустических условиях и доменах. ↩