WER kalkulačka – výpočet Word Error Rate online

Q: K čemu se WER nejčastěji používá?

WER se používá při hodnocení výkonu automatického přepisu řeči, při testování hlasových asistentů, strojového překladu nebo v NLP experimentech, kde je třeba měřit přesnost zpracování textu.

Míra chybovosti slov (WER) je procentuální metrika chyb slov, používaná k hodnocení přesnosti automatického rozpoznávání řeči (ASR) nebo překladových systémů. WER kalkulačka vypočítá, kolik slov bylo nesprávně rozpoznáno v porovnání s referenčním textem.

Jak používat WER kalkulačku

Zadáme počet:

nesprávně nahrazených slov,
vynechaných slov,
přidaných slov,
slov v referenčním textu,
klikneme na tlačítko „Vypočítat“,
kalkulačka vypočítá WER a interpretuje výsledek.

Vzorec pro výpočet WER

WER = ((S + D + I) / N) * 100

Kde:

S = počet substitutions (nahrazená slova),
D = počet deletions (vynechaná slova),
I = insertions (přidána slova),
N = počet slov v referenčním textu.

Jak se WER počítá technicky

Výpočet WER je založen na principu minimálního počtu úprav potřebných k přeměně jednoho textu na druhý. Tento přístup vychází z metody známé jako Levenštejnova vzdálenost.

Algoritmus hledá nejmenší počet operací: nahrazení (substitution), vložení (insertion) a odstranění (deletion). Díky tomu lze přesně určit, jak moc se rozpoznaný text liší od referenčního.

Příklad výpočtu WER

Referenční text: „Ahoj svět tohle je test“

Rozpoznaný text: „Ahoj svět je test“

chybí slovo „tohle“ → 1 vynecháno,
žádná nahrazená ani přidaná slova,
počet slov v referenci N=6N = 6N=6.

WER = ((0 + 1 + 0) / 6) x 100 = 16,67 %

Jak interpretovat WER

Samotná hodnota WER má smysl pouze tehdy, pokud víme, jak ji interpretovat v praxi. Obecně platí, že čím nižší WER, tím přesnější je rozpoznávání řeči nebo překlad.

Orientační hodnoty:

0–10 % -> velmi vysoká přesnost (profesionální systémy, kvalitní modely),
10–20 % ->dobrá kvalita (běžné nasazení, titulky, asistenti),
20–50 % ->znatelné chyby, ale stále použitelné,
50 % a více ->nízká kvalita, výstup je obtížně použitelný.

Musíme brát v úvahu také kontext – například u krátkých vět může i jedna chyba výrazně zvýšit výsledné WER.

Praktické využití WER

hodnocení přesnosti speech-to-text systémů,
testování strojového překladu,
srovnání výkonu hlasových asistentů,
studium chyb v rozpoznávání řeči pro NLP výzkum.

WER vs. jiné metriky přesnosti

WER není jediná metrika používaná pro hodnocení textových nebo řečových systémů. V praxi se často kombinuje s dalšími ukazateli:

Metrika	Co měří	Kdy se používá
WER	Chybovost na úrovni slov	Speech-to-text, přepis řeči
CER (Character Error Rate)	Chybovost na úrovni znaků	Detailní analýza, jazyky bez mezer
BLEU skóre	Shodu mezi překladem a referencí	Strojový překlad

Porovnání metrik WER, CER a BLEU skóre. Zdroj: Vlastní zpracování.

Každá metrika má své výhody a omezení, proto se v praxi často používají společně.

Co WER nezachycuje

WER hodnotí pouze přesnou shodu slov, ale nezohledňuje jejich význam. To může vést k zavádějícím výsledkům.

Například:

„auto jede rychle“ vs „vůz jede rychle“

Z pohledu WER jde o chybu (jiné slovo), ale význam věty zůstává stejný.

Podobně WER nezohledňuje synonyma, stylistické rozdíly ani významovou správnost věty. Proto se u pokročilých systémů často kombinuje s dalšími metrikami, které lépe zachycují význam textu.

Jak snížit WER v praxi

Snížení WER znamená zlepšení přesnosti rozpoznávání nebo překladu. V praxi toho lze dosáhnout několika způsoby:

použití kvalitního mikrofonu a záznamu bez šumu,
odstranění ruchů na pozadí (noise reduction),
trénování modelu na větším množství dat,
použití jazykového modelu přizpůsobeného konkrétní oblasti (např. medicína, právo),
správné předzpracování textu, například odstranění interpunkce nebo sjednocení formátu.

Každý z těchto faktorů může výrazně ovlivnit výslednou hodnotu WER.

WER v praxi (reálné hodnoty)

Hodnota WER se liší podle konkrétního použití a kvality systému:

automatické titulky (např. videa) mají přibližně 10–20 %.
hlasoví asistenti (např. Siri a pod.) se pohybují přibližně mezi 5–15 %.
přepis hovorů (např. call centra) dosahuje často 20–40 %.
real-time diktování může mít 5–10 % při ideálních podmínkách.

Tyto hodnoty jsou orientační a mohou se výrazně lišit v závislosti na jazyce, kvalitě zvuku a použité technologii.

Nejčastěji kladené dotazy (FAQ)

Co znamená WER 0%?

WER 0 % znamená, že všechna slova v testovaném textu přesně odpovídají referenčnímu textu – žádné chyby, vynechaná ani přidaná slova. Jedná se o ideální výsledek přesnosti rozpoznávání řeči.

Je možné, aby WER přesáhlo 100%?

Ano, pokud je počet nahrazených, vynechaných a přidaných slov větší než počet slov v referenčním textu. V praxi se to stává u velmi špatných nebo krátkých textů.

K čemu se WER nejčastěji používá?

WER se používá při hodnocení výkonu automatického přepisu řeči, při testování hlasových asistentů, strojového překladu nebo v NLP experimentech, kde je třeba měřit přesnost zpracování textu.

Jak zlepšit WER výsledek mého systému?

Zlepšení WER zahrnuje: trénování modelu na větších datech, použití lepšího předzpracování textu (např. odstranění interpunkce), nebo optimalizaci jazykového modelu pro konkrétní jazyk nebo doménu.

Ovlivňuje velikost textu WER výsledek?

Ano, WER může být citlivější u krátkých textů – i malý počet chyb výrazně zvýší procento WER. U delších textů mají jednotlivé chyby menší vliv na celkové procento.

Je WER vhodný i pro hodnocení překladových systémů?

Ano, WER může sloužit k hrubému hodnocení překladů, zejména pokud se porovnává slovo za slovem s referenčním textem. Pro sofistikovanější hodnocení se však často používá například BLEU skóre, které bere v úvahu i synonyma a pořadí slov.

Související kalkulačky

BLEU skóre kalkulačka

Zdroje:

What is WER? What Does Word Error Rate Mean?: https://www.rev.com/resources/what-is-wer-what-does-word-error-rate-mean
Word error rate: https://en.wikipedia.org/wiki/Word_error_rate
Levenštejnova vzdálenost: https://cs.wikipedia.org/wiki/Leven%C5%A1tejnova_vzd%C3%A1lenost