Вопрос как работает алгоритм распознавания речи?

Question

Когда я открываю запись голоса в программе я вижу рисунок звуковых волн. Соотношение частоты и амплитуды. Программа получается сопоставляет рисунки волны? Точнее её геометрию? 
Правильно я понимаю? У каждого слова есть свои согласные и гласные призвуки, к примеру  слово " мир" произнесеный разными голосами будет иметь рисунок волн + - одинаковый, но с небольшими вариациями? 
В общем программ работает с  геометрией звукового сигнала?
Или по другому?

anonim_anonim_8429 · Accepted Answer

Почти, но не совсем так
Анализируется не "геометрия волны" - геометрия целой записи слишком хаотична и бесполезна, т.к. очень сильно будет различаться от раза к разу.
Вместо этого звук разбивается ( 
https://ru.wikipedia.org/wiki/Преобразование_Фурье
 ) на отдельные компоненты - набор волн разной частоты, которые обладают разными амплитудами.
График "яркости" (амплитуды) этих волн (т.е. зависимость от частоты) от времени - т.н. спектрограмма ( 
https://ru.wikipedia.org/wiki/Спектрограмма
 ) - вот такой "рисунок звуковых волн" и анализируется.

inga_zajonc · Answer

примерно так и есть.

iurii_semykin · Answer

Всё начинается со спектра.
А дальше идёт сложная многоуровневая и разветвлённая фильтрация.
Это целая теория с элементами распознавания образов и суровая математика.