Вопрос как работает алгоритм распознавания речи?
Когда я открываю запись голоса в программе я вижу рисунок звуковых волн. Соотношение частоты и амплитуды. Программа получается сопоставляет рисунки волны? Точнее её геометрию?
Правильно я понимаю? У каждого слова есть свои согласные и гласные призвуки, к примеру слово " мир" произнесеный разными голосами будет иметь рисунок волн + - одинаковый, но с небольшими вариациями?
В общем программ работает с геометрией звукового сигнала?
Или по другому?
Почти, но не совсем так
Анализируется не "геометрия волны" - геометрия целой записи слишком хаотична и бесполезна, т.к. очень сильно будет различаться от раза к разу.
Вместо этого звук разбивается ( https://ru.wikipedia.org/wiki/Преобразование_Фурье ) на отдельные компоненты - набор волн разной частоты, которые обладают разными амплитудами.
График "яркости" (амплитуды) этих волн (т.е. зависимость от частоты) от времени - т.н. спектрограмма ( https://ru.wikipedia.org/wiki/Спектрограмма ) - вот такой "рисунок звуковых волн" и анализируется.
примерно так и есть.
Всё начинается со спектра.
А дальше идёт сложная многоуровневая и разветвлённая фильтрация.
Это целая теория с элементами распознавания образов и суровая математика.