Распознователи речи есть (причем это далеко не нейросети), а места вхождений подстрок в тексте легко сделать и без нейросетей, с этим справляются и самые обычные ЯП
Главное перевести аудио в текст, дальше ничего сложного не будет. Есть сервисы для этого. Далее в тексте с помощью регулярных выражений ищем нужную строку и все.
конкретно нс для того чтобы искать монеты школьникам никто обучать не будет но есть проги гугл и ютуб кототрые ищут по дофулиарду распознанных видео ..