Например я взял несколько кусков из разных фильмов, и склеил их. Соответственно визуально можно определить что этот момент именно из этого фильма, только если его смотрел несколько раз (например съемка леса). Уверен сервис ютуб осуществляет распознавание по другому. Как? Как много это занимает времени?