4г

Стохастический градиентный спуск

Здравствуйте. Понимаю, что не лучшая платформа для таких вопросов. но вдруг кто в теме.
До какого-то момента идея стохастический градиентного спуска мне казалась ясной. Но тут наткнулся на одну статью, и вся ясность пропала. И чем дальше копаю, тем все хуже. ТО есть по началу я просто решил, что в статье ошибка. Но ет - многие авторы с ней солидарны.
Вот смотрите. Пусть у меня нейросеть для распознавания цифр. Есть MNIST, 60000 примеров картинок 28х28, то есть 784 входа. Я делаю алгоритм обратного распределения методом градиентного спуска. Как я привык? Я беру один пример, прогоняю ее через сетку, и сразу же корректирую коэффициенты методом обратного распространения. ОК. Я полагал, что это и есть нормальный градиентный спуск. А схоластический - это когда я в каждом шаге беру не все 784 входа, а только его часть.
Так вот. Я натолкнулся на другой алгоритм. Что вроде бы мы прогоняем все 60000 примеров, определяем вероятность ошибки (Cross entropy loss, я так понимаю), и только тут корректируем веса. А стохастический градиентный спуск - это когда мы берем один пример ( то есть то, что раньше я считал обычным градиентным спуском). Ну или не один пример, а несколько.
Черт с ними, с терминами. НО - как мы можем выполнить обратное распределение по всем 60000 примерам? Мы можем определить частные производные - что по значению входов, что по коэффициентам W - только для конкретной входной комбинации. Для одного примера. Как можно ее определить по сразу 50000 входов?
Что-то я где-то не так понял. Буду очень признателен, если прольете свет.