Помогите решить задачу по вероятности
Задача из Сириус
В случае функции потерь u(x)=x2 функцию риска можно переписать в следующем виде:
Rθ^n(θ)=Dθ^n+(Eθ^n−θ)2.
Вывод формулы: E(θ^n−θ)2=E(θ^2n)−E(2θ^n⋅θ)+Eθ2=(E(θ^2n)−(Eθ^n)2)+
+((Eθ^n)2−E(2θ^n⋅θ)+Eθ2)=Dθ^n+((Eθ^n)2−2θ⋅Eθ^n+θ2)=
=Dθ^n+(Eθ^n−θ)2.
Выражение Eθ^n−θ называется смещением оценки (а если смещение равно 0, то, как было разобрано в предыдущем модуле, оценка называется несмещённой).
Долгое время в статистике рассматривались наиболее эффективные оценки в классе несмещённых, то есть несмещённые оценки с минимальной дисперсией. Однако оказалось, что для многих прикладных задач смещённые оценки могут быть лучше — может оказаться, что за счёт небольшого смещения оценки её дисперсия уменьшится весьма значительно, и оценка будет более эффективной. Этот приём особенно успешен в задачах, где нужно оценивать много параметров одновременно, и активно применяется, например, в современных методах машинного обучения.
Пусть (Eξ1)2Dξ1=2. Будем искать оценку θ^n для θ=Eξ1 в виде μ∑i=1nxi для μ∈[0,1]. Найдите, при каком μ значение функции риска Rθ^n(θ) будет наименьшим (считается, что θ фиксировано, поэтому при фиксированном n функция Rθ^n(θ) — это функция от μ). В качестве ответа введите значение μ при n=10.
Указание. Можно повторить выкладку из лекции, но удобнее будет воспользоваться формулой для Rθ^n(θ), указанной выше.
Ну сначала вычислим матожидание и дисперсию нашего оценщика с помощью линейности матожидания и дисперсии:

Теперь подставляем это в bias-variance разложение MSE-лосса (ту самую формулу, выведенную в тексте):

По (гипер)параметру μ это квадратичная функция ("парабола с ветвями вверх"), поэтому оптимальное μ* соответствует координате вершины этой параболы. Находим ее по известной формуле и получаем что-то типа

Дальше подставляете ваши данные и получаете ответ.
____________________________
Еще можно отметить, что очевидно μ* ≤ 1/n. Это означает, что наша оптимальная оценка -- слегка заниженное к нулю среднее. Иными словами, мы немного "шринкуем" стандартную оценку (среднее арифметическое) к нулю, снижая дисперсию ценой небольшого смещения. Эта техника в статистике и машинном обучении так и называется -- shrinkage.