flash
Оракул
(74659)
9 лет назад
Здесь, в статистике, много допущений.
Начнём со среднего - каким его выбрать? Ну, проще всего средне-арифметическое. Сложили, поделили, всё хорошо. Например, 2 и 4 - среднее 3. Но: - то же число 3 получится и для чисел 0 и 6. И для -99 и 107. Проблема. Надо ещё посчитать разброс. Как? Я считаю как среднюю разбросов от модуля. Но так не делают, считают квадрат отклонения от среднего. Почему? потому что квадрат дифференцируется. Но ведь и тангенс дифференцируется и много других функций? Ну ладно, пусть квадрат. Называется - Дисперсия. Тогда получим вот что:
а) числа 2 и 4. Среднее 3. Тогда Дисперсия = (2-3)^2 + (4-3)^2 = 1 + 1 = 2
) числа 0 и 6. Среднее 3. Дисперсия = (0-3)^2 + (6-3)^2 = 9 + 9 = 18
Ещё больше дисперсия будет для -99 и 107. Видно, что более разбросанные числа имеют большую Дисперсию, так что, вроде, хорошо. Но - если у нас исходные числа были метры, то Дисперсия будет метр-квадрат, мы же в квадрат возвели. Ну, это просто, извлечём корень. Называется - среднеквадратичное отклонение, обычно отмечают греческое неконцевой буквой сигма, так что часто так и называют. Эта же буква - символ статистики.
Что дальше. А дальше - крайне важная вещь: оказывается, что большинство псведо случайных величин разбросан так, что среднего и сигмы хватает для описания всего набора.
При этом 99.73% значений попадут в интервал от среднего плюс-минус 3 сигм.
Вот как в а) сигма = корень (2) = полтора примерно, значит, ПОЧТИ все значения попадут в интервал 3 (это среднее) плюс-минус 4.2, т. е. от -1.2 до 7.2
В случае б) сигма = 4, и интервал от -10 до +16.
Откуда взялось 99.73%? это табличная величина.
Всё вышеописанное - это "правило трёх сигм", наверняка есть на Википедии.
Итак, если мы хотим ДОВОЛЬНО уверенно (с надёжностью 99.73%) утверждать, что средняя величина имеет какой-то интервал, то мы:
1. Ищем среднюю
2. Ищем среднеквадратичное отклонение
Формируем результат как = среднее плюс-минус3*сигма
Надёжность 99.73% - это стандарт, и его можно не указывать. Т. е. если пишут 123 плюс-минус 4 - это именно для такой надёжности.
При другой надёжности мы ищем по таблице функции Лапласа, например, для надёжности .9999 (99.99%) множитель будет не 3, а 3.90. Т. е. мы напишем вычисленное значение так: среднее плюс-минус 3.9*сигма и укажем "с надежностью 0.9999".
Вот в качестве примера возьму твои же цифры: 4445545.
Допустим, это масса кошек :) Взвесили 7 кошек подряд и получили данные: 4,4,4,5,5,4,5.
Среднее 4.43, сигма 0.534 (это можно вычислить и в Экселе, где есть все эти функции и он-лайн). Значит, с вероятностью 99.73% масса кошек в этом наборе имеет вес примерно 4.4 кг плюс-минус 1.6 кг, т. е. от 2.8 кг до 6 кг.
Осталось только сказать, что не все случаи распределений можно обсчитать таким образом, а только "нормальные".
Если есть вопросы (а это - сложная тема) - пиши.