Mail.ruПочтаМой МирОдноклассникиВКонтактеИгрыЗнакомстваНовостиКалендарьОблакоЗаметкиВсе проекты

Вопрос по статистике

Sergey Potapov Мастер (1828), закрыт 9 лет назад
Люди, разбирающиеся, направьте, пожалуйста на путь истины. В статистике часто присутствуют значение с отклонением записанные как например 4445545+/- 5,33, 8998+/- 2,8. Меня интересует как рассчитать этот плюс / минус для значения. Ответить в полном объёме трудно, может литературу какую посоветуете?
Лучший ответ
flash Оракул (74659) 9 лет назад
Здесь, в статистике, много допущений.
Начнём со среднего - каким его выбрать? Ну, проще всего средне-арифметическое. Сложили, поделили, всё хорошо. Например, 2 и 4 - среднее 3. Но: - то же число 3 получится и для чисел 0 и 6. И для -99 и 107. Проблема. Надо ещё посчитать разброс. Как? Я считаю как среднюю разбросов от модуля. Но так не делают, считают квадрат отклонения от среднего. Почему? потому что квадрат дифференцируется. Но ведь и тангенс дифференцируется и много других функций? Ну ладно, пусть квадрат. Называется - Дисперсия. Тогда получим вот что:
а) числа 2 и 4. Среднее 3. Тогда Дисперсия = (2-3)^2 + (4-3)^2 = 1 + 1 = 2
) числа 0 и 6. Среднее 3. Дисперсия = (0-3)^2 + (6-3)^2 = 9 + 9 = 18
Ещё больше дисперсия будет для -99 и 107. Видно, что более разбросанные числа имеют большую Дисперсию, так что, вроде, хорошо. Но - если у нас исходные числа были метры, то Дисперсия будет метр-квадрат, мы же в квадрат возвели. Ну, это просто, извлечём корень. Называется - среднеквадратичное отклонение, обычно отмечают греческое неконцевой буквой сигма, так что часто так и называют. Эта же буква - символ статистики.
Что дальше. А дальше - крайне важная вещь: оказывается, что большинство псведо случайных величин разбросан так, что среднего и сигмы хватает для описания всего набора.
При этом 99.73% значений попадут в интервал от среднего плюс-минус 3 сигм.
Вот как в а) сигма = корень (2) = полтора примерно, значит, ПОЧТИ все значения попадут в интервал 3 (это среднее) плюс-минус 4.2, т. е. от -1.2 до 7.2
В случае б) сигма = 4, и интервал от -10 до +16.
Откуда взялось 99.73%? это табличная величина.
Всё вышеописанное - это "правило трёх сигм", наверняка есть на Википедии.
Итак, если мы хотим ДОВОЛЬНО уверенно (с надёжностью 99.73%) утверждать, что средняя величина имеет какой-то интервал, то мы:
1. Ищем среднюю
2. Ищем среднеквадратичное отклонение
Формируем результат как = среднее плюс-минус3*сигма
Надёжность 99.73% - это стандарт, и его можно не указывать. Т. е. если пишут 123 плюс-минус 4 - это именно для такой надёжности.

При другой надёжности мы ищем по таблице функции Лапласа, например, для надёжности .9999 (99.99%) множитель будет не 3, а 3.90. Т. е. мы напишем вычисленное значение так: среднее плюс-минус 3.9*сигма и укажем "с надежностью 0.9999".

Вот в качестве примера возьму твои же цифры: 4445545.
Допустим, это масса кошек :) Взвесили 7 кошек подряд и получили данные: 4,4,4,5,5,4,5.
Среднее 4.43, сигма 0.534 (это можно вычислить и в Экселе, где есть все эти функции и он-лайн). Значит, с вероятностью 99.73% масса кошек в этом наборе имеет вес примерно 4.4 кг плюс-минус 1.6 кг, т. е. от 2.8 кг до 6 кг.

Осталось только сказать, что не все случаи распределений можно обсчитать таким образом, а только "нормальные".

Если есть вопросы (а это - сложная тема) - пиши.
Sergey PotapovМастер (1828) 9 лет назад
Спасибо, здорово объяснил. Не думал, что кто-то возьмётся разжевать так всё)
flash Оракул (74659) Ага. Что поделать - репетитор я :)
Артём ГорбуновМастер (2162) 6 лет назад
Спасибо! Чуть ли не весь университетский курс мат. статистики разложили в одном сообщении
Остальные ответы
Игорь Валеев Ученик (130) 7 лет назад
расшифровать формулу Rn = среднее минус 1,64 сигма
Похожие вопросы