


Как представлять статистические данные?
Добрый день! Работаю с базовой статистикой для медицинской статьи, возник такой вопрос, как представление статистических данных. Вопросов будет несколько, но вот сразу про базу данных.
Разберем на примере базы данных про Ирисы (свою БД не очень могу предоставить): длина и ширина листка, длина и ширина лепестка, вид. Возьмем сабсет даных с видами "setosa" и "virginica" и будем изучать ширину лепестка.
Нормальность распределения проверяем по Шапиро–Уилка. Если нормальное – M ± sd, если не нормальное – Me [Q1; Q3].
Распределение ширины лепестка само по себе – отличается от нормального (p << 0.0001), распределение ширины лепестка у virginica – нормальное (p = 0.09), у setosa – тоже ненормальное (p << 0.0001).
Тогда как представить эти данные?
Потому что общая ширина – 1.0 [0.2; 2.0], virginica – 2.03 ± 0.27, setosa – 0.2 [0.1; 0.3]. Можно ли вообще в одной строке таблицы представлять данные разным образом?
А так же вопрос по min и max, как их добавить в одну строчку к среднему/квартилям для описания параметра? (min и max соотвественно для общей группы 0.1 и 2.5, для virginica – 1.4 и 2.5, для setosa – 0.1 и 0.6)
P.S.: База:
virginica: 2.5; 1.9; 2.1; 1.8; 2.2; 2.1; 1.7; 1.8; 1.8; 2.5; 2.0; 1.9; 2.1; 2.0; 2.4; 2.3; 1.8; 2.2; 2.3; 1.5; 2.3; 2.0; 2.0; 1.8; 2.1; 1.8; 1.8; 1.8; 2.1; 1.6; 1.9; 2.0; 2.2; 1.5; 1.4; 2.3; 2.4; 1.8; 1.8; 2.1; 2.4; 2.3; 1.9; 2.3; 2.5; 2.3; 1.9; 2.0; 2.3; 1.8
setosa: 0.2; 0.2; 0.2; 0.2; 0.2; 0.4; 0.3; 0.2; 0.2; 0.1; 0.2; 0.2; 0.1; 0.1; 0.2; 0.4; 0.4; 0.3; 0.3; 0.3; 0.2; 0.4; 0.2; 0.5; 0.2; 0.2; 0.4; 0.2; 0.2; 0.2; 0.2; 0.4; 0.1; 0.2; 0.2; 0.2; 0.2; 0.1; 0.2; 0.2; 0.3; 0.3; 0.2; 0.6; 0.4; 0.3; 0.2; 0.2; 0.2; 0.2
Понимаю, Вы можете сказать что данные слишком различаются, но если приблизить ширину setosa к ширине virginica (путем добавления ко всем значениям разницы средних по каждому из видов), все равно распределение общей группы будет ненормальным (p = 0.001)
P.P.S.: Считаю в R, могу предоставить расчеты.