6.3 Медиана для концентрированных данных
Для данных, имеющих форму частотной таблицы, определение медианы и остальных процентилей обычным методом будет слишком неточным. В таких случаях есть возможность вычислить медиану и любые другие процентили более точным методом. Мы поясним это на примере стоматологических данных.
Загрузите файл cpitn.sav, содержащий результаты стоматологического исследования.
Кроме переменных schule и mhfreq, которые определяют уровень образования и то, сколько раз в день обследуемый чистит зубы, этот файл содержит шесть переменных cpitnl—cpitn6, которые указывают степень пародонтального заболевания каждой из шести частей челюсти — так называемый параметр CPITN, задаваемый с помощью следующей кодировочной таблицы:
0 | Здоровый пародонт |
1 | Кровоточивость |
2 | Зубные отложения |
3 | Глубина десенных карманов 3,5-5,5 мм |
4 | Глубина десенных карманов 6 мм и более |
С помощью команд меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies (Частоты) создайте частотную таблицу, к примеру, для переменной cpitnl. Если задать вычисление среднего значения и медианы, мы получим следующий результат:
Статистика
CPITN1 | ||
N | Допустимые | 2548 |
Утерянные | 0 | |
Среднее значение | 2,24 | |
Медиана | 2,00 |
CPITN1
Частота | Проценты | допустимые проценты | накопленные проценты | |
Допустимые здоровый | 109 | 4,3 | 4,3 | 4,3 |
кровоточивость | 389 | 15,3 | 15,3 | 19,5 |
отложения | 921 | 36,1 | 36,1 | 55,7 |
глубина карманов | 1042 | 40,9 | 40,9 | 96,6 |
3,5-5,5 глубина карманов >=6 | 87 | 3,4 | 3,4 | 100,0 |
Всего | 2548 | 100,0 | 100,0 |
При определении медианы обычным методом ее значение равно 2. Это значение, хотя формально и правильное, но дает совершенно неудовлетворительный, недостаточно значимый результат. В данном случае, когда данные являются концентрированным, для уточнения медианы применяется следующая расчетная формула:
Здесь:
n | Количество измеренных значений |
m | Класс, в котором находится медиана |
u | Нижняя граница класса m |
fm | Абсолютная частота в классе m |
Fm-1 | Накопленная частота вплоть до предыдущего класса m — 1 |
B | Ширина класса |
Следовательно, решающее значение имеет правильный выбор границ классов; их следует выбирать так, чтобы значения кодовых чисел соответствовали середине каждого класса. В данном примере для границ классов следует выбрать значения
-0,5 0,5 1,5 2,5 3,5 4,5
Ширина класса равна 1.
Следовательно,
n = 2548
m = 3 (так как медиана находится в третьем классе)
u = 1,5
fm = 921
Fm-1 = 109 + 389 = 498
b = 1
Если сравнить это значение со средним значением (2,24), то можно установить следующее правило — оказывается, что при распределении со сдвигом вправо (как в данном случае) медиана больше среднего значения.
Описанный точный метод вычисления медианы будет использован в SPSS, если в диалоге Frequencies: Statistics установить флажок Values are group midpoints.
В этом случае мы получим точное значение медианы (2,32).
По определению, медиана — это значение, выше и ниже (правее и левее) которого расположено по 50 % всех значений, если они упорядочены по величине. Обобщая эту характеристику, мы приходим к определению так называемых процентилей. Эти характеристики позволяют, например, указать значение, ниже которого лежит 10 % всех значений (а выше расположено 90 % значений). Чаше всего применяются процентили 25 % и 75 %, называемые также соответственно первым и третьим квартилями.
В диалоге Frequencies: Statistics можно последовательно задать любые значения процентилей. Если данные концентрированы, снова следует установить флажок Values are group midpoints.
Формула вычисления процентиля для любого значения:
Здесь:
n | Класс, в котором находится процентиль |
m | Нижняя граница класса т |
P | Процентное значение процентиля |
Нm | Процентная частота в классе m-1 |
Hm-1 | Процентная накопленная частота в классе m-1 |
b | Ширина класса |
Для процентиля 50 % (Р = 50) после некоторых преобразований получается формула для медианы, приведенная выше.
В столбчатых, линейных, круговых диаграммах и диаграммах с областями, на которых предусмотрено отображение медианы и других процентилей, при наличии концентрированных данных используется модифицированный способ расчета (см. раздел 22.1.1).