8.7.2 Анализ концентрированных данных
На предприятии с семнадцатью работниками девять из них удовлетворены условиями труда. Двое из этой последней группы в текущем году болели гриппом; из восьми работников, которые не удовлетворены условиями труда, гриппом болели пятеро. Это дает нам следующую таблицу:
удовлетворены | не уловлетворены | |
болели не болели | 1 7 | 5 3 |
Следует выяснить, является ли значимой большая доля болевших среди неудовлетворенных условиями труда. Подходящим статистическим тестом для этой задачи будет точный тест Фишера и Йейтса, который выполняется после создания таблицы сопряженности в дополнении к обычному тесту %2, если количество наблюдений очень мало.
Чтобы можно было решить эту задачу с применением SPSS, в первую очередь следует построить соответствующий файл данных, состоящий из наблюдений и переменных. Примером такого файла служит grippe.sav. Загрузите этот файл. В окне редактора данных вы получите структуру с четырьмя наблюдениями и тремя переменными.
Она содержит переменную grippe с категориями 1 и 2 (болели — не болели), переменную zuf с категориями 1 и 2 (удовлетворены — не удовлетворены) и переменную freq, которая указывает частоту каждого сочетания и будет использоваться в качестве переменной взвешивания.
Выберите в меню команды Data (Данные) Weight Cases... (Взвесить наблюдения)
В диалоговом окне Weight Cases выберите опцию Weight cases by и перенесите переменную freq в поле Frequency variable.
Закройте диалоговое окно и выберите команды меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)
Перенесите переменную grippe в список переменных строк (Rows), переменную zuf— в список переменных столбцов (Columns), и в диалоге, открываемом кнопкой Statistics..., задайте проведение теста %2 (Chi-square).
В окне просмотра появится следующий результат:
Таблица сопряженности Болели? * Удовлетворены?
Count (Количество) | ||||
Удовлетворены? | Total | |||
| да нет | |||
Болели? | Да | 2 | 5 | 7 |
Нет | 7 | 3 | 10 | |
Total | 9 | 8 | 17 |
Chi-Square Tests
Value | df | Asymp. Sig. (2-sided) | Exact Sig. (2-sided) (Точная значимость (двусторон-няя)) | Exact Sig. (1-sided) (Точная значимость (односторон-няя)) |
Pearson Chi-Square (?2 пo Пирсону) | 2,837 " | 1 | ,092 | |
Continuity Correction (b) (Коррекция непреры-вности) | 1,418 | 1 | ,234 | |
Likelihood Ratio (Отношение правдопо-добия) | 2,915 | 1 | ,088 | |
Fisher's Exact Test (Точный тест Фишера) | ,153 | ,117 | ||
Linear-by-Linear Association (Зависимость линейный-линейный) | 2,670 | 1 | ,102 | |
N of Valid Cases (Кол-во допустимых случаев) | 17 |
a. Computed only for a 2x2 table (Вычислено только для таблицы 2Х2)
b. 3 cells (75,0%) have expected count less than 5. The minimum expected count is 3,29 (3 ячейки (75%) имеют ожидаемую частоту менее 5. Минимальная ожидаемая частота 11,50.)
Односторонний тест Фишера-Йейтса даст в этом случае р =0,117, т.е. отсутствие значимой разницы.
Следующий пример взят из биологии. Исследовалось количество особей девяти различных видов кузнечиков на пяти разных лугах. Частоты сведены в следующую таблицу
Луг
Вид кузнечика 1 | 2 | 3 | 4 | 5 | |
1 | 0 | 0 | 1 | 1 | 1 |
2 | 1 | 1 | 1 | 1 | 0 |
3 | 61 | 51 | 17 | 122 | 54 |
4 | 36 | 32 | 23 | 38 | 11 |
5 | 2 | 0 | 2 | 6 | 0 |
6 | 3 | 1 | 2 | 2 | 1 |
7 | 0 | 0 | 0 | 2 | 0 |
8 | 26 | 50 | 25 | 54 | 22 |
9 | 35 | 33 | 36 | 25 | 12 |
Следует выяснить, являются ли повышенная концентрация или недостаток отдельных видов кузнечиков на определенных лугах статистически значимыми. Для этого следует применить тест по критерию хи-квадрат.
И в этом случае решение задачи SPSS должна начаться с составления файла данных, содержащего три переменные: переменную для вида кузнечиков (с категориями 1—9), переменную для луга (категории 1—5) и переменную, содержащую частоту данного вида на данном лугу.
Загрузите файл wiese.sav и исследуйте его структуру в редакторе данных.
Выберите в меню команды Data (Данные) Weight Cases... (Взвесить наблюдения) Откроется диалоговое окно Weight Cases.
Выберите опцию Weight cases by и перенесите переменную h в поле Frequency variable.
Закройте диалоговое окно кнопкой ОК и выберите команды меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)
Появится диалоговое окно Crosstabs.
Перенесите переменную heuschr в список переменных строк, переменную wiese — в список переменных столбцов, и в диалоге, открываемом кнопкой Cells..., кроме вывода наблюдаемых частот (флажок Observed в группе Counts), задайте также вывод ожидаемых частот (флажок Expected) и нормированных остатков (флажок Standardized в группе Residuals). После закрытия диалогового окна будет выведена следующая таблица.
Таблица сопряженности HFUSflHR * WIFSF
WIESE | Total | ||||||
1 | 2 | 3 | 4 | 5 | |||
HEUSCHR | |||||||
1 | Count (Количество) | 0 | 0 | 1 | 1 | 1 | 3 |
Expected Count (Ожидаемое количество) | ,6 | ,6 | ,4 | 1,0 | ,4 | 3,0 | |
Std. Residual (Нормиро- ванный остаток) | -,8 | -,8 | ,9 | ,0 | 1,0 | ||
2 | Count | 1 | 1 | 1 | 1 | 0 | 4 |
Expected Count | ,8 | ,8 | ,5 | 1,3 | ,5 | 4,0 | |
Std. Residual | ,2 | ,2 | ,6 | -,2 | -,7 | ||
3 | Count | 61 | 51 | 17 | 122 | 54 | 305 |
Expected Count | 63,2 | 64,8 | 41,3 | 96,8 | 38,9 | 305,0 | |
Std. Residual | -,3 | -1,7 | -3,8 | 2,6 | 2,4 | ||
4 | Count | 36 | 32 | 23 | 38 | 11 | 140 |
Expected Count | 29,0 | 29,7 | 18,9 | 44,4 | 17,9 | 140,0 | |
Std. Residual | 1,3 | ,4 | ,9 | -1,0 | -1,6 | ||
5 | Count | 2 | 0 | 2 | 6 | 0 | 10 |
Expected Count | 2,1 | 2,1 | 1,4 | 3,2 | 1,3 | 10,0 | |
Std. Residual | -,1 | -1,5 | ,6 | 1,6 | -1,1 | ||
6 | Count | 3 | 1 | 2 | 2 | 1 | 9 |
Expected Count | 1,9 | 1,9 | 1,2 | 2,9 | 1,1 | 9,0 | |
Std. Residual | ,8 | -,7 | ,7 | -,5 | -,1 | ||
7 | Count | 0 | 0 | 0 | 2 | 0 | 2 |
Expected Count | ,4 | ,4 | ,3 | ,6 | ,3 | 2,0 | |
Std. Residual | -,6 | -,7 | -,5 | 1,7 | -,5 | ||
8 | Count | 26 | 50 | 25 | 54 | 22 | 177 |
Expected Count | 36,7 | 37,6 | 23,9 | 56,2 | 22,6 | 177,0 | |
Std. Residual | -1,8 | 2,0 | ,2 | -,3 | -,1 | ||
9 | Count | 35 | 33 | 36 | 25 | 12 | 141 |
Expected Count | 29,2 | 29,9 | 19,1 | 44,7 | 18,0 | 141,0 | |
Std. Residual | 1,1 | ,6 | 3,9 | -3,0 | -1,4 | ||
Total | |||||||
Count | 164 | 168 | 107 | 251 | 101 | 791 | |
Expected Count | 164,0 | 168,0 | 107.0 | 251,0 | 101,0 | 791,0 |
В ячейках таблицы последовательно располагаются наблюдаемые частоты (fy), ожидаемые частоты (fg) и нормированные остатки, определяемые по формуле:
Считается, что существует значимое различие между наблюдаемой и ожидаемой частотой, если нормированный остаток больше или равен 2. Другие предельные значения принимаются в соответствии со следующей таблицей.
Нормированный остаток | Уровень значимости |
>=2,0 | р<0,05 (*) |
>=2,6 | р<0,01 (**) |
>=3,3 | P<0,001 (***) |
Однако эти правила применимы, только в том случае, если ожидаемая частота не меньше 5. Если, к примеру, взять вид кузнечиков № 3, то для него наблюдается значимый недостаток на лугу 3, очень значимая концентрация на лугу 4 и значимая концентрация на лугу 5.