Глава 11. Таблицы сопряженности

Глава 11. Таблицы сопряженности

1. Таблицы сопряженности

Таблицы сопряженности

До сих пор мы рассматривали только отдельные переменные. Мы проводили частотный анализ, а также описывали отдельные переменные статистическими характеристиками, такими как минимум, максимум и среднее значение. Методы анализа такого рода называются одномерными. В текущей главе мы перейдем к двумерному анализу и займемся выяснением вопроса, существует ли взаимосвязь между двумя или более переменными.

В SPSS имеется большое количество разнообразных процедур, при помощи которых можно произвести анализ связи между двумя переменными. Связь между неметрическими переменными, то есть переменными, относящимися к номинальной шкалу или к порядковой шкале с не очень большим количеством категорий, лучше всего представить в форме таблиц сопряженности. Для этой цели в SPSS реализован тест %2, при котором проверяется, есть ли значимое различие между наблюдаемыми и ожидаемыми частотами. Кроме того, существует возможность расчета различных мер связанности. Восстановление зависимостей между метрическими переменными, то есть имеющими интервальную шкалу или шкалу отношений, рассматривается в главе 15.

11.1 Создание таблиц сопряженности

11.1 Создание таблиц сопряженности

Загрузите файл studium.sav.
Для создания таблиц сопряженности и вычисления меры связанности на их основе, выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности) Откроется диалоговое окно Crosstabs (см. рис. 11.1).

Список исходных переменных содержит переменные открытого файла данных. Здесь можно выбрать переменные для строк и столбцов таблицы сопряженности. Для каждого сочетания двух переменных будет создана таблица сопряженности. Например, если в списке строк (Rows) находится три переменных, а в списке столбцов (Columns) — две, то мы получим 3*2 = 6 таблиц сопряженности. Сначала мы построим таблицу сопряженности из переменных sex (пол) и psyche (психическое состояние). Поступите следующим образом:

Перенесите переменную sex в список строк, а переменную psyche — в список столбцов.

Рис. 11.1: Диалоговое окно Crosstabs (Таблицы cопряженности)

Щелкните на ОК, и будет создана таблица сопряженности в стандартном формате. В окне просмотра будут показаны следующие таблицы:

Case Processing Summary (Обработанные наблюдения)

Cases (Случаи)
Valid (Допусти-мые)	Missing (Отсутству-ющие)		Total (Всего)
N	Percent	N	Percent	N	Percent
Пол* Психическое состояние	106	98,1%	2	1,9%	108	100,0%

Пол * Психическое состояние Crosstabulation (Таблица сопряженности)

Count (Число)

Психическое состояние				Total
	Крайне неустой- чивое	Неустой-чивое	Устой-чивое	Очень устойчивое
Пол	Женский	16	18	9	1	44
Пол	Мужской	3	22	32	5	62
Total	19	40	41	6	106

Первая таблица содержит информацию о числе самих наблюдений; два наблюдения содержат пропущенные значения по крайней мере в одной из двух участвующих переменных. Вторая таблица — это собственно таблица сопряженности. Переменная 'Психическое состояние" (psyche) является столбцовой переменной, так как каждое ее значение (крайне неустойчивое, устойчивое, ...) отображается в отдельном столбце. Переменная "Пол" (sex) — это переменная строк, так как каждое ее значение (женский, мужской) отображается в отдельной строке таблицы. Значение в каждой ячейке таблицы — количество наблюдений (частота). Так, например, здесь видно, что 16 респонденток оценивают свое психическое состояние как "крайне неустойчивое", а 5 респондентов-мужчин — как "очень устойчивое". Если для таблицы сопряженности приняты параметры по умолчанию, в каждой ячейке отображается только абсолютная частота. Метки переменных и значений в таблице соответствуют определениям переменных в файле данных SPSS. Числа в последней строке и в последнем столбце (Всего) показывают суммы значений соответственно по строкам и столбцам. В данном примере суммы по строкам указывают, что 44 (16+18+9+1) опрошенных — лица женского пола, а 62 — мужского. Суммы по столбцам показывают, что

19 опрошенных (16 + 3) оценивают свое психическое состояние как "крайне неустойчивое", 40 как неустойчивое, 41 как устойчивое и 6 как очень устойчивое. При анализе принимались в расчет 106 допустимых наблюдений. Полученные результаты мы можем интерпретировать следующим образом:

Из 106 опрошенных, которые учитывались при анализе, — 44 женщины и 62 мужчины.
16 женщин оценивают свою психику как "крайне неустойчивую", тогда как для мужчин это количество составляет только 3.
Лишь одна женщина считает свое психическое состояние "очень устойчивым", а мужчин с таким состоянием пятеро.

Даже первое впечатление, которое возникает при анализе таблицы сопряженности, свидетельствует о том, что зависимость между переменными Пол и Психическое состояние существует. Женщины считают свое психическое состояние более неустойчивым, чем мужчины. Исследуем эту зависимость чуть более детально; для этого нам понадобится точно ответить на следующие вопросы:

Существует ли зависимость вообще?
Что можно сказать об интенсивности этой зависимости?
Что можно сказать о направлении и характере этой зависимости?

Более тщательно исследовать существование зависимости позволяет вычисление значений ожидаемых частот. Чтобы определить эти значения, выполните следующие действия:

Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)

В списке строк у нас должна стоять переменная sex, а в списке столбцов — переменная psyche.

Щелкните на кнопке Cells... (Ячейки). Откроется диалоговое окно Crosstabs: Cell Display (Таблицы сопряженности: Отображение ячеек).

По умолчанию в ячейках таблицы сопряженности отображаются только наблюдаемые значения частот. В группе Counts (Частоты) можно выбрать один или более следующих вариантов отображения:

Observed (наблюдаемые): Будут отображаться наблюдаемые частоты. Это настройка по умолчанию.
Expected (Ожидаемые): Если установить этот флажок, будут отображаться ожидаемые частоты. Они вычисляются как произведение сумм соответствующей строки и столбца, деленное на общую сумму частот.

Рис. 11.2: Диалоговое окно Crosstabs: Cell Display

Установите флажок Expected.
Щелкните на кнопке Continue, а затем на ОК. Вы получите следующую таблицу сопряженности.

Пол * Психическое состояние Crosstabulation (Таблица сопряженности)

Психическое состояние
Крайне неустой-чивое	Неусто- йчивое	Устой-чивое	Очень устой-чивое	Total
Пол	женский	Count	16	18	9	1	44
Expected Count (Ожида- емое число)
		7,9	16,6	17,0	2,5	44,0
		мужской	Count	3	22	32	5	62
Expected Count	11,1	мужской	23,4	24,0	3,5	62,0
"Total		Count	19	40	41	6	106
		Expected Count	19,0	40,0	41,0	6,0	106,0

Теперь под наблюдаемыми частотами (Count) появились ожидаемые значения Expected Count). Эти данные мы можем интерпретировать так:

Для значений переменной "психическое состояние" "крайне неустойчивое" и "неустойчивое" абсолютная частота у опрашиваемых женщин выше, чем ожидаемая (16 и 7,9; j и 16,6), тогда как при значениях "устойчивое" и "очень устойчивое" она ниже (9 и ".0; 1 и 2,5).

У опрашиваемых мужчин мы находим противоположную тенденцию. Для значений ' крайне неустойчивое" и "неустойчивое" абсолютная частота ниже, чем ожидаемая (3 и ' 1.1; 22 и 23,4), тогда как для значений "устойчивое" и "очень устойчивое" она выше :2 и 24,0; 5и 3,5). Эти результаты мы можем объединить в следующую таблицу:

крайне неустойчивое; неустойчивое	очень устойчивое; устойчивое
Женщины	абс. частота > ожидаемой частоты	абс. частота < ожидаемой частоты
Мужщины	абс. частота < ожидаемой частоты	абс. частота > ожидаемой частоты

Таким образом, наше первоначальное впечатление, что женщины считают свое психическое состояние менее устойчивым, чем мужчины, подтверждается. Еще одну возможность выявления существования зависимости между переменными дает вычисление остатков. Эти остатки являются показателем того, насколько сильно наблюдаемые и ожидаемые частоты отклоняются друг от друга. Чтобы получить остатки частот, выполните следующие действия:

Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)

В списке переменных строк у нас должна стоять переменная sex, а в списке переменных столбцов — переменная psyche.

Щелкните на кнопке Cells... Флажки Observed и Expected следует оставить помеченными.

В группе Residuals (Остатки) можно выбрать один или более следующих вариантов отображения:

Unstandardized (Ненормированные): Отображаются ненормированные остатки, то есть разность наблюдаемых (f) и ожидаемых (f) частот.
Standardized (Нормированные): Отображаются нормированные остатки. Для этого ненормированные остатки делятся на квадратный корень из ожидаемой частоты:

Нормированные остатки полезны при последующем проведении анализа тестов по критерию х2 (см. раздел 11.3.1).

Adj. standardized (Уточненные нормированные): Нормированные остатки вычисляются с учетом сумм по строкам и столбцам:

Здесь z — сумма по текущей строке, a s — сумма по текущему столбцу; N — общая сумма частот.

Установите флажок Unstandardized.
Щелкните на кнопке Continue, а в главном диалоговом окне — на ОК. Вы получите следующую таблицу сопряженности.

Пол * Психическое состояние Таблица сопряженности

			Психическое состояние				Total
			Крайне неустой-чивое	Неустой-чивое	Устой-чивое	Очень устой-чивое
Пол	жен-ский	Count	16	18	1	44
		Expected Count	7,9	16,6	17,0	2,5	44,0
		Residual (Остаток)	8,1	1,4	-8,0	-1,5
	муж-ской	Count	3	22	32	5	62
		Expected Count	11,1	23,4	24,0	3,5	62,0
		Residual	-8,1	-1,4	8,0	1,5
Total		Count	19	40	41	6	106
Total		Expected Count	19,0	40,0	41,0	6,0	106,0

Можно заметить, что каждый остаток равен разности наблюдаемой и теоретически ожидаемой частот в данной ячейке (например, в первой ячейке 16 - 7,9 = 8,1). Остатки делают еще более заметной противоположную тенденцию самооценки у мужчин и женщин.

Таблицы сопряженности, которые мы рассмотрели выше, имеют тот недостаток, что в них приводятся только абсолютные значения. Чтобы узнать, насколько эти значения важны по отношению к общему количеству, надо определить их процентную долю для вычисления процентных значений выполните следующие действия:

Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Cmsstabs... (Таблицы сопряженности)
Не изменяя прежних настроек, щелкните на кнопке Cells... Откроется диалоговое окно Crosstabs: Cell Display (Таблицы сопряженности: Отображение ячеек). В группе Percentages (Проценты) можно выбрать один или более из нижеследующих вариантов отображения:
Row (По строкам): Вычисляются процентные значения по строкам: количество наблюдений в каждой ячейке, отнесенное к сумме по строке.
Column (По столбцам): Вычисляются процентные значения по столбцам: количество наблюдений в каждой ячейке в отношении к сумме столбца.
Total (Полные): Вычисляются полные процентные значения: количество наблюдений в каждой ячейке, отнесенное к общей сумме наблюдений.

Пол * Психическое состояние Таблица сопряженности

				Психическое состояние			Total
			Крайне неустой-чивое	Неустой-чивое	Устой-чивое	Очень устой-чивое
Пол	жен-ский	Count	16	18	9	1	44
		Expected Count	7,9	16,6	17,0	2,5	44,0
		% от Пол	36,4%	40,9%	20,5%	2,3%	100,0 %
		% от Психическое состояние	84,2%	45,0%	22,0%	16,7%	41,5%
		% of Total	15,1%	17,0%	8,5%	,9%	41.5%
		Residual	8,1	1,4	-8,0	-1.5
	муж-ской	Count	3	22	32	5	62
		Expected Count	11,1	23,4	24,0	3,5	62,0
		% от Пол	4,8%	35,5%	51,6%	8.1%	100,0 %
		% от Психическое состояние	15,8%	55,0%	78,0%	83,3%	56,5%
		% of Total	2,8%	20,8%	30,2%	4,7%	58,5%
		Residual	-8,1	-1,4	8,0	1,5
Тotal		Count	19	40	41	6	106
		Expected Count	19,0	40,0	41,0	6,0	106,0
		% от Пол	17,9%	37,7%	38,7%	5,7%	100.0 %
		% от Психическое состояние	100,0%	100,0%	100,0 %	100.0%	100,0 %
		% of Total	17,9%	37,7%	38,7%	5,7%	100,0 %

Установите флажки Row, Column и Total.
Щелкните на кнопке Continue, а в главном диалоговом окне — на ОК. В окне просмотра результатов будет получена таблица сопряженности, приведенная выше.

В ней дополнительно отображаются процентные значения частот по отношению к суммам строк, столбцов и общей сумме.

Возьмем для примера первую ячейку. Значения, содержащиеся в ней можно интерпретировать следующим образом:

16 из 44 женщин-респонденток или 36,4% от общего числа опрашиваемых охарактеризовали свое психическое состояние как "крайне неустойчивое".
Из 19 респондентов с "крайне неустойчивым" состоянием 16 — женщины, что составляет 84,2%.
16 женщин-респонденток дали ответ "крайне неустойчивое", что по отношению ко всей таблице (общему количеству респондентов) составляет 15,1%.

Можно также сделать следующие общие выводы:

36,4% женщин оценивают свою психику как "крайне неустойчивую", тогда как среди мужчин эта доля составляет только 4,8%.
Среди опрашиваемых, оценивающих свою психику как "крайне неустойчивую", женщины составляют 84,2%, а мужчины — лишь 15,8%.
77,3% (36,4% + 40,9%) женщин считают свое психическое состояние "крайне неустойчивым" или "неустойчивым", в то время, как только 40,3 % (4,8 % + 35,5 %) мужчин дают такую же оценку своего психического состояния.
22,8% (20,5 %+ 2,3%) женщин и 59,7% (51,6% + 8,1%) мужчин оценивают свою психику как "устойчивую" или "очень устойчивую".
2,3% женщин оценивают свое психическое состояние как "очень устойчивое", а среди мужчин эта доля составляет 8,1%.
Среди опрашиваемых, оценивающих свою психику как "очень устойчивую", женщины составляют 16,7%, а мужчины — 83,3%.

На вопрос, существует ли зависимость между переменными sex и psyche, наиболее ясный ответ в данном примере дают процентные частоты по столбцам. Эти частоты сведены в следующую таблицу:

Крайне неустойчивое	Неустой-чивое	Устой-чивое	Очень устойчивое
Женский	84,2	45,0	22,0	16,7
Мужской	1 5,8	55,0	78,0	83,3

Так как в нашем случае процентные распределения значительно различаются, мы можем сделать вывод о существовании статистической зависимости между признаками sex и psyche. Значительно больше женщин, чем мужчин, оценивают свое психическое состояние как "крайне неустойчивое", и значительно больше мужчин, чем женщин, оценивают свое психическое состояние как "очень устойчивое". Таким образом, наблюдается различие в оценках психического состояния, связанное с полом. Является ли это различие значимым, можно выяснить при помощи хи-квадрат-теста (см. раздел 11.3.1).

Форматы таблиц сопряженности

Можно изменить порядок сортировки переменных строк в таблице сопряженности, щелкнув в диалоговом окне Crosstabs на кнопке Formal... (Формат). Откроется диалоговое окно Crosstabs: Table Format (Таблицы сопряженности: Формат таблицы).

В группе Row Order (Порядок строк) можно выбрать один из следующих вариантов сортировки значений:

Ascending (По возрастанию): Значения переменных строк отображаются в порядке возрастания от наименьшего к наибольшему. Это настройка по умолчанию.
Descending (По убыванию): Значения переменных строк отображаются в порядке убывания от наибольшего к наименьшему.

Рис. 11.3: Диалоговое окно Crosstabs: Table Format

Применение переменных групп и слоев

Созданные выше таблицы сопряженности можно разделить по специальностям. Вполне может быть, что переменная fach (Специальность) оказывает влияние на зависимость между sex и psyche. Чтобы выявить возможные различия, следует создать отдельные таблицы, в нашем случае — по одной таблице для каждой специальности. Такие таблицы могут выявить интересные различия между отдельными специальностями. В рассматриваемом примере переменная fach играет роль переменной слоев. Анализ производится по группам, то есть для каждой группы — в нашем случае для каждой специальности — составляется отдельная таблица сопряженности.

Чтобы задать переменную слоев, поступите так:

Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблица сопряженности)

В списке строк у нас должна стоять переменная sex, а в списке столбцов — переменная psyche.

Перенесите переменную fach в список переменных слоев. В диалоговом окне это третий сверху список; он еще пуст. Диалоговое окно Crosstabs приобретет вид, показанный на рис. 11.4.

Рис. 11.4: Заполненное диалоговое окно Crosstabs

Можно выбрать другие уровни переменных слоев. Для каждой категории каждой из переменной слоев будет создана отдельная таблица сопряженности. Чтобы добавить новый слой, щелкните на кнопке Next (Следующий). Каждый последующий уровень делит таблицу сопряженности на меньшие подгруппы. Переходить от одного слоя к другому можно при помощи кнопок Next и Previous (Предыдущий).

Щелкните на ОК. Вы получите таблицы сопряженности переменных sex и psyche отдельно для каждой специальности. Предоставляем вам самостоятельно интерпретировать их содержание.

1.gif

Изображение:

2.gif

Изображение:

3.gif

Изображение:

4.gif

Изображение:

5.gif

Изображение:

6.gif

Изображение:

11.2 Графическое представление таблиц сопряженности

11.2 Графическое представление таблиц сопряженности

Чтобы сделать более наглядными данные, содержащиеся в таблицах сопряженности, их можно представить визуально. Для этого поступите следующим образом:

Выберите в меню команды Graphs (Графики) Ваr... (Столбчатые) Откроется диалоговое окно Bar Charts (Столбчатые диаграммы).
Выберите пункт Clustered (Группированные), оставьте предлагаемую по умолчанию опцию Summaries for groups of cases (Сводка категорий переменной) и щелкните на кнопке Define (Определить). Откроется диалоговое окно Define Clustered Bar: Summaries for groups of cases (Определить столбчатую диаграмму: Сводка категорий переменной).
Выберите пункт % of cases (% наблюдений).
Перенесите переменную psyche в поле Category Axis (Ось категорий), а переменную sex — в поле Define Clusters by (Определить группы по).
Щелкните на кнопке Titles... (Заголовки). Откроется диалоговое окно Titles (см. рис. 11.6).
В поле Line 1 (Строка 1) введите заголовок "Психическое состояние в зависимости от пола", в поле Subtitle — подзаголовок "Изучение психического состояния и социального положения студентов", а в поле Footnote, Line 1 (Нижний колонтитул, строка 1) — текст "Опрос студентов WS 93/94". Подтвердите ввод кнопкой Continue.
Щелкните на кнопке Options... (Параметры). Откроется диалоговое окно Options.

Рис. 11.5: Диалоговое окно Define Clustered Bar: Summaries for groups of cases

Рис. 11.6: Диалоговое окно Titles

Рис. 11.7: Диалоговое окно Options

Снимите в нем флажок Display groups defined by missing values (Отображать группы, образование пропущенными значениями).
Щелкните на кнопке Continue, а затем на ОК. В окне просмотра появится график.
Дважды щелкните на этом графике — откроется редактор диаграмм, в котором его можно править.
Выберите в меню команды Format (Формат) Bar Label Style... (Стиль меток столбцов) Откроется диалоговое окно Bar Label Style.
Выберите пункт Framed (В рамках), щелкните на кнопке Apply all (Применить для всех) и затем на Close (Закрыть).
Щелкните на одном из столбцов, отображающем психическое состояние женщин, или в легенде на поле "женский". Столбцы, отображающие психическое состояние женщин, будут выделены. Это можно определить по маленьким черным квадратикам на углах столбцов.
Выберите в меню команды Format (Формат) Color... (Цвет)

Откроется диалоговое окно Colors (Цвета). Здесь можно изменить стандартный цвет столбцов, а также цвет их контура.

Щелкните на сером поле, а затем на кнопках Apply (Применить) и Close (Закрыть).
Таким же способом измените цвет столбцов для мужчин на черный.
В заключение вызовите команды меню Chart (Диаграмма) Outer Frame (Внешняя рамка)

Получится графическое представление таблицы сопряженности, показанное на рис. 11.8.

Можно не вызывать меню Graph, а просто установить в диалоге Crosstabs флажок Display clustered bar charts (Показывать столбчатые кластеризованные диаграммы). Тогда на диаграмме будут показаны две группы столбцов для двух переменных строк. Чтобы придать диаграмме такой вид, как на рис. 11.8, надо поменять переменные строк и столбцов местами.

7.gif

Изображение:

8.gif

Изображение:

9.gif

Изображение:

11.3 Статистические критерии для таблиц сопряженности

11.3 Статистические критерии для таблиц сопряженности

Чтобы получить статистические критерии для таблиц сопряженности, щелкните на кнопке Statistics... (Статистика) в диалоговом окне Crosstabs. Откроется диалоговое окно Crosstabs: Statistics (Таблицы сопряженности: Статистика) (см. рис. 11.9).

Флажки в этом диалоговом окне позволяют выбрать один или несколько критериев.

Тест хи-квадрат (X²)
Корреляции
Меры связанности для переменных, относящихся к номинальной шкале
Меры связанности для переменных, относящихся к порядковой шкале
Меры связанности для переменных, относящихся к интервальной шкале
Коэффициент каппа (к)

Рис. 11.8: Графическое представление: столбчатая диаграмма

Рис. 11.9: Диалоговое окно Crosstabs: Statistics

Мера риска
Тест Мак-Немара
Статистики Кохрана и Мантеля-Хэнзеля

Эти критерии рассматриваются в двух последующих разделах, причем из-за того, что критерий хи-квадрат имеет большое значение в статистических вычислениях, ему посвящен отдельный раздел.

10.gif

Изображение:

11.gif

Изображение:

11.3.1 Тест хи-квадрат

11.3.1 Тест хи-квадрат (X²)

При проведении теста хи-квадрат проверяется взаимная независимость двух переменных таблицы сопряженности и благодаря этому косвенно выясняется зависимость обоих переменных. Две переменные считаются взаимно независимыми, если наблюдаемые частоты (f₀) в ячейках совпадают с ожидаемыми частотами (f_e).

Для того, чтобы провести тест хи-квадрат с помощью SPSS, выполните следующие действия:

Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)
Кнопкой Reset (Сброс) удалите возможные настройки.
Перенесите переменную sex в список строк, а переменную psyche — в список столбцов.
Щелкните на кнопке Cells... (Ячейки). В диалоговом окне установите, кроме предлагаемого по умолчанию флажка Observed, еще флажки Expected и Standardized. Подтвердите выбор кнопкой Continue.
Щелкните на кнопке Statistics... (Статистика).

Откроется описанное выше диалоговое окно Crosstabs: Statistics.

Установите флажок Chi-square (Хи-квадрат). Щелкните на кнопке Continue, а в главном диалоговом окне — на ОК.

Вы получите следующую таблицу сопряженности.

Пол * Психическое состояние Таблица сопряженности

				Психическое состояние			Total
			Крайне неустой-чивое	Неустой-чивое	Устой-чивое	Очень устойчивое
Пол	женский	Count	16	18	9	1	44
		Expected Count	7,9	16,6	17,0	2,5	44,0
		Std. Residual	2,9	,3	-1,9	-.9
	Мужской	Count	3	22	32	5	62
		Expected Count	11,1	23,4	24,0	3,5	62,0
		Std. Residual	-2,4	-,3	1,6	,8
Total		Count	19	40	41	6	106
Total		Expected Count	19,0	40,0	41,0	6,0	106,0

Кроме того, в окне просмотра будут показаны результаты теста хи-квадрат:

Chi-Square Tests (Тесты хи-квадрат)

Value (Значение)	df	Asymp. Sig. (2-sided) (Асимптотическая значимость (двусторонняя))
Pearson Chi-Square (Хи-квадрат по Пирсону)	22,455 (а)	3	,000
Likelihood Ratio (Отношение правдоподобия)	23,688	3	,000
Linear-by-Linear Association (Зависимость линейный-линейный)	20,391	1	,000
N of Valid Cases (Кол-во допустимых случаев)	106

а. 2 cells (25,0%) have expected count less than 5. The minimum expected count is 2,49 (2 ячейки (25%) имеют ожидаемую частоту менее 5. Минимальная ожидаемая частота 2,49.)

Для вычисления критерия хи-квадрат применяются три различных подхода: формула Пирсона, поправка на правдоподобие и тест Мантеля-Хэнзеля. Если таблица сопряженности имеет четыре поля и ожидаемая вероятность менее 5, дополнительно выполняется точный тест Фишера.

Критерий хи-квадрат по Пирсону

Обычно для вычисления критерия хи-квадрат используется формула Пирсона:

Здесь вычисляется сумма квадратов стандартизованных остатков по всем полям таблицы сопряженности. Поэтому поля с более высоким стандартизованным остатком вносят более весомый вклад в численное значение критерия хи-квадрат и, следовательно, — в значимый результат. Согласно правилу, приведенному в разделе 8.7.2, стандартизованный остаток 2 или более указывает на значимое расхождение между наблюдаемой и ожидаемой частотами.

В рассматриваемом нами примере формула Пирсона дает максимально значимую величину критерия хи-квадрат (р<0,001). Если рассмотреть стандартизованные остатки в отдельных полях таблицы сопряженности, то на основе вышеприведенного правила можно сделать вывод, что эта значимость в основном определяется полями, в которых переменная psyche имеет значение "крайне неустойчивое". У женщин это значение сильно повышено, а у мужчин — понижено.

Корректность проведения теста хи-квадрат определяется двумя условиями: во-первых, ожидаемые частоты < 5 должны встречаться не более чем в 20 % полей таблицы; во-вторых, суммы по строкам и столбцам всегда должны быть больше нуля.

Однако в рассматриваемом примере это условие выполняется не полностью. Как указывает примечание после таблицы теста хи-квадрат, 25 % полей имеют ожидаемую частоту менее 5. Однако, так как допустимый предел4в 20 % превышен лишь ненамного и эти поля, вследствие своего очень малого стандартизованного остатка, вносят весьма незначительную долю в величину критерия хи-квадрат, это нарушение можно считать несущественным.

Критерий хи-квадрат с поправкой на правдоподобие

Альтернативой формуле Пирсона для вычисления критерия хи-квадрат является поправка на правдоподобие:

При большом объеме выборки формула Пирсона и подправленная формула дают очень близкие результаты. В нашем примере критерий хи-квадрат с поправкой на правдоподобие составляет 23,688.

Тест Мантеля-Хэнзеля

Дополнительно в таблице сопряженности под обозначением linear-by-linear ("линейный-по-линейному") выводится значение теста Мантеля-Хэнзеля (20,391). Эта форма критерия хи-квадрат с поправкой Мантеля-Хэнзеля — еще одна мера линейной зависимости между строками и столбцами таблицы сопряженности. Она определяется как произведение коэффициента корреляции Пирсона на количество наблюдений, уменьшенное на единицу:

Полученный таким образом критерий имеет одну степень свободы. Метод Мантеля-Хэнзеля используется всегда, когда в диалоговом окне Crosstabs: Statistics установлен флажок Chi-square. Однако для данных, относящихся к с номинальной шкале, этот критерий неприменим.

12.gif

Изображение:

13.gif

Изображение:

11.3.2 Коэффициенты корреляции

До сих пор мы выясняли лишь сам факт существования статистической зависимости между двумя признаками. Далее мы попробуем выяснить, какие заключения можно сделать о силе или слабости этой зависимости, а также о ее виде и направленности. Критерии количественной оценки зависимости между переменными называются коэффициентами корреляции или мерами связанности. Две переменные коррелируют между собой положительно, если между ними существует прямое, однонаправленное соотношение. При однонаправленном соотношении малые значения одной переменной соответствуют малым значениям другой переменной, большие значения — большим. Две переменные коррелируют между собой отрицательно, если между ними существует обратное, разнонаправленное соотношение. При разнонаправленном соотношении малые значения одной переменной соответствуют большим значениям другой переменной и наоборот. Значения коэффициентов корреляции всегда лежат в диапазоне от -1 до +1.

В качестве коэффициента корреляции между переменными, принадлежащими порядковой шкале применяется коэффициент Спирмена, а для переменных, принадлежащих к интервальной шкале — коэффициент корреляции Пирсона (момент произведений). При этом следует учесть, что каждую дихотомическую переменную, то есть переменную, принадлежащую к номинальной шкале и имеющую две категории, можно рассматривать как порядковую.

Для начала мы проверим существует ли корреляция между переменными sex и psyche из файла studium.sav. При этом мы учтем, что дихотомическую переменную sex можно считать порядковой. Выполните следующие действия:

Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)
Перенесите переменную sex в список строк, а переменную psyche — в список столбцов.
Щелкните на кнопке Statistics... (Статистика). В диалоге Crosstabs: Statistics установите флажок Correlations (Корреляции). Подтвердите выбор кнопкой Continue.
В диалоге Crosstabs откажитесь от вывода таблиц, установив флажок Supress tables (Подавлять таблицы). Щелкните на кнопке ОК.

Будут вычислены коэффициенты корреляции Спирмена и Пирсона, а также проведена проверка их значимости:

Symmetric Measures (Симметричные меры)

		Value (Значение)	Asympt. Std. Error (а) Асимпто-тическая стандарт-ная ошибка)	Approx. Т (b) (Приблиз. Т)	Approx. Sig. (Приблизи- тельная значи-мость)
Interval by Interval (Интерваль- ный-интерваль- ныи)	Pearson's R (R Пирсона)	,441	,081	5,006	,000 (с)
Ordinal by Ordinal (Порядковый-порядковый)	Spearman Correlation (Корреляци я по Спирмену)	.439	,083	4,987	,000 (с)
N of Valid Cases (Кол-во допустимых случаев)		106

a. Not assuming the null hypothesis (Нулевая гипотеза не принимается).

b. Using the asymptotic standard error assuming the null hypothesis (Используется асимптотическая стандартная ошибка с принятием нулевой гипотезы).

с. Based on normal approximation (На основе нормальной аппроксимации).

Так как здесь нет переменных с интервальной шкалой, мы рассмотрим коэффициент корреляции Спирмена. Он составляет 0,439 и является максимально значимым (р<0,001).

Для словесного описания величин коэффициента корреляции применяется следующая таблица:

Значение коэффициента корреляции r

Интерпретация

0 < г <= 0,2

0,2 < г <= 0,5

0,5 < г <= 0,7

0,7 < г <= 0,9

0,9 < г <= 1

Очень слабая корреляция

Слабая корреляция

Средняя корреляция

Сильная корреляция

Очень сильная корреляция

Исходя из вышеприведенной таблицы, можно сделать следующие заключения: Между переменными sex и psyche существует слабая корреляция (заключение о силе зависимости), переменные коррелируют положительно (заключение о направлении зависимости).

В переменной psyche меньшие значения соответствуют отрицательному психическому состоянию, а большие — положительному. В переменной sex, в свою очередь, значение "1" соответствует женскому полу, а "2" — мужскому.

Следовательно, однонаправленность соотношения можно интерпретировать следующим образом: студентки оценивают свое психическое состояние более негативно, чем '.х коллеги-мужчины или, что вероятнее всего, в большей степени склонны согласиться на такую оценку при проведении анкетирования. Строя подобные интерпретации, нужно учитывать, что корреляция между двумя признаками не обязательно равнозначна их Функциональной или причинной зависимости. Подробнее об этом см. в разделе 15.3.

Теперь проверим корреляцию между переменными alter и semester. Применим методику, описанную выше. Мы получим следующие коэффициенты:

Symmetric Measures

Value	Asympt. Std. Error (a)	Approx. Т (b)	Approx. Sig.
Interval by Interval	Pearson's R	,807	,041	13,930	,000 (c)
Ordinal by Ordinal	Spearman Correlation	,743	,060	11,310	,000 (c)
N of Valid Cases		106

a. Not assuming the null hypothesis (Нулевая гипотеза не принимается).

э. Using the asymptotic standard error assuming the null hypothesis (Используется асимптотическая стандартная ошибка с принятием нулевой гипотезы).

с. Based on normal approximation (На основе нормальной аппроксимации).

Так как переменные alter и semester являются метрическими, мы рассмотрим коэффициент Пирсона (момент произведений). Он составляет 0,807. Между переменными alter и semester существует сильная корреляция. Переменные коррелируют положительно. Следовательно, старшие по возрасту студенты учатся на старших курсах, что, собственно, не является неожиданным выводом.

Проверим на корреляцию переменные sozial (оценку социального положения) и psyche. Мы получим следующие коэффициенты:

Symmetric Measures

Value	Asympt. Std. Error (a)	Approx. Т (b)	Approx. Sig.
Interval by Interval	Pearson's R	-,688	,057	-9,703	,000 (c)
Ordinal by Ordinal	Spearman Correlation	-,703	,059	-10,123	,000 (c)
N of Valid Cases		107

a. Not assuming the null hypothesis (Нулевая гипотеза не принимается).

с. Based on normal approximation (На основе нормальной аппроксимации).

В этом случае мы рассмотрим коэффициент корреляции Спирмена; он составляет -0,703. Между переменными sozial и psyche существует средняя или сильная корреляция (граничное значение 0,7). Переменные коррелируют отрицательно, то есть чем больше значения первой переменной, тем меньше значения второй и наоборот. Так как малые значения переменной sozial характеризуют позитивное состояние (1 = очень хорошее, 2 = хорошее), а большие значения psyche — отрицательное состояние (1 = крайне неустойчивое, 2 = неустойчивое), следовательно, психологические затруднения во многом обусловлены социальными проблемами.

11.3.3 Меры связанности для переменных с номинальной шкалой

Коэффициент корреляции нельзя применять в качестве характеристики зависимости между переменными, если эти переменные принадлежат к номинальной шкале и имеют более двух категорий, потому что между их кодировками невозможно установить порядкового отношения и, следовательно, они не могут быть расположены в определенном, рационально объяснимом порядке.

Наилучшим средством для анализа таких зависимостей считается представленный в разделе 11.3.1 тест хи-квадрат, после которого при необходимости можно провести анализ наблюдаемых и ожидаемых частот, а также нормированных остатков. Этот анализ был описан в разделе 8.7.2.

Тем не менее и в этом случае также производились попытки разработать критерии количественной оценки степени связанности двух переменных, поставленных во взаимное соответствие. Эти критерии показывают степень взаимной зависимости или независимости двух переменных, принадлежащих к с номинальной шкале, причем значение 0 соответствует полной независимости переменных, а 1 — их максимальной зависимости. Меры связанности не могут иметь отрицательных значений, так как при отсутствии порядкового отношения нельзя дать ответа на вопрос о направлении зависимости.

В опросе членов городской организации одной из политических партий среди прочего выяснялось их занятие и определялось, выполняет ли респондент какую-либо партийную функцию. Выдержка из ответов респондентов-мужчин содержится в файле partei.sav.

Загрузите файл partei.sav и создайте таблицу сопряженности с переменной funk в строках и переменной beruf в столбцах.
Задайте вывод ожидаемых частот, стандартизованных остатков, процентов по столбцам и критерия хи-квадрат.

Занятие * Партийная работа Crosstabulation (Таблица сопряженности)

Занятие							Total
			Наемный работник	Государст- венный служащий	Предпри-ниматель
Партийная работа	да	Count	13	16	7	36
		Expected Count	12,4	10,1	13,5	36,0
		% от Занятие	59,1%	88,9%	29,2%	56,3%
		Std. Residual	,2	1,8	-1,8
	нет	Count	9	2	17	28
		Expected Count	9,6	7,9	10,5	28,0
		% от Занятие	40,9%	11,1%	70.8%	43,8%
		Std. Residual	-,2	-2,1	2,0
Total		Count	22	18	24	64
		Expected Count	22,0	18,0	24,0	64,0
		% от Занятие	100,0%	100,0%	100,0%	100,0%

Chi-Square Tests

Value	df	Asymp. Sig. (2-sided)
Pearson Chi-Square (Критерий хи-квадрат по Пирсону)	15,01 7 (a)	2	,001
Likelihood Ratio (Отношение правдоподобия)	16,421	2	,000
Li near-by-Li near Association (Зависимость линейный-линейный)	4,420	1	,036
N of Valid Cases	64

а. и cells (,0%) have expected count less than 5. The minimum expected count is 11,50. (0 ячеек (,0%) имеют ожидаемую частоту менее 5. Минимальная ожидаемая частота 7,88.)

Результат получился максимально значимым: участие в партийной работе весьма характерно для государственных служащих, а для предпринимателей — совсем не характерно, тогда как наемные работники находятся посредине. Теперь зададим (кнопкой Statistics...) вывод всех мер связанности для переменных, принадлежащих к номинальной шкале (флажки в группе Nominal).

Directional Measures (Направленные меры)

			Value	Asympt. Std. Error (a)	Approx. Т (b)	Approx. sig.
Nominal by Nominal (Номиналь- ный-номина- льный)	Lambda (Лямбда)	Symmetric (Симметри- ческая)	,279	,104	2,554	,011
		Партийная работа Dependent (B зависимости от Партийная работа)	,357	,140	,211	,035
		Занятие Dependent (В зависимости от Занятие)	,225	,106	1,930	,054
	Goodman and Kruskal tau (Tay Гудмена-Крускала)	Партийная работа Dependent	,235	,093		,001 (c)
	Goodman and Kruskal tau (Tay Гудмена-Крускала)	Занятие Dependent	,116	,051		,001 (c)
	Uncertainty Coefficient (Коэффициент неопреде- ленности)	Симметричный	,144	,063	2,269	,000 (d)
		Партийная работа Dependent	,187	,082	2,269	,000 (d)
		Занятие Dependent	,118	,052	2,269	,000 (d)

a. Not assuming the null hypothesis (Нулевая гипотеза не принимается).

с. Based on chi-square approximation (На основе аппроксимации по распределению хи-квадрат).

d. Likelihood ratio chi-square probability (Степень правдоподобия при распределении вероятности по закону хи-квадрат).

Symmetric Measures (Симметричные меры)

Value	Approx. Sig.
Nominal by Nominal (Номинальный-номинальный)	Phi (Фи)	,484	,001
	Cramer's V (V Крамера)	,484	,001
	Contingency Coefficient (Коэффициент сопряженности признаков)	,436	,001
N of Valid Cases		64

a. Not assuming the null hypothesis (Нулевая гипотеза не принимается).

Коэффициент сопряженности признаков (Пирсона)

Его величина всегда находится в пределах от 0 до 1 и вычисляется (как и значения критериев Фишера (<р) и Крамера (V)) с использованием значения критерия хи-квадрат:

Здесь N — общая сумма частот в таблице сопряженности. Так как N всегда больше нуля, коэффициент сопряженности признаков никогда не достигает единицы. Максимальное значение зависит от количества строк и столбцов таблицы сопряженности и в таблице размером 3*2 составляет (как в данном примере) 0,762. По этой причине коэффициенты сопряженности признаков для двух таблиц с разным количеством полей несопоставимы.

Критерий Фишера (<р)

Этот коэффициент можно использовать только для таблиц 2*2, так как в других случаях он может превысить значение 1:

Критерий Крамера (V)

Этот критерий представляет собой модификацию критерия Фишера и для любых таблиц сопряженности он дает значение в пределах от 0 до 1, включая 1:

Здесь k — наименьшее из количеств строк и столбцов.

Три названных критерия основаны на использовании критерия хи-квадрат. Они различными способами нормируют его значение по отношению к размеру выборки. Так, если формуле для V Крамера положить k = 2, то значения (р и V Крамера совпадут. Определение значимости основано на значении критерия хи-квадрат.

При оценке полученных значений мер связанности, находящихся в нашем примере в промежутке между 0,4 и 0,5, следует учесть, что значение 1 достигается очень редко или вообще никогда. Другие меры связанности (Я, т Гудмена-Крускала и коэффициент неопределенности) определяются на основе так называемой концепции пропорционального сокращения ошибки. При определении этих критериев одна переменная рассматривается как зависимая; по этой причине данные критерии называются "направленными мерами".

Лямбда

В данном примере вопрос о партийной работе можно рассматривать как зависимую переменную, определяемую родом занятий. Если для какого-то отдельно взятого человека надо сделать предположение о том, выполняет ли он партийную работу или нет, то, естественно, делается наиболее вероятное предположение, соответствующее наиболее часто даваемому ответу — в данном случае, предположение о том, что опрашиваемый занимается партийной работой. Такой ответ дают 56,3% респондентов; однако в 43,7% наблюдений наше предположение будет неверным.

Вероятность предположения можно повысить, если учитывать другую переменную — род занятий. Для наемных работников, как и для государственных служащих, можно достаточно уверенно прогнозировать участие в партийной работе, причем этот прогноз окажется неверным для 9 наемных работников и для 2 государственных служащих. В то же время для предпринимателей можно с большими основаниями предположить, что они не занимаются партийной работой, и ошибиться в 7 наблюдениях. Таким образом, для общего числа 64 опрашиваемых мы получаем 9 + 2 + 7=18 наблюдений, или 28,1 %, в которых прогноз будет неверен. Легко видеть, что первоначальная вероятность ошибки 43,7% значительно сократилась.

На основе этих двух вероятностей можно вычислить относительное сокращение ошибки, которое и называется лямбда:

Лямбда=(Ошибка при первом прогнозе — Ошибка при втором прогнозе)/Ошибка при первом

В нашем примере:

Лямбда =( 43,7% - 28.1%)/43,7% = ,357

Если ошибка при втором прогнозе сокращается до 0, лямбда будет равна 1. Если ошибки при первом и при втором прогнозе одинаковы, лямбда = 0. В этом случае вторая переменная никак не помогает в уточнении предсказания значения первой (зависимой переменной); то есть выбранные две переменные совершенно не зависят друг от друга.

Так как ваш быстрый, но совершенно не умеющий соображать компьютер не знает, какую переменную следует считать зависимой, SPSS вычисляет оба значения Я, поочередно рассматривая каждую из переменных как зависимую. В случае, если выясняется, что ни одну из выбранных переменных нельзя объявить зависимой, выводится среднее двух этих значений с обозначением "лямбда -симметричная".

Тау (т) Гудмена-Крускала

Это вариант меры связанности , который SPSS всегда вычисляет совместно с ней. При определении этой меры количество правильных предсказаний определяется по-иному: наблюдаемые частоты взвешиваются с учетом своих процентов и складываются. Для первого прогноза это дает:

36 * 56,3% + 28 * 43,8% =32,53

Согласно этому выражению, из 64 респондентов неверное предположение сделано для 31,47, что составляет 49,17%.

С учетом второй переменной количество верных предположений (второй прогноз) составляет:

13 * 59,1 % + 16 * 88,9 % + 7 * 29,2 % + 9 * 40,9 % + 2 * 11,1 % + 17 * 70,8 % = 39,89

Итак, при втором прогнозе сделано 24,11 неверных прогнозов из 64, что составляет 37,67%. Тогда сокращение ошибки равно

(49.17 %-37.67%)/49,17 %=0,235

Это значение выводится под названием "тау Гудмена-Крускала". И в этом случае SPSS выдает второе значение т, рассматривая вторую переменную, как зависимую.

Коэффициент неопределенности

Это еще один вариант критерия лямбда, при определении которого имеется в виду не ошибочное предсказание, а "неопределенность", то есть степень неточности предсказаний. Эта неопределенность вычисляется по достаточно сложным формулам, которые мы опускаем. Коэффициент неопределенности также принимает значения в диапазоне от 0 до 1. Значение 1 говорит о том, что одну переменную можно точно предсказать по значениям другой.

15.gif

Изображение:

16.gif

Изображение:

17.gif

Изображение:

11.3.4 Меры связанности для переменных с порядковой шкалой

Все эти критерии основаны на количестве нарушений порядка (так называемых инверсий, обозначаемых через 1). Количество инверсий можно определить, если расположить в порядке возрастания значения одной из двух переменной между которыми необходимо установить степень взаимосвязи, а рядом с ними записать соответствующие значения другой переменной. Число нарушений порядка расположения второй переменной и есть количество инверсий. Это количество вместе с количеством соблюдений порядка (проверсий, обозначаемых через Р) используется в различных формулах для определения меры связанности, которые дают значения этого параметра в диапазоне от -1 до +1.

Гамма (ÿ)

Гамма вычисляется по простой формуле:

Если инверсий не наблюдается (I = 0), то мы имеем у =1 (полную зависимость). Если же не встречается проверсий, а только инверсии (Р = 0), то говорят о максимально разнонаправленной зависимости (у = -1). Если Р= I, зависимости вообще не существует (y=0).

d Сомера

Существуют две асимметричных и симметричная меры связанности d Сомера. Для их вычисления используется формула для ус корректирующим членом Т, который учитывает количество связей зависимых переменных (одинаковых значений, встречающихся в измерениях):

Для сопряженной асимметричной меры связанности d Сомера используется корректирующий член Г, соответствующий количеству связей независимой переменной. В знаменателе симметричной rf-статистики Сомера стоит среднее значение двух асимметричных коэффициентов.

Тау-б (T_b Кендалла)

Этот коэффициент одновременно учитывает связи как зависимых, так и независимых переменных:

t_b может приобретать значения -1 и +1 только для квадратных таблиц сопряженности.

Тау-ц (t_c) Кендалла

Этот критерий может достигать значений -1 и +1 в любых таблицах:

Здесь N — общая сумма частот; m — наименьшее из количеств строк и столбцов.

19.gif

Изображение:

20.gif

Изображение:

21.gif

Изображение:

11.3.5 Другие меры связанности

SPSS позволяет вычислить другие специальные меры связанности, обзор которых приводится ниже.

Эта

Этот коэффициент применяется, если зависимая переменная принадлежит к интервальной шкале, а независимая — к порядковой или шкале наименований, эта² представляет собой долю общей дисперсии, которую можно объяснить влиянием независимой переменной.

Коэффициент каппа (к)

Коэффициент каппа Козна (к) можно вычислить только для квадратных таблиц сопряженности, в которых применяются одинаковые числовые кодировки для переменных строк и столбцов. Типичный случай применения этого критерия — оценка людей или объектов двумя экспертами. В таком случае к указывает на степень согласия между экспертами.

Мера риска

С помощью этой опции в SPSS реализован расчет трех различных коэффициентов, которые могут быть определены для таблицы сопряженности, состоящей из 2 строк и 2 столбцов, созданной на основании строго определенных правил, которые будут сформулированы в конце данного параграфа. При расчете меры риска анализируется так называемая переменная риска, которая имеет две категории и указывает, произошло ли определенное событие или нет. Анализ переменной риска проводится в зависимости от причинной (независимой) переменной, которая должна также быть дихотомической.

Это положение можно пояснить на типичном примере. Исследование депрессии на базе 294 респондентов дало следующую частотную таблицу:

Депрессия	Да	Нет
Женщины	а = 40	Ь = 143
Мужчины	с = 10	d = 101

Обе переменные, входящие в таблицу, — являются дихотомическими. Депрессия, имеющая две категории (да-нет), является переменной риска, а пол с двумя категориями (женщины-мужчины) — независимой (причинной) переменной.

Исследование, проводимое в такой форме, называется групповым или когортным. При когортном исследовании определенная группа наблюдений, в которых анализируемое событие еще не произошло, изучается на протяжении известного промежутка времени. Определяется, в каких наблюдениях данное событие произошло, а в каких — нет, и различается ли риск наступления события между разными категориями независимой переменной. При групповых исследованиях группа наблюдений, в которых событие уже произошло, сравнивается с контрольной группой.

Два из трех коэффициентов риска, определяемых в SPSS, обычно относятся к когортным исследованиям, а третий — к групповым. При когортном исследовании для обеих категорий независимой переменной (в данном случае пола) определяется инцидентность. У респондентов-женщин инцидентность наступления депрессии равна:

40/(40 + 143)=0,219

У респондентов-мужчин инцидентность равна

10/(10 + 101)=0,09

Отношение инцидентностей составляет

0,219/0,090 = 2,426

и называется относительным риском или мерой относительного риска. Риск попасть в депрессию у женщин в 2,426 раза выше, чем у мужчин. Так как компьютер не знает, какое из двух кодовых значений переменной риска соответствует наличию депрессии, относительный риск вычисляется для обоих значений.

При групповом исследовании применяется несколько отличный вариант коэффициента, называемый также "отношением шансов" (отношением перекрестных произведений). "Шансы" попасть в депрессию у женщин составляют 40/143, а у мужчин — 10/101. Следовательно, отношение шансов равно

(40 * 101)/(143 * 10)= 2,825

Если обозначить четыре частоты в таблице буквами а, Ь, с и d (см. выше), то формулы, которые SPSS использует для вычисления мер риска, можно записать так:

Проведем анализ приведенного примера в SPSS.

Загрузите файл depr.sav.

Этот файл содержит переменную риска depr с кодовыми значениями 1 = да и 2 = нет и независимую (причинную) переменную sex с кодовыми значениями 1 = женщины и 2 = мужчины. Еще одна переменная, n, содержит частоты наблюдений.

Выберите в меню команды Data (Данные) Weight Cases... (Взвесить наблюдения) и задайте n как переменную взвешивания.
В диалоговом окне Crosstabs определите переменную sex как переменную строк и depr — как переменную столбцов, а во вспомогательном диалоге Statistics установите флажок Risk (Риск).

В окне просмотра будут показаны следующие результаты.

Пол * Депрессия Таблица сопряженности

Депрессия		Total
да	нет
Пол	Женщины	40	143	183
Пол	Мужчины	10 50	101	111
Total	Мужчины	10 50	244	294

Risk Estimate (Оценка риска)

Value		95% Confidence Interval (95% доверительный интервал)
	Lower (Нижняя граница)	Upper (Верхняя граница)
Odds Ratio for (Отношение шансов для) Пол (Женщины / Мужчины)	2,825	1,350	5,911
For cohort (Для когорты) Депрессия = да	2,426	1,265	4,655
For cohort (Для когорты) Депрессия = нет	,859	,780	,946
N of Valid Cases	294

Здесь последовательно показаны отношение шансов (RO) и оба коэффициента относительного риска (R1 и R2). Кроме того, для каждой величины определен 95 % доверительный интервал.

Чтобы правильно вычислить отношение шансов и относительный риск, надо учитывать следующие правила построения таблиц сопряженности:

Определяйте причинную (независимую) переменную как переменную строк, а переменную риска — как переменную столбцов.
В первой ячейке каждой строки таблицы должна находиться группа с наибольшим риском.
В первой ячейке каждого столбца таблицы должно стоять кодовое значение совершения события.

Тест хи-квадрат по Мак-Немару

Тест хи-квадрат по Мак-Немару применяется при наличии двух независимых дихотомических переменных; он рассматривается в разделе 14.2.

Статистика Кохрана и Мантеля-Хзнзеля

Эта статистика включает метод вычисления отношения шансов в таблицах сопряженности 2x2. Расчет этой статистики задается флажком Risk. При вычислениях используется переменная слоев (ковариация) и определяется, значительно ли отличаются категории этой переменной по своему отношению шансов от 1 (или другой величины). Это можно пояснить на примере.

Загрузите файл angst.sav.

В этом файле в трех переменных хранятся сведения о 1737 людях: их пол (1 = женский, 2 = мужской), наличие тревожной депрессии (1 = да, 2 = нет) и избыточного веса (1 = нет, 2 = да). Для людей с избыточным весом и с недостатком веса составим раздельные таблицы сопряженности пола и наличия тревожной депрессии, а затем вычислим отношение шансов.

Выберите в меню команды Data (Данные) Split File... (Разделить файл)

Выберите опцию Organize output by groups (Разделить вывод на группы) и задайте gewicht как группирующую переменную.

Выберите команды меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)
Перенесите переменную sex в список переменных строк, а переменную angst — в список переменных столбцов.
Кнопкой Cells... (Ячейки) задайте вывод процентов по строкам (Percentages — Row), а кнопкой Statistics... (Статистика) — вывод риска (Risk):

Основная часть результатов приводится ниже.

Пол * Тревожная депрессия Crosstabulation (a)

Тревожная депрессия		Total
		Да	нет
Пол	женский	Count	154	592	746
	женский	% от Пол	20,6%	79,4%	100,0%
	мужской	Count	79	715	794
	мужской	% от Пол	9,9%	90,1%	100,0%
Total		Count	233	1307	1540
Total		% от Пол	15,1%	84,9%	100,0%
Избыточный вес = нет

Risk Estimate (a)

95% Confidence Interval
	Value	Lower	Upper
Odds Ratio for Пол (женский / мужской)	2,354	1,758	3,154
For cohort Тревожная депрессия = да	2,075	1,612	2,670
For cohort Тревожная депрессия = нет	,881	,844	,920
N of Valid Cases	1540
а. Избыточный вес = нет

Пол * Тревожная депрессия Crosstabulation (a)

Тревожная депрессия		Total
Да	нет	Total
Пол	женский	Count	22	62	84
	женский	% от Пол	26,2%	73,8%	100,0%
	мужской	Count	9	104	113
	мужской	% от Пол	8,0%	92,0%	100,0%
Total		Count	31	166	197
Total		% от Пол	15,7%	84,3%	100,0%
Избыточный вес; = да

Risk Estimate (a)

Value	95% Confidence Interval
	Lower	Upper
Odds Ratio for Пол (женский / мужской)	4,100	1,776	9,468
For cohort Тревожная депрессия = да	3,288	1,597	6,771
For cohort Тревожная депрессия = нет	,802	,698	,921
N of Valid Cases	197

а. Избыточный вес = да

В обоих случаях тревожная депрессия у женщин наступает значительно чаще. Отношение шансов для людей с недостатком веса составляет 2,354, а для людей с избыточным весом — 4,100.

Теперь вычислим статистику Кохрана и Мантеля-Хэнзеля.

Чтобы отменить разделение на группы, после вызова команд меню Data (Данные) Split File... (Разделить файл) выберите опцию Analyze all cases, do not create groups (Анализировать все наблюдения, не создавать группы).
В диалоговом окне Crosstabs задайте gewicht как переменную слоев, во вспомогательном диалоге Statistics снимите флажок Risk и установите флажок Cochran and Mantel-Haenszel statistics (Статистика Кохрана и Мантеля-Гензеля).
В поле Test common odds ratio equals (Общее отношение шансов) оставьте значение 1, установленное по умолчанию.

Из полученных результатов ниже приводится только статистика Кохрана и Мантеля-Гензеля.

Test of Homogenity of the Odds Ratio (Тест на гомогенность отношения шансов) Statistics

Statistics		Chi-Squared (Хи-квадрат)	df	Asymp. Sig. (2-sided)
Conditional (Условная независимость)	Cochran (Кохран)	44,665	1	,000
Conditional (Условная независимость)	Mantel-Haenszel (Мантель-Гензель)	43,724	1	,000
Homogeneity (Гомогенность)	Breslow-Day (Бреслоу-Дэй)	1,522	1	,217
Homogeneity (Гомогенность)	Tarone (Тарой)	1,522	1	,217

Under the conditional independence assumption, Cochran's statistic is asymptotically distributed as a 1 df chi-squared distribution, only if the number of strata is fixed, while the Mantel-Haenszel statistic is always asymptotically distributed as a 1 df chi-squared distribution. Note that the continuity correction is removed from the Mantel-Haenszel statistic when the sum of the differences between the observed and the expected is 0. (При гипотезе условной независимости статистика Кохрана дает распределение, асимптотически приближающееся к распределению хи-квадрат с 1-ой степенью свободы, только при фиксированном количестве слоев, в то время как статистика Мантеля-Хэнзеля при той же гипотезе всегда дает такое распределение. Обратите внимание, что в статистике Мантеля-Хэнзеля опускается коррекция на непрерывность, если сумма разностей наблюдаемых и ожидаемых величин равна 0.)

Mantel-Haenszel Common Odds Ratio Estimate (Оценка общего отношения шансов Мантеля-Гензеля)

Estimate (Оценка)			2,503
ln(Estimate)			,918
Std. Error of (Стандартная ошибка) In(Estimate)			,141
Asymp. Sig. (2-sided) (Асимптотическая значимость (двусторонняя)			,000
Asymp. 95% Confidence Interval (Асимптотический 95 % доверительный интервал)	Common Odds Ratio (Общее отношение шансов)	Lower Bound (Нижняя граница)	1,901
		Upper Bound (Верхняя граница)	3,297
	ln(Common Odds Ratio)	Lower Bound (Нижняя граница)	,642
		Upper Bound (Верхняя граница)	1,193

The Mantel-Haenszel common odds ratio estimate is asymptotically normally distributed under the common odds ratio of 1,000 assumption. So is the natural log of the estimate. (Оценка общего отношения шансов Мантеля-Хэнзеля при условии, что общее отношение шансов равно 1,000, имеет асимптотически нормальное распределение. То же распределение сохраняется и для натурального логарифма оценки.)

Результаты тестов Кохрана и Мантеля-Хэнзеля очень близки; в обоих случаях для весовых групп наблюдается максимально значимое отличие отношения шансов от 1 (р<0,001). Тесты как Бреслоу-Дэя, так и Тарона позволяют сохранить допущение о гомогенности отношения шансов для весовых групп (р = 0,217).

Оценка объединенного отношения шансов дает те значения, которые будут получены при вычислении риска, если не разделять данные по переменной слоев.

22.gif

Изображение: