16.5 Мультиномиальная логистическая регрессия
Этот метод является вариантом логистической регрессии, при которой зависимая переменная не является дихотомической, как при бинарной логистической регрессии, а имеет больше двух категорий. В то время как, при бинарной логистической регрессии независимая переменная может иметь интервальную шкалу, то мультиномиальная логистическая регрессия пригодна только для категориальных независимых переменных, причём имеет значение, относятся ли они к шкале наименований или к порядковой шкале. Конечно же, не исключается возможность задания в качестве ковариат переменных, имеющих интервальную шкалу.
Начиная с 10 версии SPSS для независимых переменных, относящихся к порядковой шкале предусмотрен метод порядковой регрессии (см. гл. 16.6), который в данном случае является предпочтительным.
Для представления метода мольтиномиальной логистической регрессии был сначала взят простой пример с одной независимой переменной. Данные для этого примера "ыли взяты из ALLBUS (общий социологический опрос населения) 1998 года.
Откройте файл polein.sav, и при помощи выбора меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты)
достройте частотные таблицы для четырёх переменных, находящихся в этом файле:
Alter (Возраст)
| Frequency (Частота) | Percent (Процент) | Valid Percent (Действи- тельный процент) | Cumulative Percent (Совокупный процент) | |
Valid (Действи- тельное значение) | bis 45 Jahre (До 45 лет) | 1306 | 50,1 | 50,1 | 50,1 |
ueber 45 Jahre (Свыше 45 лет) | 1301 | 49,9 | 49,9 | 100,0 | |
Total (Сумма) | 2607 | 100,0 | 100,0 |
|
Politische Links-Rechts-Einschaetzung (Политическая принадлежность к левым или правым)
| Frequency (Частота) | Percent (Процент) | Valid Percent (Действи- тельный процент) | Cumulative Percent (Совокупный процент) | |
Valid (Действи- тельное значение) | eher links (Скорее левый) | 740 | 28,4 | 28,4 | 28,4 |
Mitte (Центрист) | 1212 | 46,5 | 46,5 | 74,9 | |
eher rechts (Скорее правый) | 655 | 25,1 | 25,1 | 100,0 | |
Total (Сумма) | 2607 | 100,0 | 100,0 |
|
Schicht (Прослойка)
Frequency (Частота) | Percent (Процент) | Valid Percent (Действи- тельный процент) | Cumulative Percent (Совокупный процент) | ||
Valid (Действи- тельное | Unterschicht (Нижняя прослойка) | 879 | 33,7 | 33,7 | 33,7 |
значение) | Mittelschicht (Средняя прослойка) | 1477 | 56,7 | 56,7 | 90,4 |
| Oberschicht (Верхняя прослойка) | 251 | 9,6 | 9,6 | 100,0 |
| Total (Сумма) | 2607 | 100,0 | 100,0 |
|
Schulbildung (Школьное образование)
Frequency (Частота) | Percent (Процент) | Valid Percent (Действи- тельный процент) | Cumulative Percent (Совокупный процент) | ||
Valid (Действи- тельное значение) | Hauptschule (Неполное среднее) | 1499 | 57,5 | 57,5 | 57,5 |
Mittlere Reife (Среднее) | 610 | 23,4 | 23,4 | 80,9 | |
Abitur (Атестат зрелости) | 498 | 19,1 | 19,1 | 100,0 | |
Total (Сумма) | 2607 | 100,0 | 100,0 |
|
Мы хотим рассмотреть переменную polire (Политическая принадлежность к левым или правым) как зависимую переменную, а три остальные — как независимые переменные (факторы). В первом примере в качестве независимой переменной мы возьмем только переменную "Alter" (Возраст). Прежде всего построим таблицу сопряженности для этих двух переменных.
Выберите в меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)
Переменной alter присвойте статус строчной переменной, a polire — столбцовой переменной, и через выключатель Cells... (Ячейки) активируйте вывод процентных показателей для ячеек.
Alter * Politische Links-Rechts-Einschfltzung Crosstabulation
(Возраст * Политическая принадлежность к левым или правым - таблица сопряженности)
| Politische Links-Rechts-Einschfltzung (Политическая принадлежность к левым или правым) | Total (Сумма) | ||||
eher links (Скорее левый) | Mitte (Цент- рист) | eher rechts (Скорее правый) | ||||
Alter (Воз-раст) | bis 45 Jahre (До 45 лет) | Count (Коли- чество) | 446 | 615 | 245 | 1306 |
% of Total (% от возраста) | 34,2% | 47,1% | 18,8% | 100,0% | ||
ueber 45 Jahre (Свыше 45 лет) | Count % of Total (Коли- чество) | 294 | 597 | 410 | 1301 | |
(% от возраста) | 22,6% | 45,9% | 31,5% | 100,0% | ||
Total (Сум- ма) | Count (Коли- чество) | 740 | 1212 | 655 | 2607 | |
% of Total (% от возраста) | 28,4% | 46,5% | 25,1% | 100,0% |
Для младшей возрастной категории политическое самоопределение имеет тенденцию склонения симпатий к левым партиям, а для старшей — скорее к правым. Рассмотрим простую мультиномиальную логистическую модель, которая отражает взаимосвязь между политическим самоопределением и возрастом.
Так как политическое самоопределение, как зависимая переменная, включает три категории, то для определения вероятностей отнесения респондентов к этим трем категориям можно сформировать два недублированных логита, причём последняя категория "eher rechts" (скорее правый) будет использоваться как эталонная:
Нахождение коэффициентов b10, b11, b20 и b21 (называемых параметрическими оценками) и является основной задачей мультиномиальной логистической регрессии. Первая цифра индекса указывает на номер логита, а вторая на порядковый номер коэффициента в данном логите, причём цифра 0 на второй позиции индекса означает константу, за которой далее следует ровно столько коэффициентов, сколько независимых переменных (факторов) взято в рассмотрение. Коэффициентам последней (эталонной) категории присваивается значение 0.
Переменная Alter (Возраст), как единственная независимая переменная, имеет две категории, одна из которых рассматривается как эталонная, ее коэффициенты принимаются равными 0.
Выберите в меню Analyze (Анализ) Regression ...(Регрессия) Multinomial Logistic... (Мультиномиальная логистическая)
Откроется диалоговое окно Multinomial Logistic Regression (Мультиномиальная логистическая регрессия).
Переменную polire поместите в поле для зависимых переменных, а переменную alter (возраст) в поле для факторов и нажмите выключатель Statistics (Статистики).
Откроется диалоговое окно Multinomial Logistic Regression: Statistics (Мультиномиальная логистическая регрессия: Статистики)
Оставьте активированным вывод параметрических оценок с доверительным интервалом соответствующим 95 % и покиньте это диалоговое окно нажатием Далее и ОК.
Рис. 16.17: Диалоговое окно Multinomial Logistic Regression (Множественная логистическая регрессия)
Рис. 16.18: Диалоговое окно Multinomial Logistic Regression: Statistics (Множественная логистическая регрессия: Статистики)
Содержание таблицы результатов расчёта, выглядит следующим образом. Для не дублирующих категорий она содержит параметрические оценки, стандартную ошибку, проверку значимости при помощи статистики Вальда, значение экспоненциальной функции от параметрической оценки и его доверительный интервал.
Parameter Estimates (Оценки параметров)
Politische Links-Rechts-Einschaetzung (Политическая принадлежность к левым или правым) | В | Std. Error (Станда- ртная ошибка) | Wald (Вальд) | df (Сте-пень сво- боды) | Sig. (Значи- мость) | Ехр(В) | 95% Confidence Interval for Ехр(В) (95 % довери- тельный интервал для Ехр(В)) | ||
Lower Bound (Нижний предел) | Upper Bound (Верхний предел) | ||||||||
eher links (Скорее левый) | Intercept (Постоян- ное слага- емое) | -,333 | ,076 | 18,938 | 1 | ,000 |
|
|
|
[ALTER= 1,00] | ,932 | ,110 | 71,353 | 1 | ,000 | 2,539 | 2,045 | 3,151 | |
[ALTER= 2,00] | Оа | 0 |
| 0 |
| , |
|
| |
Mitte (Цен-трист) | Intercept (Постоян- ное слага-емое) | ,376 | ,064 | 34,320 | 1 | ,000 |
|
|
|
[ALTER= 1,00] | ,545 | ,099 | 30,198 | 1 | ,000 | 1,724 | 1,420 | 2,094 | |
rALTER= 2,00] | 0" | 0 |
| 0 |
|
|
|
|
a. This parameter is set to zero because it is redundant (Данный параметр обнуляется, т.к. он является дублирующим)
Из таблицы можно взять следующие значения для b-коэффициентов:
b10 =-0,333
b11 (до 45 лет) = 0,932
b20 = 0,376
b21 (до 45 лет) = 0,545 1
Таким образом, для возрастной группы до 45 лет получим
g1 = -0,333 + 0,932 = 0,599
g2 = -0,376 + 0,545 = 0,921
и следовательно
Для дублирующего логита по правилам вычисления логарифма справедливо
К примеру, в возрастной категории до 45 лет вероятность быть более склонным к тевым течениям в 1,820 раз выше вероятности склонности к правым течениям. Такой же расчёт можно произвести и для другой возрастной категории; в данном случае будут отсутствовать коэффициенты b11 и b21, т.к. они приравниваются к нулю.
Следует отметить, что прямое определение вероятности для трёх категорий политической самооценки, интересней, чем соотношение этих вероятностей между собой. Для каждой i-ой категории зависимых переменных эта вероятность может быть вычислена по следующей формуле:
Здесь для большей удобочитаемости экспоненциальная функция обозначена как ехр. n указывает на число категорий (здесь n=3).
Для возрастной группы до 45 лет для трёх категорий политической самооценки получатся следующие вероятности:
Стало быть, для отдельного человека, принадлежащего к возрастной группе до 45 лет вероятность склонения политической самооценки в сторону левых составляет, 0,341 или 34,1 %, в сторону центристов 47,1 % и в сторону правых 18,8 %. Внимательный читатель может заметить, что эти числа соответствуют процентным показателям таблицы сопряженности для возраста и политической самооценки. Таким образом, в случае наличия лишь одной независимой переменной легко удостовериться в правдоподобности расчётов, производимых при мультиномиальной логистической регрессии.
Для возрастной группы свыше 45 лет расчёты будут выглядеть следующим образом:
g1 = - 0,333 + 0 = - 0,333
g2 = 0,376 + 0 = 0,376
gз=0
ехр (g1) - ехр (-0,333) = 0,717
ехр (g2). ехр (0,376) = 1,456
ехр (g3) = ехр (0) = 1
Если выразить полученные показатели в процентах, то и здесь так же наблюдается полное согласование с соответствующими процентными показателями таблицы сопряженности.
Следует отметить, что только в случае наличия лишь одной независимой переменной, как в приведённом примере, проведение расчёта с применением столь громоздкого метода, как многозначная логистическая регрессия, является достаточно бессмысленным — все соотношения могут быть выяснены проще, при помощи таблиц сопряженности. Поэтому мы введем в рассмотрение ещё одну дополнительную переменную — переменную schule (образование).
В диалоговом окне Multinomial Logistic Regression (Мультиномиальная логистическая регрессия) поместите переменную schule вместе с переменной alter в поле факторов.
В диалоговом окне Multinomial Logistic Regression: Statistics (Мультиномиальная логистическая регрессия: Статистики) активируйте дополнительные опции Cell probabilities (Вероятность по ячейкам) и Likelihood ratio test (Тест отношения правдоподобия) и начните расчёт вновь.
Таблица теста коэффициентов правдоподобия содержит изменения функции правдоподобия для случая, когда исключается соответствующий главный действующий фактор; эти изменения выражаются через соответствующие значения теста %2 (хи-квадрат). Выдаваемый уровень значимости р < 0,001 указывает на то, что оба фактора (возраст и школьное образование) оказывают очень значимое влияние на зависимую переменную (политическая самооценка).
Model Fitting Information (Информация о приближении, обеспечиваемой моделью)
Model (Модель) | -2 Log likelihood (-2 логарифми- ческое правдопо- добие) | Chi-square (Хи-квадрат) | df (степень свободы) | Sig. (Значи- мость) |
Intercept Only (Только постоянное слагаемое) | 252,208 | |||
Final (Оконча- тельно) | 93,429 | 158,779 | 6 | ,000 |
Likelihood Ratio Tests (Тест отношения правдоподобия)
(Результат) | -2 Log Likelihood of Reduced Model (-2 логарифми-ческое правдоподобие для сокращённой модели) | Chi-square (Хи-квадрат) | df (Степень свободы) | Sig. (Значи- мость) |
Intercept (Постоянное слагаемое) | 93,429 | ,000 | 0 | • |
ALTER (Возраст) | 171,496 | 78,067 | 2 | ,000 |
SCHULE (Образо- вание) | 178,489 | 85,060 | 4 | ,000 |
The chi-square statistic is the difference in -2 tog-likelihoods between the final model :-~d a reduced model. The reduced model is formed by omitting an effect from the final model. The null hypothesis is that all parameters of that effect are 0 (Статистика хи-квадрат отображает различие -2 логарифмического правдоподобия между окончательной моделью и усеченной моделью. Суть расчёта усеченной модели сводится к тому, что из окончательной модели исключается один фактор влияния.
Нулевая гипотеза соответствует обнулению всех параметров параметрических оценок данного фактора влияния).
Таблица (b — коэффициентов) выглядит следующим образом.
Parameter Estimates (Оценки параметров) | |||||||||
Politische Links-Rechts-Einschaetzung Политическая принадлежность к левым пли правым) | В | Std. Error (Стан- дартная ошибка) | Wald (Вальд) | df (Сте-пень сво-боды) | Sig. (Значи- мость) | Exp (В) | 95% Confidence Interval for Exp(B) (95 % довери- тельный интервал для Ехр(В)) | ||
Lower Bound (Ниж-ний пре-дел) | Upper Bound (Верх-ний пре-дел) | ||||||||
eher links (Ско- рее левый) | (Посто-янное слага-емое) | -,129 | ,137 | ,8feO | 1 | ,345 |
|
|
|
[ALTER= 1,00] | ,952 | ,117 | 66,600 | 1 | ,000 | 2,591 | 2,061 | 3,256 | |
ALTER= 2,00] | Oa | 0 |
| 0 |
| , | , |
| |
SCHULE= 1,00] | -,179 | ,142 | ,592 | 1 | ,207 | ,836 | ,632 | 1,104 | |
SHULE= 2,00] | -,480 | ,158 | 9,249 | 1 | ,002 | ,619 | ,454 | ,843 | |
[SHULE= 3,00] | 0" | 0 | l | 0 |
| , | , |
| |
Mine (Цент-рист) | (Постоян-ное слага-емое) | -,236 | ,137 | 2,982 | 1 | ,084 |
|
|
|
[ALTER= 1,00] | ,766 | ,106 | 52,174 | 1 | ,000 | 2,152 | 1,748 | 2,939 | |
[ALTER= 2,00] | Oa | 0 |
| 0 | , |
|
|
| |
[SCHULE= 1,00] | ,802 | ,141 | 32,539 | 1 | ,000 | 2,231 | 1,693 | 2,939 | |
[SHULE= 2,00] | ,149 | ,155 | ,922 | 1 | ,337 | 1,161 | ,856 | 1,574 | |
[SHULE= 3,00] | Oa | 0 | , | 0 | , | , | , | , |
a. This parameter is set to zero because it is redundant (Данный параметр обнуляется, так как он является дублирующим)
В качестве примера определим вероятности для политической самооценки отдельного человека, принадлежащего к возрастной группе свыше 45 лет с неполным средним образованием. Для этого по аналогии с предыдущим примером произведём следующие вычисления:
g1 = - 0,129 + 0 - 0,179= - 0,308
g2 = - 0,236 + 0 + 0,802 = 0,566
gз= 0
exp (g1) = 0,735
exp (g2) = 1,761
exp (g3) - 1
Если перевести данные результаты в процентные показатели, то они будут означать, что среди граждан в возрасте свыше 45 лет с неполным средним образованием 21,0 % симпатизируют левым политическим течениям, 28,6 % правым, а 50,4 % остаются по центру.
Нет необходимости вычислять процентные показатели вероятностей самостоятельно. Вы можете взять их из следующей таблицы, отображающей наблюдаемые и прогнозируемые частоты:
Observed and Predicted Frequencies (Наблюдаемые и прогнозируемые частоты) | |||||||
Schulb-ildung (Образо- вание) | Alter (Возраст) | Politische Links-Rechts-Einschfltzung (Политическая левая или правая принадлежность) | Frequency (Частота) | Percentage (Процент) | |||
Observed (Наблю-даемая) | Predicted (Прогно-зируемая) | Pearson Residual (Остаток Пирсона) | Observed (Набл-юдаемый) | Predicted (Прогно-зируемый) | |||
Haupt- schule (Непол-ное среднее) | bis 45 Jahre (До 45 лет) | eher links (Скорее левый) | 143 | 157,488 | -1,365 | 25,8% | 28,4% |
Mitte (Центрист) | 312 | 313,760 | -,151 | 56,3% | 56,6% | ||
eher rechts (Скорее правый) | 99 | 82,752 | 1,937 | 17,9% | 14,9% | ||
ueber 45 Jahre(Свыше 45 лет) | eher links (Скорее левый) | 213 | 198,512 | 1,157 | 22,5% | 21,0% | |
Mitte (Центрист) | 478 | 476,240 | ,115 | 50,6% | 50,4% | ||
eher rechts (Скорее правый) | 254 | 270,248 | -1,170 | 26,9% | 28,6% | ||
Mifflere Reife (Сред-нее) | bis 45 Jahre (до 45 лет) | eher links (Скорее левый) | 129 | 131,561 | -,271 | 31,5% | 32,2% |
Mitte (Центрист) | 192 | 184,113 | ,784 | 46,9% | 45,0% | ||
eher rechts (Скорее правый) | 88 | 99,326 | -,628 | 21,5% | 22.8% | ||
ueber 45 Jahre(Свыше 45 лет) | eher links (Скорее левый) | 47 | 44,439 | ,435 | 23,4% | 22.1% | |
Mitte (Центрист) | 67 | 74,887 | -1,151 | 33,3% | 37,3% | ||
eher rechts (Скорее правый) | 87 | 81,674 | ,765 | 43,3% | 40,6% | ||
Abitur (Аттестат зрелости) | bis 45 Jahre (до 45 лет) | eher links (Скорее левый) | 174 | 156,952 | 1,848 | 50,7% | 45,8% |
Mitte (Центрист) | 111 | 117,127 | -,698 | 32,4% | 34,1% | ||
eher rechts (Скорее правый) | 58 | 68,922 | -1,472 | 16,9% | 20,1% | ||
ueber 45 Jahre(Свыше 45 лет) | eher links (Скорее левый) | 34 | 51,048 | -2,914 | 21,9% | 32,9% | |
Mitte (Центрист) | 52 | 45,873 | 1,078 | 33,5% | 29,6% | ||
eher rechts (Скорее правый) | 69 | 58,078 | 1,812 | 44,5% | 37,5% |
The percentages are based on total observed frequencies in each subpopulation (Процентные показатели основываются на наблюдаемых суммарных частотах для каждой частичной совокупности).
Теперь вы можете видеть, что наблюдаемые и прогнозированные значения оказались рассогласованными. Это произошло потому, что теперь в модель входят только главные факторы влияния, а не взаимодействия.
Чтобы это изменить, в диалоговом окне Multinomial Logistic Regression (Мультиномиальная логистическая регрессия) задействуйте выключатель Model (Модель).
Откроется диалоговое окно Multinomial Logistic Regression: Model (Мультиномиальная логистическая регрессия: Модель).
Вы можете включить в расчёт все главные факторы влияния и взаимодействия, если вместо предварительно установленной по умолчанию опции Main effects (Основные эффекты) активируете опцию Full factorial (Полнофакторная модель). При помощи опции Custom (Пользовательский режим), Вы можете отобрать включаемые в расчёт факторы влияния.
Активируйте опцию Full factorial (Полнофакторная модель) и начните расчёт вновь.
В таблице оценки параметра теперь находятся и взаимодействия. Если Вы обратите внимание на наблюдаемые и ожидаемые частоты, то заметите, что теперь они совпадают.
Рис. 16.19: Диалоговое окно Multinomial Logistic Regression: Model (Множественная логистическая регрессия: Модель)
Постройте самостоятельно ещё одну логистическую регрессию, в которой Вы можете взять .переменную schicht (Принадлежность к прослойке) в качестве третьего фактора.