Вы здесь

16.5 Мультиномиальная логистическая регрессия

16.5 Мультиномиальная логистическая регрессия


Этот метод является вариантом логистической регрессии, при которой зависимая переменная не является дихотомической, как при бинарной логистической регрессии, а имеет больше двух категорий. В то время как, при бинарной логистической регрессии независимая переменная может иметь интервальную шкалу, то мультиномиальная логистическая регрессия пригодна только для категориальных независимых переменных, причём имеет значение, относятся ли они к шкале наименований или к порядковой шкале. Конечно же, не исключается возможность задания в качестве ковариат переменных, имеющих интервальную шкалу.


Начиная с 10 версии SPSS для независимых переменных, относящихся к порядковой шкале предусмотрен метод порядковой регрессии (см. гл. 16.6), который в данном случае является предпочтительным.


Для представления метода мольтиномиальной логистической регрессии был сначала взят простой пример с одной независимой переменной. Данные для этого примера "ыли взяты из ALLBUS (общий социологический опрос населения) 1998 года.

  •  Откройте файл polein.sav, и при помощи выбора меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Frequencies... (Частоты)

достройте частотные таблицы для четырёх переменных, находящихся в этом файле:


Alter (Возраст)



Frequency (Частота)


Percent (Процент)


Valid Percent (Действи- тельный процент)


Cumulative Percent (Совокупный процент)


Valid (Действи- тельное значение)


bis 45 Jahre (До 45 лет)


1306


50,1


50,1


50,1


ueber 45 Jahre (Свыше 45 лет)


1301


49,9


49,9


100,0


Total (Сумма)


2607


100,0


100,0



Politische Links-Rechts-Einschaetzung (Политическая принадлежность к левым или правым)



Frequency (Частота)


Percent (Процент)


Valid Percent (Действи- тельный процент)


Cumulative Percent (Совокупный процент)


Valid (Действи- тельное значение)


eher links (Скорее левый)


740


28,4


28,4


28,4


Mitte (Центрист)


1212


46,5


46,5


74,9


eher rechts (Скорее правый)


655


25,1


25,1


100,0


Total (Сумма)


2607


100,0


100,0



Schicht (Прослойка)

 

Frequency (Частота)


Percent (Процент)


Valid Percent (Действи- тельный процент)


Cumulative Percent (Совокупный процент)


Valid (Действи- тельное


Unterschicht (Нижняя прослойка)


879


33,7


33,7


33,7


значение)


Mittelschicht (Средняя прослойка)


1477


56,7


56,7


90,4



Oberschicht (Верхняя прослойка)


251


9,6


9,6


100,0



Total (Сумма)


2607


100,0


100,0



Schulbildung (Школьное образование)

 

Frequency (Частота)


Percent (Процент)


Valid Percent (Действи- тельный процент)


Cumulative Percent (Совокупный процент)


Valid (Действи- тельное значение)


Hauptschule (Неполное среднее)


1499


57,5


57,5


57,5


Mittlere Reife (Среднее)


610


23,4


23,4


80,9


Abitur (Атестат зрелости)


498


19,1


19,1


100,0


Total (Сумма)


2607


100,0


100,0



Мы хотим рассмотреть переменную polire (Политическая принадлежность к левым или правым) как зависимую переменную, а три остальные — как независимые переменные (факторы). В первом примере в качестве независимой переменной мы возьмем только переменную "Alter" (Возраст). Прежде всего построим таблицу сопряженности для этих двух переменных.

  •  Выберите в меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)

Переменной alter присвойте статус строчной переменной, a polire — столбцовой переменной, и через выключатель Cells... (Ячейки) активируйте вывод процентных показателей для ячеек.


Alter * Politische Links-Rechts-Einschfltzung Crosstabulation


(Возраст * Политическая принадлежность к левым или правым -  таблица сопряженности)


 


 


Politische Links-Rechts-Einschfltzung (Политическая принадлежность к левым или правым)


Total (Сумма)


eher links (Скорее левый)

Mitte (Цент- рист) eher rechts (Скорее правый)

Alter (Воз-раст)


bis 45 Jahre (До 45 лет)

Count (Коли- чество)

446

615

245


1306

% of Total (% от возраста)

34,2%

47,1%

18,8%


100,0%


ueber 45 Jahre (Свыше 45 лет)

Count % of Total (Коли- чество)

294

597

410


1301

(% от возраста)

22,6%

45,9%

31,5%


100,0%


Total (Сум- ма)

Count (Коли- чество)

740

1212

655


2607

% of Total (% от возраста)

28,4%

46,5%

25,1%


100,0%


Для младшей возрастной категории политическое самоопределение имеет тенденцию склонения симпатий к левым партиям, а для старшей — скорее к правым. Рассмотрим простую мультиномиальную логистическую модель, которая отражает взаимосвязь между политическим самоопределением и возрастом.


Так как политическое самоопределение, как зависимая переменная, включает три категории, то для определения вероятностей отнесения респондентов к этим трем категориям можно сформировать два недублированных логита, причём последняя категория "eher rechts" (скорее правый) будет использоваться как эталонная:


Нахождение коэффициентов b10, b11, b20 и b21 (называемых параметрическими оценками) и является основной задачей мультиномиальной логистической регрессии. Первая цифра индекса указывает на номер логита, а вторая на порядковый номер коэффициента в данном логите, причём цифра 0 на второй позиции индекса означает константу, за которой далее следует ровно столько коэффициентов, сколько независимых переменных (факторов) взято в рассмотрение. Коэффициентам последней (эталонной) категории присваивается значение 0.


Переменная Alter (Возраст), как единственная независимая переменная, имеет две категории, одна из которых рассматривается как эталонная, ее коэффициенты принимаются равными 0.

  •  Выберите в меню Analyze (Анализ) Regression ...(Регрессия) Multinomial Logistic... (Мультиномиальная логистическая)

Откроется диалоговое окно Multinomial Logistic Regression (Мультиномиальная логистическая регрессия).

  •  Переменную polire поместите в поле для зависимых переменных, а переменную alter (возраст) в поле для факторов и нажмите выключатель Statistics (Статистики).

Откроется диалоговое окно Multinomial Logistic Regression: Statistics (Мультиномиальная логистическая регрессия: Статистики)

  •  Оставьте активированным вывод параметрических оценок с доверительным интервалом соответствующим 95 % и покиньте это диалоговое окно нажатием Далее и ОК.


Рис. 16.17: Диалоговое окно Multinomial Logistic Regression (Множественная логистическая регрессия)



Рис. 16.18: Диалоговое окно Multinomial Logistic Regression: Statistics (Множественная логистическая регрессия: Статистики)


Содержание таблицы результатов расчёта, выглядит следующим образом. Для не дублирующих категорий она содержит параметрические оценки, стандартную ошибку, проверку значимости при помощи статистики Вальда, значение экспоненциальной функции от параметрической оценки и его доверительный интервал.


Parameter Estimates (Оценки параметров)


Politische Links-Rechts-Einschaetzung (Политическая принадлежность к левым или правым)


В


Std. Error (Станда- ртная ошибка)


Wald (Вальд)


df (Сте-пень сво- боды)


Sig. (Значи- мость)


Ехр(В)


95% Confidence Interval for Ехр(В) (95 % довери- тельный интервал для Ехр(В))


Lower Bound (Нижний предел)


Upper Bound (Верхний предел)

 

eher links (Скорее левый)


Intercept (Постоян- ное слага- емое)


-,333


,076


18,938


1


,000





[ALTER= 1,00]


,932


,110


71,353


1


,000


2,539


2,045


3,151


[ALTER= 2,00]


Оа


0



0



,




Mitte (Цен-трист)


Intercept (Постоян- ное слага-емое)


,376


,064


34,320


1


,000





[ALTER= 1,00]


,545


,099


30,198


1


,000


1,724


1,420


2,094


rALTER= 2,00]


0"


0



0






a. This parameter is set to zero because it is redundant (Данный параметр обнуляется, т.к. он является дублирующим)


Из таблицы можно взять следующие значения для b-коэффициентов:


b10 =-0,333


b11 (до 45 лет) = 0,932


b20 = 0,376


b21 (до 45 лет) = 0,545 1


Таким образом, для возрастной группы до 45 лет получим


g1 = -0,333 + 0,932 = 0,599


g2 = -0,376 + 0,545 = 0,921


и следовательно


Для дублирующего логита по правилам вычисления логарифма справедливо


К примеру, в возрастной категории до 45 лет вероятность быть более склонным к тевым течениям в 1,820 раз выше вероятности склонности к правым течениям. Такой же расчёт можно произвести и для другой возрастной категории; в данном случае будут отсутствовать коэффициенты b11 и b21, т.к. они приравниваются к нулю.


Следует отметить, что прямое определение вероятности для трёх категорий политической самооценки, интересней, чем соотношение этих вероятностей между собой. Для каждой i-ой категории зависимых переменных эта вероятность может быть вычислена по следующей формуле:


Здесь для большей удобочитаемости экспоненциальная функция обозначена как ехр. n указывает на число категорий (здесь n=3).


Для возрастной группы до 45 лет для трёх категорий политической самооценки получатся следующие вероятности:


Стало быть, для отдельного человека, принадлежащего к возрастной группе до 45 лет вероятность склонения политической самооценки в сторону левых составляет, 0,341 или 34,1 %, в сторону центристов 47,1 % и в сторону правых 18,8 %. Внимательный читатель может заметить, что эти числа соответствуют процентным показателям таблицы сопряженности для возраста и политической самооценки. Таким образом, в случае наличия лишь одной независимой переменной легко удостовериться в правдоподобности расчётов, производимых при мультиномиальной логистической регрессии.


Для возрастной группы свыше 45 лет расчёты будут выглядеть следующим образом:


g1 = - 0,333 + 0 = - 0,333 


g2 = 0,376 + 0 = 0,376


gз=0


ехр (g1) - ехр (-0,333) = 0,717


ехр (g2). ехр (0,376) = 1,456 


ехр (g3) = ехр (0) = 1


Если выразить полученные показатели в процентах, то и здесь так же наблюдается полное согласование с соответствующими процентными показателями таблицы сопряженности.


Следует отметить, что только в случае наличия лишь одной независимой переменной, как в приведённом примере, проведение расчёта с применением столь громоздкого метода, как многозначная логистическая регрессия, является достаточно бессмысленным — все соотношения могут быть выяснены проще, при помощи таблиц сопряженности. Поэтому мы введем в рассмотрение ещё одну дополнительную переменную — переменную schule (образование).

  •  В диалоговом окне Multinomial Logistic Regression (Мультиномиальная логистическая регрессия) поместите переменную schule вместе с переменной alter в поле факторов.

  •  В диалоговом окне Multinomial Logistic Regression: Statistics (Мультиномиальная логистическая регрессия: Статистики) активируйте дополнительные опции Cell probabilities (Вероятность по ячейкам) и Likelihood ratio test (Тест отношения правдоподобия) и начните расчёт вновь.

Таблица теста коэффициентов правдоподобия содержит изменения функции правдоподобия для случая, когда исключается соответствующий главный действующий фактор; эти изменения выражаются через соответствующие значения теста %2 (хи-квадрат). Выдаваемый уровень значимости р < 0,001 указывает на то, что оба фактора (возраст и школьное образование) оказывают очень значимое влияние на зависимую переменную (политическая самооценка).


Model Fitting Information (Информация о приближении, обеспечиваемой моделью)


Model (Модель)


-2 Log likelihood (-2 логарифми- ческое правдопо- добие)


Chi-square (Хи-квадрат)


df (степень свободы)


Sig. (Значи- мость)


Intercept Only (Только постоянное слагаемое)


252,208


Final (Оконча- тельно)


93,429


158,779


6


,000


Likelihood Ratio Tests (Тест отношения правдоподобия)


(Результат)


-2 Log Likelihood of Reduced Model (-2 логарифми-ческое правдоподобие для сокращённой модели)


Chi-square (Хи-квадрат)


df (Степень свободы)


Sig. (Значи- мость)


Intercept (Постоянное слагаемое)


93,429


,000


0



ALTER (Возраст)


171,496


78,067


2


,000


SCHULE (Образо- вание)


178,489


85,060


4


,000


The chi-square statistic is the difference in -2 tog-likelihoods between the final model :-~d a reduced model. The reduced model is formed by omitting an effect from the final model. The null hypothesis is that all parameters of that effect are 0 (Статистика хи-квадрат отображает различие -2 логарифмического правдоподобия между окончательной моделью и усеченной моделью. Суть расчёта усеченной модели сводится к тому, что из окончательной модели исключается один фактор влияния.


Нулевая гипотеза соответствует обнулению всех параметров параметрических оценок данного фактора влияния).


Таблица (b — коэффициентов) выглядит следующим образом. 


Parameter Estimates (Оценки параметров)


Politische Links-Rechts-Einschaetzung Политическая принадлежность к левым пли правым)


В


Std. Error (Стан- дартная ошибка)


Wald (Вальд)


df (Сте-пень сво-боды)


Sig. (Значи- мость)


Exp (В)


95% Confidence Interval for Exp(B) (95 % довери- тельный интервал для Ехр(В))


Lower Bound (Ниж-ний пре-дел)


Upper Bound (Верх-ний пре-дел)


eher links (Ско- рее левый)


(Посто-янное слага-емое)


-,129


,137


,8feO


1


,345





[ALTER= 1,00]


,952


,117


66,600


1


,000


2,591


2,061


3,256


ALTER= 2,00]


Oa


0



0



,


,



SCHULE= 1,00]


-,179


,142


,592


1


,207


,836


,632


1,104


SHULE= 2,00]


-,480


,158


9,249


1


,002


,619


,454


,843


[SHULE= 3,00]


0"


0


l


0



,


,



Mine (Цент-рист)


(Постоян-ное слага-емое)


-,236


,137


2,982


1


,084





[ALTER= 1,00]


,766


,106


52,174


1


,000


2,152


1,748


2,939


[ALTER= 2,00]


Oa


0



0


,





[SCHULE= 1,00]


,802


,141


32,539


1


,000


2,231


1,693


2,939


[SHULE= 2,00]


,149


,155


,922


1


,337


1,161


,856


1,574


[SHULE= 3,00]


Oa


0


,


0


,


,


,


,


a. This parameter is set to zero because it is redundant (Данный параметр обнуляется, так как он является дублирующим)


В качестве примера определим вероятности для политической самооценки отдельного человека, принадлежащего к возрастной группе свыше 45 лет с неполным средним образованием. Для этого по аналогии с предыдущим примером произведём следующие вычисления:

 g1 = - 0,129 + 0 - 0,179= - 0,308  
 g2 = - 0,236 + 0 + 0,802 = 0,566 
 gз= 0 
 exp (g1) = 0,735 
 exp (g2) = 1,761 
 exp (g3) - 1 


Если перевести данные результаты в процентные показатели, то они будут означать, что среди граждан в возрасте свыше 45 лет с неполным средним образованием 21,0 % симпатизируют левым политическим течениям, 28,6 % правым, а 50,4 % остаются по центру.


Нет необходимости вычислять процентные показатели вероятностей самостоятельно. Вы можете взять их из следующей таблицы, отображающей наблюдаемые и прогнозируемые частоты:


 


Observed and Predicted Frequencies (Наблюдаемые и прогнозируемые частоты)


Schulb-ildung (Образо- вание)


Alter (Возраст)


Politische Links-Rechts-Einschfltzung (Политическая левая или правая принадлежность)


Frequency (Частота)


Percentage (Процент)


Observed (Наблю-даемая)


Predicted (Прогно-зируемая)


Pearson Residual (Остаток Пирсона)


Observed (Набл-юдаемый)


Predicted (Прогно-зируемый)


Haupt- schule (Непол-ное среднее)


bis 45 Jahre (До 45 лет)


eher links (Скорее левый)


143


157,488


-1,365


25,8%


28,4%


Mitte (Центрист)


312


313,760


-,151


56,3%


56,6%


eher rechts (Скорее правый)


99


82,752


1,937


17,9%


14,9%


ueber 45 Jahre(Свыше 45 лет)


eher links (Скорее левый)


213


198,512


1,157


22,5%


21,0%


Mitte (Центрист)


478


476,240


,115


50,6%


50,4%


eher rechts (Скорее правый)


254


270,248


-1,170


26,9%


28,6%


Mifflere Reife (Сред-нее)


bis 45 Jahre (до 45 лет)


eher links (Скорее левый)


129


131,561


-,271


31,5%


32,2%


Mitte (Центрист)


192


184,113


,784


46,9%


45,0%


eher rechts (Скорее правый)


88


99,326


-,628


21,5%


22.8%


ueber 45 Jahre(Свыше 45 лет)


eher links (Скорее левый)


47


44,439


,435


23,4%


22.1%


Mitte (Центрист)


67


74,887


-1,151


33,3%


37,3%


eher rechts (Скорее правый)


87


81,674


,765


43,3%


40,6%


Abitur (Аттестат зрелости)


bis 45 Jahre (до 45 лет)


eher links (Скорее левый)


174


156,952


1,848


50,7%


45,8%


Mitte (Центрист)


111


117,127


-,698


32,4%


34,1%


eher rechts (Скорее правый)


58


68,922


-1,472


16,9%


20,1%


ueber 45 Jahre(Свыше  45 лет)


eher links (Скорее левый)


34


51,048


-2,914


21,9%


32,9%


Mitte (Центрист)


52


45,873


1,078


33,5%


29,6%


eher rechts (Скорее правый)


69


58,078


1,812


44,5%


37,5%


The percentages are based on total observed frequencies in each subpopulation (Процентные показатели основываются на наблюдаемых суммарных частотах для каждой частичной совокупности).


Теперь вы можете видеть, что наблюдаемые и прогнозированные значения оказались рассогласованными. Это произошло потому, что теперь в модель входят только главные факторы влияния, а не взаимодействия.

  •  Чтобы это изменить, в диалоговом окне Multinomial Logistic Regression (Мультиномиальная логистическая регрессия) задействуйте выключатель Model (Модель).

Откроется диалоговое окно Multinomial Logistic Regression: Model (Мультиномиальная логистическая регрессия: Модель).


Вы можете включить в расчёт все главные факторы влияния и взаимодействия, если вместо предварительно установленной по умолчанию опции Main effects (Основные эффекты) активируете опцию Full factorial (Полнофакторная модель). При помощи опции Custom (Пользовательский режим), Вы можете отобрать включаемые в расчёт факторы влияния.

  •  Активируйте опцию Full factorial (Полнофакторная модель) и начните расчёт вновь.

В таблице оценки параметра теперь находятся и взаимодействия. Если Вы обратите внимание на наблюдаемые и ожидаемые частоты, то заметите, что теперь они совпадают.



Рис. 16.19: Диалоговое окно Multinomial Logistic Regression: Model (Множественная логистическая регрессия: Модель)

  •  Постройте самостоятельно ещё одну логистическую регрессию, в которой Вы можете взять .переменную schicht (Принадлежность к прослойке) в качестве третьего фактора.


Top.Mail.Ru