18.4 Пример из области биологии (три группы)

18.4 Пример из области биологии (три группы)


В предыдущих примерах дискриминантный анализ всегда проводился при наличии лишь двух групп. В этой главе рассматривается пример, в котором групповая переменная имеет больше двух категорий, а именно три.


В файле kaefer.sav содержатся данные о длине и ширине грудной клетки трёх видов жуков (обозначенных как А, В и С). Если вы проведёте однофакторный дисперсионный анализ с последующими дополнительными тестами (Post-hoc-Tests), то увидите, что три разновидности жуков очень значимо различаются между собой как по длине, так и по ширине, поэтому вполне можно предположить, что этих жуков можно классифицировать между упомянутыми видами на основании их длины и ширины посредством дискриминантного анализа.

  •  Откройте файл kaefer.sav.

Вы увидите, что 17 жуков из 30 не отнесены ни к иной из групп; поэтому классификация жуков по группам должна быть произведена при помощи дискриминантного анализа.

  •  В диалоговом окне Discriminant Analysis (Дискриминантный анализ) переменной kaefer (Жук) присвойте статус групповой переменной с пределами от 1 до 3, а переменным laenge (Длина) и breite (Ширина) статус независимых переменных. Оставьте активной установку по умолчанию Enter independents together (Независимые переменные вводить одновременно).

  •  В диалоговом окне Discriminant Analysis: Statistics (Дискриминантный анализ: Статистики) в разделе Descriptives (Дискриптивние статистики) активируйте опции: Means (Средние значения), Univariate ANOVAs (Одномерные тесты ANOVA) и в разделе Function Coefficients (Коэффициенты функции) опцию Unstandardized (He стандартизированные).

  •  В диалоговом окне Discriminant Analysis: Classify (Дискриминантный анализ: Классифицировать) сделайте запрос на Case-wise results (Результаты для отдельных наблюдений) и Summary table (Сводную таблицу) и в разделе Plots (Графики) активируйте опцию Territorial map (Территориальная карта). Эта опция служит для построения классификационной диаграммы, так называемой территориальной карты (Territorial map). Построение этой диаграммы типично для случая с более чем двумя группами.

  •  В заключение, в диалоговом окне Discriminant Analysis: Save (Дискриминантный анализ: Сохранить), активируйте все опции, находящиеся там, с целью создания соответствующих переменных в исходном файле.

Из всей гаммы приводимых результатов расчёта мы рассмотрим только самые важные. Из групповых статистик можно узнать, что в семейство А входят самые большие, а в семейство В самые маленькие жуки.


Group Statistics 


(Статистики для групп)


KAEFEP (Жук)


Mean (Сред-нее значе-ние)


Std. Deviation (Станда-ртное отклоне-ние)


Valid N (listwise) (Действительные значения (по списку))


Unweighted (Не взвеше-нное)


Weighted (Взвеше-нное)


1 (Семейство А)


LAENGE (Длина)


1 ,6226


5.968Е-02


42


42,000


BREITE (Ширина)


1 ,2607


4J54E-02


42


42,000


2 Семейство В)


LAENGE (Длина)


1 ,3089


7.634Е-02


45


45,000


BREITE (Ширина)


1,0122


4.415Е-02


45


45,000


3 Семейство С)


LAENGE (Длина)


1,4788


6.029Е-02


26


26,000


BREITE (Ширина)


1,1192


5.114Е-02


26


26,000


Total


LAENGE (Длина)


1,4646


,1535


113


113,000


BREITE (Ширина)


1,1292


,1191


113


113,000


Статистика Лямбда Уилкса (>i) свидетельствует о том, что жуки очень значимо делятся на группы как по длине, так и по ширине.


Tests of Equality of Group Means (Тест на равенство средних значений групп)


Wilks' Lambda (Лямбда Уилкса)


F


df1


df2


Sig. (Значимость)


LAENGE (Длина)


,187


239,154


2


110


,000


BREITE (Ширина)


,153


303,326


2


110


,000


Если насчитывается более двух классификационных групп, то можно образовать больше одной дискриминантной функции; при трёх группах, как в приведенном примере, их будет две. Следующая таблица свидетельствует о том, что обе дискриминантные функции дают значимые результаты для разделения между группами и, следовательно, могут быть использованы соответствующим образом. Однако, первая функция дает вероятность прогноза 98,7 %, а вторая только 1,3 %.


Eigenvalues (Собственные значения)


Function (Функция)


Eigenvalue (Собствен-ные значение)


% of Variance (% диспер-сии)


Cumulative % (Совокуп-ный %)


Canonical Correlation (Канони-ческая корре-ляция)


1


6,040а


98,7


98,7


,296


2


,078а


1,3


100,0


,269


a. First 2 canonical discriminant functions were used in the analysis (В этом анализе используются первые 2 канонические дискриминантные функции).


Wilks' Lambda (Лямбда Уилкса)


Test of Function(s) (Тест функции (й))


Wilks1 Lambda (Лямбда Уилкса)


Chi-square (Хи-квадрат)


df


Sig. (Значимость)


1 through 2 (1 до 2)


,132


221,900


4


,000


2


,928


8,202


1


,004


Затребованные нестандартизированные коэффициенты функций приводятся в следующей таблице.


Canonical Discriminant Function Coefficients 


(Канонические коэффициенты дискриминантных функций)


Function (Функция)


1


2


LAENGE (Длина)


5,831


18,769


BREITE (Ширина)


14,891


-23,659


(Constant) (Константа)


-25,355


-,773


Unstandardized coefficients (Нестандартизированные коэффициенты)


Мы здесь опускаем вывод статистик для каждого отдельного случая. В результате расчетов Вы получаете соответствующие номера групп и вероятность прогнозирования под заголовком P(G = g|D = d). Прогнозирование осуществлено и для 17 неклассифицированных случаев.


На территориальной карте показано разделение на области, которые означают принадлежность к группе. При этом в пределах границ соответствующей области вероятность отнесения к данной группе выше, чем для других групп. На границах областей вероятности для граничащих групп одинаковы.


Значения обеих дискриминантных функций, на основе которых построена эта территориальная карта, Вы можете увидеть в редакторе данных под именами двух вновь созданных переменных: dis1_1 и dis2_1.


В заключение приводится обзор результатов классификации. По ним Вы можете заметить, что прогноз для групп А и В практически полностью был сделан верно и корректно классифицированы, в общей сложности, 91,2 % всех случаев.


Classification Results a 


(Результаты Классификации)


FUND (Семе-йство)


Predicted Group Membership


Total (Сум-ма)


1 (Семей-ство А)


2 (Семей-ство В)


3 (Семей-ство С)


Original (Перво-нача-льно)


Count (Коли-чество)


1 (Семейство А)


41


0


1


42


2 (Семейство В)


0


43


2


45


3 (Семейство С)


4


3


19


26


Ungrouped cases (He груп-пирован-ные случаи)


7


6


4


17


%


1 (Семейство А)


97,6


,0


2,4


100,0


2 (Семейство В)


,0


95,6


4,4


100,0


3 (Семейство С)


15,4


11,5


73,1


100,0


Ungrouped cases (He груп-пирован-ные случаи)


41,2


35,3


23,5


100,0


а. 91,2% of original grouped cases correctly classified (91,2 % первоначально сгруппированных случаев были классифицированы корректно).



 


Символы, используемые втерриториальной карте


Символ


Группа


Метка


1


2


3


1



3


Семейство А 


Семейство В


 Семейство С


Маркировка 


Центроиды групп


Наряду с уже упоминавшимися значениями обеих дискриминантных функции в редакторе данных были созданы: переменная dis_1, содержащая значение прогнозируемой группы и переменные disl_2, dis2_2 и dis3_2, которые содержат прогнозируемые вероятности отнесения к одной из трёх групп. Группа, которой соответствует наибольшая вероятность прогнозирования и есть прогнозируемая группа.

8.gif

Изображение: