18.4 Пример из области биологии (три группы)
В предыдущих примерах дискриминантный анализ всегда проводился при наличии лишь двух групп. В этой главе рассматривается пример, в котором групповая переменная имеет больше двух категорий, а именно три.
В файле kaefer.sav содержатся данные о длине и ширине грудной клетки трёх видов жуков (обозначенных как А, В и С). Если вы проведёте однофакторный дисперсионный анализ с последующими дополнительными тестами (Post-hoc-Tests), то увидите, что три разновидности жуков очень значимо различаются между собой как по длине, так и по ширине, поэтому вполне можно предположить, что этих жуков можно классифицировать между упомянутыми видами на основании их длины и ширины посредством дискриминантного анализа.
Откройте файл kaefer.sav.
Вы увидите, что 17 жуков из 30 не отнесены ни к иной из групп; поэтому классификация жуков по группам должна быть произведена при помощи дискриминантного анализа.
В диалоговом окне Discriminant Analysis (Дискриминантный анализ) переменной kaefer (Жук) присвойте статус групповой переменной с пределами от 1 до 3, а переменным laenge (Длина) и breite (Ширина) статус независимых переменных. Оставьте активной установку по умолчанию Enter independents together (Независимые переменные вводить одновременно).
В диалоговом окне Discriminant Analysis: Statistics (Дискриминантный анализ: Статистики) в разделе Descriptives (Дискриптивние статистики) активируйте опции: Means (Средние значения), Univariate ANOVAs (Одномерные тесты ANOVA) и в разделе Function Coefficients (Коэффициенты функции) опцию Unstandardized (He стандартизированные).
В диалоговом окне Discriminant Analysis: Classify (Дискриминантный анализ: Классифицировать) сделайте запрос на Case-wise results (Результаты для отдельных наблюдений) и Summary table (Сводную таблицу) и в разделе Plots (Графики) активируйте опцию Territorial map (Территориальная карта). Эта опция служит для построения классификационной диаграммы, так называемой территориальной карты (Territorial map). Построение этой диаграммы типично для случая с более чем двумя группами.
В заключение, в диалоговом окне Discriminant Analysis: Save (Дискриминантный анализ: Сохранить), активируйте все опции, находящиеся там, с целью создания соответствующих переменных в исходном файле.
Из всей гаммы приводимых результатов расчёта мы рассмотрим только самые важные. Из групповых статистик можно узнать, что в семейство А входят самые большие, а в семейство В самые маленькие жуки.
Group Statistics
(Статистики для групп) | |||||
KAEFEP (Жук) | Mean (Сред-нее значе-ние) | Std. Deviation (Станда-ртное отклоне-ние) | Valid N (listwise) (Действительные значения (по списку)) | ||
Unweighted (Не взвеше-нное) | Weighted (Взвеше-нное) | ||||
1 (Семейство А) | LAENGE (Длина) | 1 ,6226 | 5.968Е-02 | 42 | 42,000 |
BREITE (Ширина) | 1 ,2607 | 4J54E-02 | 42 | 42,000 | |
2 Семейство В) | LAENGE (Длина) | 1 ,3089 | 7.634Е-02 | 45 | 45,000 |
BREITE (Ширина) | 1,0122 | 4.415Е-02 | 45 | 45,000 | |
3 Семейство С) | LAENGE (Длина) | 1,4788 | 6.029Е-02 | 26 | 26,000 |
BREITE (Ширина) | 1,1192 | 5.114Е-02 | 26 | 26,000 | |
Total | LAENGE (Длина) | 1,4646 | ,1535 | 113 | 113,000 |
BREITE (Ширина) | 1,1292 | ,1191 | 113 | 113,000 |
Статистика Лямбда Уилкса (>i) свидетельствует о том, что жуки очень значимо делятся на группы как по длине, так и по ширине.
Tests of Equality of Group Means (Тест на равенство средних значений групп)
Wilks' Lambda (Лямбда Уилкса) | F | df1 | df2 | Sig. (Значимость) | |
LAENGE (Длина) | ,187 | 239,154 | 2 | 110 | ,000 |
BREITE (Ширина) | ,153 | 303,326 | 2 | 110 | ,000 |
Если насчитывается более двух классификационных групп, то можно образовать больше одной дискриминантной функции; при трёх группах, как в приведенном примере, их будет две. Следующая таблица свидетельствует о том, что обе дискриминантные функции дают значимые результаты для разделения между группами и, следовательно, могут быть использованы соответствующим образом. Однако, первая функция дает вероятность прогноза 98,7 %, а вторая только 1,3 %.
Eigenvalues (Собственные значения)
Function (Функция) | Eigenvalue (Собствен-ные значение) | % of Variance (% диспер-сии) | Cumulative % (Совокуп-ный %) | Canonical Correlation (Канони-ческая корре-ляция) |
1 | 6,040а | 98,7 | 98,7 | ,296 |
2 | ,078а | 1,3 | 100,0 | ,269 |
a. First 2 canonical discriminant functions were used in the analysis (В этом анализе используются первые 2 канонические дискриминантные функции).
Wilks' Lambda (Лямбда Уилкса)
Test of Function(s) (Тест функции (й)) | Wilks1 Lambda (Лямбда Уилкса) | Chi-square (Хи-квадрат) | df | Sig. (Значимость) |
1 through 2 (1 до 2) | ,132 | 221,900 | 4 | ,000 |
2 | ,928 | 8,202 | 1 | ,004 |
Затребованные нестандартизированные коэффициенты функций приводятся в следующей таблице.
Canonical Discriminant Function Coefficients
(Канонические коэффициенты дискриминантных функций) | ||
Function (Функция) | ||
1 | 2 | |
LAENGE (Длина) | 5,831 | 18,769 |
BREITE (Ширина) | 14,891 | -23,659 |
(Constant) (Константа) | -25,355 | -,773 |
Unstandardized coefficients (Нестандартизированные коэффициенты)
Мы здесь опускаем вывод статистик для каждого отдельного случая. В результате расчетов Вы получаете соответствующие номера групп и вероятность прогнозирования под заголовком P(G = g|D = d). Прогнозирование осуществлено и для 17 неклассифицированных случаев.
На территориальной карте показано разделение на области, которые означают принадлежность к группе. При этом в пределах границ соответствующей области вероятность отнесения к данной группе выше, чем для других групп. На границах областей вероятности для граничащих групп одинаковы.
Значения обеих дискриминантных функций, на основе которых построена эта территориальная карта, Вы можете увидеть в редакторе данных под именами двух вновь созданных переменных: dis1_1 и dis2_1.
В заключение приводится обзор результатов классификации. По ним Вы можете заметить, что прогноз для групп А и В практически полностью был сделан верно и корректно классифицированы, в общей сложности, 91,2 % всех случаев.
Classification Results a
(Результаты Классификации) | ||||||
FUND (Семе-йство) | Predicted Group Membership | Total (Сум-ма) | ||||
1 (Семей-ство А) | 2 (Семей-ство В) | 3 (Семей-ство С) | ||||
Original (Перво-нача-льно) | Count (Коли-чество) | 1 (Семейство А) | 41 | 0 | 1 | 42 |
2 (Семейство В) | 0 | 43 | 2 | 45 | ||
3 (Семейство С) | 4 | 3 | 19 | 26 | ||
Ungrouped cases (He груп-пирован-ные случаи) | 7 | 6 | 4 | 17 | ||
% | 1 (Семейство А) | 97,6 | ,0 | 2,4 | 100,0 | |
2 (Семейство В) | ,0 | 95,6 | 4,4 | 100,0 | ||
3 (Семейство С) | 15,4 | 11,5 | 73,1 | 100,0 | ||
Ungrouped cases (He груп-пирован-ные случаи) | 41,2 | 35,3 | 23,5 | 100,0 |
а. 91,2% of original grouped cases correctly classified (91,2 % первоначально сгруппированных случаев были классифицированы корректно).
Символы, используемые втерриториальной карте | ||
Символ | Группа | Метка |
1 2 3 | 1 2 3 | Семейство А Семейство В Семейство С |
Маркировка | Центроиды групп |
Наряду с уже упоминавшимися значениями обеих дискриминантных функции в редакторе данных были созданы: переменная dis_1, содержащая значение прогнозируемой группы и переменные disl_2, dis2_2 и dis3_2, которые содержат прогнозируемые вероятности отнесения к одной из трёх групп. Группа, которой соответствует наибольшая вероятность прогнозирования и есть прогнозируемая группа.