18.3 Пример из области биологии
Дискриминантный анализ очень часто применяется для обработки данных из области биологии. В следующем типичном примере для некоторого количества индивидуумов принадлежность к группе уже известна, на основании чего и строится дискриминантная функция. Далее она используется для того, чтобы оценить принадлежность к определенной группе тех индивидуумов, для которых она ещё не известна.
В файле vogel.sav хранятся данные о половой принадлежности, длине крыла, длине клюва, размере головы, длине лап и весе 245 птиц определённого вида. Причём пол смогли определить только для 51 особи. Кодировка пола соответствует 1 = мужской и 2 = женский; отсутствие данных кодируется 9.
Если для перечисленных параметров Вы рассчитаете средние значения для самцов и самок, то для самок получите более высокие показатели. Исходя из этого, при помощи дискриминантного анализа можно попытаться определить пол тех особей, для которых этого нельзя было сделать ранее.
Откройте файл vogel.sav.
В диалоговом окне Discriminant Analysis (Дискриминантный анализ) переменной geschl (Пол) присвойте статус групповой переменной с пределами от 1 до 2, а переменным fluegel (Длина крыла), schnl (Длина клюва), kopfl (Размер головы), fuss (Длина лап) и gew (Вес) — статус независимых переменных. Выберите пошаговый метод.
В диалоговом окне Discriminant Analysis: Classify (Дискриминантный анализ: Классифицировать) активируйте Casewise results (Результаты для отдельных наблюдений) с ограничением в 40 наблюдений и Summary table (Сводная таблица).
Через выключатель Save... (Сохранить) при помощи активирования опций Predicted group membership (Прогнозируемая принадлежности к группе) и Probabilities of group membership (Вероятности принадлежности к группе) затребуйте генерирование соответствующих переменных.
Из всех результатов, приводимых в окне просмотра, в книге рассматриваются только статистики для каждого наблюдения. По классификационной таблице видно, что для 51 наблюдения с заранее известным полом 44 раза, т.е. в 86,3 % наблюдений, пол был спрогнозирован верно (см. следующую таблицу).
Если мы рассмотрим наблюдение 8, то здесь пол известен — женский и в результате прогноза получается женский пол, а вот для наблюдения 30 пол известен как мужской, но прогнозируется как женский. Наблюдения с нераспознанным полом приводятся в таблице как "ungrouped" (не группированные).
Для наблюдения 1, для которого пол оказался неизвестным, он прогнозируется как женский. Значение вероятности прогнозирования, 0,990, указывается в колонке "P(G=g | D=d)" под заголовком "Highest Group" (Старшая группа). Менее достоверным является прогноз пола для наблюдения 10, здесь вероятность прогнозирования составляет только 0,721.
Casewise Statistics
(Статистики для наблюдений) | ||||||||||||
Case Number (Номер случая) | Actual Group (Факти-ческая группа) | Highest Group (Старшая группа) | Second Highest Group (Вторая по старшинству группа) | Discri-minant Scores (Значе-ния диск-рими- нантной фун-кции) | ||||||||
Predicted Group (Прог-нози- руемая группа) | P(D>d | e=g) | P(G=9 I D=d) | Squared Ma-hala-nobis Distance to Cent-raid (Квадрат рас-стояния Маха-ланобиса до цент-роида) | Group (Груп-па) | P(G=g |D=d) | Squared Ма-halanobis Distance to Centraid (Квадрат рас-стояния Маха-ланобиса до центро-ида) | Fun-ction 1 (Фун-кция 1 ) | |||||
P | df | |||||||||||
Original (Пер- вона- чаль -но) | 1 | ungrouped (не груп-пирова-нный) | 2 | ,222 | 1 | ,990 | 1,489 | 1 | ,010 | 10,679 | 2,304 | |
2 | ungrouped (не груп-пирова-нный) | 2 | ,063 | 1 | ,997 | 3,453 | 1 | ,003 | 15,254 | 2,942 | ||
3 | ungrouped (не груп-пирова-нный) | 2 | ,064 | 1 | ,997 | 3,433 | 1 | ,003 | 15,213 | 2,937 | ||
4 | ungrouped (не груп-пирова-нный) | 2 | ,245 | 1 | ,989 | 1,353 | 1 | ,011 | 10,307 | 2,247 | ||
5 | ungrouped (не груп-пирова-нный) | 2 | ,126 | 1 | ,995 | 2,338 | 1 | ,005 | 12,792 | 2,613 | ||
6 | ungrouped (не груп-пирова-нный) | 2 | ,319 | 1 | ,984 | ,995 | 1 | ,016 | 9,271 | 2,081 | ||
7 | ungrouped (не груп-пирова-нный) | 2 | ,485 | 1 | ,971 | ,489 | 1 | ,029 | 7,543 | 1,783 | ||
8 | 2 | 2 | ,102 | 1 | ,996 | 2,673 | 1 | ,004 | 13,561 | 2,719 | ||
9 | ungrouped (не груп-пирова-нный) | 2 | ,387 | 1 | ,980 | ,748 | 1 | ,020 | 8,482 | 1,949 | ||
10 | ungrouped (не группирова-нный) | 2 | ,576 | 1 | ,721 | ,313 | 1 | ,279 | 2,213 | ,524 | ||
11 | ungrouped (не груп-пирова-нный) | 2 | ,651 | 1 | ,954 | ,205 | 1 | ,046 | 6,248 | 1,536 | ||
12 | ungrouped (не груп-пирова-нный) | 2 | ,140 | 1 | ,994 | 2,177 | 1 | ,006 | 12,411 | 2,559 | ||
13 | ungrouped (не груп-пирова-нный) | 2 | ,435 | 1 | ,976 | ,609 | 1 | ,024 | 7,995 | 1,864 | ||
14 | ungrouped (не группиро-ванный) | 2 | ,471 | 1 | ,973 | ,519 | 1 | ,027 | 7,662 | 1,804 | ||
15 | ungrouped (не группиро-ванный) | 2 | ,764 | 1 | ,938 | ,090 | 1 | ,062 | 5,510 | 1,384 | ||
16 | ungrouped (не группиро-ванный) | 2 | ,481 | 1 | ,972 | ,497 | 1 | ,028 | 7,576 | 1,789 | ||
17 | ungrouped (не груп-пирова-нный) | 2 | ,172 | 1 | ,993 | 1,868 | 1 | ,007 | 11,658 | 2,451 | ||
18 | 2 | 2 | ,399 | 1 | ,979 | ,712 | 1 | ,021 | 8,359 | 1,928 | ||
19 | ungrouped (не груп-пирова-нный) | 2 | ,705 | 1 | ,946 | ,143 | 1 | ,054 | 5,884 | 1,462 | ||
20 | 2 | 2 | ,969 | 1 | ,898 | ,002 | 1 | ,102 | 4,355 | 1,123 | ||
21 | 2 | 2 | ,249 | 1 | ,989 | 1,328 | 1 | ,011 | 10,238 | _ 2,236 | ||
22 | ungrouped (не груп-пиров-анный) | 2 | ,121 | 1 | ,995 | 2,407 | 1 | ,005 | 12,953 | 2,636 | ||
23 | 2 | 2 | ,071 | 1 | ,997 | 3,263 | 1 | ,003 | 14,853 | 2,890 | ||
24 | ungrouped (не груп-пирова-нный) | 2 | ,367 | 1 | ,981 | ,815 | 1 | ,019 | 8,704 | 1,987 | ||
25 | ungrouped (не груп-пиров-анный) | 2 | ,880 | 1 | ,857 | ,023 | 1 | ,143 | 3,598 | ,933 | ||
26 | ungrouped (не груп-пирова-нный) | 2 | ,537 | 1 | ,966 | ,382 | 1 | ,034 | 7,103 | 1,702 | ||
27 | ungrouped (не группиро-ванный) | 1 | ,640 | 1 | ,955 | ,218 | 2 | ,045 | 6,323 | -1,431 | ||
28 | 2 | 2 | ,744 | 1 | ,806 | ,107 | 1 | ,194 | 2,960 | ,757 | ||
29 | ungrouped (не груп-пирова-нный) | 2 | ,969 | 1 | ,883 | ,001 | 1 | ,117 | 4,035 | 1,045 | ||
30 | 1 | 2" | ,625 | 1 | ,749 | ,239 | 1 | ,251 | 2,428 | ,595 | ||
| 31 | ungrouped (не груп-пирова-нный) | 2 | ,646 | 1 | ,760 | ,211 | 1 | ,240 | 2,521 | ,624 | |
32 | 2 | 2 | ,173 | 1 | ,993 | 1,860 | 1 | ,007 | 11,636 | 2,448 | ||
33 | 1 | 2" | ,504 | 1 | ,970 | ,447 | 1 | ,030 | 7,378 | 1,753 | ||
34 | ungrouped (не груп-пирова-нный) | 2 | ,544 | 1 | ,966 | ,368 | 1 | ,034 | 7,046 | 1,691 | ||
35 | ungrouped (не груп-пирова-нный) | 2 | ,618 | 1 | ,958 | ,248 | 1 | ,042 | 6,480 | 1,582 | ||
36 | ungrouped (не груп-пирова-нный) | 2 | ,727 | 1 | ,943 | ,122 | 1 | ,057 | 5,744 | 1,433 | ||
37 | 2 | 2 | ,458 | 1 | ,974 | ,551 | 1 | ,026 | 7,781 | 1,826 | ||
38 | 2 | 2 | ,362 | 1 | ,981 | ,829 | 1 | ,019 | 8,750 | 1,995 | ||
39 | 2 | 2 | ,814 | 1 | ,929 | ,055 | 1 | ,071 | 5,211 | 1,319 | ||
40 | ungrouped (не груп-пирова-нный) | 2 | ,812 | 1 | ,930 | ,057 | 1 | ,070 | 5,222 | 1,322 |
** Misclassified case (** - Неверно классифицированный случай)
Для того, чтобы хотя бы частично сократить количество ошибочных значений для переменной пола, при анализе вы можете применять прогнозируемую групповую принадлежность только в тех случаях, для которых вероятность прогнозирования принимает некоторое минимально допустимое значение, к примеру, 0,9.
IF (dis_1 = 1 and disl_1 >= 0,9)
geschl=1
. IF (dis_1 = 2 and dis2_1 >= 0,9)
geschl=2.
EXECUTE.
Таким образом, в используемом примере можно присвоить половой показатель ещё 90-а птицам. Если вы снизите минимально допустимое значение вероятности прогнозирования, то это число станет ещё больше.
К файлу были добавлены три новые переменные:
dis_1: Прогнозируемая группа
disl_1: Вероятность принадлежности к группе 1
dis2_1: Вероятность принадлежности к группе 2.