20.2.3 Иерархический кластерный анализ с предварительным факторным анализом
Рассмотрим пример из области географии. В 28 европейских странах в 1985 году были собраны следующие данные, выступающие здесь в качестве переменных:
Переменная  |  Значение  |  
land  |  Страна  |  
sb  |  Процент городского населения  |  
lem  |  Средняя продолжительность жизни мужчин  |  
lew  |   |
ks  |  Детская смертность на 1000 новорожденных  |  
so  |  Количество часов ясной погоды в году  |  
nt  |  Количество дней пасмурной погоды в году  |  
tjan  |  Средняя дневная температура в январе  |  
tjul  |  Средняя дневная температура в июле  |  
Эти данные вы увидите, если откроете файл europa.sav. Переменная land является текстовой переменной, предназначенной для обозначения страны.
Целью нашего кластерного анализа является нахождение стран с похожими свойствами. При самом общем рассмотрении переменных (от непосредственного указания стран мы здесь воздержимся) становится заметным, что данные, содержащиеся в файле связаны исключительно с ожидаемой продолжительностью жизни или с климатом. Лишь процентный показатель населения, проживающего в городах, не вписывается в эти рамки. Стало быть, сходства, которые возможно будут найдены между некоторыми странами, основываются на продолжительности жизни и климате этих стран.
Исходя из вышесказанного, в данном случае перед проведением кластерного анализа рекомендуется сократить количество переменных. Подходящим методом для этого является факторный анализ (см. гл. 19), который вы можете провести, выбрав в меню Analyze (Анализ) Data Reduction (Преобразование данных) Factor... (Факторный анализ)
Если Вы проведёте факторный анализ и примените, к примеру, вращение по методу варимакса, то получите два фактора. В первый фактор войдут переменные: lem. lew, ks и sb, а во второй фактор - переменные: so, nt, tjan и tjul. Первый фактор однозначно характеризует продолжительность жизни, причём высокое значение фактора означает высокую продолжительность жизни, а второй отражает климатические условия; здесь высокие значения означают тёплый и сухой климат. Вместе с тем, Вы наверняка заметили, что в первый фактор интегрирована и переменная sb, что очевидно указывает на высокую ожидаемую продолжительность жизни при высоких процентных долях городского населения. Вы можете рассчитать факторные значения для этих двух факторов и добавить их к файлу под именами fac1_1 и fac2_1. Чтобы Вам не пришлось самостоятельно проводить факторный анализ на этом этапе, указанные переменные уже включены в файл europa.sav. Вы можете видеть, к примеру, что высокой продолжительностью жизни обладают северные страны (высокие значения переменной fac1_1) или южные страны с тёплым и сухим климатом (высокие значения переменной fac2_1). Факторные значения можно вывести с помощью меню Analyze (Анализ) Reports (Отчёты) Case Summaries... (Итоги по наблюдениям)
Они выглядят следующим образом:
Case Summaries a (Итоги по наблюдениям)
LAND (Страна)  |  Lebenserwartung (Ожидаемая продолжительность жизни)  |  Klima (Климат)  |  |
1  |  ALBA  |  -1,78349  |  ,57155  |  
2  |  BELG  |  ,55235  |  -,57937  |  
3  |  BULG  |  -,43016  |  -,13263  |  
4  |  DAEN  |  ,97206  |  -,23453  |  
5  |  DDR  |  ,26961  |  -,3351 1  |  
6  |  DEUT  |  ,19121  |  -,44413  |  
7  |  FINN  |  -,30226  |  -1,28467  |  
8  |  FRAN  |  1,05511  |  1,04870  |  
9  |  GRIE  |  ,12794  |  2,65654  |  
10  |  GROS  |  ,75443  |  -,05221  |  
11  |  IRLA  |  ,16370  |  -,66514  |  
12  |  ISLA  |  1,75315  |  -,97421  |  
13  |  ITAL  |  ,40984  |  1,68933  |  
14  |  JUGO  |  -2,63161  |  -,44127  |  
15  |  LUXE  |  -.16469  |  -,98618  |  
16  |  NIED  |  1,31001  |  -,29362  |  
17  |  NORW  |  ,96317  |  -,46987  |  
18  |  OEST  |  -,20396  |  -,31971  |  
19  |  POLE  |  -,65937  |  -,92081  |  
20  |  PORT  |  -1,10510  |  1,59478  |  
21  |  RUMA  |  -1,32450  |  ,09481  |  
22  |  SCHD  |  1,22645  |  -,20543  |  
23  |  SCHZ  |  , 56289  |  -,45454  |  
24  |  SOWJ  |  -,67091  |  -1,32517  |  
25  |  SPAN  |  , 83627  |  1,91193  |  
26  |  TSCH  |  -,59407  |  -,40632  |  
27  |  TUER  |  -,52049  |  1,04424  |  
28  |  UNGA  |  -,75761  |  -,08695  |  
Total N  |  28  |  28  |  28  |  
a. Limited to first 100 cases (Ограничено первыми 100 наблюдениями).
Распределим эти 28 стран по кластерам при помощи двух факторов: ожидаемая продолжительность жизни и климат.
Выберите в меню Analyze (Анализ) Classify (Классифицировать) Hierarchical Cluster... (Иерархический кластерный анализ)
Переменные fac1_1 и fac2_1 поместите в поле тестируемых переменных, а переменную land (страна) — в поле с именем Label cases by: (Наименование (маркировка) наблюдений).
После прохождения выключателя Statistics... (Статистики), наряду с таблицей порядка агломерации сделайте запрос на вывод информации о принадлежности к кластеру для наблюдений. Активируйте Range of solutions: (Область решений) и введите граничные значения 2 и 5.
Для сохранения информации о принадлежности отдельных наблюдений к кластеру в виде дополнительных переменных, воспользуйтесь выключателем Save... (Сохранить). В соответствии с установками, произведенными в диалоговом окне статистики, активируйте и здесь Range of solutions: (Область решений) и введите граничные значения 2 и 5.
Деактивируйте вывод дендрограмм. Так как переменные, используемые в данном кластерном анализе, являются факторными значениями с одинаковыми областями допустимых значений, то стандартизация (z-преобразование) значений является излишней.
Agglomeration Schedule
(Порядок агломерации)  |    ||||||
Stage (Шаг)  |      Cluster Combined (Объединение в кластеры)  |      Coefficients (Коэф-фициенты)  |      Stage Cluster First Appears (Шаг, на котором кластер появляется впервые)  |      Next Stage (Следу-ющий шаг)  |    ||
Cluster 1 (Кластер 1)  |      Cluster 2 (Кластер 2)  |      Cluster 1 (Кластер 1)  |      Cluster 2 (Кластер 2)  |    |||
1  |      16  |      22  |      1,476  |      0  |      0  |      8  |    
2  |      2  |      23  |      1,569  |      0  |      0  |      10  |    
3  |      5  |      6  |      1,803  |      0  |      0  |      5  |    
4  |      4  |      17  |      5,546  |      0  |      0  |      8  |    
5  |      5  |      11  |      8,487  |      3  |      0  |      10  |    
6  |      3  |      18  |      8,617  |      0  |      0  |      12  |    
7  |      7  |      15  |      ,108  |      0  |      0  |      15  |    
8  |      4  |      16  |      ,118  |      4  |      1  |      13  |    
9  |      26  |      28  |      ,129  |      0  |      0  |      12  |    
10  |      2  |      5  |      ,148  |      2  |      5  |      18  |    
11  |      19  |      24  |      ,164  |      0  |      0  |      15  |    
12  |      3  |      26  |      ,183  |      6  |      9  |      20  |    
13  |      4  |      10  |      ,228  |      8  |      0  |      18  |    
14  |      13  |      25  |      ,231  |      0  |      0  |      19  |    
15  |      7  |      19  |      ,254  |      7  |      11  |      20  |    
16  |      1  |      21  |      ,438  |      0  |      0  |      22  |    
17  |      20  |      27  |      ,645  |      0  |      0  |      22  |    
18  |      2  |      4  |      ,648  |      10  |      13  |      21  |    
19  |      8  |      13  |      ,810  |      0  |      14  |      23  |    
20  |      3  |      7  |      ,939  |      12  |      15  |      24  |    
21  |      2  |      12  |      1,665  |      18  |      0  |      24  |    
22  |      1  |      20  |      1,793  |      16  |      17  |      25  |    
23  |      8  |      9  |      1,839  |      19  |      0  |      27  |    
24  |      2  |      3  |      2,229  |      21  |      20  |      26  |    
25  |      1  |      14  |      4,220  |      22  |      0  |      26  |    
26  |      1  |      2  |      5,925  |      25  |      24  |      27  |    
27  |      1  |      8  |      6,957  |      26  |      23  |      0  |    
Сначала приводятся самые важные результаты. В таблице порядка агломерации Вы можете проследить последовательность образования кластеров; объяснения по этому поводу приводились в разделе 20.1. Скачкообразное изменение коэффициентов наблюдается при значениях 2,229 и 4,220; это означает, что после образования четырёх кластеров больше не должно происходит ни каких объединений и решение с четырьмя кластерами является оптимальным.
Принадлежность наблюдений к кластерам можно взять из нижеследующей таблицы, которая содержит также и информацию о принадлежности к кластерам для других вариантов решения (пять, три и два кластера).
Если Вы посмотрите на четырёхкластернное решение на нижеследующей таблице, то заметите, к примеру, что к третьему кластеру относятся следующие страны: Франция, Греция, Италия и Испания. Это страны с высокой продолжительностью жизни и тёплым климатом и поэтому не зря они являются предпочтительными для отдыха.
Cluster Membership (Принадлежность к кластеру)
Case (Случай)  |  5 Clusters (5 кластеров)  |  4 Clusters (4 кластера)  |  3 Clusters (3 кластера)  |  2 Clusters (2 кластера)  |  
1:ALBA  |  1  |  1  |  1  |  1  |  
2:BELG  |  2  |  2  |  2  |  1  |  
3:BULG  |  3  |  2  |  2  |  1  |  
4:DAEN 5:DEUT  |  2  |  2  |  2  |  1  |  
6:DDR  |  2  |  2  |  2  |  1  |  
7:FINN  |  3  |  2  |  -3  |  2  |  
8:FRAN  |  4  |  3  |  -3  |  2  |  
9:GRIE  |  4  |  2  |  2  |  1  |  
10:iGROS  |  2  |   2  |  1  |  |
11:IRLA  |  2  |  2  |  2  |  1  |  
12:ISLA  |  2  |  3  |  о  |  2  |  
13:ITAL  |  4  |  4  |  1  |  1  |  
14:JUGO  |  5  |  2  |  2  |  1  |  
1 5:LUXE  |  3  |  2  |  2  |  1  |  
16:NIED  |  2  |   2  |  1  |  |
17:NORW  |  2  |  2  |  2  |  1  |  
18:OEST  |  3  |  2  |  2  |  1  |  
19:POLE  |  3  |  2 1  |  1  |  1  |  
20:PORT  |  1  |  1  |  1  |  1  |  
21:RUMA  |  1  |  2  |   1  |  |
22:SCHD 23:SCHZ  |  2  |  2  |  2  |  1  |  
24:SOWJ  |  3  |  1  |  i  |  2  |  
!25:SPAN  |  4  |  1  |    ||
26:TSCH  |  3  |  1  |  1  |  1  |  
27:TUER 28:UNGA  |  1  |  2  |  1  |  1  |