20.2.3 Иерархический кластерный анализ с предварительным факторным анализом

20.2.3 Иерархический кластерный анализ с предварительным факторным анализом


Рассмотрим пример из области географии. В 28 европейских странах в 1985 году были собраны следующие данные, выступающие здесь в качестве переменных:


Переменная


Значение


land


Страна


sb


Процент городского населения


lem


Средняя продолжительность жизни мужчин


lew


ks


Детская смертность на 1000 новорожденных


so


Количество часов ясной погоды в году


nt


Количество дней пасмурной погоды в году


tjan


Средняя дневная температура в январе


tjul


Средняя дневная температура в июле


Эти данные вы увидите, если откроете файл europa.sav. Переменная land является текстовой переменной, предназначенной для обозначения страны.


Целью нашего кластерного анализа является нахождение стран с похожими свойствами. При самом общем рассмотрении переменных (от непосредственного указания стран мы здесь воздержимся) становится заметным, что данные, содержащиеся в файле связаны исключительно с ожидаемой продолжительностью жизни или с климатом. Лишь процентный показатель населения, проживающего в городах, не вписывается в эти рамки. Стало быть, сходства, которые возможно будут найдены между некоторыми странами, основываются на продолжительности жизни и климате этих стран.


Исходя из вышесказанного, в данном случае перед проведением кластерного анализа рекомендуется сократить количество переменных. Подходящим методом для этого является факторный анализ (см. гл. 19), который вы можете провести, выбрав в меню Analyze (Анализ) Data Reduction (Преобразование данных) Factor... (Факторный анализ)


Если Вы проведёте факторный анализ и примените, к примеру, вращение по методу варимакса, то получите два фактора. В первый фактор войдут переменные: lem. lew, ks и sb, а во второй фактор - переменные: so, nt, tjan и tjul. Первый фактор однозначно характеризует продолжительность жизни, причём высокое значение фактора означает высокую продолжительность жизни, а второй отражает климатические условия; здесь высокие значения означают тёплый и сухой климат. Вместе с тем, Вы наверняка заметили, что в первый фактор интегрирована и переменная sb, что очевидно указывает на высокую ожидаемую продолжительность жизни при высоких процентных долях городского населения. Вы можете рассчитать факторные значения для этих двух факторов и добавить их к файлу под именами fac1_1 и fac2_1. Чтобы Вам не пришлось самостоятельно проводить факторный анализ на этом этапе, указанные переменные уже включены в файл europa.sav. Вы можете видеть, к примеру, что высокой продолжительностью жизни обладают северные страны (высокие значения переменной fac1_1) или южные страны с тёплым и сухим климатом (высокие значения переменной fac2_1). Факторные значения можно вывести с помощью меню Analyze (Анализ) Reports (Отчёты) Case Summaries... (Итоги по наблюдениям)


Они выглядят следующим образом:


Case Summaries a (Итоги по наблюдениям)


LAND (Страна)


Lebenserwartung (Ожидаемая продолжительность жизни)


Klima (Климат)


1


ALBA


-1,78349


,57155


2


BELG


,55235


-,57937


3


BULG


-,43016


-,13263


4


DAEN


,97206


-,23453


5


DDR


,26961


-,3351 1


6


DEUT


,19121


-,44413


7


FINN


-,30226


-1,28467


8


FRAN


1,05511


1,04870


9


GRIE


,12794


2,65654


10


GROS


,75443


-,05221


11


IRLA


,16370


-,66514


12


ISLA


1,75315


-,97421


13


ITAL


,40984


1,68933


14


JUGO


-2,63161


-,44127


15


LUXE


-.16469


-,98618


16


NIED


1,31001


-,29362


17


NORW


,96317


-,46987


18


OEST


-,20396


-,31971


19


POLE


-,65937


-,92081


20


PORT


-1,10510


1,59478


21


RUMA


-1,32450


,09481


22


SCHD


1,22645


-,20543


23


SCHZ


, 56289


-,45454


24


SOWJ


-,67091


-1,32517


25


SPAN


, 83627


1,91193


26


TSCH


-,59407


-,40632


27


TUER


-,52049


1,04424


28


UNGA


-,75761


-,08695


Total N


28


28


28


a. Limited to first 100 cases (Ограничено первыми 100 наблюдениями).


Распределим эти 28 стран по кластерам при помощи двух факторов: ожидаемая продолжительность жизни и климат.

  •  Выберите в меню Analyze (Анализ) Classify (Классифицировать) Hierarchical Cluster... (Иерархический кластерный анализ)

  •  Переменные fac1_1 и fac2_1 поместите в поле тестируемых переменных, а переменную land (страна) — в поле с именем Label cases by: (Наименование (маркировка) наблюдений).

  •  После прохождения выключателя Statistics... (Статистики), наряду с таблицей порядка агломерации сделайте запрос на вывод информации о принадлежности к кластеру для наблюдений. Активируйте Range of solutions: (Область решений) и введите граничные значения 2 и 5.

  •  Для сохранения информации о принадлежности отдельных наблюдений к кластеру в виде дополнительных переменных, воспользуйтесь выключателем Save... (Сохранить). В соответствии с установками, произведенными в диалоговом окне статистики, активируйте и здесь Range of solutions: (Область решений) и введите граничные значения 2 и 5.

  •  Деактивируйте вывод дендрограмм. Так как переменные, используемые в данном кластерном анализе, являются факторными значениями с одинаковыми областями допустимых значений, то стандартизация (z-преобразование) значений является излишней.

Agglomeration Schedule 


(Порядок агломерации)


Stage (Шаг)


Cluster Combined (Объединение в кластеры)


Coefficients (Коэф-фициенты)


Stage Cluster First Appears (Шаг, на котором кластер появляется впервые)


Next Stage (Следу-ющий шаг)


Cluster 1 (Кластер 1)


Cluster 2 (Кластер 2)


Cluster 1 (Кластер 1)


Cluster 2 (Кластер 2)


1


16


22


1,476


0


0


8


2


2


23


1,569


0


0


10


3


5


6


1,803


0


0


5


4


4


17


5,546


0


0


8


5


5


11


8,487


3


0


10


6


3


18


8,617


0


0


12


7


7


15


,108


0


0


15


8


4


16


,118


4


1


13


9


26


28


,129


0


0


12


10


2


5


,148


2


5


18


11


19


24


,164


0


0


15


12


3


26


,183


6


9


20


13


4


10


,228


8


0


18


14


13


25


,231


0


0


19


15


7


19


,254


7


11


20


16


1


21


,438


0


0


22


17


20


27


,645


0


0


22


18


2


4


,648


10


13


21


19


8


13


,810


0


14


23


20


3


7


,939


12


15


24


21


2


12


1,665


18


0


24


22


1


20


1,793


16


17


25


23


8


9


1,839


19


0


27


24


2


3


2,229


21


20


26


25


1


14


4,220


22


0


26


26


1


2


5,925


25


24


27


27


1


8


6,957


26


23


0


Сначала приводятся самые важные результаты. В таблице порядка агломерации Вы можете проследить последовательность образования кластеров; объяснения по этому поводу приводились в разделе 20.1. Скачкообразное изменение коэффициентов наблюдается при значениях 2,229 и 4,220; это означает, что после образования четырёх кластеров больше не должно происходит ни каких объединений и решение с четырьмя кластерами является оптимальным.


Принадлежность наблюдений к кластерам можно взять из нижеследующей таблицы, которая содержит также и информацию о принадлежности к кластерам для других вариантов решения (пять, три и два кластера).


Если Вы посмотрите на четырёхкластернное решение на нижеследующей таблице, то заметите, к примеру, что к третьему кластеру относятся следующие страны: Франция, Греция, Италия и Испания. Это страны с высокой продолжительностью жизни и тёплым климатом и поэтому не зря они являются предпочтительными для отдыха.


Cluster Membership (Принадлежность к кластеру)


Case (Случай)


5 Clusters (5 кластеров)


4 Clusters (4 кластера)


3 Clusters (3 кластера)


2 Clusters (2 кластера)


1:ALBA


1


1




2:BELG


2


2


2


1


3:BULG


3



2


1


4:DAEN 5:DEUT



2


2



6:DDR


2


2



1


7:FINN


3



-3


2


8:FRAN


4


3


-3


2


9:GRIE


4


2


2


1


10:iGROS


2


2


1


11:IRLA


2



2


1


12:ISLA


2


3


о


2


13:ITAL


4


4


1


1


14:JUGO


5


2


2


1


1 5:LUXE


3


2


2


1


16:NIED


2


2


1


17:NORW


2


2


2


1


18:OEST


3


2


2


1


19:POLE


3


2


1


1


1


20:PORT


1


1


1


1


21:RUMA


1


2


1


22:SCHD 23:SCHZ



2


2


1


24:SOWJ


3


1


i


2


!25:SPAN


4


1


26:TSCH


3


1


1


1


27:TUER 28:UNGA


1


2


1


1