20.2.1 Иерархический кластерный анализ с двумя переменными

20.2.1 Иерархический кластерный анализ с двумя переменными


Соберём заданные 17 сортов пива в кластеры при помощи параметров kalorien (калории) и kosten (расходы).

  •  Выберите в меню Analyze (Анализ) Classify (Классифицировать) Hierarchical Cluster... (Иерархический кластерный анализ)

Вы увидите диалоговое окно Hierarchical Cluster Analysis (Иерархический кластерный анализ) (см. рис. 20.3).

  •  Переменные каlorien (калории) и kosten (расходы) поместите в поле тестируемых переменных, а текстовую переменную bier (пиво) в поле с именем Label cases by: (Наименования (метки) наблюдений:).

  •  Щелчком по выключателю Statistics... (Статистики) откройте диалоговое окно Hierarchical Cluster Analysis: Statistics (Иерархический кластерный анализ: Статистики) и наряду с выводом последовательности слияния (Agglomeration schedule) активируйте вывод показателя принадлежности к кластеру для каждого наблюдения. Хотя на основании графического представления на диаграмме рассеяния (см. рис. 20.2) и ожидается результат в виде четырёх кластеров, но не можем быть полностью уверены в достижении этого результата. Поэтому, для верности активируйте Range of solutions: (Область решений) и введите числа 2 и 5 в качестве границ области.

  •  Вернувшись в главное диалоговое окно, щёлкните по выключателю Plots... (Диаграммы). Активируйте опцию вывода древовидной диаграммы (Dendrogram) и посредством опции None (Нет) отмените вывод накопительной диаграммы.


Рис. 20.3: Диалоговое окно Hierarchical Cluster Analysis (Иерархический кластерный анализ)

  •  С помощью кнопки Method... (Метод) Вы получаете возможность выбрать метод образования кластеров, а также метод расчета дистанционной меры и меры подобия соответственно.

SPSS предлагает, в общей сложности, семь различных методов объединения, которые будут рассмотрены в главе 20.4. Метод Between-groups linkage (Связь между группами) устанавливается по умолчанию.


Дистанционные меры и меры подобия зависят от вида переменных, участвующих в анализе, то есть выбор меры зависит от типа переменной и шкалы, к которой она относится: интервальная переменная, частоты или бинарные (дихотомические) данные. В рассматриваемом примере фигурируют данные, относящиеся к интервальной шкале, для которых по умолчанию в качестве дистанционной меры устанавливается квадрат евклидового расстояния (Squared Euclidean distance). Некоторые дистанционные меры и меры подобия будут рассмотрены в главе 20.3.

  •  Оставьте предварительные установки и в поле Transform Values (Преобразовывать значения) установите z-преобразование (стандартизацию) значений; необходимость этой опции была уже рассмотрена в главе 20.1. Другие предлагаемые возможности стандартизации играют скорее второстепенную роль.

  •  Вернитесь назад в главное диалоговое окно и начните расчёт нажатием ОК.

После обычной обшей статистической сводки итогов по наблюдениям, в окне просмотра сначала приводится обзор принадлежности, из которого можно выяснить очерёдность построения кластеров, а также их оптимальное количество. По двум колонкам, расположенным под общей шапкой Cluster Combined (Объединение в кластеры), можно увидеть, что на первом шаге были объединены наблюдения 5 и 12 (т.е. Heineken и Becks); эти две марки максимально похожи друг на друга и отдалены друг от друга очень малое расстояние. Эти два наблюдения образовывают кластер с номером 5, в то время как кластер 12 в обзорной таблице больше не появляется. На следующем шаге происходит объединение наблюдений 10 и 17 (Coors Light и Schlitz Light), затем 2 и 3 (Lowenbrau и Michelob) и т.д.


Agglomeration Schedule 


(Порядок агломерации)


Stage (Шаг)


Cluster Combined (Объединение в кластеры)


Coefficients (Коэффициенты)


Stage Cluster First Appears (Шаг, на котором кластер появляется впервые)


Next Stage (Следу-ющий шаг)


Cluster 1 (Кластер 1 )


Cluster 2 (Кластер 2)


Cluster 1 (Кластер 1 )


Cluster 2 (Кластер 2)


1


5


12


8.508Е-03


0


0


9


2


10


17


2.880Е-02


0


0


4


3


2


3


4.273Е-02


0


0


13


4


8


10


6.432Е-02


0


2


7


5


7


13


8.040Е-02


0


0


8


6


1


15


,117


0


0


8


7


8


9


,206


4


0


14


8


1


7


,219


6


5


12


9


5


11


,233


1


0


11


10


14


16


,313


0


0


14


11


4


5


,487


0


9


16


12


1


6


,534


8


0


13


13


1


2


,820


12


3


15


14


8


14


1,205


7


70


15


15


1


8


4,017


13


14


16


16


1


4


6,753


15


11


0


Для определения, какое количество кластеров следовало бы считать оптимальным, решающее значение имеет показатель, выводимый под заголовком "коэффициент". По этим коэффициентом подразумевается расстояние между двумя кластерами, определенное на основании выбранной дистанционной меры с учётом предусмотренного преобразования значений. В нашем случае это квадрат евклидового расстояния, определенный с использованием стандартизованных значений. На этом этапе, где эта мера расстояния между двумя кластерами увеличивается скачкообразно, процесс объединения в новые кластеры необходимо остановить, так как в противном случае были бы объединены уже кластеры, находящиеся на относительно большом расстоянии друг от друга.


В приведенном примере — это скачок с 1,205 до 4,017. Это означает, что после образования трёх кластеров мы больше не должны производить никаких последующих объединений, а результат с тремя кластерами является оптимальным. Визуально же мы ожидали результат с четырьмя кластерами. Оптимальным считается число кластеров равное разности количества наблюдений (здесь: 17) и количества шагов, после которого коэффициент увеличивается скачкообразно (здесь: 14).


В пояснении нуждаются ещё и три последние колонки вышеприведенной таблицы, отражающей порядок агломерации; для этого в качестве примера мы рассмотрим строку, соответствующую 14 шагу. Здесь объединяются кластеры 8 и 14. Перед этим кластер 8 уже участвовал в объединениях на шагах 4 и 7, последний раз, стало быть, на шаге 7. Строго говоря, название колонки Stage Cluster First Appears (Шаг, на котором кластер появляется впервые) можно считать ошибочным и вместо этого её следовало назвать Cluster Last Appears (Последнее появление кластера). Кластер 14 последний раз участвовал в объединении кластеров на шаге 10. Новый кластер 8 затем примет участие в объединении кластеров на шаге 15 (колонка: Next Stage (Следующий шаг)).


Далее по отдельности для результатов расчёта содержащих 5, 4, 3 и 2 кластеров, приводится таблица с информацией о принадлежности каждого наблюдения к кластеру.


Cluster Membership (Принадлежность к кластеру)


Case (Случай)


5 Clusters (5 кластеров)


4 Clusters (4 кластера)


3 Clusters (3 кластера)


2 Clusters (2 кластера)


1:Budweiser


1


1


1


1


2:Lowenbrau


2


1


1


1


3:Michelob


2


1


1


1


4:Kronenbourg


3


2


2


2


5:Heineken


3


2


2


2


6:Schmidts


1


1


1


1


7:Pabst Blue Ribbon


1


1


1


1


8:Miller Light


4


3


3


1


9:Budweiser Light


4


3


3


1


10:Coors Light


4


3


3


1


11:Dos Equis


3


2


2


2


12:Becks


3


2


2


2


13:Rolling Rock


1


1


1


1


14:Pabst Extra Light


5


4


3


1


15:Tuborg


1


1


1


1


16:OlympiaGold Light


5


4


3


1


17:Schlitz Light


4


3


3


1


Таблица показывает, что два наблюдения 14 и 16 (Pabst Extra Light и Olympia Gold Light) при переходе к 3-х кластерному решению были включены в кластеры, соседствующие на диаграмме рассеяния; эти марки пива при оптимальном кластерном решении рассматриваются как принадлежащие к одному кластеру. Если посмотреть на 2-х кластерное решение, то оно группирует наблюдения 4, 5, 11 и 12 (Kronenbourg, Heineken, Dos Equis, Becks), то есть марки верхних правых кластеров диаграммы рассеяния; это марки иностранного производства.


В заключение приводится затребованная нами дендрограмма, которая визуализирует процесс слияния, приведенный в обзорной таблице порядка агломерации. Она идентифицирует объединённые кластеры и значения коэффициентов на каждом шаге. При этом отображаются не исходные значения коэффициентов, а значения приведенные к шкале от 0 до 25. Кластеры, получающиеся в результате слияния, отображаются горизонтальными пунктирными линиями.


******HIERARCHICAL CLUSTER ANALYSIS*** Dendrogram usinc ( Average Linkage (Between Groups)


Rescaled Distantce


 Cluster Combine


CASE


0 5 10 15 20 25


Label


Hum +---- + ---- + ---- + _--_-- + ------ +


Heineken


5


Becks


12 - -


Dos Equis


11---------------------------------


Krcnenbourg


4 --


LcMBribrau


2 ----


Michelcb


3 - -


Pabst Blue Ribbon


7 ------------------------------


Rolling Rode


13 -- -


Budweiser


4 ---------------


Tuborg


15 - -


Schmdts


6 ----------------------


Coors Light


10 -


Schlitz Light


17 -


Miller Light


8 - - - - -


Budweiser Light


9 -------------------


Pabst Extra Light


14 -------------------


Olynpia Gold Light


16 - -------------------


В то время как дендрограмма годится только для графического представления процесса слияния, по диаграмме накопления можно проследить деление кластеров. Так как начиная с 7 версии SPSS графическое представление диаграммы накопления оставляет желать лучшего, мы отказались от активирования ее вывода.


Для вводного рассмотрения мы выбрали довольно простой пример, включающий только две переменных. В этом случае конфигурация кластеров поддается представлению в графическом виде.

7.gif

Изображение: