CA Tutorial MR2 SPSS

Клъстерен анализ с SPSS

Клъстерен анализ Клъстерният анализ е аналитична изследователска техника, с помощта на която могат да се идентифицират естествени групи (сегменти) от обекти. Той се основава на концепцията за обособяването на обекти във вътрешно хомогенни и външно хетерогенни групи (сегменти), изхождайки от степента им на подобие по определени критерии. В маркетинговите изследвания клъстерният анализ може да се използва за:

• пазарно сегментиране въз основа на определени критерии; • независим анализ на потребителското поведение на ниво клъстер; • идентифициране на преките конкуренти на дадена продуктова оферта и

на тази основа – разкриване на възможности за въвеждане на нови продукти на пазара;

• подбор на тестови пазари, в които да се тестват различни маркетингови стратегии;

• свеждане на голям обем данни до определен брой клъстери, които да се използват за последващ многомерен анализ.

Основна постановка на казуса Разполагате с данни от проведено ad hoc изследване, насочено към идентифициране на факторите, влияещи върху избора на бира (стек от 6 бири). В изследването са включени 231 респондента (съотношение мъже - жени 75 % - 25 %) на възраст от 18 до 55 години, живеещи в градовете. На излизане от супермаркета респондентите са били помолени да оценят по скалата от 0 до 100 важността на 7 атрибута (ниска цена, голяма бутилка, високо съдържание на алкохол, репутация на марката, цвят, вкус и аромат).

Вашите задачи са:

• Определете броя на клъстерите. При определянето на клъстерите използвайте агломеративна йерархична клъстеризация (метод на Уорд). В качеството на метрика за несходство използвайте евклидова дистанция на квадрат.

• Интерпретирайте и профилирайте клъстерите. • Приложете метода на К-средните и метода на двустъпковата

клъстеризация. Сравнете получените резултати. 1. Метод на агломеративната йерархична клъстеризация Методът на агломеративната йерархична клъстеризация (Agglomerative Hierarchical Clustering) е метод за клъстерен анализ, подходящ при малки извадки (под 250 случая!). При него първоначално всеки случай се разглежда като самостоятелен клъстер. Клъстерите се формират чрез групиране на случаи (обекти), в зависимост от дистанцията между тях. На последния етап всички обекти образуват един клъстер. Важно е да се отбележи, че два обекта остават свързани веднъж след като са обособени в клъстер.

© Доц. д-р Маруся Иванова, Маркетингови изследвания 2: Многомерни методи за маркетингови изследвания

1


Съществуват различни подходи за изчисляване на дистанцията между обектите (например метод на Уорд, метод на най-близкия съсед, метод на центроида, метод на най-отдалечения съсед и др.). За да извършите йерархична (агломеративна) клъстеризация, следва да изпълните следната команда: Analyze Classify Hierarchical Cluster…

Зарежда се диалогов прозорец Hierarchical Cluster Analysis, в който трябва да укажете списъка от променливи (в случая 7-те продуктови атрибута), въз основа на които ще се извършва групирането на респондентите (случаите).


2


За да определите някои от компонентите на аутпута, кликнете върху бутон Statistics…

След като се зареди диалогов прозорец Hierarchical Cluster Analysis: Statistics посочете, че желаете в аутпута да се съдържа т.нар. агломеративна таблица. Основен прозорец Hierarchical Cluster Analysis дава възможност и за избор на типа графични обекти, които да представят процеса на клъстеризация (дендограма, капчукова диаграма) .

Дендограмата е графичен инструмент с дървовидна структура, който облекчава определянето на „оптимален” брой клъстери при АНС. За съжаление обаче, когато броят на случаите е голям, тя е трудно „четима”. Прилагането на АНС е свързано и с избор на процедура, въз основа на която ще се определят дистанциите между обектите, а също и метрика за измерване на несходството между тях.


3


Най-популярният метод на АНС е методът на Уорд. Съществува връзка между използваната процедура за АНС клъстеризация и метриката за измерване на несходството. Така например, най-често медът на Уорд се използва успоредно с евклидова дистанция на квадрат. В диалогов прозорец Hierarchical Cluster Analysis: Method следва да се вземе решение дали изходните данни да се трансформират или не. Когато данните са с различен мащаб, се налага тяхната трансформация. В нашия пример не е необходима стандартизацията (Z scores – средна 0 и дисперсия 1), тъй като всички данни са в интервала от 0 до 1001. SPSS извежда аутпут със следното съдържание. На следващата фигура е представена генерираната от АНС дендограма2. Поради големия брой на наблюденията, дендограмата е представена на части и е трудна за интерпретация. Макар и изключително трудно, от графиката се вижда, че най-големият „компромис” с вътрешното несходство се прави при преминаването от три- на двуклъстерно решение.

Много по-полезен инструмент при определянето на „оптималния” брой клъстери, особено при големи извадки, е т.нар. агломеративна схема. Агломеративната таблица представя процеса на клъстеризация, като броят на етапите се определя от броя на валидните случаи минус 1, т.е. в конкретния случай ще има 219 фази (220 – 1 = 219).

1 В случая, въпреки че не е необходима, е извършена стандартизация на данните. Това решение има възпитателен характер, тъй като често данните в една сегментационна студия са с различен мащаб. Стандартизирането на данни с еднакъв мащаб не променя интерпретацията на клъстерите! 2 Представената дендограма е допълнително преработена. Можете да видите дендограма в „четим” вид във файл cluster_AHC.xls.


4


A g g l o m e r a t i o n S c h e d u l e

2 0 0 2 2 0 , 0 0 0 0 0 2 11 9 9 2 1 9 , 0 0 0 0 0 2 21 9 8 2 1 8 , 0 0 0 0 0 2 31 9 7 2 1 7 , 0 0 0 0 0 2 41 9 6 2 1 6 , 0 0 0 0 0 2 51 9 5 2 1 5 , 0 0 0 0 0 2 61 9 4 2 1 4 , 0 0 0 0 0 2 71 9 3 2 1 3 , 0 0 0 0 0 2 81 9 2 2 1 2 , 0 0 0 0 0 2 91 9 1 2 1 1 , 0 0 0 0 0 3 01 9 0 2 1 0 , 0 0 0 0 0 3 11 8 9 2 0 9 , 0 0 0 0 0 3 21 8 8 2 0 8 , 0 0 0 0 0 3 31 8 7 2 0 7 , 0 0 0 0 0 3 41 8 6 2 0 6 , 0 0 0 0 0 3 51 8 5 2 0 5 , 0 0 0 0 0 3 61 8 4 2 0 4 , 0 0 0 0 0 3 71 8 3 2 0 3 , 0 0 0 0 0 3 81 8 2 2 0 2 , 0 0 0 0 0 3 91 8 1 2 0 1 , 0 0 0 0 0 4 0

2 0 2 0 0 , 0 0 0 0 1 6 11 9 1 9 9 , 0 0 0 0 2 6 21 8 1 9 8 , 0 0 0 0 3 6 31 7 1 9 7 , 0 0 0 0 4 6 41 6 1 9 6 , 0 0 0 0 5 6 51 5 1 9 5 , 0 0 0 0 6 6 61 4 1 9 4 , 0 0 0 0 7 6 71 3 1 9 3 , 0 0 0 0 8 6 81 2 1 9 2 , 0 0 0 0 9 6 91 1 1 9 1 , 0 0 0 0 1 0 7 01 0 1 9 0 , 0 0 0 0 1 1 7 1

9 1 8 9 , 0 0 0 0 1 2 7 28 1 8 8 , 0 0 0 0 1 3 7 37 1 8 7 , 0 0 0 0 1 4 7 46 1 8 6 , 0 0 0 0 1 5 7 55 1 8 5 , 0 0 0 0 1 6 7 64 1 8 4 , 0 0 0 0 1 7 7 73 1 8 3 , 0 0 0 0 1 8 7 82 1 8 2 , 0 0 0 0 1 9 7 91 1 8 1 , 0 0 0 0 2 0 8 0

1 6 0 1 8 0 , 0 0 0 0 0 6 11 5 9 1 7 9 , 0 0 0 0 0 6 21 5 8 1 7 8 , 0 0 0 0 0 6 31 5 7 1 7 7 , 0 0 0 0 0 6 41 5 6 1 7 6 , 0 0 0 0 0 6 51 5 5 1 7 5 , 0 0 0 0 0 6 61 5 4 1 7 4 , 0 0 0 0 0 6 71 5 3 1 7 3 , 0 0 0 0 0 6 81 5 2 1 7 2 , 0 0 0 0 0 6 91 5 1 1 7 1 , 0 0 0 0 0 7 01 5 0 1 7 0 , 0 0 0 0 0 7 11 4 9 1 6 9 , 0 0 0 0 0 7 21 4 8 1 6 8 , 0 0 0 0 0 7 31 4 7 1 6 7 , 0 0 0 0 0 7 41 4 6 1 6 6 , 0 0 0 0 0 7 51 4 5 1 6 5 , 0 0 0 0 0 7 61 4 4 1 6 4 , 0 0 0 0 0 7 71 4 3 1 6 3 , 0 0 0 0 0 7 81 4 2 1 6 2 , 0 0 0 0 0 7 91 4 1 1 6 1 , 0 0 0 0 0 8 0

2 0 1 6 0 , 0 0 0 2 1 4 1 1 0 11 9 1 5 9 , 0 0 0 2 2 4 2 1 0 21 8 1 5 8 , 0 0 0 2 3 4 3 1 0 31 7 1 5 7 , 0 0 0 2 4 4 4 1 0 41 6 1 5 6 , 0 0 0 2 5 4 5 1 0 51 5 1 5 5 , 0 0 0 2 6 4 6 1 0 61 4 1 5 4 , 0 0 0 2 7 4 7 1 0 71 3 1 5 3 , 0 0 0 2 8 4 8 1 0 81 2 1 5 2 , 0 0 0 2 9 4 9 1 0 91 1 1 5 1 , 0 0 0 3 0 5 0 1 1 01 0 1 5 0 , 0 0 0 3 1 5 1 1 1 1

9 1 4 9 , 0 0 0 3 2 5 2 1 1 28 1 4 8 , 0 0 0 3 3 5 3 1 1 37 1 4 7 , 0 0 0 3 4 5 4 1 1 46 1 4 6 , 0 0 0 3 5 5 5 1 1 55 1 4 5 , 0 0 0 3 6 5 6 1 1 64 1 4 4 , 0 0 0 3 7 5 7 1 1 73 1 4 3 , 0 0 0 3 8 5 8 1 1 82 1 4 2 , 0 0 0 3 9 5 9 1 1 91 1 4 1 , 0 0 0 4 0 6 0 1 2 0

1 2 0 1 4 0 , 0 0 0 0 0 1 0 11 1 9 1 3 9 , 0 0 0 0 0 1 0 21 1 8 1 3 8 , 0 0 0 0 0 1 0 31 1 7 1 3 7 , 0 0 0 0 0 1 0 41 1 6 1 3 6 , 0 0 0 0 0 1 0 51 1 5 1 3 5 , 0 0 0 0 0 1 0 61 1 4 1 3 4 , 0 0 0 0 0 1 0 71 1 3 1 3 3 , 0 0 0 0 0 1 0 81 1 2 1 3 2 , 0 0 0 0 0 1 0 91 1 1 1 3 1 , 0 0 0 0 0 1 1 01 1 0 1 3 0 , 0 0 0 0 0 1 1 11 0 9 1 2 9 , 0 0 0 0 0 1 1 21 0 8 1 2 8 , 0 0 0 0 0 1 1 31 0 7 1 2 7 , 0 0 0 0 0 1 1 41 0 6 1 2 6 , 0 0 0 0 0 1 1 51 0 5 1 2 5 , 0 0 0 0 0 1 1 61 0 4 1 2 4 , 0 0 0 0 0 1 1 71 0 3 1 2 3 , 0 0 0 0 0 1 1 81 0 2 1 2 2 , 0 0 0 0 0 1 1 91 0 1 1 2 1 , 0 0 0 0 0 1 2 0

2 0 1 2 0 , 0 0 0 6 1 8 1 1 4 11 9 1 1 9 , 0 0 0 6 2 8 2 1 4 21 8 1 1 8 , 0 0 0 6 3 8 3 1 4 31 7 1 1 7 , 0 0 0 6 4 8 4 1 4 41 6 1 1 6 , 0 0 0 6 5 8 5 1 4 5

S t a g1234567891 01 11 21 31 41 51 61 71 81 92 02 12 22 32 42 52 62 72 82 93 03 13 23 33 43 53 63 73 83 94 04 14 24 34 44 54 64 74 84 95 05 15 25 35 45 55 65 75 85 96 06 16 26 36 46 56 66 76 86 97 07 17 27 37 47 57 67 77 87 98 08 18 28 38 48 58 68 78 88 99 09 19 29 39 49 59 69 79 89 91 0 01 0 11 0 21 0 31 0 41 0 5

C l u s t e C l u s t e C l u s t e r C o m

C o e f f i c C l u s t e C l u s t e

S t a g e C l u s A p p e a r s

N e x t S


5


От таблицата се вижда, че на първа фаза се обединяват случаи 200 и 220, а на последната 219 фаза – всички обекти се обединяват в един клъстер. Освен историята на обединяването на обектите в клъстери и клъстерите в още по-големи клъстери, а агломеративната схема се съдържат и т.нар. коефициенти на сходство, въз основа на които може да се определи „оптималния” брой клъстерите. Най-големият „компромис” се реализира при преминаване между три- и двуклъстерно решение (абсолютна разлика в коефициента на сходство = 394,21; относителна разлика = 1,63). Друг подход е да се използва т.нар. „правило на сипея” („правило на лакътя”). На следващата фигура са представени стойностите на коефициентите на сходство и съответстващия им брой клъстери. Очевидно е обаче, че „пречупването” в кривата е при твърде много клъстери и в случая графиката не е полезен инструмент за вземане на решение относно „оптималния” брой сегменти.

Като се изходи от дендограмата и агломеративната таблица, може да се направи следния извод:

„Оптималният” брой клъстери е три!

Въпреки че в случая въз основа и на дендограмата, и на агломеративната таблица се очертават 3 клъстера, препоръчително е да се тестват няколко решения. В конкретния случай ще се проверят дву- и триклъстерно решение и окончателният избор ще се направи, изхождайки от тяхната интерпретационна стойност (клъстерни профили) и големина. За да извършите анализ на ниво клъстер, е необходимо да създадете нова променлива за клъстерната принадлежност на всеки обект. За тази цел в диалогов прозорец Hierarchical Cluster Analysis трябва да кликнете върху бутон Save, където да укажете желаното(-ите) клъстърно решение.


6


За съжаление при използването на метода АНС в аутпута на SPSS не се докладват големината на клъстерите, клъстерните (груповите) и общите средни. За да се приеме едно решение, то трябва да осигурява разграничими и достатъчно големи клъстери. За да се определите големината на сформираните групи, изпълнете следния команден ред: Analyze Descriptive Statistics Frequencies…

В списъка с променливи изберете двете новосформирани променливи, изразяващи клъстерната принадлежност при дву- и триклъстерно решение и кликнете върху бутона ОК.

Ward Method

77 33,3 35,0 35,088 38,1 40,0 75,055 23,8 25,0 100,0

220 95,2 100,011 4,8

231 100,0

123Total

Valid

SystemMissingTotal

Frequency Percent Valid PercentCumulative

Percent

Ward Method

77 33,3 35,0 35,0143 61,9 65,0 100,0220 95,2 100,0

11 4,8231 100,0

12Total

Valid

SystemMissingTotal

Frequency Percent Valid PercentCumulative

Percent

Обобщавайки данните от таблиците, може да се направи следния коментар:

Изхождайки от големината на клъстерите, може да се констатира, че и двете решения дават добри резултати. Всяко от тях предлага сравнително големи групи. Липсват относително малки по големина клъстери.

За да се провери дали идентифицираните клъстери да разграничими, трябва да се провери хипотеза за равенство на груповите средни. За целта трябва да се изпълни следната команда:


7


А. Само при двуклъстерно решение Analyze Compare Means Independent-Samples T Test..

Group Statistics

77 82,14 15,420 1,757143 28,46 25,840 2,161

77 84,29 11,548 1,316

143 21,54 17,200 1,438

77 77,14 21,328 2,431143 30,00 24,023 2,009

77 31,43 16,521 1,883143 57,31 22,834 1,909

77 64,29 16,676 1,900143 43,85 28,598 2,391

77 55,00 18,443 2,102143 39,23 27,542 2,303

77 73,57 17,375 1,980143 63,85 26,489 2,215

Ward Method1212

1212121212

До колко важно е за вас бирата дае на ниска цена?До колко важно е за вас бирата дае в голяма бутилка?

До колко важно е за вас бирата дае с висок процент на алкохол?До колко важна е за васрепутацията на марката?До колко важен е за вас цветът набирата?До колко важно е за вас бирата даима приятен аромат?До колко важно е за вас бирата даима приятен вкус?

N Mean Std. DeviationStd. Error

Mean


8


Independent Samples Test

41,522 ,000 16,689 218 ,000 53,681 3,217 47,342 60,021

19,274 215,676 ,000 53,681 2,785 48,192 59,171

9,602 ,002 28,702 218 ,000 62,747 2,186 58,439 67,056

32,185 207,526 ,000 62,747 1,950 58,904 66,591

1,689 ,195 14,426 218 ,000 47,143 3,268 40,702 53,584

14,950 172,276 ,000 47,143 3,153 40,919 53,367

35,894 ,000 -8,780 218 ,000 -25,879 2,947 -31,688 -20,070

-9,651 199,686 ,000 -25,879 2,682 -31,167 -20,591

19,986 ,000 5,763 218 ,000 20,440 3,547 13,449 27,430

6,691 216,590 ,000 20,440 3,055 14,419 26,460

15,005 ,000 4,507 218 ,000 15,769 3,499 8,873 22,665

5,057 207,770 ,000 15,769 3,118 9,622 21,916

26,008 ,000 2,902 218 ,004 9,725 3,352 3,119 16,331

3,273 209,580 ,001 9,725 2,971 3,868 15,582

Equal variancesassumedEqual variancesnot assumedEqual variancesassumedEqual variancesnot assumed

Equal variancesassumedEqual variancesnot assumedEqual variancesassumedEqual variancesnot assumedEqual variancesassumedEqual variancesnot assumedEqual variancesassumedEqual variancesnot assumedEqual variancesassumedEqual variancesnot assumed

До колко важно е завас бирата да е наниска цена?

До колко важно е завас бирата да е вголяма бутилка?

До колко важно е завас бирата да е с високпроцент на алкохол?

До колко важна е завас репутацията намарката?

До колко важен е завас цветът на бирата?

До колко важно е завас бирата да имаприятен аромат?

До колко важно е завас бирата да имаприятен вкус?

F Sig.

Levene's Test forEquality of Variances

t df Sig. (2-tailed)Mean

DifferenceStd. ErrorDifference Lower Upper

95% ConfidenceInterval of the

Difference

t-test for Equality of Means

Изчисляването на груповите средни позволява профилиране и наименоване на клъстерите. При интерпретацията на клъстерите значение ще имат онези критерии (атрибути), чиито групови средни съществено се различават от общите средни. При изчисляването на общата средна се препоръчва да се използва средна аритметична претеглена (за тегло се използва големината на клъстерите):

∑

∑

=

== n

jj

n

jjij

attribute

sizeCluster

sizeClusterMeanClusterMeanTotal

i

1

1.

Така например, общата средна за атрибут „висока цена” е равна на (82,1х77 + 28,5х143)/22 = 47,2.

Клъстерни центроиди

Cluster Cost Size Alcohol Reputation Color Aroma Taste Clusters' Size

1 82,1 84,3 77,1 31,4 64,3 55,0 73,6 77 2 28,5 21,5 30,0 57,3 43,9 39,2 63,9 143

Total Mean 47,2 43,5 46,5 48,3 51,0 44,7 67,3 220 Обобщавайки данните за клъстерните центроиди и резултатите от проверката на хипотезата за равенство на груповите средни, могат да се направят следните изводи:

Клъстер 1 може да бъде наименован като „търсещи възможност за евтин запой”, тъй като потребителите от този клъстер значително над средния потребител държат бирата да е с ниска цена, високо съдържание на алкохол и в голяма бутилка.


9


Клъстер 2 има противоположни на клъстер 1 характеристики и може да бъде наименован като „държащи на репутацията”. За потребителите от този сегмент не е важно бирата да е в голяма бутилка, да е на ниска цена и с висок процент на алкохол. За тях е по-важна репутацията на марката.

Двуклъстерното решение осигурява разграничими клъстери, тъй като всеки от изучаваните атрибути се наблюдава статистически значими разлика в клъстерните центроиди (p-valuet-test < 0,05!). Въпреки това интерпретацията при това решение не е добре „изчистена” и категорична!

Б. При n-клъстерно решение (n ≥ 2) Analyze Compare Means One-Way ANOVA...


10



11


В следващата таблица са представени клъстерните центроиди и общите средни (претеглени с големината на сегмента) на ниво атрибут при триклъстерно решение.

Descriptives

77 82,14 15,420 1,757 78,64 85,64 50 10088 33,13 26,363 2,810 27,54 38,71 5 7555 21,00 23,321 3,145 14,70 27,30 0 65

220 47,25 34,264 2,310 42,70 51,80 0 10077 84,29 11,548 1,316 81,66 86,91 70 10088 28,13 17,408 1,856 24,44 31,81 10 6055 11,00 10,292 1,388 8,22 13,78 0 30

220 43,50 33,733 2,274 39,02 47,98 0 10077 77,14 21,328 2,431 72,30 81,98 50 10088 35,63 28,495 3,038 29,59 41,66 10 9555 21,00 8,682 1,171 18,65 23,35 10 35

220 46,50 32,249 2,174 42,21 50,79 10 100

77 31,43 16,521 1,883 27,68 35,18 0 5088 62,50 22,907 2,442 57,65 67,35 35 10055 49,00 20,285 2,735 43,52 54,48 30 80

220 48,25 24,204 1,632 45,03 51,47 0 100

77 64,29 16,676 1,900 60,50 68,07 40 9088 25,63 17,317 1,846 21,96 29,29 0 5055 73,00 16,147 2,177 68,63 77,37 50 95

220 51,00 26,875 1,812 47,43 54,57 0 9577 55,00 18,443 2,102 50,81 59,19 20 7588 20,63 14,098 1,503 17,64 23,61 0 4055 69,00 14,414 1,944 65,10 72,90 50 90

220 44,75 25,821 1,741 41,32 48,18 0 9077 73,57 17,375 1,980 69,63 77,51 50 10088 45,00 13,772 1,468 42,08 47,92 25 6555 94,00 5,885 ,793 92,41 95,59 85 100

220 67,25 24,111 1,626 64,05 70,45 25 100

123Total123Total123

Total

123Total

123Total123Total123Total

До колко важно е завас бирата да е наниска цена?

До колко важно е завас бирата да е вголяма бутилка?

До колко важно е завас бирата да е с високпроцент на алкохол?

До колко важна е завас репутацията намарката?

До колко важен е завас цветът на бирата?

До колко важно е завас бирата да имаприятен аромат?

До колко важно е завас бирата да имаприятен вкус?

N Mean Std. Deviation Std. Error Lower Bound Upper Bound

95% Confidence Interval forMean

Minimum Maximum

Като се обобщят графиките и данните с груповите и общите средни, могат да се направят следните изводи:

Клъстер 1 може да бъде наименован като „търсещи възможност за евтин запой”, тъй като за потребителите от този сегмент много повече от средния потребител е важно бирата да е в голяма бутилка, на ниска цена и с високо съдържание на алкохол.

Клъстер 2 може да бъде наименован като „държащи на репутацията”. Потребителите от този сегмент оценяват като важен при избора им на бира много повече от средния


12


потребител атрибут „репутация на марката”. Клъстер 3 може да бъде наименован като „държащи на

физико-естетическите качества”. Потребителите от този сегмент посочват като най-важни при избора им на бира атрибути като „аромат”, „вкус” и „цвят”.

Триклъстерното решение осигурява разграничими, достатъчни по големина и поддаващи се на лесна и еднозначна интерпретация клъстери!

Освен преценка за степента на интерпретаруемост на идентифицираните клъстери, може да се оцени и тяхната хомогенност. За целта би могъл да се използва индексът на хомогенност F, представляващ съотношение между дисперсията на променливата в даден клъстер и дисперсията й в цялата извадка. Индексът на хомогенност се извежда за всички променливи, участвали в клъстеризационната процедура. Един клъстер е съвършено хомогенен, ако липсват променливи със стойност на индекса на хомогенност F над 1. За извеждането на F се прилага следната последователност от стъпки:

• Изчисляване на дисперсията на променливите за цялата извадка (Analyze Descriptive Statistics Descriptives… В диалогов подпрозорец Descriptives: Options се активира Variance).

• Изчисляване на дисперсията на променливите по отделни клъстери (Алгоритъмът е същият, но преди това се налага филтриране на променливата с клъстерната принадлежност. Филтрирането се реализира клъстер по клъстер чрез изпълнение на команден ред Data Select Cases…В списъка с възможности за селектиране се избира If condition is satisfied).


13


В следващите таблица са представени дисперсиите по отделни променливи, съответно общо за извадката и клъстер 1 и за клъстер 2 и клъстер 3.


14


На базата на информацията за дисперсиите в следващата таблица са изчислени индексите за хомогенност за всяка от променливите и за всеки от клъстерите.

F за клъстер 1 F за клъстер 2 F за клъстер 3 .204 .596 .466

.113 .256 .090

.406 .725 .067

.489 .940 .737

.380 .410 .356

.510 .298 .312

.514 .323 .059

Получените стойности свидетелстват за наличието на съвършена хомогенност и при трите клъстера. Освен аналитично, профилирането на клъстерите би могло да се представи и графично. За целта трябва да се изпълни: Graphs Legacy Dialogs Line… В следващите няколко фигури са представени необходимите настройки по отделни диалогови прозорци и подпрозорци.


15


Следващата графика илюстрира клъстерните центроиди за всяка от променливите, представена като самостоятелна линия.


16


Следващата манипулация на графиката е свързана с трансформирането на клъстерната променлива в групова, т.е. конвертирането й от променлива по абсцисата в променлива, чиито значения са визуализирани като самостоятелни линии.


17


Окончателното графично профилиране, което потвърждава направените по-рано констатации за разграничимост в клъстерите, може да бъде проследено от следващата фигура.


18


2. Метод на К-средните (метод на итеративната клъстеризация) Методът на К-средните (K-Means Clustering) е един от най-популярните представители на класа нейерархичните методи за клъстеризация. Характерното за него, е че не се поставя изискването два обекта да останат свързани веднъж след като са обособени в клъстер. При КМС желаният брой на клъстерите се определя от изследователя предварително и тъй като обикновено клъстерите са по-малко, процедурата се реализира с по-ограничени компютърни ресурси (ако се зададат седем клъстера, програмата ще проследи единствено седемте клъстера). Това прави КМС подходяща техника при обработката на големи извадки (над 200 случая, дори стотици, хиляди наблюдения). КМС използва евклидова дистанция. В процедурата е заложено на първи етап клъстерните центрове да се определят на случаен принцип, а на всеки следващ – групирането на наблюденията се извършва на база минималната дистанция до клъстерния центроид. Алгоритъмът има за цел да минимизира вътрешно-клъстерната дисперсия и да максимизира разграничимостта между клъстерите. Клъстерните центроиди се променят на всяка от итерациите. Процесът продължава докато клъстерните центрове престанат да бележат промени (залага се прагова стойност, критерий на конвергенция) или се достигне пределният брой итерации (определя се от изследователя). За да се извърши КМС, е необходимо да се изпълни следната команда: Analyze Classify K-Means Cluster…

В диалогов прозорец K-Means Cluster Analysis следва да укажете променливите (7-те продуктови атрибута), въз основа на които ще се извършва обособяването на респондентите в еднородни групи. КМС изисква да се въведе и желаният брой на клъстерити (в случая 3).


19


За да определите критерия, въз основа на който ще се преустановява процесът на клъстеризация, следва да кликнете върху бутон Iterate… Както вече беше споменато, SPSS предлага две възможности за преустановяване на процеса на клъстеризация – след определен брой итерации или прагови процент на минимална дистанция между първоначалните клъстерни центрове (приема стойности от 0 до 1, като стойност 0,05 означава максимум 5 %). При избора на опция Use running means клъстерните центрове ще се преизчисляват непосредствено след класифицирането на всеки отделен случай, а не след класифицирането всички случаи (както е, когато опцията не е активирана).

Подобно на АНС, КМС позволява създаването на нова променлива, характеризираща груповата принадлежност. За тази цел кликнете върху бутон Save…


20


В меню Options… можете да укажете в аутпута да се съдържа таблица с изходните стойности на клъстерните центроиди за всеки от изследваните атрибути. Препоръчва се и активиране на опция ANOVA таблица, в която се съдържа информация за F-тестовете за всяка променлива. В случая тези тестове не са истински статистически тестове на хипотези за равенството на груповите средни, а по-скоро идентифицират променливите с най-голямо значение при формирането на клъстерите, т.е. променливите, които в най-голяма степен спомагат за дискриминирането между клъстерите (това е особено полезно, когато при анализа се използват голям брой променливи и целта е вниманието да се фокусира върху най-важните от тях). Нестатистически значимите променливи биха могли да бъдат изключени от анализа, тъй като не допринасят за диференцирането на сегментите.

SPSS генерира аутпут със следното съдържание. В следващата таблица са представени окончателните стойности на клъстерните центроиди, въз основа на които ще се реализира профилирането и етикирането на клъстерите.


21


Final Cluster Centers

21,00 82,14 33,13

11,00 84,29 28,13

21,00 77,14 35,63

49,00 31,43 62,50

73,00 64,29 25,63

69,00 55,00 20,63

94,00 73,57 45,00

До колко важно е завас бирата да е наниска цена?До колко важно е завас бирата да е вголяма бутилка?До колко важно е завас бирата да е с високпроцент на алкохол?До колко важна е завас репутацията намарката?До колко важен е завас цветът на бирата?До колко важно е завас бирата да имаприятен аромат?До колко важно е завас бирата да имаприятен вкус?

1 2 3Cluster

От ANOVA таблицата се вижда, че всички променливи са статистически значими и допринасят за дискриминирането на трите клъстера. Освен това, атрибутът с най-голям принос за разграничимостта на групите е променливата големина на бутилката, следвана от приятен вкус и аромат. С най-малка важност за диференцирането на сегментите е променливата репутация на марката.

ANOVA

74602,098 2 497,268 217 150,024 ,000

103491,830 2 194,568 217 531,905 ,000

59236,473 2 503,604 217 117,625 ,000

19844,196 2 408,354 217 48,596 ,000

48436,830 2 282,518 217 171,447 ,000

45825,313 2 250,510 217 182,928 ,000

42999,196 2 190,382 217 225,858 ,000

До колко важно е завас бирата да е наниска цена?До колко важно е завас бирата да е вголяма бутилка?До колко важно е завас бирата да е с високпроцент на алкохол?До колко важна е завас репутацията намарката?До колко важен е завас цветът на бирата?До колко важно е завас бирата да имаприятен аромат?До колко важно е завас бирата да имаприятен вкус?

Mean Square dfCluster

Mean Square dfError

F Sig.

The F tests should be used only for descriptive purposes because the clusters have been chosen to maximizethe differences among cases in different clusters. The observed significance levels are not corrected for thisand thus cannot be interpreted as tes ts of the hypothes is that the cluster means are equal.

При КМС се докладва и големината на отделните клъстери. Подобно на АНС, и при нейерархичната клъстеризация се осигуряват три големи и сравнително близки по големина сегменти.


22


Number of Cases in each Cluster

55,00077,00088,000

220,00011,000

123

Cluster

ValidMissing

За по-прецизното профилиране на клъстерите отново могат да се използват клъстерните центроиди и тяхното отклонение от общите средни, при изчисляването на които е отчетен и размерът на отделните сегменти.

Клъстерни центроиди

Cluster Cost Size Alcohol Reputation Color Aroma Taste Clusters' Size

1 21,0 11,0 21,0 49,0 73,0 69,0 94,0 55 2 82,1 84,3 77,1 31,4 64,3 55,0 73,6 77 3 33,1 28,1 35,6 62,5 25,6 20,6 45,0 88

Total Mean 48,5 44,6 47,1 45,3 57,7 51,3 73,6 220 Като се обобщят данните, могат да се направят следните изводи:

Клъстер 1 може да бъде наименован като „държащи на физико-естетическите качества”. Потребителите от този сегмент посочват като най-важни при избора им на бира атрибути като „аромат”, „вкус” и „цвят”. Ниската цена, голямата бутилка и високият процент на алкохол не са важни при покупката на бира

Клъстер 2 може да бъде наименован като „търсещи възможност за евтин запой”, тъй като за потребителите от този сегмент много повече от средния потребител е важно бирата да е в голяма бутилка, на ниска цена и с високо съдържание на алкохол.

Клъстер 3 може да бъде наименован като „държащи на репутацията”. Потребителите от този клъстер оценяват като важен при избора им на бира много повече от средния потребител атрибут „репутация на марката”.


Графично представени, профилите на отделните клъстери имат следния вид:


23


3. Метод на двустъпковата клъстеризация Освен АНС и КМС, SPSS предлага и трети метод за клъстеризация – методът на двустъпковата клъстеризация (Two-Step Clustering). При TSC отделните случаи се групират в предварителни клъстери, които се третират като самостоятелни наблюдения. След това в тези предварителни клъстери се прилага методът на АНС. TSC се прилага:

(1) когато една или повече от променливите са измерени по категорийна скала (не са по интервална или дихотомна скала, за да се приложат разгледаните до сега клъстеризационни процедури);

(2) при наличието на огромни бази данни. За да извършите двустъпкова клъстеризация, следва да изпълните следния команден ред: Analyze Classify TwoStep Cluster…


24


Зарежда се диалогов прозорец TwoStep Cluster Analysis, в който трябва да определите равнище на сканиране на променливите, въз основа на които ще се реализира групирането на респондентите (в конкретния пример всички променливи са измерени по интервална скала). Необходимо е да изберете и метрика за дистанция. В конкретния случай няма значение коя от двете метрики ще изберете, тъй като данните са метрични (при категорийни данни трябва да се избере Log-likelihood).


25


При TSC може автоматично да се изведе „най-добрият” брой клъстери (като се използва някой от двата информационни критерия AIC или BIC), но той може и да се определени предварително (в случая можете да зададете предварително фиксиран брой на клъстерите 3, тъй като се сравняват резултатите от три клъстеризационни процедури – АНС, КМС и TSC). За да правите задълбочен анализ на ниво сегмент, е необходимо да кликнете върху бутон Options…

След изчерпване на възможните опции в основен прозорец TwoStep Cluster Analysis кликнете върху бутон ОК. SPSS генерира аутпут, в който се докладва обобщаваща информация за броя на клъстерите и броя на променливите, на базата на които е проведена клъстеризацията. Нов момент в SPSS 18 е извеждането на т.нар. профилен коефициент (silhouette coefficient), който е своеобразен индикатор за качеството на клъстерите, за разкритата чрез използвания алгоритъм клъстерна структура и степента на кохезия. Въпреки че в SPSS е възприета друга категоризация, най-популярна е интерпретацията на Русо. Според Русо стойност на SC≤0,25 е индикатор за липсата на съществена структура; при SC от 0,26 до 0,50 структурата е слаба или изкуствена (слаб или изкуствен клъстер), като за анализираните данни трябва да се приложат други методи за клъстеризация; при SC от 0,51 до 0,70 разкритата структура е приемлива, умерена; а при SC от 0,71 до 1,00 е налице силна структура. В конкретния случай, въпреки че SPSS квалифицира структурата като добра, съгласно Русо тя е по-скоро умерена, средна.


26


Активирането на фигурата с профилния коефициент дава възможност да се зареди т.нар. Model Viewer, който позволява по-задълбочен анализ на ниво клъстер – големина на клъстерите, важност на предикторите по отделни клъстери.


27


Тъй като, за разлика от по-ниските версии, в SPSS 18 не се докладват клъстерните центроиди и общите средни, в случая е необходимо да се приложи описаната по-горе процедура по проверка на равенството на груповите средни при триклъстерно решение, генерирано с метода на двустъпковата клъстеризация.

Descriptives

N Mean Std.

Deviation Std. Error

95% Confidence Interval for Mean

Minimum Maximum Lower Bound

Upper Bound

До колко важно е за вас бирата да е на ниска цена?

1 77 82.14 15.420 1.757 78.64 85.64 50 100

2 88 33.13 26.363 2.810 27.54 38.71 5 75

3 55 21.00 23.321 3.145 14.70 27.30 0 65

Total 220 47.25 34.264 2.310 42.70 51.80 0 100

До колко важно е за вас бирата да е в голяма бутилка?

1 77 84.29 11.548 1.316 81.66 86.91 70 100

2 88 28.13 17.408 1.856 24.44 31.81 10 60

3 55 11.00 10.292 1.388 8.22 13.78 0 30

Total 220 43.50 33.733 2.274 39.02 47.98 0 100

До колко важно е за вас бирата да е с висок процент на алкохол?

1 77 77.14 21.328 2.431 72.30 81.98 50 100

2 88 35.63 28.495 3.038 29.59 41.66 10 95

3 55 21.00 8.682 1.171 18.65 23.35 10 35

Total 220 46.50 32.249 2.174 42.21 50.79 10 100

До колко важна е за вас репутацията на марката?

1 77 31.43 16.521 1.883 27.68 35.18 0 50

2 88 62.50 22.907 2.442 57.65 67.35 35 100


28


3 55 49.00 20.285 2.735 43.52 54.48 30 80

Total 220 48.25 24.204 1.632 45.03 51.47 0 100

До колко важен е за вас цветът на бирата?

1 77 64.29 16.676 1.900 60.50 68.07 40 90

2 88 25.63 17.317 1.846 21.96 29.29 0 50

3 55 73.00 16.147 2.177 68.63 77.37 50 95

Total 220 51.00 26.875 1.812 47.43 54.57 0 95

До колко важно е за вас бирата да има приятен аромат?

1 77 55.00 18.443 2.102 50.81 59.19 20 75

2 88 20.63 14.098 1.503 17.64 23.61 0 40

3 55 69.00 14.414 1.944 65.10 72.90 50 90

Total 220 44.75 25.821 1.741 41.32 48.18 0 90

До колко важно е за вас бирата да има приятен вкус?

1 77 73.57 17.375 1.980 69.63 77.51 50 100

2 88 45.00 13.772 1.468 42.08 47.92 25 65

3 55 94.00 5.885 .793 92.41 95.59 85 100

Total 220 67.25 24.111 1.626 64.05 70.45 25 100

Като се обобщят данните, могат да се направят следните изводи:

Клъстер 1 може да бъде наименован като „търсещи възможност за евтин запой”, тъй като за потребителите от този сегмент много повече от средния потребител е важно бирата да е в голяма бутилка, на ниска цена и с високо съдържание на алкохол. Репутацията не е важна при покупката на бира.

Клъстер 2 може да бъде наименован като „държащи на репутацията”. Потребителите от този клъстер оценяват като важен при избора им на бира много повече от средния потребител атрибут „репутация на марката”.

Клъстер 3 може да бъде наименован като „държащи на физико-естетическите качества”. Потребителите от този сегмент посочват като най-важни при избора им на бира атрибути като „аромат”, „вкус” и „цвят”. Ниската цена, голямата бутилка и високият процент на алкохол не са важни при покупката на бира.


Графично профилите на трите клъстера имат следния вид:


29


4. Оценка на резултатите Тук резонни са някои от следните въпроси:

• Смислени ли са формираните клъстери? • Достатъчни ли са по големина клъстерите? • Осигурява ли използването на различни клъстеризационни методи

обособяването на едни и същи клъстери? Отговорът на всеки от посочените въпроси гарантира по-голяма увереност в прецизността на резултатите. Като се обобщят резултатите от трите клъстеризационни процедури АНС, КМС и TSC, едновременното прилагане на които имаше характер на валидиране, може да се заключи:

Трите клъстеризационни процедури осигуряват сходни резултати по отношение размера и профила на клъстерите.

Триклъстерното решение осигурява разграничими, достатъчни по големина и поддаващи се на лесна и еднозначна интерпретация клъстери.

На пазара на бира могат да се разграничат три ясно обособени клъстера, като най-голям е клъстер „държащи на репутацията”, следван от клъстер „търсещи възможност за евтин запой” и клъстер „държащи на физико-естетическите качества”.


30


Алтернативен начин за реализиране на процедурата за двустъпкова клъстеризация е чрез изпълнение на следния команден ред:

Direct Marketing Choose Techniques След зареждане на диалогов прозорец Direct Marketing следва да укажете техниката Segment my contacts into clusters, чрез която се реализира пазарно сегментиране.

След избирането на бутон Continue се зарежда диалогов прозорец Cluster Аnalysis, чиито настройки изцяло дублират тези при двустъпковата клъстеризация. След фиксирането на клъстъризационните променливи следва да укажете съдържанието на аутпут файла, броя на клъстерите (оптимално идентифицирани от алгоритъма или априори зададен от изследователя брой), както и дали да се съхрани нова променлива, изразяваща клъстерната принадлежност на обектите. Тези настройки се реализират от таб Settings.


31


Получените резултати са идентични с тези, генерирани чрез метода на двустъпковата клъстернизация, доколкото това е и използваният алгоритъм.


32


Вашата задача е:

• Да повторите анализа като вместо оригиналните променливи използвате факторните оценки, получени чрез факторен анализ. За да аргументирате избора на „най-добър” брой клъстери, използвайте както различни метрики и подходи за определяне на дистанцията между клъстерите (при АНС), така и както различни методи за клъстеризация (АНС, КМС и TSC).


33

Date post:	27-Dec-2015
Category:	Documents
Upload:	marusyasmokova
View:	44 times
Download:	0 times

CA Tutorial MR2 SPSS

Documents