Analisis Cluster Analisis Cluster adalah teknik untuk mengelompokkan individu atau obyek menjadi beberapa kelompok/cluster tertentu, dengan memperhatikan kriteria tertentu.
Setiap obyek yang berada dalam cluster yang sama memiliki kemiripan satu dengan yang lain dibandingkan dengan cluster lain.
Tujuan analisis cluster Tujuan analisis cluster mengklasifikasikan entitas sampel (individu atau obyek) menjadi sejumlah kelompok mutually exclusive yang lebih kecil berdasarkan pada kemiripan antar entitas.
ANALISIS CLUSTER
Cluster yang baik harus memiliki: homogenitas internal (dalam satu cluster) yang tinggi (within cluster),
heterogenitas eksternal (antar cluster) yang tinggi (between cluster)
Manfaat Analisis Cluster Mengklasifikasikan data survei yang sangat besar ke dalam kelompok klasifikasi
Mengurangi informasi besar dari suatu populasi menjadi informasi yang spesifik
Membangun hipotesis berdasarkan data aslinya atau mengkonfirmasi informasi dari hipotesis yang telah ada
Contoh aplikasi : memudahkan segmentasi pasar dengan mengidentifikasi subyek/obyek yang memiliki kesamaan kebutuhan, gaya hidup atau respon terhadap strategi pemasaran
Persyaratan dan asumsi Syarat: data metric (skala interval atau rasio)
Asumsi: Sampel yang diambil dapat mewakili populasi yang ada. Pada umumnya, diperlukan sampel dalam jumlah besar
Tidak ada Multikolinearitas (hubungan linier antar variabel) Jika terjadi: bisa dibuat kelompok variabel (analisis faktor) atau dengan menghilangkan salah satu variabel yang saling berkorelasi linier.
Tahap dalam analisis cluster1. Menetapkan ukuran jarak antar-
data2. Proses standarisasi data jika
diperlukan3. Proses clustering4. Penamaan clsuter yang
terbentuk5. Validasi dan profiling cluster
1. Menetapkan ukuran jarak antar-data mengukur seberapa jauh kesamaan (similarity) antar obyek, Metode :1. Korelasi antara sepasang objek pada
beberapa variabel (ket.: untuk data metrik)
2. Mengukur jarak (distance) antara 2 obyek :Euclidean Distance (ket.: untuk data metrik)
3. Mengukur asosiasi antar obyek (keterangan: untuk data non- metrik)
2. Proses Standarisasi data (Z score), jika diperlukan
Standarisasi diperlukan jika satuan data antar variabel memiliki perbedaan yang besar. Perbedaan yang mencolok akan membuat perhitungan jarak tidak valid
Misal: pendapatan (jutaan) sementara usia (puluhan).
3. Proses clustering1. Hierarchical Methods
pengelompokan dua/lebih obyek yg memiliki kesamaan/kemiripan dilanjutkan dengan obyek lain – secara alamiah
Bentuk pohon hierarchi (dari yang mirip sampai yang tidak mirip)Dendogram
2. Non - Hierarchical Methods Jumlah cluster ditentukan oleh peneliti mengelompokkan sejumlah obyek ke dalam
sejumlah kelompok yang sudah ditetapkan. Karakteristik obyek dikelompokkan berdasarkan variabel tertentu.
Contohnya dengan K – mean cluster
4. Penamaan cluster: untuk memberikan gambaran tentang isi cluster
5. Validasi dan Profiling clusterValidasi : apakah hasil validProfiling : menjelaskan karakteristik setiap cluster berdasarkan profil tertentu – untuk analisis lanjutan Diskriminan
K- Mean Cluster Manajer Pemasaran ingin mengelompokkan konsumen
Kacang berdasarkan profil konsumen :1. Usia (tahun)2. Jumlah anak dari konsumen (orang)3. Income konsumen (Rp/bulan)4. Kegiatan konsumen membaca koran setiap minggu
(jam)5. Kegiatan menonton TV (jam)6. Jumlah motor yang dimiliki konsumen (buah)7. Jumlah mobil yang dimiliki konsumen (buah)8. Jumlah kartu kredit/ATM yang dimilki konsumen
(buah)9. Berapa kali belanja tiap minggu10. Konsumsi barang (Rp/bulan)11. Jumlah jam kerja dalam seminggu (jam)12. Jumlah kegiatan belanja dalam seminggu (jam)
Tahap dalam SPSS untuk proses clustering non-hirarki1. Cek perlu standarisasi
data/tidakjika perlu maka lakukan langkah standarisari dengan z-score
2. Setelah standarlakukan langkah analisis cluster
3. Interpretasi output 4. Profiling cluster
Standarisasi:-Masukkan semua variabel metrik - non kategori ke variabel-cek pilihan “Save standardized values as variables”
Variabel Daerah & Status tidak
dimasukkan karena data kategorikal
Output statistik deskriptif
Descriptive Statistics
60 20 42 29,88 5,66060 0 4 ,70 1,109
60 225000 2000000 630000,00 444094,966
60 2 11 5,73 2,321
60 10 24 16,77 3,586
60 0 2 ,93 ,634
60 0 2 ,57 ,647
60 0 5 2,00 1,193
60 1 9 4,15 2,563
60 70000 600000 186833,33 132609,778
60 10 75 29,87 16,766
60 3 25 9,94 5,015
60
UsiaJumlah AnakPenghasilan rata-rataper bulanJumlah Jam membacaKoran setiap mingguJumlah Jam menontonTV setiap mingguJumlah Motor yangdipunyaiJumlah Mobil yangdipunyaiJumlah Kartu Kredit/ATMyang dipunyaiTingkat PembelianBarang setiap mingguTingkat PengeluaranBulananJumlah Jam Kerja setiapmingguJumlah Jam Berbelanjasetiap mingguValid N (listwise)
N Minimum Maximum Mean Std. Deviation
Masukkan Variabel yang sudah distandarisasi Masukkan Jumlah Cluster : 2 – 5 (tergantung peneliti) Jika ingin memberikan informasi non-metric pada tiap case (responden) masukkan variabel non-metric di ‘Label Case’
Pada ‘Method’ secara default ‘Iterate and classify’ SPSS melakukan perubahan dari cluster awal (initial) dengan proses iterasi (proses pengulangan dengan ketepatan yang lebih tinggi) sampai diperoleh hasil cluster yang terbaik.
Untuk memudahkan profiling cluster: Klik ‘Save’ Pilih ‘Cluster membership’ dan ‘Distance from cluster center’
Agar dapat melihat perbedaan variabel pada cluster yang terbentuk: Klik ‘Options’ Pilih ‘ANOVA table’
HASIL CLUSTERING: Oleh karena dalam proses Clustering dipilih ‘Cluster Membership’Muncul 2 variabel baru: qcl_1 & qcl_2 qcl_1 : berisi nomor cluster untuk setiap
kasus qcl_2 : berisi jarak antara kasus (responden) tertentu dengan pusat cluster
Nanti dipakai untuk profiling cluster
Output 1Data sebelum dilakukan iterasi
menunjukkan hasil clustering awal
Pada ‘Method’ dipilih ‘Iterate and classify’ ada proses iterasi sehingga output ini tidak dianalisis
Initial Cluster Centers
-,50941 2,14071 -1,74613-,63104 2,97489 -,63104
3,08493 -,85567 -,63050
,97675 -,31601 -,74692
-1,32922 ,90164 -1,60807
,10511 -1,47158 ,10511
2,21377 ,66928 -,87521
2,51425 ,00000 -1,67616
1,50199 ,33161 -1,22890
3,11566 -,84333 -,65480
2,69195 -,11134 -1,18493
3,00381 -,30606 -,78460
Zscore: UsiaZscore: Jumlah AnakZscore: Penghasilanrata-rata per bulanZscore: Jumlah Jammembaca Koran setiapmingguZscore: Jumlah Jammenonton TV setiapmingguZscore: Jumlah Motoryang dipunyaiZscore: Jumlah Mobilyang dipunyaiZscore: Jumlah KartuKredit/ATM yang dipunyaiZscore: TingkatPembelian Barang setiapmingguZscore: TingkatPengeluaran BulananZscore: Jumlah JamKerja setiap mingguZscore: Jumlah JamBerbelanja setiap minggu
1 2 3Cluster
Output 2Proses Iterasi
Menunjukkan berapa kali proses iterasi (pengulangan) dilakukan sampai diperoleh hasil terbaik (memiliki ketepatan tertinggi dalam clustering/ pengelompokan)
Iteration Historya
3,884 3,314 2,503,599 ,834 ,314,000 ,291 ,148,000 ,383 ,205,000 ,316 ,207,000 ,152 ,115,000 ,195 ,172,000 ,000 ,000
Iteration12345678
1 2 3Change in Cluster Centers
Convergence achieved due to no or small change incluster centers. The maximum absolute coordinatechange for any center is ,000. The current iteration is 8.The minimum distance between initial centers is 6,795.
a.
Output 3Final Cluster
Final Cluster Centers
,57272 -,02356 -,36218,04507 -,09015 ,04507
1,36091 -,23081 -,71494
1,08448 ,07182 -,78283
-,03950 ,32998 -,24865
,99200 -,13139 -,55184
,95887 ,05148 -,68215
1,25712 ,08381 -,90792
1,16063 ,13654 -,88754
1,33411 -,22874 -,69879
1,24930 ,03479 -,86186
1,21304 -,07377 -,74721
Zscore: UsiaZscore: Jumlah AnakZscore: Penghasilanrata-rata per bulanZscore: Jumlah Jammembaca Koran setiapmingguZscore: Jumlah Jammenonton TV setiapmingguZscore: Jumlah Motoryang dipunyaiZscore: Jumlah Mobilyang dipunyaiZscore: Jumlah KartuKredit/ATM yang dipunyaiZscore: TingkatPembelian Barang setiapmingguZscore: TingkatPengeluaran BulananZscore: Jumlah JamKerja setiap mingguZscore: Jumlah JamBerbelanja setiap minggu
1 2 3Cluster
(-) data dibawah rata-rata total
(+) data diatas rata-rata total
Output 4: Tabel AnovaPerbedaan Variabel pada Cluster
ANOVA
4,204 2 ,888 57 4,736 ,013,122 2 1,031 57 ,118 ,889
21,483 2 ,281 57 76,371 ,000
16,814 2 ,445 57 37,775 ,000
1,843 2 ,970 57 1,899 ,159
11,700 2 ,625 57 18,732 ,000
12,966 2 ,580 57 22,349 ,000
22,605 2 ,242 57 93,435 ,000
20,416 2 ,319 57 64,049 ,000
20,622 2 ,312 57 66,199 ,000
21,412 2 ,284 57 75,447 ,000
18,526 2 ,385 57 48,114 ,000
Zscore: UsiaZscore: Jumlah AnakZscore: Penghasilanrata-rata per bulanZscore: Jumlah Jammembaca Koran setiapmingguZscore: Jumlah Jammenonton TV setiapmingguZscore: Jumlah Motoryang dipunyaiZscore: Jumlah Mobilyang dipunyaiZscore: Jumlah KartuKredit/ATM yang dipunyaiZscore: TingkatPembelian Barang setiapmingguZscore: TingkatPengeluaran BulananZscore: Jumlah JamKerja setiap mingguZscore: Jumlah JamBerbelanja setiap minggu
Mean Square dfCluster
Mean Square dfError
F Sig.
The F tests should be used only for descriptive purposes because the clusters have been chosen to maximizethe differences among cases in different clusters. The observed significance levels are not corrected for this andthus cannot be interpreted as tests of the hypothesis that the cluster means are equal.
Between cluster mean
Within cluster mean Semakin
besar angka F (angka sig.
semakin <α) semakin besar
perbedaan variabel tersebut
pada ketiga cluster yang
terbentuk
Output 5Jumlah anggota di setiap cluster
Number of Cases in each Cluster16,00020,00024,00060,000
,000
123
Cluster
ValidMissing
Interpretasi1. Output final cluster menunjukkan
posisi anggota cluster dibandingkan rata-rata
2. Output final cluster + Statistik Deskriptifmenghitung nilai rata-rata tiap variabel, untuk masing-masing cluster
3. Jumlah Anggota tiap Cluster 4. Tabel ANOVAmenunjukkan variabel mana
yang memiliki perbedaan signifikan
Descriptive Statistics
60 20 42 29,88 5,66060 0 4 ,70 1,109
60 225000 2000000 630000,00 444094,966
60 2 11 5,73 2,321
60 10 24 16,77 3,586
60 0 2 ,93 ,634
60 0 2 ,57 ,647
60 0 5 2,00 1,193
60 1 9 4,15 2,563
60 70000 600000 186833,33 132609,778
60 10 75 29,87 16,766
60 3 25 9,94 5,015
60
UsiaJumlah AnakPenghasilan rata-rataper bulanJumlah Jam membacaKoran setiap mingguJumlah Jam menontonTV setiap mingguJumlah Motor yangdipunyaiJumlah Mobil yangdipunyaiJumlah Kartu Kredit/ATMyang dipunyaiTingkat PembelianBarang setiap mingguTingkat PengeluaranBulananJumlah Jam Kerja setiapmingguJumlah Jam Berbelanjasetiap mingguValid N (listwise)
N Minimum Maximum Mean Std. Deviation
Menyatakan rata-rata variabel X = rata-rata sampel (rata-rata variabel pada cluster tertentu)
μ = rata-rata populasi σ = standar deviasi Z = nilai standarisasi dari SPSS
Z. X
Cari Rata-rata Sampel tiap Cluster Z anak Z income Z koran Z TV Z motor Z mobil Z kredit Z beli Z konsumsi Z kerja Z shopping
Tabel ANOVAmenunjukkan variabel mana yang memiliki perbedaan signifikan
Nilai sig > 0,05 : Ho tidak ditolakH0 : Tidak ada perbedaan signifikan pada ke tiga clusterH1 : Ada perbedaan signifikan pada tiga cluster
OutputJumlah anggota di setiap cluster
Number of Cases in each Cluster16,00020,00024,00060,000
,000
123
Cluster
ValidMissing
OutputCross tab daerah tempat tinggal vs Cluster
Daerah Tempat Tinggal * Cluster Number of Case Crosstabulation
16 1 0 17
94,1% 5,9% ,0% 100,0%
0 18 1 19
,0% 94,7% 5,3% 100,0%
0 1 23 24
,0% 4,2% 95,8% 100,0%
16 20 24 60
26,7% 33,3% 40,0% 100,0%
Count% within DaerahTempat TinggalCount% within DaerahTempat TinggalCount% within DaerahTempat TinggalCount% within DaerahTempat Tinggal
Kota Besar
Kota Menengah
Kota Kecil
DaerahTempatTinggal
Total
1 2 3Cluster Number of Case
Total
1 1.5 2 2.5 3Cluster Num ber of Case
1.00000
2.00000
3.00000
4.00000Distan
ce of C
ase fro
m its Clas
sific
ation Clus
ter C
enter
Daerah Tem pat Tinggal
Kota BesarKota M enengahKota Kecil
Kota Besar Kota M enengah Kota KecilDaerah Tem pat Tinggal
0
5
10
15
20
25
Coun
tCluster Num ber of
Case123
Bar Chart
Maka Responden yang tinggal di kota besar memiliki karakteristik : …..
Responden yang tinggal di kota menengah memiliki karakteristik : …..
Dan responden yang tinggal di kota kecil memiliki karakteristik : …..