+ All Categories
Home > Documents > ANALISIS CLUSTER rev2011

ANALISIS CLUSTER rev2011

Date post: 27-Feb-2023
Category:
Upload: unair
View: 0 times
Download: 0 times
Share this document with a friend
47
ANALISIS cluster
Transcript

ANALISIS cluster

Analisis Cluster Analisis Cluster adalah teknik untuk mengelompokkan individu atau obyek menjadi beberapa kelompok/cluster tertentu, dengan memperhatikan kriteria tertentu.

Setiap obyek yang berada dalam cluster yang sama memiliki kemiripan satu dengan yang lain dibandingkan dengan cluster lain.

Tujuan analisis cluster Tujuan analisis cluster mengklasifikasikan entitas sampel (individu atau obyek) menjadi sejumlah kelompok mutually exclusive yang lebih kecil berdasarkan pada kemiripan antar entitas.

ANALISIS CLUSTER

Cluster yang baik harus memiliki: homogenitas internal (dalam satu cluster) yang tinggi (within cluster),

heterogenitas eksternal (antar cluster) yang tinggi (between cluster)

Manfaat Analisis Cluster Mengklasifikasikan data survei yang sangat besar ke dalam kelompok klasifikasi

Mengurangi informasi besar dari suatu populasi menjadi informasi yang spesifik

Membangun hipotesis berdasarkan data aslinya atau mengkonfirmasi informasi dari hipotesis yang telah ada

Contoh aplikasi : memudahkan segmentasi pasar dengan mengidentifikasi subyek/obyek yang memiliki kesamaan kebutuhan, gaya hidup atau respon terhadap strategi pemasaran

Persyaratan dan asumsi Syarat: data metric (skala interval atau rasio)

Asumsi: Sampel yang diambil dapat mewakili populasi yang ada. Pada umumnya, diperlukan sampel dalam jumlah besar

Tidak ada Multikolinearitas (hubungan linier antar variabel) Jika terjadi: bisa dibuat kelompok variabel (analisis faktor) atau dengan menghilangkan salah satu variabel yang saling berkorelasi linier.

Tahap dalam analisis cluster1. Menetapkan ukuran jarak antar-

data2. Proses standarisasi data jika

diperlukan3. Proses clustering4. Penamaan clsuter yang

terbentuk5. Validasi dan profiling cluster

1. Menetapkan ukuran jarak antar-data mengukur seberapa jauh kesamaan (similarity) antar obyek, Metode :1. Korelasi antara sepasang objek pada

beberapa variabel (ket.: untuk data metrik)

2. Mengukur jarak (distance) antara 2 obyek :Euclidean Distance (ket.: untuk data metrik)

3. Mengukur asosiasi antar obyek (keterangan: untuk data non- metrik)

2. Proses Standarisasi data (Z score), jika diperlukan

Standarisasi diperlukan jika satuan data antar variabel memiliki perbedaan yang besar. Perbedaan yang mencolok akan membuat perhitungan jarak tidak valid

Misal: pendapatan (jutaan) sementara usia (puluhan).

3. Proses clustering1. Hierarchical Methods

pengelompokan dua/lebih obyek yg memiliki kesamaan/kemiripan dilanjutkan dengan obyek lain – secara alamiah

Bentuk pohon hierarchi (dari yang mirip sampai yang tidak mirip)Dendogram

2. Non - Hierarchical Methods Jumlah cluster ditentukan oleh peneliti mengelompokkan sejumlah obyek ke dalam

sejumlah kelompok yang sudah ditetapkan. Karakteristik obyek dikelompokkan berdasarkan variabel tertentu.

Contohnya dengan K – mean cluster

4. Penamaan cluster: untuk memberikan gambaran tentang isi cluster

5. Validasi dan Profiling clusterValidasi : apakah hasil validProfiling : menjelaskan karakteristik setiap cluster berdasarkan profil tertentu – untuk analisis lanjutan Diskriminan

K- Mean Cluster Manajer Pemasaran ingin mengelompokkan konsumen

Kacang berdasarkan profil konsumen :1. Usia (tahun)2. Jumlah anak dari konsumen (orang)3. Income konsumen (Rp/bulan)4. Kegiatan konsumen membaca koran setiap minggu

(jam)5. Kegiatan menonton TV (jam)6. Jumlah motor yang dimiliki konsumen (buah)7. Jumlah mobil yang dimiliki konsumen (buah)8. Jumlah kartu kredit/ATM yang dimilki konsumen

(buah)9. Berapa kali belanja tiap minggu10. Konsumsi barang (Rp/bulan)11. Jumlah jam kerja dalam seminggu (jam)12. Jumlah kegiatan belanja dalam seminggu (jam)

Tahap dalam SPSS untuk proses clustering non-hirarki1. Cek perlu standarisasi

data/tidakjika perlu maka lakukan langkah standarisari dengan z-score

2. Setelah standarlakukan langkah analisis cluster

3. Interpretasi output 4. Profiling cluster

1. Perlu /tidak Melakukan Standarisasi Data

Standarisasi:AnalyzeDescriptive StatisticsDescriptives

Standarisasi:-Masukkan semua variabel metrik - non kategori ke variabel-cek pilihan “Save standardized values as variables”

Variabel Daerah & Status tidak

dimasukkan karena data kategorikal

Output statistik deskriptif

Descriptive Statistics

60 20 42 29,88 5,66060 0 4 ,70 1,109

60 225000 2000000 630000,00 444094,966

60 2 11 5,73 2,321

60 10 24 16,77 3,586

60 0 2 ,93 ,634

60 0 2 ,57 ,647

60 0 5 2,00 1,193

60 1 9 4,15 2,563

60 70000 600000 186833,33 132609,778

60 10 75 29,87 16,766

60 3 25 9,94 5,015

60

UsiaJumlah AnakPenghasilan rata-rataper bulanJumlah Jam membacaKoran setiap mingguJumlah Jam menontonTV setiap mingguJumlah Motor yangdipunyaiJumlah Mobil yangdipunyaiJumlah Kartu Kredit/ATMyang dipunyaiTingkat PembelianBarang setiap mingguTingkat PengeluaranBulananJumlah Jam Kerja setiapmingguJumlah Jam Berbelanjasetiap mingguValid N (listwise)

N Minimum Maximum Mean Std. Deviation

Variabel yang sudah distandarisasi

2a. Analisis ClusterAnalyzeClassifyK-Means Cluster

Masukkan Variabel yang sudah distandarisasi Masukkan Jumlah Cluster : 2 – 5 (tergantung peneliti) Jika ingin memberikan informasi non-metric pada tiap case (responden) masukkan variabel non-metric di ‘Label Case’

Pada ‘Method’ secara default ‘Iterate and classify’ SPSS melakukan perubahan dari cluster awal (initial) dengan proses iterasi (proses pengulangan dengan ketepatan yang lebih tinggi) sampai diperoleh hasil cluster yang terbaik.

Untuk memudahkan profiling cluster: Klik ‘Save’ Pilih ‘Cluster membership’ dan ‘Distance from cluster center’

Agar dapat melihat perbedaan variabel pada cluster yang terbentuk: Klik ‘Options’ Pilih ‘ANOVA table’

HASIL CLUSTERING: Oleh karena dalam proses Clustering dipilih ‘Cluster Membership’Muncul 2 variabel baru: qcl_1 & qcl_2 qcl_1 : berisi nomor cluster untuk setiap

kasus qcl_2 : berisi jarak antara kasus (responden) tertentu dengan pusat cluster

Nanti dipakai untuk profiling cluster

Output 1Data sebelum dilakukan iterasi

menunjukkan hasil clustering awal

Pada ‘Method’ dipilih ‘Iterate and classify’ ada proses iterasi sehingga output ini tidak dianalisis

Initial Cluster Centers

-,50941 2,14071 -1,74613-,63104 2,97489 -,63104

3,08493 -,85567 -,63050

,97675 -,31601 -,74692

-1,32922 ,90164 -1,60807

,10511 -1,47158 ,10511

2,21377 ,66928 -,87521

2,51425 ,00000 -1,67616

1,50199 ,33161 -1,22890

3,11566 -,84333 -,65480

2,69195 -,11134 -1,18493

3,00381 -,30606 -,78460

Zscore: UsiaZscore: Jumlah AnakZscore: Penghasilanrata-rata per bulanZscore: Jumlah Jammembaca Koran setiapmingguZscore: Jumlah Jammenonton TV setiapmingguZscore: Jumlah Motoryang dipunyaiZscore: Jumlah Mobilyang dipunyaiZscore: Jumlah KartuKredit/ATM yang dipunyaiZscore: TingkatPembelian Barang setiapmingguZscore: TingkatPengeluaran BulananZscore: Jumlah JamKerja setiap mingguZscore: Jumlah JamBerbelanja setiap minggu

1 2 3Cluster

Output 2Proses Iterasi

Menunjukkan berapa kali proses iterasi (pengulangan) dilakukan sampai diperoleh hasil terbaik (memiliki ketepatan tertinggi dalam clustering/ pengelompokan)

Iteration Historya

3,884 3,314 2,503,599 ,834 ,314,000 ,291 ,148,000 ,383 ,205,000 ,316 ,207,000 ,152 ,115,000 ,195 ,172,000 ,000 ,000

Iteration12345678

1 2 3Change in Cluster Centers

Convergence achieved due to no or small change incluster centers. The maximum absolute coordinatechange for any center is ,000. The current iteration is 8.The minimum distance between initial centers is 6,795.

a.

Output 3Final Cluster

Final Cluster Centers

,57272 -,02356 -,36218,04507 -,09015 ,04507

1,36091 -,23081 -,71494

1,08448 ,07182 -,78283

-,03950 ,32998 -,24865

,99200 -,13139 -,55184

,95887 ,05148 -,68215

1,25712 ,08381 -,90792

1,16063 ,13654 -,88754

1,33411 -,22874 -,69879

1,24930 ,03479 -,86186

1,21304 -,07377 -,74721

Zscore: UsiaZscore: Jumlah AnakZscore: Penghasilanrata-rata per bulanZscore: Jumlah Jammembaca Koran setiapmingguZscore: Jumlah Jammenonton TV setiapmingguZscore: Jumlah Motoryang dipunyaiZscore: Jumlah Mobilyang dipunyaiZscore: Jumlah KartuKredit/ATM yang dipunyaiZscore: TingkatPembelian Barang setiapmingguZscore: TingkatPengeluaran BulananZscore: Jumlah JamKerja setiap mingguZscore: Jumlah JamBerbelanja setiap minggu

1 2 3Cluster

(-) data dibawah rata-rata total

(+) data diatas rata-rata total

Output 4: Tabel AnovaPerbedaan Variabel pada Cluster

ANOVA

4,204 2 ,888 57 4,736 ,013,122 2 1,031 57 ,118 ,889

21,483 2 ,281 57 76,371 ,000

16,814 2 ,445 57 37,775 ,000

1,843 2 ,970 57 1,899 ,159

11,700 2 ,625 57 18,732 ,000

12,966 2 ,580 57 22,349 ,000

22,605 2 ,242 57 93,435 ,000

20,416 2 ,319 57 64,049 ,000

20,622 2 ,312 57 66,199 ,000

21,412 2 ,284 57 75,447 ,000

18,526 2 ,385 57 48,114 ,000

Zscore: UsiaZscore: Jumlah AnakZscore: Penghasilanrata-rata per bulanZscore: Jumlah Jammembaca Koran setiapmingguZscore: Jumlah Jammenonton TV setiapmingguZscore: Jumlah Motoryang dipunyaiZscore: Jumlah Mobilyang dipunyaiZscore: Jumlah KartuKredit/ATM yang dipunyaiZscore: TingkatPembelian Barang setiapmingguZscore: TingkatPengeluaran BulananZscore: Jumlah JamKerja setiap mingguZscore: Jumlah JamBerbelanja setiap minggu

Mean Square dfCluster

Mean Square dfError

F Sig.

The F tests should be used only for descriptive purposes because the clusters have been chosen to maximizethe differences among cases in different clusters. The observed significance levels are not corrected for this andthus cannot be interpreted as tests of the hypothesis that the cluster means are equal.

Between cluster mean

Within cluster mean Semakin

besar angka F (angka sig.

semakin <α) semakin besar

perbedaan variabel tersebut

pada ketiga cluster yang

terbentuk

Output 5Jumlah anggota di setiap cluster

Number of Cases in each Cluster16,00020,00024,00060,000

,000

123

Cluster

ValidMissing

Interpretasi1. Output final cluster menunjukkan

posisi anggota cluster dibandingkan rata-rata

2. Output final cluster + Statistik Deskriptifmenghitung nilai rata-rata tiap variabel, untuk masing-masing cluster

3. Jumlah Anggota tiap Cluster 4. Tabel ANOVAmenunjukkan variabel mana

yang memiliki perbedaan signifikan

Descriptive Statistics

60 20 42 29,88 5,66060 0 4 ,70 1,109

60 225000 2000000 630000,00 444094,966

60 2 11 5,73 2,321

60 10 24 16,77 3,586

60 0 2 ,93 ,634

60 0 2 ,57 ,647

60 0 5 2,00 1,193

60 1 9 4,15 2,563

60 70000 600000 186833,33 132609,778

60 10 75 29,87 16,766

60 3 25 9,94 5,015

60

UsiaJumlah AnakPenghasilan rata-rataper bulanJumlah Jam membacaKoran setiap mingguJumlah Jam menontonTV setiap mingguJumlah Motor yangdipunyaiJumlah Mobil yangdipunyaiJumlah Kartu Kredit/ATMyang dipunyaiTingkat PembelianBarang setiap mingguTingkat PengeluaranBulananJumlah Jam Kerja setiapmingguJumlah Jam Berbelanjasetiap mingguValid N (listwise)

N Minimum Maximum Mean Std. Deviation

Menyatakan rata-rata variabel X = rata-rata sampel (rata-rata variabel pada cluster tertentu)

μ = rata-rata populasi σ = standar deviasi Z = nilai standarisasi dari SPSS

Z. X

Rata-rata usia (ZUsia) Responden Cluster 1 = 29,88 + (0,5727x5,66) = 33,12

Cluster 2 Cluster 3

Cari Rata-rata Sampel tiap Cluster Z anak Z income Z koran Z TV Z motor Z mobil Z kredit Z beli Z konsumsi Z kerja Z shopping

Tafsiran Cluster 1Nama Cluster 1 = Responden di Cluster 1 mempunyai usia lebih tua dari rata-rata

Tafsiran Cluster 2Nama Cluster 2 = Responden di Cluster 2 mempunyai usia ……

Tafsiran Cluster 3Nama Cluster 3 = Responden di Cluster 3 mempunyai usia …..

Tabel ANOVAmenunjukkan variabel mana yang memiliki perbedaan signifikan

Nilai sig > 0,05 : Ho tidak ditolakH0 : Tidak ada perbedaan signifikan pada ke tiga clusterH1 : Ada perbedaan signifikan pada tiga cluster

OutputJumlah anggota di setiap cluster

Number of Cases in each Cluster16,00020,00024,00060,000

,000

123

Cluster

ValidMissing

Profiling:Tabulasi Silang (Crosstab)QCL_1 dan QCL_2

OutputCross tab daerah tempat tinggal vs Cluster

Daerah Tempat Tinggal * Cluster Number of Case Crosstabulation

16 1 0 17

94,1% 5,9% ,0% 100,0%

0 18 1 19

,0% 94,7% 5,3% 100,0%

0 1 23 24

,0% 4,2% 95,8% 100,0%

16 20 24 60

26,7% 33,3% 40,0% 100,0%

Count% within DaerahTempat TinggalCount% within DaerahTempat TinggalCount% within DaerahTempat TinggalCount% within DaerahTempat Tinggal

Kota Besar

Kota Menengah

Kota Kecil

DaerahTempatTinggal

Total

1 2 3Cluster Number of Case

Total

1 1.5 2 2.5 3Cluster Num ber of Case

1.00000

2.00000

3.00000

4.00000Distan

ce of C

ase fro

m its Clas

sific

ation Clus

ter C

enter

Daerah Tem pat Tinggal

Kota BesarKota M enengahKota Kecil

Kota Besar Kota M enengah Kota KecilDaerah Tem pat Tinggal

0

5

10

15

20

25

Coun

tCluster Num ber of

Case123

Bar Chart

Maka Responden yang tinggal di kota besar memiliki karakteristik : …..

Responden yang tinggal di kota menengah memiliki karakteristik : …..

Dan responden yang tinggal di kota kecil memiliki karakteristik : …..

Crosstab Status dan QCL_1

Grafik Scatter Plot QCL_1 Zusia dan Zkonsumsi


Recommended