“ONLINE UPDATING FOR STEAM DATA: Using Divide-And...

TUGAS BIG DATA

KELOMPOK 6

“ONLINE UPDATING FOR STEAM DATA:

Using Divide-And-Conquer Estimators (Least Squares) in the Linear Model”

Dosen Pembimbing Mata Kuliah:

Drs. Danardono, M.P.H., Ph.D.

Vammie Nastiti Lestari, S.Si., M.Sc.

Nama Kelompok:

1. Rizqi Haryastuti (14/364192/PA/15943)

2. Michael Vidianto Dwi Putra (14/366202/PA/16229)

3. Putri Aristiani (13/348023/PA/15422)

4. Fathia Nur Rahmani (13/352743/PA/15696)

PROGRAM STUDI STATISTIKA

DEPARTEMEN MATEMATIKA

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS GADJAH MADA

YOGYAKARTA

2017

Latar Belakang

Pada era saat ini hampir dikehidupan sehari-hari dan disetiap bidang sains sudah

mengalami kemajuan dan prevalensi teknologi computer yang memungkinkan dalam

pengumpulan data dengan ukuran yang besar atau sering disebut big data. Kemajuan tersebut

menjadi penemuan baru yang menimbulkan tantangan tersendiri untuk teori statistik, komputasi

dan metodologi, serta tantangan untuk menyimpanan data dan efisiensi komputasi.

Perkembangan metodologis terkini dalam statistik yang menjawab atau memenuhi

tantangan tersebut sebagian besar berfokus pada yang berbasis subsampling (Kleiner et al., 2014;

Liang et al., 2013; Maet al., 2013) kemudian membagi dan menggabungkan data tersebut (Lin dan

Xi, 2011; Guha et al., 2012 ; Chen dan Xie, 2014) , dan teknik pengolahan (wang et al. 2015).

Sedangkan yang menjadi pendekatan popular untuk analisis untuk data kompleks yang besar

adalah membagi dan menggabungkan. Pendekatan yang dilakukan sangat menarik karena dari data

yang diperoleh akan di bagi menjadi beberapa himpunan bagian dan kemudian mengunakan

metode numerik dan visualisasi yang diterapkan pada masing-masing subset terpisah, kemudian

mengumpulkan hasil dari masing-masing subset tersebut untuk menghasilkan solusi terkahir.

Sampai saat ini, sebagian besar berfokus di langkah pengumpulan akhir dalam estimasi atau

estimasi jumlah yang tidak diketahui dengan tidak memperhatikan estimasi kesalahan standar

(standard error).

Dalam beberapa aplikasi, data mencapai jumlah yang besar dan online. Contohnya analisis

updated yang di inginkan tanpa persyaratan penyimpanan. Sejauh ini jurnal yang menjadi acuan

pembuatan makalah ini adalah yang pertama untuk menarik kesimpulan pengaturan update online.

Bahkan dengan big data, menarik kesimpulan tetap menjadi isu penting bagi statistik. Dalam

makalah ini akan menyediakan formula kesalahan standar atau standard error untuk membagi dan

menggabungkan estimator dengan menggunakan model regresi linier untuk data online-updating.

Analisis regresi linier ini dapat dianggap sebagai analisis yang paling banyak digunakan untuk

mengidentifikasikan dan menjelaskan variable-variabel independen yang signifikan terhadap

variable dependen, serta mampu menjelaskan hubungan linear yang mungkin terjadi terhadap

variable tersebut, sedangkan estimator yang digunakan dalam model regresi linier ini adalah

estimator bias dan kesalahan kuadarat rata-rata (mean squart error atau MSE), karena estimator

tersebut merupakan estimator yang lebih unggul di bandingkan dengan estimator yang lainnya.

Selanjutnya akan menggembangkan estimasi algoritma iteratif dan kesimpulan statistik untuk

regesi liniear. Algoritma ini adalah komputasi yang sangat efisien, penyimpanan minimal intensif,

dan memenuhi untuk rank defisiensi.

Makalah ini akan membahas mengenai pendekatan pembagian dan penggabungan untuk

metode regresi linier dan mengenalkan formula untuk menghitung estimasi beta dan algoritma

model linier online-updating.

Penggunaan Online Updating dalam Estimasi Beta Regresi Linier

Dalam pengestimasian nilai beta (�̂�) dengan metode online updating, pada dasarnya

pengestimasian dilakukan dengan pengestimasian nilai nilai beta (�̂�) dengan metode divide and

conquer dengan indeks waktu yang sekuensial dimana keseluruhan data dibagi menjadi k subset

data yang lebih kecil dengan anggota masing-masing subsetnya 𝑛𝑘.

Metode divide and conquer :

Metode Online Updating :

Pengestimasian dengan metode divide and conquer terjadi pada suatu aliran data pada suatu waktu

yang dibagi menjadi k subset. Sedangkan untuk metode online updating, aliran data terjadi

menurut urutan waktu dari subset pertama hingga subset ke k.

Dalam hal ini akan diberikan contoh penggunaan online updating pada estimasi nilai beta

regresi linier.

Diketahui bahwa Estimasi masing-masing subset (k subset) model regeresi linier :

�̂�𝑛𝑘,𝑘 = (∑𝑋′𝑘𝑋𝑘)−1𝑋′𝑘𝑦𝑘

Dimana 𝑋𝑘 dan 𝑦𝑘 merupakan Matriks X dan y dari subset ke-k

𝑋𝑘 = [

1 𝑥11⋯ 𝑥𝑝1

1 𝑥12⋯ 𝑥𝑝𝑛

⋮𝑛𝑘

⋮𝑥1𝑛𝑘

⋮ ⋮… 𝑥𝑝𝑛𝑘

]

𝑦𝑘 =

[ 𝑦1

𝑦2𝑦3

𝑦𝑛𝑘]

�̂�1 �̂�2

�̂�3 �̂�4 �̂�1234

�̂�1 �̂�2

�̂�4

�̂�12

�̂�3

�̂�12

�̂�123

�̂�123

�̂�1234

�̂�𝑛𝑘,𝑘(beta) = [

𝛽0

𝛽1

⋮𝛽𝑝

] untuk masing-masing subset.

Menurut pendekatan divide and conquer (Lin and Xi, 2011) diperoleh estimasi sbb :

�̂� = (∑𝑋′𝑘𝑋𝑘)−1 + ∑𝑋′𝑘𝑋𝑘 𝛽𝑛𝑘,𝑘

Estimasi tersebut merupakan estimasi beta gabungan dari k subset.

Kemudian degan menggunakan perspektif Bayesian diperoleh estimasi nilai beta regresi linier

untuk online updating subset ke-k sbb :

�̂�𝑘 = (∑ 𝑋′𝑙𝑋𝑙 + 𝑋′𝑘𝑋𝑘

𝐾−1

𝑙

)−1(∑ 𝑋′𝑙𝑋𝑙 �̂�𝑘−1 + 𝑋′𝑘𝑋𝑘�̂�𝑛𝑘,𝑘)

𝐾−1

𝑙

�̂�𝑘 = (𝑉𝑘−1 + 𝑋′𝑘𝑋𝑘)

−1(𝑉𝑘−1�̂�𝑘−1 + 𝑋′𝑘𝑋𝑘�̂�𝑛𝑘,𝑘 )

Hasil diatas memungkinkan peneliti untuk meng-update nilai estimasinya setiap ada dataset yang

masuk untuk memperoleh nilai estimasi yang lebih aktual.

Dari hasil diatas diperoleh keuntungan bahwa untuk setiap periode waktunya, peneliti hanya perlu

menyimpan nilai X’kXk dan βk sedangkan data historis untuk masing-masing individu dapat

dihapus sehingga tidak memerlukan media penyimpanan yang sangat besar untuk menyimpan

database penelitian.

Ilustrasi Penggunaan Metode

Pembagian data (divide and conquer)

Dimiliki satu set data regresi dengan 1 variabel dependen dan 4 variabel independen, serta

terdiri atas 25 observasi. Seperti pada metode divide and conquer, sejumlah observasi tersebut

dibagi dalam beberapa subset, yaitu 5 subset, dimana setiap subset terdiri dari 5 observasi.

Pemilihan jumlah subset ini dibebaskan kepada analis, begitu juga jumlah observasi dalam

setiap subset.

Subset 1 (k=1)

Subset 2 (k=2)

Subset 3 (k=3)

Subset 4 (k=4)

Subset 5 (k=5)

Sehingga didapatkan beta gabungan seperti berikut:

Data update (k=6)

Selanjutnya terdapat 5 observasi baru dengan set yang sama dengan data regresi sebelumnya.

Ilustrasi ini menggambarkan bahwa terdapat updating terhadap data.

Dari set data baru tersebut, didapatkan:

Estimasi untuk online updating

Setelah mendapatkan estimasi beta dari gabungan ke-5 subset dan juga data yang terbaru, kita

dapat menentukan estimasi beta yang lebih baru dengan menggabungan kedua estimasi

tersebut dengan menggunakan persamaan yang telah dijelaskan pada bab sebelumnya.

Hasilnya adalah sebagai berikut:

Dengan estimasi beta yang telah didapatkan, kita dapat membentuk model regresi untuk

selanjutnya dapat digunakan untuk menduga nilai dari variabel dependen.

Simulasi regresi

Untuk perbandingan, kami melakukan analisis regresi linear sederhana terhadap 30 observasi

tersebut secara langsung. Didapatkan hasil sebagai berikut :

Kesimpulan

Dalam makalah ini, kami menerangkan secara singkat mengenai pendekatan yang

dilakukan sangat menarik karena dari data yang diperoleh akan di bagi menjadi beberapa

himpunan bagian dan kemudian mengunakan metode numerik dan visualisasi yang diterapkan

pada masing-masing subset terpisah. Kemudian mengumpulkan hasil dari masing-masing subset

tersebut untuk menghasilkan solusi terkahir. Sampai saat ini, sebagian besar berfokus di langkah

pengumpulan akhir dalam estimasi atau estimasi jumlah yang tidak diketahui dengan tidak

memperhatikan estimasi kesalahan standar (standard error).

Daftar Pustaka

Schifano ED, Wu J, Wang C, Yan J, Chen MH, Online Updating of Statistical Inference in the Big

Data Setting, Techonometrics. 2015 Forthcoming. Diakses pada 4 Mei 2017.

Wang C, Chen M, Scifano ED, Wu J, Yan J, Statistical Methods and Computing for Big Data.

2015 HHS Public Access. Diakses pada 4 Mei 2017.

Lampiran

Data regresi

Y X1 X2 X3 X4 Subset

215.36 7 13.23 27.9 20.98

k=1

295.15 5 13.44 32.28 22.41

452.62 5 18.45 39.17 23.21

330.92 8 19.58 34.25 23.25

320.14 8 12.03 33.63 23.45

254.26 10 15.26 29.49 22.98

k=2

254.25 6 13.87 29.38 24.86

235.26 9 15.69 29.19 24.88

302.21 9 16.35 32.82 25

312.25 6 12.88 33.44 25.12

222.32 8 18.97 29.14 25.87

k=3

265.99 11 12.05 32.09 25.89

300.12 7 12.23 32.33 26.23

265.21 5 15.87 30.22 26.23

354.25 6 13.67 35.42 26.25

323.45 9 18.29 33.72 28.94

k=4

362.02 8 15.26 35.84 29.8

423 5 13.56 37.12 32.26

400.23 9 18.78 36.1 32.79

412.6 6 13.02 36.85 33.45

423.22 7 16.59 37.44 33.98

k=5

400.25 9 14.23 36.15 34.55

366.25 9 15.26 35.92 34.76

435.23 8 15.78 38.2 35.99

430.22 10 13.33 37.91 36.21

Data regresi update (k=6)

Y X1 X2 X3 X4

352.16 9 12.89 34.79 36.25

365.21 8 12.45 35.91 36.87

415.25 8 19.25 36.96 36.99

451.29 8 14.32 38.98 40.12

512.33 8 13.45 39.33 44.98

Syntax Ilustrasi

Subset 1 (k=1)

xk1=read.delim("clipboard") #copy x

yk1=read.delim("clipboard") #copy y

Xm1=as.matrix(xk1)

Ym1=as.matrix(yk1)

b1=(solve(t(Xm1)%*%Xm1))%*%(t(Xm1)

%*%Ym1)

Subset 2 (k=2)



Xm2=as.matrix(xk2)

Ym2=as.matrix(yk2)


%*%Ym2)

Subset 3 (k=3)



Xm3=as.matrix(xk3)

Ym3=as.matrix(yk3)


%*%Ym3)

Subset 4 (k=4)



Xm4=as.matrix(xk4)

Ym4=as.matrix(yk4)


%*%Ym4)

Subset 5 (k=5)



Xm5=as.matrix(xk5)

Ym5=as.matrix(yk5)

b5=(solve(t(Xm5)%*%Xm5))%*%(t(Xm5)%*%Ym5)

Beta Gabungan

k1=t(Xm1)%*%Xm1

k2=t(Xm2)%*%Xm2

k3=t(Xm3)%*%Xm3

k4=t(Xm4)%*%Xm4

k5=t(Xm5)%*%Xm5

V=k1+k2+k3+k4+k5

kb1=(t(Xm1)%*%Xm1)%*%b1

kb2=(t(Xm2)%*%Xm2)%*%b2

kb3=(t(Xm3)%*%Xm3)%*%b3

kb4=(t(Xm4)%*%Xm4)%*%b4

kb5=(t(Xm5)%*%Xm5)%*%b5

Vb=kb1+kb2+kb3+kb4+kb5

b_gab=solve(V)%*%Vb

b_gab

Subset update (k=6)



Xm6=as.matrix(xk6)

Ym6=as.matrix(yk6)

b6=(solve(t(Xm6)%*%Xm6))%*%(t(Xm6)%*%Ym6)

Beta Update

b_update=(solve(Xm6+V))%*%((Xm6%*%b6)+(V%*%b_gab))

Date post:	05-Apr-2019
Category:	Documents
Upload:	vocong
View:	219 times
Download:	0 times

“ONLINE UPDATING FOR STEAM DATA: Using Divide-And...

Documents