UNIVERSITAS INDONESIA
ANALISA PENGARUH BLOCK SIZE PADA HDFS
TERHADAP KECEPATAN PROSES MAPREDUCE
SEMINAR
PRIAGUNG KHUSUMANEGARA
1006661084
DEPARTEMEN TEKNIK ELEKTRO
FAKULTAS TEKNIK UNIVERSITAS INDONESIA
DEPOK
2013
Universitas Indonesia ii
UNIVERSITAS INDONESIA
ANALISA PENGARUH BLOCK SIZE PADA HDFS
TERHADAP KECEPATAN PROSES MAPREDUCE
SEMINAR
Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Teknik
PRIAGUNG KHUSUMANEGARA
1006661084
DEPARTEMEN TEKNIK ELEKTRO
FAKULTAS TEKNIK UNIVERSITAS INDONESIA
DEPOK
2013
Universitas Indonesia iii
HALAMAN PERNYATAAN ORISINALITAS
Seminar ini adalah hasil karya saya sendiri, dan semua sumber baik yang dikutip
maupun dirujuk telah saya nyatakan dengan benar.
Nama : Priagung Khusumanegara
NPM : 1006661084
Tanda Tangan : ……………
Tanggal : 30 Desember 2013
Universitas Indonesia iv
HALAMAN PENGESAHAN
Seminar ini diajukan oleh:
Nama : Priagung Khusumanegara
NPM : 1006661084
Program Studi : Teknik Komputer
Judul Seminar : Analisa Pengaruh Block Size Pada HDFS Terhadap Kecepatan Proses
Map Reduce
Telah berhasil dipertahankan di hadapan penguji dan diterima sebagai
bagian persyaratan yang diperlukan untuk memperoleh gelar Sarjana
Teknik pada Program Studi Teknik Komputer, Fakultas Teknik,
Universitas Indonesia.
PENGUJI
Pembimbing : Yan Maraden S.T., M.T., M.Sc. (…………)
Ditetapkan di : Depok
Tanggal : 30 Desember 2013
Universitas Indonesia v
KATA PENGANTAR
Puji Syukur penulis panjatkan kepada Tuhan Yang Maha Esa karena rahmat dan karunia-
Nya penulis dapat menyelesaikan laporan seminar ini.Selama Penulisan ini, penulis
ucapkan terima kasih atas bantuannya selama ini, diantaranya:
1. Tuhan Yang Maha Esa yang telah memberikan nikmat dan karunia-Nya kepada
penulis untuk menyelesaikan seminar ini
2. Pembimbing Seminar, Bapak Yan Maraden S.T., M.T., M.Sc. yang telah
memberikan masukan dan dukungan selama penulisan ini
3. Keluarga dan orang tua penulis yang selalu mendukung dan memberikan
semangat dan doa
4. Seluruh Civitas Akademika Departemen Teknik Elektro Fakultas Teknik
Universitas Indonesia yang telah membantu dalam penulisan ini.
Penulis menyadari bahwa dalam penulisan seminar ini masih banyak kekurangan dan
kesempurnaan. Untuk itu, penulis mengharapkan kritik dan saran yang membangun
kepada penulis untuk perbaikan penulisan kedepannya. Melalui tulisan ini juga
diharapkan bermanfaat bagi pembaca dan kemajuan teknologi informasi di Indonesia.
Jakarta, 30 Desember 2013
Penulis
Universitas Indonesia vi
ABSTRAK
Nama : Priagung Khusumanegara
Program Studi : Teknik Komputer
Judul : Analisa Pengaruh Block Size Pada HDFS Terhadap Kecepatan
Proses Mapreduce
Makalah seminar ini membahas mengenai pengaruh block size pada HDFS
terhadap kecepatan proses mapreduce pada hadoop. Percobaan yang dilakukan
pada seminar ini adalah dengan membagi beberapa file dengan ukuran 512 MB, 1
GB, 1.5 GB, dan 2 GB menjadi beberapa block size dengan ukuran yang berbeda-
beda yaitu 64 MB, 128 MB, 192 MB, 256 MB, 320 MB dan 384 MB pada setiap
ukuran file tersebut. Kesimpulan yang didapat dalam percobaan yang dilakukan
adalah dengan memperbesar block size pada HDFS dapat mempercepat proses
mapreduce dengan rata-rata penurunan waktu yang dibutuhkan untuk proses
mapreduce pada file dengan ukuran 512 MB, 1 GB, 1.5 GB, dan 2 GB mencapai
2.90%.
Kata kunci:
Hadoop, HDFS, mapreduce, datanode, namenode, tasktracker, jobtracker, block
size, wordcount.
Universitas Indonesia vii
ABSTRACT
Name : Priagung Khusumanegara
Study Program: Computer Engineering
Title : The Effect Analysis of Block Size in HDFS Againts Mapreduce
Speed Process
This seminar paper discusses about the influence of the block size on HDFS
againts Hadoop MapReduce processing speed. The experiment that did on the
seminar is by share some files with a size of 512 MB, 1 GB, 1.5 GB, and 2 GB
into several blocks with different sizes are 64 MB, 128 MB, 192 MB, 256 MB,
320 MB and 384 MB on each of the file size. The experiment conclusion is with
increase the block size on HDFS can speed up the process of MapReduce with the
average reduction in the time required to process MapReduce on file with size 512
MB, 1 GB, 1.5 GB, and 2 GB reached 2.90%.
Keyword:
Hadoop, HDFS, mapreduce, datanode, namenode, tasktracker, jobtracker, block
size, wordcount.
Universitas Indonesia viii
DAFTAR ISI
HALAMAN SAMPUL ........................................................................................ i
HALAMAN JUDUL ........................................................................................... ii
HALAMAN PERNYATAAN ORISINALITAS ............................................... iii
HALAMAN PENGESAHAN ............................................................................ iv
KATA PENGANTAR ........................................................................................ v
ABSTRAK ......................................................................................................... vi
ABSTRACT ...................................................................................................... vii
DAFTAR ISI .................................................................................................... viii
DAFTAR GAMBAR ......................................................................................... ix
DAFTAR TABEL ............................................................................................... x
1. PEDAHULUAN ............................................................................................ 1
1.1 Latar Belakang ...................................................................................... 1
1.2 Tujuan……………………………..........………..................................2
1.3 Batasan Masalah ................................................................................... 2
1.4 Metodologi.............................................................................................3
1.5 Sistematika Penulisan ........................................................................... 3
2. HADOOP FRAMEWORK ........................................................................ 5 2.1 Komputasi Terdistribusi........................................................................ 5
2.2 Hadoop .................................................................................................. 5
2.2.1 Arsitektur Hadoop ..................................................................... 5
2.2.2 Kelebihan Hadoop ..................................................................... 6
2.3 HDFS .................................................................................................... 7
2.3.1 Model Data dan Struktur HDFS ............................................... 7
2.3.2 Kelebihan dan Kekurangan HDFS ......................................... 10
2.4 MapReduce ......................................................................................... 11
2.4.1 Konsep Dasar MapReduce ..................................................... 11
2.4.2 Komponen MapReduce .......................................................... 14
3. PERANCANGAN ....................................................................................... 15
3.1 Wordcount......................................................................................... 15
3.2 Penjelasan Rancangan ....................................................................... 15
3.3 Menentukan Block Size pada HDFS ................................................. 18
4. HASIL PERCOBAAN DAN ANALISA................................................... 20
4.1 Hasil Percobaan ................................................................................. 20
4.2 Analisa ............................................................................................... 27
5. KESIMPULAN .......................................................................................... 29
DAFTAR PUSTAKA ...................................................................................... 30
Universitas Indonesia ix
DAFTAR GAMBAR
Gambar 2.1: Bagian inti hadoop ................................................................................ 6
Gambar 2.2: Komponen HDFS ................................................................................... 8
Gambar 2.3: Namenode pada HDFS ............................................................................ 8
Gambar 2.4: Interaksi antara namenode dan datanote pada HDFS .............................. 9
Gambar 2.5: Proses mapping ..................................................................................... 12
Gambar 2.6: Proses shuffle ......................................................................................... 12
Gambar 2.7: Proses reducing ..................................................................................... 13
Gambar 2.8: Proses mapreduce pada hadoop ............................................................ 13
Gambar 2.9: Kerja jobtracker pada hadoop ............................................................... 14
Gambar 2.10: Kerja tasktracker pada setiap node ...................................................... 15
Gambar 3.1: Rancangan percobaan ............................................................................ 17
Gambar 3.2: Rancangan dilihat dari arsitektur hadoop .............................................. 18
Gambar 4.1: Grafik efek dari HDFS block size pada ukuran file 512 MB ................. 21
Gambar 4.2: Grafik efek dari HDFS block size pada ukuran file 1 GB ..................... 22
Gambar 4.3: Grafik efek dari HDFS block size pada ukuran file 1.5 GB .................. 24
Gambar 4.4: Grafik efek dari HDFS block size pada ukuran file 2 GB ..................... 25
Gambar 4.5: Ukuran block 64 MB pada file 512 MB ................................................ 27
Gambar 4.6: Ukuran block 128 MB pada file 512 MB .............................................. 27
Universitas Indonesia x
DAFTAR TABEL
Tabel 3.1: Spesifikasi rancangan................................................................................ 17
Tabel 3.2: Konfigurasi block size pada hdfs-site.xml ................................................ 18
Tabel 4.1: Hasil percobaan dengan ukuran file 512 MB ....................................... ..... 20
Tabel 4.2: Persentase penurunan waktu proses mapreduce (file 512 MB)..................18
Tabel 4.3: Hasil percobaan dengan ukuran file 1 GB ................................................. 22
Tabel 4.4: Persentase penurunan waktu proses mapreduce (file 1 GB) ..................... 23
Tabel 4.5: Hasil percobaan dengan ukuran file 1.5 GB ............................................. 23
Tabel 4.6: Persentase penurunan waktu proses mapreduce (file 1.5 GB).................... 24
Tabel 4.7: Hasil percobaan dengan ukuran file 2 GB ................................................ 25
Tabel 4.8: Persentase penurunan waktu proses mapreduce (file 2 GB)....................... 26
Tabel 4.9: Persentase rata-rata penurunan waktu proses mapreduce (semua file)....... 26
BAB 1
PENDAHULUAN
1.1 Latar Belakang
Saat ini adalah era dimana teknologi sangat berkembang dengan cepat dan
pesat. Seiring dengan berkembangnya teknologi yang ada, maka ukuran data yang
diolah juga akan semakin besar. Data yang semakin besar ukurannya tersebut dan
sudah sangat sulit untuk dikoleksi, disimpan, dikelola maupun dianalisa dengan
menggunakan sistem database biasa dikarenakan ukurannya yang terus bertambah
disebut dengan big data. International Data Corporation memperkirakan ukuran
data semesta digital berada pada angka 0.18 zettabytes (1 zettabytes = 10247
bytes), serta meramalkan akan menjadi 10 kali lipatnya setiap 5 tahun [2].
Data yang jumlahnya semakin banyak tersebut tentunya membutuhkan
tempat penyimpanan yang sangat besar dan sistem pengelolaan yang tepat agar
mudah dalam mengolahnya. Untuk dapat mengolah data yang jumlahnya sangat
banyak dan ukuran yang besar secara baik dan cepat dibutuhkan teknologi
komputer yang khusus. Untuk kebutuhan mengolah data dalam jumlah yang
banyak dan ukuran yang besar seperti ini biasanya menggunakan teknologi yang
disebut High Performance Computer atau super komputer. Akan tetapi untuk
membangun suatu sistem super komputer tersebut membutuhkan biaya yang tidak
murah, salah satu solusi untuk mengatasi masalah ini yaitu dengan menggunakan
sistem parallel computing yang berjalan pada sebuah cluster.
Parallel computing adalah penggunaan beberapa komputer dengan spesifikasi
yang tidak terlalu tinggi untuk mengolah data dalam jumlah banyak dan ukuran
yang besar yang diharapakan dapat menghemat biaya untuk membeli super
komputer. Untuk mengolah data yang sangat besar secara terdistribusi dan
berjalan di atas cluster yang terdiri dari beberapa komputer yang saling terhubung
dapat menggunakan framework software berbasis Java dan opensource yang
disebut dengan hadoop. Hadoop pertama kali diperkenalkan oleh Doug Cutting,
yaitu seorang pembuat Apache Lucene. Project hadoop ini berasal dari project
Apache Nutch yang merupakan sebuah opensource web search engine sebagai
bagian dari project Lucene. Hadoop memiliki sebuah teknologi yang bernama
Universitas Indonesia 2
mapreduce. Teknologi ini memungkinkan pengolahan data yang dilakukan secara
paralel dan terdistribusi dalam ratusan bahkan ribuan komputer, sehingga
teknologi ini sangat tepat untuk mengolah data dalam jumlah yang sangat besar.
Hadoop juga menyediakan contoh program yang sederhana dan menggunakan
teknologi mapreduce ini yaitu wordcount.
Wordcount adalah suatu program berbasis Java yang berfungsi untuk
menghitung jumlah kata dalam sebuah file atau beberapa file berekstensi txt. File
berekstensi txt tersebut dapat dipecah menjadi beberapa block dalam ukuran
tertentu dan terdistribusi pada sebuah cluster. Besar ukuran block pada file system
yang terdapat pada hadoop berbeda dengan besar ukuran block pada file system
biasa yang biasanya berukuran 4 KB atau 8 KB, hal ini dikarenakan hadoop
dirancang untuk mengolah data dalam jumlah yang besar. Secara default blok-
blok tersebut memiliki ukuran 64 MB. Besar ukuran blok-blok pada hadoop
tersebut dapat disesuaikan dengan keinginan user. Pengaturan besar ukuran block
tersebut diharapkan dapat memberikan pengaruh pada proses mapreduce pada
hadoop.
1.2 Tujuan
Tujuan dari seminar ini adalah untuk:
1. Mengetahui apakah dengan mengubah parameter block size data pada HDFS
dapat mempengaruhi kecepatan proses mapreduce pada hadoop.
2. Menganalisa penyebab perubahan kecepatan proses mapreduce pada hadoop
pada saat parameter block size data pada HDFS diubah.
1.3 Batasan Masalah
Pada percobaan ini rancangan yang akan dibuat dibatasi sampai menjalankan
hadoop secara bersamaan pada multi node cluster yang terdiri dari tiga node.
Perancangan node tersebut dilakukan dengan menggunakan konsep virtualisasi.
Perangkat yang digunakan adalah satu buah PC yang memiliki processor i7 dan
RAM 4 GB yang didalamnya terdapat tiga virtual machine yang masing-masing
virtual machine memiliki processor one core dan RAM 1 GB yang berjalan pada
VMWare Workstation 10 dimana satu virtual machine bertindak sebagai master
Universitas Indonesia 3
dan dua sisanya bertindak sebagai sebagai slave. Pada masing-masing virtual
machine terdapat hadoop yang dijalankan secara paralel. Kemudian hadoop
menjalankan program wordcount yang menggunakan teknologi mapreduce
dengan besar block size yang berbeda-beda pada setiap percobaan yang dilakukan
dengan ukuran file yang digunakan pada percobaan yang dilakukan adalah 512
MB, 1 GB, 1.5 GB dan 2 GB.
1.4 Metodologi Penulisan
Metodologi yang digunakan dalam penulisan seminar ini adalah sebagai
berikut:
1. Studi literatur
2. Melakukan percobaan dan mencatat hasil percobaan berdasarkan skenario
yang telah dibuat
3. Analisa perbandingan dan grafik hasil percobaan
1.5 Sistematika Penulisan
Pembahasan pada seminar ini meliputi lima bab, dimana pada masing-masing
bab akan menjelaskan sebagai berikut:
BAB 1: Pendahuluan
Pada bab ini akan dijelaskan Latar Belakang, Tujuan, Batasan
Masalah, Metodologi Penulisan dan Sistematika Penulisan.
BAB 2: Hadoop Framework
Pada bab ini akan dijelaskan teori-teori yang menunjang percobaan
yang dilakukan.
BAB 3: Perancangan
Pada bab ini akan dijelaskan mengenai rancangan pada percobaan
yang akan dilakukan.
BAB 4: Hasil Percobaan & Analisa
Pada bab ini terdapat tabel dan grafik hasil percobaan beserta
analisanya.
BAB 5: Kesimpulan
Universitas Indonesia 5
BAB 2
HADOOP FRAMEWORK
2.1 Komputasi Terdistribusi
Berdasarkan [1] komputasi terdistribusi adalah penggunaan terkoordinasi dari
komputer yang secara fisik terpisah atau terdistribusi. Tujuan dari komputasi
terdistribusi adalah menyatukan kemampuan dari sumber daya (sumber komputasi
atau sumber informasi) yang terpisah secara fisik, ke dalam suatu sistem
gabungan yang terkoordinasi dengan kapasitas yang jauh melebihi dari kapasitas
individual komponen-komponennya sehingga dapat mempercepat proses
pekerjaan yang dilakukan.
Cara kerja dari komputasi terdistribusi ini berdasarkan [1] adalah proses
perkerjaan yang dilakukan dijalankan secara bersamaan untuk mencapai tujuan
yang sama dimana koordinasi aktifitas dan pertukaran informasi yang dilakukan
dikirim melalui jaringan komunikasi. Salah satu framework yang mendukung
komputasi terdistribusi ini adalah Apache Hadoop.
2.2 Hadoop
Hadoop merupakan framework software berbasis Java dan opensource yang
berfungsi untuk mengolah data yang memiliki ukuran yang besar secara
terdistribusi dan berjalan diatas cluster yang terdiri dari beberapa komputer yang
saling terhubung (parallel computing) [2]. Berdasarkan [13] hadoop dapat
mengolah data dalam jumlah yang sangat besar hingga petabyte (1 petabyte =
10245 bytes) dan dijalankan di atas ratusan bahkan ribuan komputer. Hadoop
dibuat oleh Doug Cutting yang pada asalnya hadoop ini adalah sub project dari
Nutch yang digunakan untuk search engine. Hadoop ini bersifat opensource dan
berada di bawah bendera Apache Software Foundation.
2.2.1 Arsitektur Hadoop
Hadoop terdiri dari common hadoop yang berguna dalam menyediakan akses
ke dalam file system yang didukung oleh hadoop. Common hadoop ini berisi paket
yang diperlukan oleh JAR file, skrip yang dibutuhkan untuk memulai hadoop dan
Universitas Indonesia 6
dokumentasi pekerjaan yang telah dilakukan oleh hadoop. Bedasarkan [2] inti dari
hadoop adalah terdiri dari:
1. HDFS (Hadoop Distribute File System) Untuk data yang terdistribusi
2. MapReduce Framework dari aplikasi yang terdistribusi
Gambar 2.1: Bagian inti hadoop (a) komponen HDFS (b) komponen mapreduce [9]
Gambar 2.1 menggambarkan bagian inti hadoop yang terdiri dari HDFS dan
mapreduce. Pada Gambar 2.1 (a) menggambarkan komponen dari HDFS yang
terdiri dari namenode dan datanode yang saling berhubungan dan Gambar 2.1 (b)
menggambarkan komponen dari mapreduce yang terdiri dari jobtracker dan
tasktracker yang saling berhubungan.
Sebuah cluster kecil pada hadoop dapat terdiri dari satu master node dan
beberapa slave node. Master node ini terdiri dari namenode dan jobtracker,
sedangkan slave node terdiri dari datanode dan tasktracker. Hadoop membutuhkan
JRE 1.6 atau JRE dengan versi yang lebih tinggi. Dalam menjalankan dan
menghentikan sistem pada hadoop dibutuhkan ssh yang harus dibentuk antar node
pada sebuah cluster [12].
2.2.2 Kelebihan Hadoop
Komputasi terdistribusi merupakan bidang yang sangat beragam dan luas,
namun hadoop memiliki beberapa kelebihan yang dapat membedakannya dengan
yang lain, berdasarkan [2] kelebihan hadoop adalah sebagai berikut:
Mudah untuk di akses
Universitas Indonesia 7
Hadoop dapat berjalan pada jumlah cluster yang besar ataupun pada
layanan komputasi awan seperti Amazon Elastic Compute Cloud (EC2).
Stabil
Hadoop sangat baik dalam menangani sebuah masalah yang muncul
ketika sedang memproses sebuah pekerjaan, hal ini dikarenakan dari
awalnya hadoop memang ditunjukan untuk di jalankan pada komuditas
perangkat keras.
Memiliki skala yang besar
Hadoop memiliki jangkauan skala yang besar, sehingga dapat
menghandle ketika adanya pertambahan jumlah node dalam sebuah
cluster.
Mudah digunakan
Hadoop sangat mudah dijalankan dan digunakan pada single node
maupun multi node.
2.3 HDFS
HDFS (Hadoop Distributed File System) merupakan file system berbasis Java
yang terdistribusi pada hadoop [2]. Sebagai file system terdistribusi, HDFS
berguna untuk menangani data dalam jumlah besar yang disimpan dan tersebar
didalam banyak komputer yang berhubungan yang biasa disebut dengan cluster.
File system terdistribusi pada hadoop dapat diartikan sebagai file system yang
menyimpan data tidak dalam satu hard disk drive (HDD) atau media penyimpanan
lainnya, tetapi data dipecah-pecah (file dipecah dalam bentuk block dengan ukuran
64 MB – bisa dikonfigurasi besarnya) dan disimpan tersebar dalam suatu cluster
yang terdiri atas beberapa komputer.
2.3.1 Model Data dan Struktur HDFS
HDFS menyimpan suatu data dengan cara membelahnya menjadi potongan-
potongan data yang berukuran 64 MB (secara default), dan potongan-potongan
data tersebut kemudian disimpan tersebar dalam setiap node yang membentuk
clusternya. Potongan-potongan data tersebut didalam HDFS disebut block, dan
ukurannya tidak terpaku harus 64 MB, dimana ukuran block tersebut dapat
disesuaikan dengan keinginan user. Meskipun data yang ada disimpan secara
Universitas Indonesia 8
tersebar ke beberapa node, namun dari kacamata user, data tetap terlihat seperti
halnya kita mengakses file pada satu komputer. File yang secara fisik tersebar
dalam banyak komputer dapat diperlakukan layaknya memperlakukan file dalam
satu komputer. Sebagai file system terdistribusi, HDFS memiliki komponen-
komponen utama berupa namenode, datanode, dan secondary namenode [2].
Arsitektur ketiga komponen tersebut dapat dilihat pada Gambar 2.2.
Gambar 2.2: Komponen HDFS [11]
a. Namenode
Namenode terdapat pada komputer yang bertindak sebagai master yang
mengkoordinasi datanode untuk melakukan beberapa tugas (jobs) [5].
Namenode ini adalah pusat dari sistem berkas pada HDFS.
Gambar 2.3: Namenode pada HDFS [2]
Namenode membuat sistem direktori dari semua file yang ada di dalam
sistem dan dapat mengetahui bagaimana file tersebut di pecah-pecah menjadi
Universitas Indonesia 9
beberapa blok-blok data serta mengetahui nodes yang menyimpan blok-blok
data tersebut [2].
b. Datanode
Berdasarkan [2] datanode adalah salah satu komponen dari HDFS yang
berfungsi untuk menyimpan dan mengambil kembali data pada slave node
pada setiap permintaan yang dilakukan oleh namenode. Datanode berada pada
setiap slave node pada sebuah cluster yang telah dibuat.
Datanode juga berfungsi untuk membaca dan menulis block pada HDFS
ke file yang sebenarnya pada file system lokal. Sebagai contoh apabila user
ingin membaca atau menulis file ke HDFS, file tersebut akan dipecah menjadi
beberapa blok, kemudian namenode akan memberitahu dimana blok-blok
tersebut berada sehingga datanode dapat membaca dan menulis blok-blok
tersebut ke file yang sebenarnya pada file system [2].
Gambar 2.4: Interaksi antara namenode dan datanote pada HDFS [2]
Dari Gambar 2.4 terlihat bahwa namenode menjaga jalur dari file
metadata dimana setiap file tersebut adalah sebuah sistem yang dipecah-pecah
menjadi beberapa block [2]. Datanode menyimpan backup dari pecahan-
pecahan block tersebut dan secara berkala memberitahu kepada namenode
untuk tetap menjaga jalur dari file metadata. Selama sistem berjalan, datanode
terhubung dengan namenode dan melakukan sebuah handshake. Bedasarkan
Universitas Indonesia 10
[5] handshake ini bertujuan untuk melakukan verifikasi terhadap namespace
ID dan juga software version pada sebuah datanode.
Namespace ID adalah sebuah ID yang muncul ketika pertama kali
melakukan format pada namenode [5]. Namespace ID ini disimpan pada
semua node yang ada pada sebuah cluster. Jika ada node yang memiliki
namespace ID yang berbeda maka node tersebut tidak akan dapat bergabung
pada sebuah cluster. Tujuan adanya namespace ID ini adalah untuk menjaga
integritas dari HDFS.
Sofware version adalah versi software yang digunakan oleh hadoop [5].
Konsistensi pada software version ini sangat penting, karena jika software
version yang digunakan berbeda maka akan menyebabkan file corrupt pada
sebuah sistem. Jika salah satu node memiliki namespace ID dan juga software
version tidak sama dengan nodes yang lain, maka node tersebut tidak akan
terdaftar pada sistem cluster yang ada [5].
c. Secondary Namenode
Bedasarkan [2] secondary namenode adalah daemon yang berfungsi
melakukan monitoring keadaan dari cluster HDFS. Sama seperti namenode,
pada setiap cluster yang ada terdapat satu secondary namenode, yang berada
pada master node. Secondary namenode ini juga berfungsi untuk membantu
dalam meminimalkan down time dan hilangnya data yang terjadi pada HDFS
[2]. Secondary namenode ini sering menimbulkan kesalahpahaman pengertian
bahwa apabila namenode down maka akan langsung digantikan oleh
secondary namenode, padahal secondary namenode ini hanya menyimpan
informasi terbaru dari struktur direktori pada namenode [12]. Jadi jika terjadi
kegagalan yang dilakukan oleh namenode maka dibutuhkan konfigurasi yang
dilakukan oleh user untuk menjadikan secondary namenode sebagai
namenode yang utama.
2.3.2 Kelebihan dan Kekurangan HDFS
Berdasarkan [12] kelebihan dari HDFS adalah adanya kerjasama antara
jobtracker dan tasktracker. Jobtracker mengurangi pekerjaan yang dilakukan oleh
tasktracker dengan memberitahu lokasi data dan memberikan penjadwalan
Universitas Indonesia 11
pekerjaan yang harus dilakukan. Hal ini akan mengurangi intensitas lintas data
yang berjalan pada jaringan dan mencegah transfer data yang tidak perlu,
sehingga dapat berdampak signifikan terhadap spent time dalam menyelesaikan
suatu pekerjaan .
Kekurangan dari HDFS ini berdasarkan [12] adalah master node masih
bersifat Single Point of Failure sehingga apabila master node mati maka data akan
hilang. Salah satu cara untuk mengantisipasi masalah tersebut adalah dengan
membuat cloning dari master node pada server yang berbeda, sehingga apabila
master node utama mengalami masalah, maka langsung dapat digantikan dengan
cloning lainnya.
2.4 MapReduce
MapReduce adalah framework software yang diperkenalkan oleh google dan
digunakan untuk melakukan suatu pekerjaan dari komputasi terdistribusi yang
dijalankan pada sebuah cluster [7]. Map Reduce ini terdiri dari konsep fungsi map
dan reduce yang biasa digunakan pada functional programming [12].
Salah satu program yang menggunakan konsep mapreduce yang dapat
berjalan di hadoop adalah wordcount. Wordcount merupakan program yang
bertujuan untuk menghitung kata pada file berekstensi txt. Proses mapreduce pada
wordcount ini dibagi menjadi 2 tahap yaitu proses mapping dan reducing.
2.4.1 Konsep Dasar MapReduce
Proses mapping: pertama wordcount menginput file txt yang tersimpan pada
direktori HDFS. Kemudian wordcount akan membagi file txt tersebut menjadi
beberapa bagian yang berisikan kata/token yang muncul pada file input dan nilai 1
pada setiap kata yang ada. Gambaran pada saat wordcount melakukan proses
mapping ini dapat dilihat pada Gambar 2.5.
Pada Gambar 2.5 terlihat sebuah file input yang berisikan kata-kata yang
dibagi menjadi beberapa bagian yang berisikan token/kata dan nilai 1 pada setiap
kata yang ada.
Universitas Indonesia 12
Gambar 2.5: Proses mapping [18]
Setelah proses mapping ini selesai maka akan dilanjutkan dengan proses
shuffle yang berfungsi untuk menggabungkan kata-kata yang sama untuk
mempersiapkan proses reducing. Gambaran dari proses shuffle ini dapat dilihat
pada Gambar 2.6.
Gambar 2.6: Proses shuffle [18]
Universitas Indonesia 13
Proses reducing: pada proses ini terjadi penggabungan kata yang sama setelah
proses shuffle dan menghitung jumlah kata yang sama tersebut. Gambaran proses
reducing ini dapat dilihat pada Gambar 2.7.
Gambar 2.7: Proses reducing [18]
Gambaran bagaimana proses mapreduce yang terjadi secara keseluruhan dapat
dilihat pada Gambar 2.8.
Gambar 2.8: Proses mapreduce pada hadoop [19]
Universitas Indonesia 14
Gambar 2.8 menggambarkan sebuah data yang dibagi menjadi beberapa
bagian yang kemudian pada setiap bagian dilakukan proses mapping, dan setelah
proses mapping selesai bagian-bagian data tersebut di acak untuk melalui proses
reducing.
Keuntungan dari mapreduce ini adalah proses map dan reduce yang dapat
diterapkan secara terdistribusi. Pada setiap proses mapping dan proses reducing
bersifat independent sehingga proses dapat dijalankan secara paralel pada waktu
yang sama, selama output dari proses mapping mengirimkan key value yang
sesuai dengan proses reducingnya. Didalam hadoop, mapreduce ini terdiri dari
satu jobtracker dan beberapa tasktracker pada sebuah cluster.
2.4.2 Komponen MapReduce
Mapreduce yang terdapat pada hadoop memiliki 2 komponen utama penting
yaitu:
a. JobTracker
Jobtracker adalah sebuah daemon yang berfungsi untuk memecah
permintaan yang diberikan ke HDFS menjadi beberapa pekerjaan yang lebih
kecil berdasarkan jumlah slave yang ada [2]. Setelah permintaan tersebut
dipecah-pecah menjadi beberapa pekerjaan (jobs), jobtracker ini akan
memberikan pekerjaan-pekerjaan tersebut kepada setiap slave node yang
terdapat di dalam cluster tersebut. Jobtracker ini secara berkala
mengkoordinasi semua pekerjaan yang diberikan kepada tasktracker
menggunakan scheduling task (pengatur tugas), kemudian tasktracker
menjalankan pekerjaan tersebut. Setelah tasktracker menyelesaikan jobs yang
diberikan, maka tasktracker akan meminta jobs yang baru kepada jobtracker.
Gambaran kerja dari jobtracker dapat dilihat pada Gambar 2.9.
Gambar 2.9: Kerja jobtracker pada hadoop [16]
Universitas Indonesia 15
b. TaskTracker
Tasktracker adalah sebuah daemon yang berfungsi untuk menerima
pekerjaan yang diberikan oleh jobtracker dan kemudian menjalankan
pekerjaan tersebut ke dalam JVM yang terpisah. Dengan menjalakan
pekerjaan tersebut ke dalam JVM yang terpisah, maka hal ini akan
mengurangi beban pekerjaan yang dilakukan secara paralel yang diberikan
oleh jobtracker.
Gambar 2.10: Kerja tasktracker pada setiap node [2]
Gambar 2.10 menggambarkan bagaimana sebuah jobtracker
berkomunikasi dengan beberapa tasktracker yang pada masing-masing
tasktracker melakukan proses mapreduce. Secara konstan tasktracker ini terus
berkomunikasi dengan jobtracker dengan memberikan laporan setiap proses
yang telah dilakukan. Jika jobtracker gagal menerima hasil perkerjaan yang
dilakukan oleh tasktracker, maka jobtracker akan mengirimkan kembali
pekerjaan tersebut kepada node lain pada cluster tersebut untuk dikerjakan
ulang.
Universitas Indonesia 16
BAB 3
PERANCANGAN
Pada bab ini akan dibahas mengenai perancangan sebuah cluster yang terdiri
dari 3 node yang terdapat pada VMWare Workstation 10 untuk menjalankan
program wordcount yang menggunakan teknologi mapreduce pada hadoop secara
paralel, serta bagaimana cara membagi file menjadi beberapa block size pada
HDFS dengan beberapa ukuran yang telah ditentukan yaitu 64 MB, 128 MB, 192
MB, 256 MB, 320 MB dan 384 MB.
3.1 Wordcount
Wordcount adalah program yang bertujuan untuk menghitung jumlah token
pada satu atau beberapa file berekstensi txt. Token yang dihitung mencakup
rangkaian huruf (kata) dan angka serta simbol yang tidak terpisah oleh spasi.
Program wordcount ini cocok dijalankan pada hadoop karena program ini
menggunakan konsep mapreduce yang dapat dijalankan pada beberapa komputer
(cluster). Berikut ini merupakan pseudocode dari wordcount:
while: ada token selanjutnya
simpan token
if: token belum pernah ada dalam memori
beri nilai 1 pada token
else:
tambah nilai yang sudah ada dengan 1
Output pada program wordcount ini adalah daftar token yang ada pada file input
beserta jumlah setiap token yang ada pada file tersebut.
3.2 Penjelasan Rancangan
Rancangan yang telah dibuat adalah menggunakan sebuah software yang
mendukung PC untuk melakukan virtualisasi yaitu VMWare Workstation 10.
VMWare Workstation 10 ini diinstall pada sebuah PC yang menjalankan sebuah
sistem operasi Linux Mint dan kemudian PC tersebut menjalankan tiga virtual
Universitas Indonesia 17
machine secara bersamaan. Spesifikasi PC (host) dan masing-masing virtual
machine yang dijalankan dapat dilihat pada Tabel 3.1.
Tabel 3.1: Spesifikasi rancangan
Pada masing-masing virtual machine yang ada diberikan hadoop versi 1.2.1
untuk dijalankan secara paralel. Pada Gambar 3.1 terdapat gambaran umum dari
rancangan yang telah dibuat.
Gambar 3.1: Rancangan percobaan
Pada Gambar 3.1 dapat dilihat VM 1 bertindak sebagai master node,
kemudian VM 2 dan VM 3 bertindak sebagai slave nodes. Virtual machine yang
bertindak sebagai master node melakukan kontrol terhadap slave nodes di dalam
sebuah cluster. Sedangkan slave nodes berfungsi untuk menjalankan perintah
yang diberikan oleh master node. Jika dilihat dari aksitektur hadoop sendiri
rancangan yang dibuat digambarkan pada Gambar 3.2.
Spesifikasi Host VM 1 VM 2 VM 3
Processor Intel ® Core ™ i7-2600 One Core One Core One Core
RAM 4.00 GB 1.00 GB 1.00 GB 1.00 GB
System Operation Linux Mint 13 CentOS CentOS CentOS
Universitas Indonesia 18
Gambar 3.2: Rancangan dilihat dari arsitektur hadoop [6]
Pada Gambar 3.2 dapat dilihat bahwa pada percobaan ini master node
menjalankan komponen namenode dan jobtracker sedangkan slave node
menjalankan komponen datanode dan tasktracker.
3.3 Menentukan Block Size pada HDFS
Secara default hadoop membagi file menjadi beberapa block dengan ukuran
64 MB pada setiap block. Akan tetapi blok-blok tersebut dapat diubah-ubah
ukurannya dengan menggunakan dua cara, yaitu dengan cara melakukan
konfigurasi pada pada hdfs-site.xml atau dengan melakukan pembagian pada saat
mengcopy file dari local file system ke dalam HDFS. Cara pertama dapat
dilakukan dengan cara memasukkan konfigurasi yang ada pada Tabel 3.2.
Tabel 3.2: Konfigurasi block size pada hdfs-site.xml
hdfs-site.xml pada master node hdfs-site.xml pada slave node
<configuration> <configuration>
<property> <property>
<name>dfs.block.size</name> <name>dfs.block.size</name>
<value>67108864</value> <value>67108864</value>
</property> </property>
</configuration> </configuration>
Universitas Indonesia 19
Besar yang terdapat pada tag value menunjukan ukuran block dalam bytes
pada hadoop. Besar nilai pada tag value dapat diganti sesuai dengan keinginan
pada saat sebelum menjalankan hadoop.
Cara kedua dapat dilakukan pada saat setelah menjalankan hadoop, yaitu
dengan cara memasukkan command line pada terminal sebagai berikut:
$hadoop fs -D dfs.block.size=67108864 -put /local disk /hadoop
file system
Fungsi dari command line ini adalah membagi file menjadi beberapa block
sesuai dengan parameter pada dfs.blcok.size yang diinginkan dan mengcopy file
tersebut dari local disk ke dalam hdfs. Pada percobaan ini cara yang dilakukan
adalah menggunakan cara kedua dalam mengatur ukuran block pada HDFS.
Pada percobaan ini, pengaturan ukuran block dilakukan pada beberapa ukuran
file yaitu file dengan ukuran 512 MB, 1 GB, 1.5 GB, dan 2 GB. Pada setiap file
tersebut dilakukan pengaturan besar block size dengan ukuran yang berbeda-beda
yaitu 64 MB, 128 MB, 192 MB, 256 MB, 320 MB dan 384 MB.
Universitas Indonesia 20
BAB 4
HASIL PERCOBAAN & ANALISA
4.1 Hasil Percobaan
Pada seminar ini dilakukan percobaan dengan menggunakan empat ukuran
file yang masing-masing memiliki ukuran yang berbeda-beda yaitu 512 MB, 1
GB, 1.5 GB, dan 2 GB kemudian pada setiap file tersebut akan dilakukan
pengubahan parameter ukuran block pada HDFS menjadi beberapa ukuran block
yang berbeda-beda yaitu 64 MB, 128 MB, 192 MB, 256 MB, 320 MB, dan 384
MB. Hasil yang diperoleh pada setiap file tersebut merupakan rata-rata dari 3 kali
pengambilan data pada setiap block size. Hasil dari percobaan yang dilakukan
adalah sebagai berikut:
a. Percobaan pertama dengan ukuran file 512 MB:
Percobaan pertama dilakukan dengan membagi file yang memiliki ukuran
512 MB menjadi beberapa block size, kemudian mencatat waktu yang
dibutuhkan untuk melakukan proses mapreduce pada setiap block size.
Percobaan dilakukan sebanyak 3 kali dan hasil percobaan yang diambil adalah
rata-rata waktu dari hasil 3 kali percobaan yang dilakukan pada setiap block
size. Hasil dari percobaan pertama ini dapat dilihat pada Tabel 4.1 dan
Gambar 4.1.
Tabel 4.1: Hasil percobaan dengan ukuran file 512 MB
Block Size
(MB)
Percobaan 1
(ms)
Percobaan 2
(ms)
Percobaan 3
(ms)
Rata-Rata
(ms)
64 153530 153530 153530 153530
128 141430 141430 141430 141430
192 133350 133350 133350 133350
256 131800 131800 131800 131800
320 129060 129060 129050 129057
384 128180 128170 128180 128177
Universitas Indonesia 21
Gambar 4.1: Grafik efek dari HDFS block size pada ukuran file 512 MB
Data pada Tabel 4.1 dapat menghasilkan data persentase penurunan waktu
proses mapreduce pada saat setiap perubahan block size yang dilakukan. Data
persentase tersebut dapat dilihat pada Tabel 4.2.
Tabel 4.2: Persentase penurunan waktu proses mapreduce pada ukuran file 512 MB
Block Size (MB) Penurunan Waktu
Proses MapReduce I II
64 128 7.88%
128 192 5.71%
192 256 1.16%
256 320 2.08%
320 384 0.68%
Rata-Rata 3.50%
Dari hasil percobaan yang dilakukan pada file yang memiliki ukuran 512
MB dapat disimpulkan dengan memperbesar block size pada HDFS akan
meningkatkan kecepatan proses mapreduce pada hadoop dengan rata-rata
penurunan waktu proses sebesar 3.50%.
b. Percobaan kedua dengan ukuran file 1 GB
153530
141430
133350131800
129057 128177125000
130000
135000
140000
145000
150000
155000
0 64 128 192 256 320 384 448
Sp
ent
Tim
e (
ms)
Block Size (MB)
Effect of HDFS Block Size
Universitas Indonesia 22
Percobaan kedua dilakukan dengan membagi file yang memiliki ukuran 1
GB menjadi beberapa block size, kemudian mencatat waktu yang dibutuhkan
untuk melakukan proses mapreduce pada setiap block size. Percobaan
dilakukan sebanyak 3 kali dan hasil percobaan yang diambil adalah rata-rata
dari hasil 3 kali percobaan yang dilakukan pada setiap block size. Hasil
percobaan kedua ini dapat dilihat pada Tabel 4.3 dan Gambar 4.2.
Tabel 4.3: Hasil percobaan dengan ukuran file 1 GB
Block Size
(MB)
Percobaan 1
(ms)
Percobaan 2
(ms)
Percobaan 3
(ms)
Rata-Rata
(ms)
64 281220 281220 281220 281220
128 271790 271790 271790 271790
192 249320 249320 249320 249320
256 237850 237850 237850 237850
320 234240 234240 234240 234240
384 231220 231220 231220 231220
Gambar 4.2: Grafik efek dari HDFS block size pada ukuran file 1 GB
Data pada Tabel 4.3 dapat menghasilkan data persentase penurunan waktu
proses mapreduce pada saat setiap perubahan block size yang dilakukan. Data
persentase tersebut dapat dilihat pada Tabel 4.4.
281220 271790249320
237850 234240 231220
0
50000
100000
150000
200000
250000
300000
0 64 128 192 256 320 384 448
Sp
ent
Tim
e (m
s)
Block Size (MB)
Effect of Block Size HDFS
Universitas Indonesia 23
Tabel 4.4: Persentase penurunan waktu proses mapreduce pada ukuran file 1 GB
Block Size (MB) Penurunan Waktu
Proses MapReduce I II
64 128 3.35%
128 192 8.27%
192 256 4.60%
256 320 1.52%
320 384 1.29%
Rata-Rata 3.81%
Dari hasil percobaan yang dilakukan pada file yang memiliki ukuran 1 GB
dapat disimpulkan dengan memperbesar block size pada HDFS akan
meningkatkan kecepatan proses mapreduce pada hadoop dengan rata-rata
penurunan waktu proses sebesar 3.81%.
c. Percobaan ketiga dengan ukuran file 1.5 GB
Percobaan ketiga dilakukan dengan membagi file yang memiliki ukuran
1.5 GB menjadi beberapa block size, kemudian mencatat waktu yang
dibutuhkan untuk melakukan proses mapreduce pada setiap block size.
Percobaan dilakukan sebanyak 3 kali dan hasil percobaan yang diambil adalah
rata-rata dari hasil 3 kali percobaan yang dilakukan pada setiap block size.
Hasil percobaan ketiga ini dapat dilihat pada Tabel 4.5 dan Gambar 4.3.
Tabel 4.5: Hasil percobaan dengan ukuran file 1.5 GB
Block Size
(MB)
Percobaan 1
(ms)
Percobaan 2
(ms)
Percobaan 3
(ms)
Rata-Rata
(ms)
64 435760 435760 435760 435760
128 434700 434710 434700 434703
192 386760 386760 386760 386760
256 368230 368230 368230 368230
320 361270 361270 361250 361263
384 351650 351650 351650 351650
Universitas Indonesia 24
Gambar 4.3: Grafik efek dari HDFS block size pada ukuran file 1.5 GB
Data pada Tabel 4.5 dapat menghasilkan data persentase penurunan waktu
proses mapreduce pada saat setiap perubahan block size yang dilakukan. Data
persentase tersebut dapat dilihat pada Tabel 4.6.
Tabel 4.6: Persentase penurunan waktu proses mapreduce pada ukuran file 1.5 GB
Block Size (MB) Penurunan Waktu
Proses MapReduce I II
64 128 0.24%
128 192 11.03%
192 256 4.79%
256 320 1.89%
320 384 2.66%
Rata-Rata 4.12%
Dari hasil percobaan yang dilakukan pada file yang memiliki ukuran 1.5
GB dapat disimpulkan dengan memperbesar block size pada HDFS akan
meningkatkan kecepatan proses mapreduce pada hadoop dengan rata-rata
penurunan waktu proses sebesar 4.12%.
435760 434703
386760368230 361263 351650
0
50000
100000
150000
200000
250000
300000
350000
400000
450000
500000
0 64 128 192 256 320 384 448
Sp
ent
Tim
e (m
s)
Block Size (MB)
Effect of Block Size HDFS
Universitas Indonesia 25
d. Percobaan keempat dengan ukuran file 2 GB
Percobaan keempat dilakukan dengan membagi file yang memiliki ukuran
2 GB menjadi beberapa block size, kemudian mencatat waktu yang dibutuhkan
untuk melakukan proses mapreduce pada setiap block size. Percobaan
dilakukan sebanyak 3 kali dan hasil percobaan yang diambil adalah rata-rata
dari hasil 3 kali percobaan yang dilakukan pada setiap block size. Hasil
percobaan keempat ini dapat dilihat pada Tabel 4.7 dan Gambar 4.4.
Tabel 4.7: Hasil percobaan dengan ukuran file 2 GB
Block Size
(MB)
Percobaan 1
(ms)
Percobaan 2
(ms)
Percobaan
3 (ms)
Rata-
Rata (ms)
64 616120 616130 616120 616123
128 589520 589520 589520 589520
192 584390 584390 584370 584383
256 575130 575130 575130 575130
320 567450 567450 567450 567450
384 561580 561560 561580 561573
Gambar 4.4: Grafik efek dari HDFS block size pada ukuran file 2 GB
Data pada Tabel 4.7 dapat menghasilkan data persentase penurunan waktu
pada saat setiap perubahan block size yang dilakukan. Data persentase tersebut
dapat dilihat pada Tabel 4.8.
616123
589520
584383
575130
567450
561573
550000
560000
570000
580000
590000
600000
610000
620000
0 64 128 192 256 320 384 448
Sp
ent
Tim
e (m
s)
Block Size (MB)
Effect of Block Size HDFS
Universitas Indonesia 26
Tabel 4.8: Persentase penurunan waktu proses mapreduce pada ukuran file 2 GB
Block Size (MB) Penurunan Waktu
Proses MapReduce I II
64 128 4.32%
128 192 0.87%
192 256 1.58%
256 320 1.34%
320 384 1.04%
Rata-Rata 1.83%
Dari hasil percobaan yang dilakukan pada file yang memiliki ukuran 2 GB
dapat disimpulkan dengan memperbesar block size pada HDFS akan
meningkatkan kecepatan proses mapreduce pada hadoop dengan rata-rata
penurunan waktu proses sebesar 1.83%.
Dari semua percobaan yang dilakukan pada 4 file dengan ukuran masing-
masing file yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB dapat diperoleh data rata-
rata penurunan waktu proses mapreduce untuk semua ukuran file tersebut
apabila dilakukan perubahan pada parameter block size. Data tersebut dapat
dilihat pada Tabel 4.9.
Tabel 4.9: Persentase rata-rata penurunan waktu proses mapreduce pada semua ukuran file
Ukuran File Rata-Rata Penurunan Waktu
Proses MapReduce
512 MB 1.83%
1 GB 3.81%
1.5 GB 4.12%
2 GB 1.83%
Rata-Rata 2.90%
Dari Tabel 4.9 dapat terlihat bahwa rata-rata penurunan waktu proses
mapreduce untuk file dengan ukuran 512 MB, 1 GB, 1.5 GB, dan 2 GB
apabila dilakukan pengubahan pada parameter block size mencapai 2.90%.
Universitas Indonesia 27
4.2 Analisa
Dari hasil percobaan yang dilakukan pada setiap file terlihat bahwa
pengubahan parameter block size pada file tersebut dapat memberikan efek pada
kecepatan proses mapreduce pada hadoop yaitu jika semakin besar block size
maka kecepatan proses mapreduce semakin cepat. Jika kita memperbesar ukuran
block maka file tersebut akan memiliki jumlah block yang lebih sedikit, hal ini
dapat dijelaskan sebagai berikut:
a. File 512 MB dengan ukuran block 64 MB
Gambar 4.5: Ukuran block 64 MB pada file 512 MB
Pada Gambar 4.5 terlihat bahwa jika file dengan ukuran 512 MB dibagi
menjadi beberapa block dengan ukuran masing-masing block 64 MB akan
menghasilkan 6 block.
b. File 512 MB dengan ukuran block 128 MB:
Gambar 4.6: Ukuran block 128 MB pada file 512 MB
Pada Gambar 4.6 terlihat bahwa jika file dengan ukuran 512 MB dibagi
menjadi beberapa block dengan ukuran masing-masing block 64 MB akan
menghasilkan 4 block. Jika jumlah block semakin sedikit, maka akan
mengurangi ukuran metadata dari namenode sehingga mengurangi kerja dari
namenode. Hal ini dapat menjadi pertimbangan penting untuk file system
yang sangat besar. Selain itu dengan jumlah block yang lebih sedikit, hal ini
akan memudahkan scheduler mapreduce dalam menjadwalkan tugas yang
Universitas Indonesia 28
diberikan sehingga dapat mengurangi kerja dari scheduler mapreduce dan
namenode.
Universitas Indonesia 29
BAB 5
KESIMPULAN
Dari seluruh percobaan yang telah dilakukan dapat diambil kesimpulan bahwa:
1. Semakin besar block size pada HDFS maka kecepatan proses mapreduce pada
saat menjalankan program wordcount akan semakin cepat dengan rata-rata
persentase penurunan waktu proses mapreduce pada setiap filenya mencapai
2.90%.
2. Jika memperbesar block size pada HDFS maka jumlah block pada HDFS akan
menjadi berkurang sehingga menghasilkan jumlah metadata yang lebih
sedikit, hal ini dapat mengurangi kerja dari namenode pada sebuah cluster
dan spent time pada CPU pada saat melakukan proses mapreduce.
3. Jumlah block yang lebih sedikit pada HDFS akan memudahkan scheduler
mapreduce dalam menjadwalkan tugas yang diberikan sehingga dapat
mengurangi kerja dari scheduler mapreduce dan namenode.
Universitas Indonesia 30
DAFTAR PUSTAKA
[1] Leslie Lamport and Nancy Lynch. Chapter on Distributed Computing.
February 3, 1989.
[2] Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford,
2011.
[3] Tom White. Hadoop: The Definitive Guide. O’Reilly, Scbastopol,
California, 2009.
[4] Garry Turkington. Hadoop Beginner's Guide. Packt Publishing,
Birmingham, 2013.
[5] Shv, Hairong, SRadia, Chansler. The Hadoop Distributed File System.
Sunnyvale, California USA, IEEE, 2010.
[6] Intel Corporation. Optimizing Java* and Apache Hadoop* for Intel®
Architecture. Intel Corporation, USA, 2013.
[7] Apache TM Hadoop @ homepage, http://hadoop.apache.org/.
[8] JeongJin Cheon, Tae-Young Choe. Distributed Processing of Snort Alert
Log using Hadoop. International Journal of Engineering and Technology
(IJET), Gyeongbuk Korea, 2013.
[9] Aditya B. Patel, Manashvi Birla, Ushma Nair. Addressing Big Data
Problem Using Hadoop and Map Reduce. Nirma University International
Conference On Engineering, 2012.
[10] Amit Anand. Configuration Parameters dfs.Block.Size. Hadoop, 2013.
[11] Dima May. Hadoop Distributed File System (HDFS) Overview.
coreservlets.com, 2012.
[12] Magang Industri--Meruvian.org Cloud Computing.
[13] Colin White. MapReduce and the Data Scientist. BI Research, January
2012.
[14] Tutorial Single Node Hadoop. http://www.michael-
noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/
[15] Tutorial Multinode Hadoop. http://www.michael-
noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/
[16] Map Reduce.http://www.yalescientific.org/2012/03/hadapt-yale-startup/
Universitas Indonesia 31
[17] Interaction between the JobTracker, TaskTracker and the Scheduler @
homepage, http://www.thecloudavenue.com/2011/11/interaction-between-
jobtracker.html.
[18] Map Reduce, The overall MapReduce wordcount process,
http://www.rabidgremlin.com/data20/#%283%29.
[19] Thinking in MapReduce, https://engineering.cerner.com/2013/07/thinking-
in-mapreduce/.