+ All Categories
Home > Documents > Analisa Pengaruh Block Size Pada HDFS Terhadap Kecepatan Proses Mapreduce

Analisa Pengaruh Block Size Pada HDFS Terhadap Kecepatan Proses Mapreduce

Date post: 28-Nov-2023
Category:
Upload: chonnam
View: 1 times
Download: 0 times
Share this document with a friend
41
UNIVERSITAS INDONESIA ANALISA PENGARUH BLOCK SIZE PADA HDFS TERHADAP KECEPATAN PROSES MAPREDUCE SEMINAR PRIAGUNG KHUSUMANEGARA 1006661084 DEPARTEMEN TEKNIK ELEKTRO FAKULTAS TEKNIK UNIVERSITAS INDONESIA DEPOK 2013
Transcript

UNIVERSITAS INDONESIA

ANALISA PENGARUH BLOCK SIZE PADA HDFS

TERHADAP KECEPATAN PROSES MAPREDUCE

SEMINAR

PRIAGUNG KHUSUMANEGARA

1006661084

DEPARTEMEN TEKNIK ELEKTRO

FAKULTAS TEKNIK UNIVERSITAS INDONESIA

DEPOK

2013

Universitas Indonesia ii

UNIVERSITAS INDONESIA

ANALISA PENGARUH BLOCK SIZE PADA HDFS

TERHADAP KECEPATAN PROSES MAPREDUCE

SEMINAR

Diajukan sebagai salah satu syarat untuk memperoleh gelar Sarjana Teknik

PRIAGUNG KHUSUMANEGARA

1006661084

DEPARTEMEN TEKNIK ELEKTRO

FAKULTAS TEKNIK UNIVERSITAS INDONESIA

DEPOK

2013

Universitas Indonesia iii

HALAMAN PERNYATAAN ORISINALITAS

Seminar ini adalah hasil karya saya sendiri, dan semua sumber baik yang dikutip

maupun dirujuk telah saya nyatakan dengan benar.

Nama : Priagung Khusumanegara

NPM : 1006661084

Tanda Tangan : ……………

Tanggal : 30 Desember 2013

Universitas Indonesia iv

HALAMAN PENGESAHAN

Seminar ini diajukan oleh:

Nama : Priagung Khusumanegara

NPM : 1006661084

Program Studi : Teknik Komputer

Judul Seminar : Analisa Pengaruh Block Size Pada HDFS Terhadap Kecepatan Proses

Map Reduce

Telah berhasil dipertahankan di hadapan penguji dan diterima sebagai

bagian persyaratan yang diperlukan untuk memperoleh gelar Sarjana

Teknik pada Program Studi Teknik Komputer, Fakultas Teknik,

Universitas Indonesia.

PENGUJI

Pembimbing : Yan Maraden S.T., M.T., M.Sc. (…………)

Ditetapkan di : Depok

Tanggal : 30 Desember 2013

Universitas Indonesia v

KATA PENGANTAR

Puji Syukur penulis panjatkan kepada Tuhan Yang Maha Esa karena rahmat dan karunia-

Nya penulis dapat menyelesaikan laporan seminar ini.Selama Penulisan ini, penulis

ucapkan terima kasih atas bantuannya selama ini, diantaranya:

1. Tuhan Yang Maha Esa yang telah memberikan nikmat dan karunia-Nya kepada

penulis untuk menyelesaikan seminar ini

2. Pembimbing Seminar, Bapak Yan Maraden S.T., M.T., M.Sc. yang telah

memberikan masukan dan dukungan selama penulisan ini

3. Keluarga dan orang tua penulis yang selalu mendukung dan memberikan

semangat dan doa

4. Seluruh Civitas Akademika Departemen Teknik Elektro Fakultas Teknik

Universitas Indonesia yang telah membantu dalam penulisan ini.

Penulis menyadari bahwa dalam penulisan seminar ini masih banyak kekurangan dan

kesempurnaan. Untuk itu, penulis mengharapkan kritik dan saran yang membangun

kepada penulis untuk perbaikan penulisan kedepannya. Melalui tulisan ini juga

diharapkan bermanfaat bagi pembaca dan kemajuan teknologi informasi di Indonesia.

Jakarta, 30 Desember 2013

Penulis

Universitas Indonesia vi

ABSTRAK

Nama : Priagung Khusumanegara

Program Studi : Teknik Komputer

Judul : Analisa Pengaruh Block Size Pada HDFS Terhadap Kecepatan

Proses Mapreduce

Makalah seminar ini membahas mengenai pengaruh block size pada HDFS

terhadap kecepatan proses mapreduce pada hadoop. Percobaan yang dilakukan

pada seminar ini adalah dengan membagi beberapa file dengan ukuran 512 MB, 1

GB, 1.5 GB, dan 2 GB menjadi beberapa block size dengan ukuran yang berbeda-

beda yaitu 64 MB, 128 MB, 192 MB, 256 MB, 320 MB dan 384 MB pada setiap

ukuran file tersebut. Kesimpulan yang didapat dalam percobaan yang dilakukan

adalah dengan memperbesar block size pada HDFS dapat mempercepat proses

mapreduce dengan rata-rata penurunan waktu yang dibutuhkan untuk proses

mapreduce pada file dengan ukuran 512 MB, 1 GB, 1.5 GB, dan 2 GB mencapai

2.90%.

Kata kunci:

Hadoop, HDFS, mapreduce, datanode, namenode, tasktracker, jobtracker, block

size, wordcount.

Universitas Indonesia vii

ABSTRACT

Name : Priagung Khusumanegara

Study Program: Computer Engineering

Title : The Effect Analysis of Block Size in HDFS Againts Mapreduce

Speed Process

This seminar paper discusses about the influence of the block size on HDFS

againts Hadoop MapReduce processing speed. The experiment that did on the

seminar is by share some files with a size of 512 MB, 1 GB, 1.5 GB, and 2 GB

into several blocks with different sizes are 64 MB, 128 MB, 192 MB, 256 MB,

320 MB and 384 MB on each of the file size. The experiment conclusion is with

increase the block size on HDFS can speed up the process of MapReduce with the

average reduction in the time required to process MapReduce on file with size 512

MB, 1 GB, 1.5 GB, and 2 GB reached 2.90%.

Keyword:

Hadoop, HDFS, mapreduce, datanode, namenode, tasktracker, jobtracker, block

size, wordcount.

Universitas Indonesia viii

DAFTAR ISI

HALAMAN SAMPUL ........................................................................................ i

HALAMAN JUDUL ........................................................................................... ii

HALAMAN PERNYATAAN ORISINALITAS ............................................... iii

HALAMAN PENGESAHAN ............................................................................ iv

KATA PENGANTAR ........................................................................................ v

ABSTRAK ......................................................................................................... vi

ABSTRACT ...................................................................................................... vii

DAFTAR ISI .................................................................................................... viii

DAFTAR GAMBAR ......................................................................................... ix

DAFTAR TABEL ............................................................................................... x

1. PEDAHULUAN ............................................................................................ 1

1.1 Latar Belakang ...................................................................................... 1

1.2 Tujuan……………………………..........………..................................2

1.3 Batasan Masalah ................................................................................... 2

1.4 Metodologi.............................................................................................3

1.5 Sistematika Penulisan ........................................................................... 3

2. HADOOP FRAMEWORK ........................................................................ 5 2.1 Komputasi Terdistribusi........................................................................ 5

2.2 Hadoop .................................................................................................. 5

2.2.1 Arsitektur Hadoop ..................................................................... 5

2.2.2 Kelebihan Hadoop ..................................................................... 6

2.3 HDFS .................................................................................................... 7

2.3.1 Model Data dan Struktur HDFS ............................................... 7

2.3.2 Kelebihan dan Kekurangan HDFS ......................................... 10

2.4 MapReduce ......................................................................................... 11

2.4.1 Konsep Dasar MapReduce ..................................................... 11

2.4.2 Komponen MapReduce .......................................................... 14

3. PERANCANGAN ....................................................................................... 15

3.1 Wordcount......................................................................................... 15

3.2 Penjelasan Rancangan ....................................................................... 15

3.3 Menentukan Block Size pada HDFS ................................................. 18

4. HASIL PERCOBAAN DAN ANALISA................................................... 20

4.1 Hasil Percobaan ................................................................................. 20

4.2 Analisa ............................................................................................... 27

5. KESIMPULAN .......................................................................................... 29

DAFTAR PUSTAKA ...................................................................................... 30

Universitas Indonesia ix

DAFTAR GAMBAR

Gambar 2.1: Bagian inti hadoop ................................................................................ 6

Gambar 2.2: Komponen HDFS ................................................................................... 8

Gambar 2.3: Namenode pada HDFS ............................................................................ 8

Gambar 2.4: Interaksi antara namenode dan datanote pada HDFS .............................. 9

Gambar 2.5: Proses mapping ..................................................................................... 12

Gambar 2.6: Proses shuffle ......................................................................................... 12

Gambar 2.7: Proses reducing ..................................................................................... 13

Gambar 2.8: Proses mapreduce pada hadoop ............................................................ 13

Gambar 2.9: Kerja jobtracker pada hadoop ............................................................... 14

Gambar 2.10: Kerja tasktracker pada setiap node ...................................................... 15

Gambar 3.1: Rancangan percobaan ............................................................................ 17

Gambar 3.2: Rancangan dilihat dari arsitektur hadoop .............................................. 18

Gambar 4.1: Grafik efek dari HDFS block size pada ukuran file 512 MB ................. 21

Gambar 4.2: Grafik efek dari HDFS block size pada ukuran file 1 GB ..................... 22

Gambar 4.3: Grafik efek dari HDFS block size pada ukuran file 1.5 GB .................. 24

Gambar 4.4: Grafik efek dari HDFS block size pada ukuran file 2 GB ..................... 25

Gambar 4.5: Ukuran block 64 MB pada file 512 MB ................................................ 27

Gambar 4.6: Ukuran block 128 MB pada file 512 MB .............................................. 27

Universitas Indonesia x

DAFTAR TABEL

Tabel 3.1: Spesifikasi rancangan................................................................................ 17

Tabel 3.2: Konfigurasi block size pada hdfs-site.xml ................................................ 18

Tabel 4.1: Hasil percobaan dengan ukuran file 512 MB ....................................... ..... 20

Tabel 4.2: Persentase penurunan waktu proses mapreduce (file 512 MB)..................18

Tabel 4.3: Hasil percobaan dengan ukuran file 1 GB ................................................. 22

Tabel 4.4: Persentase penurunan waktu proses mapreduce (file 1 GB) ..................... 23

Tabel 4.5: Hasil percobaan dengan ukuran file 1.5 GB ............................................. 23

Tabel 4.6: Persentase penurunan waktu proses mapreduce (file 1.5 GB).................... 24

Tabel 4.7: Hasil percobaan dengan ukuran file 2 GB ................................................ 25

Tabel 4.8: Persentase penurunan waktu proses mapreduce (file 2 GB)....................... 26

Tabel 4.9: Persentase rata-rata penurunan waktu proses mapreduce (semua file)....... 26

BAB 1

PENDAHULUAN

1.1 Latar Belakang

Saat ini adalah era dimana teknologi sangat berkembang dengan cepat dan

pesat. Seiring dengan berkembangnya teknologi yang ada, maka ukuran data yang

diolah juga akan semakin besar. Data yang semakin besar ukurannya tersebut dan

sudah sangat sulit untuk dikoleksi, disimpan, dikelola maupun dianalisa dengan

menggunakan sistem database biasa dikarenakan ukurannya yang terus bertambah

disebut dengan big data. International Data Corporation memperkirakan ukuran

data semesta digital berada pada angka 0.18 zettabytes (1 zettabytes = 10247

bytes), serta meramalkan akan menjadi 10 kali lipatnya setiap 5 tahun [2].

Data yang jumlahnya semakin banyak tersebut tentunya membutuhkan

tempat penyimpanan yang sangat besar dan sistem pengelolaan yang tepat agar

mudah dalam mengolahnya. Untuk dapat mengolah data yang jumlahnya sangat

banyak dan ukuran yang besar secara baik dan cepat dibutuhkan teknologi

komputer yang khusus. Untuk kebutuhan mengolah data dalam jumlah yang

banyak dan ukuran yang besar seperti ini biasanya menggunakan teknologi yang

disebut High Performance Computer atau super komputer. Akan tetapi untuk

membangun suatu sistem super komputer tersebut membutuhkan biaya yang tidak

murah, salah satu solusi untuk mengatasi masalah ini yaitu dengan menggunakan

sistem parallel computing yang berjalan pada sebuah cluster.

Parallel computing adalah penggunaan beberapa komputer dengan spesifikasi

yang tidak terlalu tinggi untuk mengolah data dalam jumlah banyak dan ukuran

yang besar yang diharapakan dapat menghemat biaya untuk membeli super

komputer. Untuk mengolah data yang sangat besar secara terdistribusi dan

berjalan di atas cluster yang terdiri dari beberapa komputer yang saling terhubung

dapat menggunakan framework software berbasis Java dan opensource yang

disebut dengan hadoop. Hadoop pertama kali diperkenalkan oleh Doug Cutting,

yaitu seorang pembuat Apache Lucene. Project hadoop ini berasal dari project

Apache Nutch yang merupakan sebuah opensource web search engine sebagai

bagian dari project Lucene. Hadoop memiliki sebuah teknologi yang bernama

Universitas Indonesia 2

mapreduce. Teknologi ini memungkinkan pengolahan data yang dilakukan secara

paralel dan terdistribusi dalam ratusan bahkan ribuan komputer, sehingga

teknologi ini sangat tepat untuk mengolah data dalam jumlah yang sangat besar.

Hadoop juga menyediakan contoh program yang sederhana dan menggunakan

teknologi mapreduce ini yaitu wordcount.

Wordcount adalah suatu program berbasis Java yang berfungsi untuk

menghitung jumlah kata dalam sebuah file atau beberapa file berekstensi txt. File

berekstensi txt tersebut dapat dipecah menjadi beberapa block dalam ukuran

tertentu dan terdistribusi pada sebuah cluster. Besar ukuran block pada file system

yang terdapat pada hadoop berbeda dengan besar ukuran block pada file system

biasa yang biasanya berukuran 4 KB atau 8 KB, hal ini dikarenakan hadoop

dirancang untuk mengolah data dalam jumlah yang besar. Secara default blok-

blok tersebut memiliki ukuran 64 MB. Besar ukuran blok-blok pada hadoop

tersebut dapat disesuaikan dengan keinginan user. Pengaturan besar ukuran block

tersebut diharapkan dapat memberikan pengaruh pada proses mapreduce pada

hadoop.

1.2 Tujuan

Tujuan dari seminar ini adalah untuk:

1. Mengetahui apakah dengan mengubah parameter block size data pada HDFS

dapat mempengaruhi kecepatan proses mapreduce pada hadoop.

2. Menganalisa penyebab perubahan kecepatan proses mapreduce pada hadoop

pada saat parameter block size data pada HDFS diubah.

1.3 Batasan Masalah

Pada percobaan ini rancangan yang akan dibuat dibatasi sampai menjalankan

hadoop secara bersamaan pada multi node cluster yang terdiri dari tiga node.

Perancangan node tersebut dilakukan dengan menggunakan konsep virtualisasi.

Perangkat yang digunakan adalah satu buah PC yang memiliki processor i7 dan

RAM 4 GB yang didalamnya terdapat tiga virtual machine yang masing-masing

virtual machine memiliki processor one core dan RAM 1 GB yang berjalan pada

VMWare Workstation 10 dimana satu virtual machine bertindak sebagai master

Universitas Indonesia 3

dan dua sisanya bertindak sebagai sebagai slave. Pada masing-masing virtual

machine terdapat hadoop yang dijalankan secara paralel. Kemudian hadoop

menjalankan program wordcount yang menggunakan teknologi mapreduce

dengan besar block size yang berbeda-beda pada setiap percobaan yang dilakukan

dengan ukuran file yang digunakan pada percobaan yang dilakukan adalah 512

MB, 1 GB, 1.5 GB dan 2 GB.

1.4 Metodologi Penulisan

Metodologi yang digunakan dalam penulisan seminar ini adalah sebagai

berikut:

1. Studi literatur

2. Melakukan percobaan dan mencatat hasil percobaan berdasarkan skenario

yang telah dibuat

3. Analisa perbandingan dan grafik hasil percobaan

1.5 Sistematika Penulisan

Pembahasan pada seminar ini meliputi lima bab, dimana pada masing-masing

bab akan menjelaskan sebagai berikut:

BAB 1: Pendahuluan

Pada bab ini akan dijelaskan Latar Belakang, Tujuan, Batasan

Masalah, Metodologi Penulisan dan Sistematika Penulisan.

BAB 2: Hadoop Framework

Pada bab ini akan dijelaskan teori-teori yang menunjang percobaan

yang dilakukan.

BAB 3: Perancangan

Pada bab ini akan dijelaskan mengenai rancangan pada percobaan

yang akan dilakukan.

BAB 4: Hasil Percobaan & Analisa

Pada bab ini terdapat tabel dan grafik hasil percobaan beserta

analisanya.

BAB 5: Kesimpulan

Universitas Indonesia 4

Bab ini memuat kesimpulan dari seluruh percobaan yang telah

dilakukan.

Universitas Indonesia 5

BAB 2

HADOOP FRAMEWORK

2.1 Komputasi Terdistribusi

Berdasarkan [1] komputasi terdistribusi adalah penggunaan terkoordinasi dari

komputer yang secara fisik terpisah atau terdistribusi. Tujuan dari komputasi

terdistribusi adalah menyatukan kemampuan dari sumber daya (sumber komputasi

atau sumber informasi) yang terpisah secara fisik, ke dalam suatu sistem

gabungan yang terkoordinasi dengan kapasitas yang jauh melebihi dari kapasitas

individual komponen-komponennya sehingga dapat mempercepat proses

pekerjaan yang dilakukan.

Cara kerja dari komputasi terdistribusi ini berdasarkan [1] adalah proses

perkerjaan yang dilakukan dijalankan secara bersamaan untuk mencapai tujuan

yang sama dimana koordinasi aktifitas dan pertukaran informasi yang dilakukan

dikirim melalui jaringan komunikasi. Salah satu framework yang mendukung

komputasi terdistribusi ini adalah Apache Hadoop.

2.2 Hadoop

Hadoop merupakan framework software berbasis Java dan opensource yang

berfungsi untuk mengolah data yang memiliki ukuran yang besar secara

terdistribusi dan berjalan diatas cluster yang terdiri dari beberapa komputer yang

saling terhubung (parallel computing) [2]. Berdasarkan [13] hadoop dapat

mengolah data dalam jumlah yang sangat besar hingga petabyte (1 petabyte =

10245 bytes) dan dijalankan di atas ratusan bahkan ribuan komputer. Hadoop

dibuat oleh Doug Cutting yang pada asalnya hadoop ini adalah sub project dari

Nutch yang digunakan untuk search engine. Hadoop ini bersifat opensource dan

berada di bawah bendera Apache Software Foundation.

2.2.1 Arsitektur Hadoop

Hadoop terdiri dari common hadoop yang berguna dalam menyediakan akses

ke dalam file system yang didukung oleh hadoop. Common hadoop ini berisi paket

yang diperlukan oleh JAR file, skrip yang dibutuhkan untuk memulai hadoop dan

Universitas Indonesia 6

dokumentasi pekerjaan yang telah dilakukan oleh hadoop. Bedasarkan [2] inti dari

hadoop adalah terdiri dari:

1. HDFS (Hadoop Distribute File System) Untuk data yang terdistribusi

2. MapReduce Framework dari aplikasi yang terdistribusi

Gambar 2.1: Bagian inti hadoop (a) komponen HDFS (b) komponen mapreduce [9]

Gambar 2.1 menggambarkan bagian inti hadoop yang terdiri dari HDFS dan

mapreduce. Pada Gambar 2.1 (a) menggambarkan komponen dari HDFS yang

terdiri dari namenode dan datanode yang saling berhubungan dan Gambar 2.1 (b)

menggambarkan komponen dari mapreduce yang terdiri dari jobtracker dan

tasktracker yang saling berhubungan.

Sebuah cluster kecil pada hadoop dapat terdiri dari satu master node dan

beberapa slave node. Master node ini terdiri dari namenode dan jobtracker,

sedangkan slave node terdiri dari datanode dan tasktracker. Hadoop membutuhkan

JRE 1.6 atau JRE dengan versi yang lebih tinggi. Dalam menjalankan dan

menghentikan sistem pada hadoop dibutuhkan ssh yang harus dibentuk antar node

pada sebuah cluster [12].

2.2.2 Kelebihan Hadoop

Komputasi terdistribusi merupakan bidang yang sangat beragam dan luas,

namun hadoop memiliki beberapa kelebihan yang dapat membedakannya dengan

yang lain, berdasarkan [2] kelebihan hadoop adalah sebagai berikut:

Mudah untuk di akses

Universitas Indonesia 7

Hadoop dapat berjalan pada jumlah cluster yang besar ataupun pada

layanan komputasi awan seperti Amazon Elastic Compute Cloud (EC2).

Stabil

Hadoop sangat baik dalam menangani sebuah masalah yang muncul

ketika sedang memproses sebuah pekerjaan, hal ini dikarenakan dari

awalnya hadoop memang ditunjukan untuk di jalankan pada komuditas

perangkat keras.

Memiliki skala yang besar

Hadoop memiliki jangkauan skala yang besar, sehingga dapat

menghandle ketika adanya pertambahan jumlah node dalam sebuah

cluster.

Mudah digunakan

Hadoop sangat mudah dijalankan dan digunakan pada single node

maupun multi node.

2.3 HDFS

HDFS (Hadoop Distributed File System) merupakan file system berbasis Java

yang terdistribusi pada hadoop [2]. Sebagai file system terdistribusi, HDFS

berguna untuk menangani data dalam jumlah besar yang disimpan dan tersebar

didalam banyak komputer yang berhubungan yang biasa disebut dengan cluster.

File system terdistribusi pada hadoop dapat diartikan sebagai file system yang

menyimpan data tidak dalam satu hard disk drive (HDD) atau media penyimpanan

lainnya, tetapi data dipecah-pecah (file dipecah dalam bentuk block dengan ukuran

64 MB – bisa dikonfigurasi besarnya) dan disimpan tersebar dalam suatu cluster

yang terdiri atas beberapa komputer.

2.3.1 Model Data dan Struktur HDFS

HDFS menyimpan suatu data dengan cara membelahnya menjadi potongan-

potongan data yang berukuran 64 MB (secara default), dan potongan-potongan

data tersebut kemudian disimpan tersebar dalam setiap node yang membentuk

clusternya. Potongan-potongan data tersebut didalam HDFS disebut block, dan

ukurannya tidak terpaku harus 64 MB, dimana ukuran block tersebut dapat

disesuaikan dengan keinginan user. Meskipun data yang ada disimpan secara

Universitas Indonesia 8

tersebar ke beberapa node, namun dari kacamata user, data tetap terlihat seperti

halnya kita mengakses file pada satu komputer. File yang secara fisik tersebar

dalam banyak komputer dapat diperlakukan layaknya memperlakukan file dalam

satu komputer. Sebagai file system terdistribusi, HDFS memiliki komponen-

komponen utama berupa namenode, datanode, dan secondary namenode [2].

Arsitektur ketiga komponen tersebut dapat dilihat pada Gambar 2.2.

Gambar 2.2: Komponen HDFS [11]

a. Namenode

Namenode terdapat pada komputer yang bertindak sebagai master yang

mengkoordinasi datanode untuk melakukan beberapa tugas (jobs) [5].

Namenode ini adalah pusat dari sistem berkas pada HDFS.

Gambar 2.3: Namenode pada HDFS [2]

Namenode membuat sistem direktori dari semua file yang ada di dalam

sistem dan dapat mengetahui bagaimana file tersebut di pecah-pecah menjadi

Universitas Indonesia 9

beberapa blok-blok data serta mengetahui nodes yang menyimpan blok-blok

data tersebut [2].

b. Datanode

Berdasarkan [2] datanode adalah salah satu komponen dari HDFS yang

berfungsi untuk menyimpan dan mengambil kembali data pada slave node

pada setiap permintaan yang dilakukan oleh namenode. Datanode berada pada

setiap slave node pada sebuah cluster yang telah dibuat.

Datanode juga berfungsi untuk membaca dan menulis block pada HDFS

ke file yang sebenarnya pada file system lokal. Sebagai contoh apabila user

ingin membaca atau menulis file ke HDFS, file tersebut akan dipecah menjadi

beberapa blok, kemudian namenode akan memberitahu dimana blok-blok

tersebut berada sehingga datanode dapat membaca dan menulis blok-blok

tersebut ke file yang sebenarnya pada file system [2].

Gambar 2.4: Interaksi antara namenode dan datanote pada HDFS [2]

Dari Gambar 2.4 terlihat bahwa namenode menjaga jalur dari file

metadata dimana setiap file tersebut adalah sebuah sistem yang dipecah-pecah

menjadi beberapa block [2]. Datanode menyimpan backup dari pecahan-

pecahan block tersebut dan secara berkala memberitahu kepada namenode

untuk tetap menjaga jalur dari file metadata. Selama sistem berjalan, datanode

terhubung dengan namenode dan melakukan sebuah handshake. Bedasarkan

Universitas Indonesia 10

[5] handshake ini bertujuan untuk melakukan verifikasi terhadap namespace

ID dan juga software version pada sebuah datanode.

Namespace ID adalah sebuah ID yang muncul ketika pertama kali

melakukan format pada namenode [5]. Namespace ID ini disimpan pada

semua node yang ada pada sebuah cluster. Jika ada node yang memiliki

namespace ID yang berbeda maka node tersebut tidak akan dapat bergabung

pada sebuah cluster. Tujuan adanya namespace ID ini adalah untuk menjaga

integritas dari HDFS.

Sofware version adalah versi software yang digunakan oleh hadoop [5].

Konsistensi pada software version ini sangat penting, karena jika software

version yang digunakan berbeda maka akan menyebabkan file corrupt pada

sebuah sistem. Jika salah satu node memiliki namespace ID dan juga software

version tidak sama dengan nodes yang lain, maka node tersebut tidak akan

terdaftar pada sistem cluster yang ada [5].

c. Secondary Namenode

Bedasarkan [2] secondary namenode adalah daemon yang berfungsi

melakukan monitoring keadaan dari cluster HDFS. Sama seperti namenode,

pada setiap cluster yang ada terdapat satu secondary namenode, yang berada

pada master node. Secondary namenode ini juga berfungsi untuk membantu

dalam meminimalkan down time dan hilangnya data yang terjadi pada HDFS

[2]. Secondary namenode ini sering menimbulkan kesalahpahaman pengertian

bahwa apabila namenode down maka akan langsung digantikan oleh

secondary namenode, padahal secondary namenode ini hanya menyimpan

informasi terbaru dari struktur direktori pada namenode [12]. Jadi jika terjadi

kegagalan yang dilakukan oleh namenode maka dibutuhkan konfigurasi yang

dilakukan oleh user untuk menjadikan secondary namenode sebagai

namenode yang utama.

2.3.2 Kelebihan dan Kekurangan HDFS

Berdasarkan [12] kelebihan dari HDFS adalah adanya kerjasama antara

jobtracker dan tasktracker. Jobtracker mengurangi pekerjaan yang dilakukan oleh

tasktracker dengan memberitahu lokasi data dan memberikan penjadwalan

Universitas Indonesia 11

pekerjaan yang harus dilakukan. Hal ini akan mengurangi intensitas lintas data

yang berjalan pada jaringan dan mencegah transfer data yang tidak perlu,

sehingga dapat berdampak signifikan terhadap spent time dalam menyelesaikan

suatu pekerjaan .

Kekurangan dari HDFS ini berdasarkan [12] adalah master node masih

bersifat Single Point of Failure sehingga apabila master node mati maka data akan

hilang. Salah satu cara untuk mengantisipasi masalah tersebut adalah dengan

membuat cloning dari master node pada server yang berbeda, sehingga apabila

master node utama mengalami masalah, maka langsung dapat digantikan dengan

cloning lainnya.

2.4 MapReduce

MapReduce adalah framework software yang diperkenalkan oleh google dan

digunakan untuk melakukan suatu pekerjaan dari komputasi terdistribusi yang

dijalankan pada sebuah cluster [7]. Map Reduce ini terdiri dari konsep fungsi map

dan reduce yang biasa digunakan pada functional programming [12].

Salah satu program yang menggunakan konsep mapreduce yang dapat

berjalan di hadoop adalah wordcount. Wordcount merupakan program yang

bertujuan untuk menghitung kata pada file berekstensi txt. Proses mapreduce pada

wordcount ini dibagi menjadi 2 tahap yaitu proses mapping dan reducing.

2.4.1 Konsep Dasar MapReduce

Proses mapping: pertama wordcount menginput file txt yang tersimpan pada

direktori HDFS. Kemudian wordcount akan membagi file txt tersebut menjadi

beberapa bagian yang berisikan kata/token yang muncul pada file input dan nilai 1

pada setiap kata yang ada. Gambaran pada saat wordcount melakukan proses

mapping ini dapat dilihat pada Gambar 2.5.

Pada Gambar 2.5 terlihat sebuah file input yang berisikan kata-kata yang

dibagi menjadi beberapa bagian yang berisikan token/kata dan nilai 1 pada setiap

kata yang ada.

Universitas Indonesia 12

Gambar 2.5: Proses mapping [18]

Setelah proses mapping ini selesai maka akan dilanjutkan dengan proses

shuffle yang berfungsi untuk menggabungkan kata-kata yang sama untuk

mempersiapkan proses reducing. Gambaran dari proses shuffle ini dapat dilihat

pada Gambar 2.6.

Gambar 2.6: Proses shuffle [18]

Universitas Indonesia 13

Proses reducing: pada proses ini terjadi penggabungan kata yang sama setelah

proses shuffle dan menghitung jumlah kata yang sama tersebut. Gambaran proses

reducing ini dapat dilihat pada Gambar 2.7.

Gambar 2.7: Proses reducing [18]

Gambaran bagaimana proses mapreduce yang terjadi secara keseluruhan dapat

dilihat pada Gambar 2.8.

Gambar 2.8: Proses mapreduce pada hadoop [19]

Universitas Indonesia 14

Gambar 2.8 menggambarkan sebuah data yang dibagi menjadi beberapa

bagian yang kemudian pada setiap bagian dilakukan proses mapping, dan setelah

proses mapping selesai bagian-bagian data tersebut di acak untuk melalui proses

reducing.

Keuntungan dari mapreduce ini adalah proses map dan reduce yang dapat

diterapkan secara terdistribusi. Pada setiap proses mapping dan proses reducing

bersifat independent sehingga proses dapat dijalankan secara paralel pada waktu

yang sama, selama output dari proses mapping mengirimkan key value yang

sesuai dengan proses reducingnya. Didalam hadoop, mapreduce ini terdiri dari

satu jobtracker dan beberapa tasktracker pada sebuah cluster.

2.4.2 Komponen MapReduce

Mapreduce yang terdapat pada hadoop memiliki 2 komponen utama penting

yaitu:

a. JobTracker

Jobtracker adalah sebuah daemon yang berfungsi untuk memecah

permintaan yang diberikan ke HDFS menjadi beberapa pekerjaan yang lebih

kecil berdasarkan jumlah slave yang ada [2]. Setelah permintaan tersebut

dipecah-pecah menjadi beberapa pekerjaan (jobs), jobtracker ini akan

memberikan pekerjaan-pekerjaan tersebut kepada setiap slave node yang

terdapat di dalam cluster tersebut. Jobtracker ini secara berkala

mengkoordinasi semua pekerjaan yang diberikan kepada tasktracker

menggunakan scheduling task (pengatur tugas), kemudian tasktracker

menjalankan pekerjaan tersebut. Setelah tasktracker menyelesaikan jobs yang

diberikan, maka tasktracker akan meminta jobs yang baru kepada jobtracker.

Gambaran kerja dari jobtracker dapat dilihat pada Gambar 2.9.

Gambar 2.9: Kerja jobtracker pada hadoop [16]

Universitas Indonesia 15

b. TaskTracker

Tasktracker adalah sebuah daemon yang berfungsi untuk menerima

pekerjaan yang diberikan oleh jobtracker dan kemudian menjalankan

pekerjaan tersebut ke dalam JVM yang terpisah. Dengan menjalakan

pekerjaan tersebut ke dalam JVM yang terpisah, maka hal ini akan

mengurangi beban pekerjaan yang dilakukan secara paralel yang diberikan

oleh jobtracker.

Gambar 2.10: Kerja tasktracker pada setiap node [2]

Gambar 2.10 menggambarkan bagaimana sebuah jobtracker

berkomunikasi dengan beberapa tasktracker yang pada masing-masing

tasktracker melakukan proses mapreduce. Secara konstan tasktracker ini terus

berkomunikasi dengan jobtracker dengan memberikan laporan setiap proses

yang telah dilakukan. Jika jobtracker gagal menerima hasil perkerjaan yang

dilakukan oleh tasktracker, maka jobtracker akan mengirimkan kembali

pekerjaan tersebut kepada node lain pada cluster tersebut untuk dikerjakan

ulang.

Universitas Indonesia 16

BAB 3

PERANCANGAN

Pada bab ini akan dibahas mengenai perancangan sebuah cluster yang terdiri

dari 3 node yang terdapat pada VMWare Workstation 10 untuk menjalankan

program wordcount yang menggunakan teknologi mapreduce pada hadoop secara

paralel, serta bagaimana cara membagi file menjadi beberapa block size pada

HDFS dengan beberapa ukuran yang telah ditentukan yaitu 64 MB, 128 MB, 192

MB, 256 MB, 320 MB dan 384 MB.

3.1 Wordcount

Wordcount adalah program yang bertujuan untuk menghitung jumlah token

pada satu atau beberapa file berekstensi txt. Token yang dihitung mencakup

rangkaian huruf (kata) dan angka serta simbol yang tidak terpisah oleh spasi.

Program wordcount ini cocok dijalankan pada hadoop karena program ini

menggunakan konsep mapreduce yang dapat dijalankan pada beberapa komputer

(cluster). Berikut ini merupakan pseudocode dari wordcount:

while: ada token selanjutnya

simpan token

if: token belum pernah ada dalam memori

beri nilai 1 pada token

else:

tambah nilai yang sudah ada dengan 1

Output pada program wordcount ini adalah daftar token yang ada pada file input

beserta jumlah setiap token yang ada pada file tersebut.

3.2 Penjelasan Rancangan

Rancangan yang telah dibuat adalah menggunakan sebuah software yang

mendukung PC untuk melakukan virtualisasi yaitu VMWare Workstation 10.

VMWare Workstation 10 ini diinstall pada sebuah PC yang menjalankan sebuah

sistem operasi Linux Mint dan kemudian PC tersebut menjalankan tiga virtual

Universitas Indonesia 17

machine secara bersamaan. Spesifikasi PC (host) dan masing-masing virtual

machine yang dijalankan dapat dilihat pada Tabel 3.1.

Tabel 3.1: Spesifikasi rancangan

Pada masing-masing virtual machine yang ada diberikan hadoop versi 1.2.1

untuk dijalankan secara paralel. Pada Gambar 3.1 terdapat gambaran umum dari

rancangan yang telah dibuat.

Gambar 3.1: Rancangan percobaan

Pada Gambar 3.1 dapat dilihat VM 1 bertindak sebagai master node,

kemudian VM 2 dan VM 3 bertindak sebagai slave nodes. Virtual machine yang

bertindak sebagai master node melakukan kontrol terhadap slave nodes di dalam

sebuah cluster. Sedangkan slave nodes berfungsi untuk menjalankan perintah

yang diberikan oleh master node. Jika dilihat dari aksitektur hadoop sendiri

rancangan yang dibuat digambarkan pada Gambar 3.2.

Spesifikasi Host VM 1 VM 2 VM 3

Processor Intel ® Core ™ i7-2600 One Core One Core One Core

RAM 4.00 GB 1.00 GB 1.00 GB 1.00 GB

System Operation Linux Mint 13 CentOS CentOS CentOS

Universitas Indonesia 18

Gambar 3.2: Rancangan dilihat dari arsitektur hadoop [6]

Pada Gambar 3.2 dapat dilihat bahwa pada percobaan ini master node

menjalankan komponen namenode dan jobtracker sedangkan slave node

menjalankan komponen datanode dan tasktracker.

3.3 Menentukan Block Size pada HDFS

Secara default hadoop membagi file menjadi beberapa block dengan ukuran

64 MB pada setiap block. Akan tetapi blok-blok tersebut dapat diubah-ubah

ukurannya dengan menggunakan dua cara, yaitu dengan cara melakukan

konfigurasi pada pada hdfs-site.xml atau dengan melakukan pembagian pada saat

mengcopy file dari local file system ke dalam HDFS. Cara pertama dapat

dilakukan dengan cara memasukkan konfigurasi yang ada pada Tabel 3.2.

Tabel 3.2: Konfigurasi block size pada hdfs-site.xml

hdfs-site.xml pada master node hdfs-site.xml pada slave node

<configuration> <configuration>

<property> <property>

<name>dfs.block.size</name> <name>dfs.block.size</name>

<value>67108864</value> <value>67108864</value>

</property> </property>

</configuration> </configuration>

Universitas Indonesia 19

Besar yang terdapat pada tag value menunjukan ukuran block dalam bytes

pada hadoop. Besar nilai pada tag value dapat diganti sesuai dengan keinginan

pada saat sebelum menjalankan hadoop.

Cara kedua dapat dilakukan pada saat setelah menjalankan hadoop, yaitu

dengan cara memasukkan command line pada terminal sebagai berikut:

$hadoop fs -D dfs.block.size=67108864 -put /local disk /hadoop

file system

Fungsi dari command line ini adalah membagi file menjadi beberapa block

sesuai dengan parameter pada dfs.blcok.size yang diinginkan dan mengcopy file

tersebut dari local disk ke dalam hdfs. Pada percobaan ini cara yang dilakukan

adalah menggunakan cara kedua dalam mengatur ukuran block pada HDFS.

Pada percobaan ini, pengaturan ukuran block dilakukan pada beberapa ukuran

file yaitu file dengan ukuran 512 MB, 1 GB, 1.5 GB, dan 2 GB. Pada setiap file

tersebut dilakukan pengaturan besar block size dengan ukuran yang berbeda-beda

yaitu 64 MB, 128 MB, 192 MB, 256 MB, 320 MB dan 384 MB.

Universitas Indonesia 20

BAB 4

HASIL PERCOBAAN & ANALISA

4.1 Hasil Percobaan

Pada seminar ini dilakukan percobaan dengan menggunakan empat ukuran

file yang masing-masing memiliki ukuran yang berbeda-beda yaitu 512 MB, 1

GB, 1.5 GB, dan 2 GB kemudian pada setiap file tersebut akan dilakukan

pengubahan parameter ukuran block pada HDFS menjadi beberapa ukuran block

yang berbeda-beda yaitu 64 MB, 128 MB, 192 MB, 256 MB, 320 MB, dan 384

MB. Hasil yang diperoleh pada setiap file tersebut merupakan rata-rata dari 3 kali

pengambilan data pada setiap block size. Hasil dari percobaan yang dilakukan

adalah sebagai berikut:

a. Percobaan pertama dengan ukuran file 512 MB:

Percobaan pertama dilakukan dengan membagi file yang memiliki ukuran

512 MB menjadi beberapa block size, kemudian mencatat waktu yang

dibutuhkan untuk melakukan proses mapreduce pada setiap block size.

Percobaan dilakukan sebanyak 3 kali dan hasil percobaan yang diambil adalah

rata-rata waktu dari hasil 3 kali percobaan yang dilakukan pada setiap block

size. Hasil dari percobaan pertama ini dapat dilihat pada Tabel 4.1 dan

Gambar 4.1.

Tabel 4.1: Hasil percobaan dengan ukuran file 512 MB

Block Size

(MB)

Percobaan 1

(ms)

Percobaan 2

(ms)

Percobaan 3

(ms)

Rata-Rata

(ms)

64 153530 153530 153530 153530

128 141430 141430 141430 141430

192 133350 133350 133350 133350

256 131800 131800 131800 131800

320 129060 129060 129050 129057

384 128180 128170 128180 128177

Universitas Indonesia 21

Gambar 4.1: Grafik efek dari HDFS block size pada ukuran file 512 MB

Data pada Tabel 4.1 dapat menghasilkan data persentase penurunan waktu

proses mapreduce pada saat setiap perubahan block size yang dilakukan. Data

persentase tersebut dapat dilihat pada Tabel 4.2.

Tabel 4.2: Persentase penurunan waktu proses mapreduce pada ukuran file 512 MB

Block Size (MB) Penurunan Waktu

Proses MapReduce I II

64 128 7.88%

128 192 5.71%

192 256 1.16%

256 320 2.08%

320 384 0.68%

Rata-Rata 3.50%

Dari hasil percobaan yang dilakukan pada file yang memiliki ukuran 512

MB dapat disimpulkan dengan memperbesar block size pada HDFS akan

meningkatkan kecepatan proses mapreduce pada hadoop dengan rata-rata

penurunan waktu proses sebesar 3.50%.

b. Percobaan kedua dengan ukuran file 1 GB

153530

141430

133350131800

129057 128177125000

130000

135000

140000

145000

150000

155000

0 64 128 192 256 320 384 448

Sp

ent

Tim

e (

ms)

Block Size (MB)

Effect of HDFS Block Size

Universitas Indonesia 22

Percobaan kedua dilakukan dengan membagi file yang memiliki ukuran 1

GB menjadi beberapa block size, kemudian mencatat waktu yang dibutuhkan

untuk melakukan proses mapreduce pada setiap block size. Percobaan

dilakukan sebanyak 3 kali dan hasil percobaan yang diambil adalah rata-rata

dari hasil 3 kali percobaan yang dilakukan pada setiap block size. Hasil

percobaan kedua ini dapat dilihat pada Tabel 4.3 dan Gambar 4.2.

Tabel 4.3: Hasil percobaan dengan ukuran file 1 GB

Block Size

(MB)

Percobaan 1

(ms)

Percobaan 2

(ms)

Percobaan 3

(ms)

Rata-Rata

(ms)

64 281220 281220 281220 281220

128 271790 271790 271790 271790

192 249320 249320 249320 249320

256 237850 237850 237850 237850

320 234240 234240 234240 234240

384 231220 231220 231220 231220

Gambar 4.2: Grafik efek dari HDFS block size pada ukuran file 1 GB

Data pada Tabel 4.3 dapat menghasilkan data persentase penurunan waktu

proses mapreduce pada saat setiap perubahan block size yang dilakukan. Data

persentase tersebut dapat dilihat pada Tabel 4.4.

281220 271790249320

237850 234240 231220

0

50000

100000

150000

200000

250000

300000

0 64 128 192 256 320 384 448

Sp

ent

Tim

e (m

s)

Block Size (MB)

Effect of Block Size HDFS

Universitas Indonesia 23

Tabel 4.4: Persentase penurunan waktu proses mapreduce pada ukuran file 1 GB

Block Size (MB) Penurunan Waktu

Proses MapReduce I II

64 128 3.35%

128 192 8.27%

192 256 4.60%

256 320 1.52%

320 384 1.29%

Rata-Rata 3.81%

Dari hasil percobaan yang dilakukan pada file yang memiliki ukuran 1 GB

dapat disimpulkan dengan memperbesar block size pada HDFS akan

meningkatkan kecepatan proses mapreduce pada hadoop dengan rata-rata

penurunan waktu proses sebesar 3.81%.

c. Percobaan ketiga dengan ukuran file 1.5 GB

Percobaan ketiga dilakukan dengan membagi file yang memiliki ukuran

1.5 GB menjadi beberapa block size, kemudian mencatat waktu yang

dibutuhkan untuk melakukan proses mapreduce pada setiap block size.

Percobaan dilakukan sebanyak 3 kali dan hasil percobaan yang diambil adalah

rata-rata dari hasil 3 kali percobaan yang dilakukan pada setiap block size.

Hasil percobaan ketiga ini dapat dilihat pada Tabel 4.5 dan Gambar 4.3.

Tabel 4.5: Hasil percobaan dengan ukuran file 1.5 GB

Block Size

(MB)

Percobaan 1

(ms)

Percobaan 2

(ms)

Percobaan 3

(ms)

Rata-Rata

(ms)

64 435760 435760 435760 435760

128 434700 434710 434700 434703

192 386760 386760 386760 386760

256 368230 368230 368230 368230

320 361270 361270 361250 361263

384 351650 351650 351650 351650

Universitas Indonesia 24

Gambar 4.3: Grafik efek dari HDFS block size pada ukuran file 1.5 GB

Data pada Tabel 4.5 dapat menghasilkan data persentase penurunan waktu

proses mapreduce pada saat setiap perubahan block size yang dilakukan. Data

persentase tersebut dapat dilihat pada Tabel 4.6.

Tabel 4.6: Persentase penurunan waktu proses mapreduce pada ukuran file 1.5 GB

Block Size (MB) Penurunan Waktu

Proses MapReduce I II

64 128 0.24%

128 192 11.03%

192 256 4.79%

256 320 1.89%

320 384 2.66%

Rata-Rata 4.12%

Dari hasil percobaan yang dilakukan pada file yang memiliki ukuran 1.5

GB dapat disimpulkan dengan memperbesar block size pada HDFS akan

meningkatkan kecepatan proses mapreduce pada hadoop dengan rata-rata

penurunan waktu proses sebesar 4.12%.

435760 434703

386760368230 361263 351650

0

50000

100000

150000

200000

250000

300000

350000

400000

450000

500000

0 64 128 192 256 320 384 448

Sp

ent

Tim

e (m

s)

Block Size (MB)

Effect of Block Size HDFS

Universitas Indonesia 25

d. Percobaan keempat dengan ukuran file 2 GB

Percobaan keempat dilakukan dengan membagi file yang memiliki ukuran

2 GB menjadi beberapa block size, kemudian mencatat waktu yang dibutuhkan

untuk melakukan proses mapreduce pada setiap block size. Percobaan

dilakukan sebanyak 3 kali dan hasil percobaan yang diambil adalah rata-rata

dari hasil 3 kali percobaan yang dilakukan pada setiap block size. Hasil

percobaan keempat ini dapat dilihat pada Tabel 4.7 dan Gambar 4.4.

Tabel 4.7: Hasil percobaan dengan ukuran file 2 GB

Block Size

(MB)

Percobaan 1

(ms)

Percobaan 2

(ms)

Percobaan

3 (ms)

Rata-

Rata (ms)

64 616120 616130 616120 616123

128 589520 589520 589520 589520

192 584390 584390 584370 584383

256 575130 575130 575130 575130

320 567450 567450 567450 567450

384 561580 561560 561580 561573

Gambar 4.4: Grafik efek dari HDFS block size pada ukuran file 2 GB

Data pada Tabel 4.7 dapat menghasilkan data persentase penurunan waktu

pada saat setiap perubahan block size yang dilakukan. Data persentase tersebut

dapat dilihat pada Tabel 4.8.

616123

589520

584383

575130

567450

561573

550000

560000

570000

580000

590000

600000

610000

620000

0 64 128 192 256 320 384 448

Sp

ent

Tim

e (m

s)

Block Size (MB)

Effect of Block Size HDFS

Universitas Indonesia 26

Tabel 4.8: Persentase penurunan waktu proses mapreduce pada ukuran file 2 GB

Block Size (MB) Penurunan Waktu

Proses MapReduce I II

64 128 4.32%

128 192 0.87%

192 256 1.58%

256 320 1.34%

320 384 1.04%

Rata-Rata 1.83%

Dari hasil percobaan yang dilakukan pada file yang memiliki ukuran 2 GB

dapat disimpulkan dengan memperbesar block size pada HDFS akan

meningkatkan kecepatan proses mapreduce pada hadoop dengan rata-rata

penurunan waktu proses sebesar 1.83%.

Dari semua percobaan yang dilakukan pada 4 file dengan ukuran masing-

masing file yaitu 512 MB, 1 GB, 1.5 GB, dan 2 GB dapat diperoleh data rata-

rata penurunan waktu proses mapreduce untuk semua ukuran file tersebut

apabila dilakukan perubahan pada parameter block size. Data tersebut dapat

dilihat pada Tabel 4.9.

Tabel 4.9: Persentase rata-rata penurunan waktu proses mapreduce pada semua ukuran file

Ukuran File Rata-Rata Penurunan Waktu

Proses MapReduce

512 MB 1.83%

1 GB 3.81%

1.5 GB 4.12%

2 GB 1.83%

Rata-Rata 2.90%

Dari Tabel 4.9 dapat terlihat bahwa rata-rata penurunan waktu proses

mapreduce untuk file dengan ukuran 512 MB, 1 GB, 1.5 GB, dan 2 GB

apabila dilakukan pengubahan pada parameter block size mencapai 2.90%.

Universitas Indonesia 27

4.2 Analisa

Dari hasil percobaan yang dilakukan pada setiap file terlihat bahwa

pengubahan parameter block size pada file tersebut dapat memberikan efek pada

kecepatan proses mapreduce pada hadoop yaitu jika semakin besar block size

maka kecepatan proses mapreduce semakin cepat. Jika kita memperbesar ukuran

block maka file tersebut akan memiliki jumlah block yang lebih sedikit, hal ini

dapat dijelaskan sebagai berikut:

a. File 512 MB dengan ukuran block 64 MB

Gambar 4.5: Ukuran block 64 MB pada file 512 MB

Pada Gambar 4.5 terlihat bahwa jika file dengan ukuran 512 MB dibagi

menjadi beberapa block dengan ukuran masing-masing block 64 MB akan

menghasilkan 6 block.

b. File 512 MB dengan ukuran block 128 MB:

Gambar 4.6: Ukuran block 128 MB pada file 512 MB

Pada Gambar 4.6 terlihat bahwa jika file dengan ukuran 512 MB dibagi

menjadi beberapa block dengan ukuran masing-masing block 64 MB akan

menghasilkan 4 block. Jika jumlah block semakin sedikit, maka akan

mengurangi ukuran metadata dari namenode sehingga mengurangi kerja dari

namenode. Hal ini dapat menjadi pertimbangan penting untuk file system

yang sangat besar. Selain itu dengan jumlah block yang lebih sedikit, hal ini

akan memudahkan scheduler mapreduce dalam menjadwalkan tugas yang

Universitas Indonesia 28

diberikan sehingga dapat mengurangi kerja dari scheduler mapreduce dan

namenode.

Universitas Indonesia 29

BAB 5

KESIMPULAN

Dari seluruh percobaan yang telah dilakukan dapat diambil kesimpulan bahwa:

1. Semakin besar block size pada HDFS maka kecepatan proses mapreduce pada

saat menjalankan program wordcount akan semakin cepat dengan rata-rata

persentase penurunan waktu proses mapreduce pada setiap filenya mencapai

2.90%.

2. Jika memperbesar block size pada HDFS maka jumlah block pada HDFS akan

menjadi berkurang sehingga menghasilkan jumlah metadata yang lebih

sedikit, hal ini dapat mengurangi kerja dari namenode pada sebuah cluster

dan spent time pada CPU pada saat melakukan proses mapreduce.

3. Jumlah block yang lebih sedikit pada HDFS akan memudahkan scheduler

mapreduce dalam menjadwalkan tugas yang diberikan sehingga dapat

mengurangi kerja dari scheduler mapreduce dan namenode.

Universitas Indonesia 30

DAFTAR PUSTAKA

[1] Leslie Lamport and Nancy Lynch. Chapter on Distributed Computing.

February 3, 1989.

[2] Chuck Lam. Hadoop In Action. Mainning Publications Co, Stamford,

2011.

[3] Tom White. Hadoop: The Definitive Guide. O’Reilly, Scbastopol,

California, 2009.

[4] Garry Turkington. Hadoop Beginner's Guide. Packt Publishing,

Birmingham, 2013.

[5] Shv, Hairong, SRadia, Chansler. The Hadoop Distributed File System.

Sunnyvale, California USA, IEEE, 2010.

[6] Intel Corporation. Optimizing Java* and Apache Hadoop* for Intel®

Architecture. Intel Corporation, USA, 2013.

[7] Apache TM Hadoop @ homepage, http://hadoop.apache.org/.

[8] JeongJin Cheon, Tae-Young Choe. Distributed Processing of Snort Alert

Log using Hadoop. International Journal of Engineering and Technology

(IJET), Gyeongbuk Korea, 2013.

[9] Aditya B. Patel, Manashvi Birla, Ushma Nair. Addressing Big Data

Problem Using Hadoop and Map Reduce. Nirma University International

Conference On Engineering, 2012.

[10] Amit Anand. Configuration Parameters dfs.Block.Size. Hadoop, 2013.

[11] Dima May. Hadoop Distributed File System (HDFS) Overview.

coreservlets.com, 2012.

[12] Magang Industri--Meruvian.org Cloud Computing.

[13] Colin White. MapReduce and the Data Scientist. BI Research, January

2012.

[14] Tutorial Single Node Hadoop. http://www.michael-

noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/

[15] Tutorial Multinode Hadoop. http://www.michael-

noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/

[16] Map Reduce.http://www.yalescientific.org/2012/03/hadapt-yale-startup/

Universitas Indonesia 31

[17] Interaction between the JobTracker, TaskTracker and the Scheduler @

homepage, http://www.thecloudavenue.com/2011/11/interaction-between-

jobtracker.html.

[18] Map Reduce, The overall MapReduce wordcount process,

http://www.rabidgremlin.com/data20/#%283%29.

[19] Thinking in MapReduce, https://engineering.cerner.com/2013/07/thinking-

in-mapreduce/.


Recommended