Post on 08-Jan-2020
transcript
NASKAH PUBLIKASI
ANALISIS BIGDATA DATA LOG WEBSITE DENGAN METODE
MAPREDUCE
Disusun Oleh
Nama : Nopezi Saputra Pratama
Nomor Mahasiswa : 12141421
Program Studi : Teknik Informatika
Jenjang : Strata 1
SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN ILMU KOMPUTER
EL RAHMA
YOGYAKARTA
2018
ABSTRACT
ANALYSIS OF BIG DATA LOG WEBSITE WITH METHOD
MAPREDUCE
By
NOPEZI SAPUTRA PRATAMA
12141421
Through information technology, billions of bytes of data are created every day
from various sources, such as social media, video, music, smartphones and computers.
This data stack leads to a collection of Big Data. Data has an important role in strategic
decision making, therefore those who are able to process and utilize existing data in large,
fast and diverse capacities can certainly take great advantage. Including on a website that
has its own hosting or vps, there is a log file that stores every track record of the activity
of the website, so that if it is not processed and managed properly, the longer it will
accumulate so that it can cause a full disk on the hosting or vps that. For this reason, the
log data file is used to be analyzed using one of the Big Data Hadoop technology
developments, cloudera.
The study begins with the use of files containing log data from websites which are
then analyzed using hue which is one application of the cloudera platform from the
development of hadoop-based technology with the programming model or the
MapReduce method. The log file is converted into a CSV file which is then imported
directly into the UI UI that enters into 2 ways, saves it in the Hive database and is saved
into the HDFS system or where the file is stored in the Hadoop
The results of the log data analysis produce information about Big data in this case
the log data contained in a website or server in the hope that it can inspire wider
application of Big Data technology and the log files can be utilized to produce useful
information from the analysis process. generated from the log data.
Keyword : Big Data, byte, hue, cloudera, mapreduce, hadoop, hue UI
ABSTRAK
ANALISIS BIG DATA LOG WEBSITE DENGAN METODE
MAPREDUCE
Oleh
NOPEZI SAPUTRA PRATAMA
12141421
Melalui teknologi informasi, milyaran byte data diciptakan setiap hari dari berbagai
sumber, seperti media social, video, music, smartphone dan computer. Tumpukan data ini
merngarah kepada satu kumpulan Big Data. Data memiliki peran penting dalam
pengambilan keputusan strategis, oleh karena itu pihak yang mampu mengolah dan
memanfaatkan data-data yang ada dalam kapasitas yang besar, cepat dan beragam tentu
dapat mengambil keuntungan yang besar. Termasuk pada sebuah website yang memiliki
hosting atau vps sendiri, terdapat sebuah file log yang menyimpan setiap rekam jejak dari
aktivitas website tersebut, sehingga jika tidak di olah dan dikelola dengan baik, maka
semakin lama akan semakin menumpuk sehingga dapat menyebabkan penuhnya disk
pada hosting atau vps tersebut. Untuk itulah file data log tersebut di gunakan untuk
dianalisa menggunakan salah satu pengembangan teknologi Big Data hadoop yakni
cloudera.
Penelitian diawali dengan penggunaan file yang berisi data log dari website yang
kemudian dianalisis menggunakan hue yang merupakan salah satu aplikasi dari platform
cloudera dari perkembangan teknologi berbasis hadoop dengan model pemograman atau
metode MapReduce. File log tersebut di ubah menjadi file csv dimana kemudian langsung
di import pada hue UI yang masuk kedalam 2 cara, menyimpan kedalam database hive
dan disimpan kedalam HDFS system atau tempat penyimpanan file pada hadoop
Hasil dari Analisis data log tersebut menghasilkan informasi mengenai Big data
dalam hal ini data log yang terdapat pada sebuah website atau server dengan harapan
dapat menggugah penerapan teknologi Big Data secara lebih luas serta file log tersebut
dapat dimanfaatkan hingga menghasilkan sebuah informasi yang berguna dari proses
analisis yang dihasilkan dari data log tersebut.
Kata kunci : Big Data, byte, hue, cloudera, mapreduce, hadoop, hue UI
I. PENDAHULUAN
Pada zaman serba canggih sekarang ini, sebagian besar komponen digital
teknologi yang ada, pasti menyimpan banyak data yang berasal dari setiap
aktifitas kehidupan kita, misalkan foto yang kita ambil, video yang direkam, status
di akun media social, dan lain lain. Dengan didukung trend teknologi yang
membuat smart semua perangkat elektronik dengan menghasilkan data kemudian
diolah agar bisa memberikan rekomendasi atau keputusan terbaik. Sehingga
membutuhkan tempat penyimpanan data yang sangat besar untuk data yang
dihasilkan dari perangkat elektronik.
Di Indonesia sendiri, penggunaan media elektronik seperti computer dan
handphone yang terakses dengan jaringan internet, tiap tahun semakin meningkat
drastic, dari kalangan anak-anak hingga orang tua pun mengakses internet. Hal ini
menunjukkan bahwa kebutuhan dan penggunaan teknologi oleh masyarakat saat
ini sangat meningkat. Akses dunia maya pun menjadi ramai terutama pada
website, setiap apapun yang dicari di google akan muncul beberapa website yang
menyediakan informasi yang dicari pada halaman kolom pertama. namun
sebenarnya ada ribuan website menyediakan informasi yang kita cari, tapi
mengapa yang muncul dihalaman pertama hanya beberapa website saja, tidak lain
karena website yang muncul pada halaman pertama merupakan website yang
paling ramai pengunjungnya.
Website tidak akan muncul jika tidak ada sebuah wadah didalamnya yaitu
sebuah server hosting. Disetiap server, pasti memiliki sebuah file log yang
bertugas untuk mencatat semua aktifitas pada web tersebut. Namun terkadang file
log tersebut tidak di gunakan secara optimal sehingga sering file log menjadi
sebuah file yang hanya memenuhi ruang space disk yang tidak digunakan hingga
akhirnya file tersebut dihapus.
Teknologi big data menjadi salah satu solusi untuk menyimpan data dan
mampu mengolah data salah satunya data log server. Yang memakai Hadoop agar
dapat menyimpan serta menganalisis data dalam skala besar tanpa memperhatikan
struktur dari data (Kementerian komunikasi dan Informatika, 2015) serta dapat
mengolah data dari file log server tersebut menjadi file yang lebih bermanfaat
bagi pemilik web maupun server.
Berdasarkan uraian tersebut, perlu adanya solusi guna mengatasi berbagai
masalah data tersebut. Salah satunya yakni dengan menggunakan salah satu dari
platform big data analitics yakni analisis data yang digunakan untuk data log
yang dengan sistem pengolahan data yang lebih terstruktur sehingga menjadi file
yang lebih berguna. Berhubungan dengan hal tersebut, penulis membuat analisis
dengan tema “ANALISIS BIG DATA LOG WEB DENGAN METODE
MAPREDUCE”.
II. TINJAUAN PUSTAKA
(Kusumanegara, 2014) yang meneliti tentang analisis performa kecepatan
MapReduce, dengan menganalsis aliran paket yang terdapat pada sebuah jaringan.
lalu aliran paket data pada jaringan tesebut dianalisis menggunakan hadoop yang
di dalamnya menggunakan model pemograman MapReduce. Tujuan dari
penelitian tersebut untuk mengimplementasikan sebuah program untuk mengolah
data aliran paket TCP pada sebuah jaringan yang dapat dijalankan secara
terdistribusi oleh hadoop. Sehingga menyimpulkan bahwa Apache hadoop
merupakan framework big data yang mampu menyimpan data tanpa
memperhatikan jenis data. Model pemograman yang dilakukan pada penelitian
tersebut, sama dengan penelitian yang dilakukan yakni sama-sama menggunakan
model pemograman MapReduce. Namun perbedaannya terlihat dari penggunaan
model pemorgaman MapReduce yang hanya digunakan untuk ,menganalisis aliran
data paket data TCP pada sebuah jaringan sedangkan penelitian yang dilakukan
menggunakan model pemograman MapReduce untuk menganalisis data log
server.
Pada penelitian kedua, (Purnama, 2014) meneliti tentang sentiment analisis
yang berbasis Big Data, dalam hal ini untuk mensorting pesan teks bahasa
Indonesia dari media social seperti Twitter atau Facebook, yang terdapat kata-kata
tidak formal sepeti penggunaan angka untuk mengganti alphabet, karakter
berulang vocal, dan menggunakan kata-kata informal yang umum menjadi kata-
kata resmi. hingga kemudian menyimpulkan bahwa sentiment analysis sangat
penting untuk mengetahui sejauh mana data keluhan masyarakat terhadap
pembangunan serta digunakan sebagai alat bantu untuk melihat respon masyarakat
terhadap pembangunan kota. Persamaan dari penelitian pertama dan kedua dengan
penelitian ini adalah sama-sama menggunakan Hadoop yang salah satu teknologi
dari Big Data, Adapun perbedaannya, penelitian pertama menggunakan model
pemograman MapReduce untuk menganalisis aliran paket data TCP pada
jaringan, pada penelitian kedua tidak menggunakan model pemograman
mapReduce, hanya melakukan sentiment analisis pada sebuah data, sedangkan
pada penelitian yang akan dilakukan menggunakan model pemograman
MpReduce untuk menganalisis data log server.
Pada penelitian ketiga, (Karya & Wijaya, 2015) merancang penelitian,
bagaimana penggunaan teknologi Hadoop yang digunakan pada sistem aplikasi.
Penelitian yangdilakukan lebih kepada pemahaman konsep Hadoop beserta
teknologi turunanya, dalam hal ini, perancang menerapkan prosessing hadoop
pada kasus aplikasi pembukuan UMK, yang kemudian menghasilkan data dari
hasil prosessing analisa dari penggunaan teknologi hadoop. Persamaan dari
penelitian pertama, penelitian kedua dan penelitian ketiga dengan penelitian yang
dilakukan yakni menggunakan Hadoop yang salah satu teknologi dari Big Data.
Adapun perbedaannya, penelitian pertama menggunakan model pemograman
MapReduce untuk menganalisa performa kecepatan data paket jaringan, penelitian
kedua tidak menggunakan model pemograman mapReduce, hanya melakukan
sentiment analisis pada sebuah data, penelitian ketiga menggunakan Hadoop
beserta seluruh komponennya seperti Spark untuk menganalisa sistem pada
android, yang terlihat agak berbeda dengan penelitian yang akan dilakukan,
dimana teknologi Big Data hadoop serta MapReduce yang digunakan hanya untuk
menganalisa data log server
Pada penelitian keempat, Data memiliki peran penting dalam pengambilan
keputusan strategis. Menurut (Vione, 2016) dalam penelitiannya tentang
Implementasi K-Means Clustering pada lingkungan Big Data menggunakan
model pemograman Mapreduce, pihak yang mampu mengelolah dan
memanfaatkan data-data yang tersedia dalam volume besar, cepat dan beragam
tentu dapat mengambil keuntungan yang besar. Menurutnya Semakin banyak
jumlah slave node maka semakin cepat proses komputasi. Persamaan dari
penelitian ini dengan penelitian yang sebelumnya dari penelitian pertama,
penelitian kedua, penelitian ketiga, penelitian keempat serta penelitian yang akan
dilakukan yakni, penggunaan teknologi Big data baik Hadoop maupun Spark
untuk menganalisis suatu data, Adapun perbedaaannya, penelitian pertama
menggunakan MapReduce yang merupakan model pemograman dari Hadoop
untuk menganalisa performa kecepatan dari paket data jaringan, penelitian kedua
menggunakan teknologi Hadoop untuk menganalisa sentiment dari Big Data,
penelitian ketiga menggunakan Hadoop beserta seluruh komponennya seperti
Spark untuk menganalisa sistem pada android, penelitian keempat menggunakan
model pemrogaman MapReduce untuk menghitung K-Means secara manual,
sedangkan penelitian yang akan dilakukan menggunakan model pemrograman
MpReduce untuk menganalisis data log pada server.
Pada penelitian terakhir, (Tumbel, Sitempu, & Hutagalung, 2017)
merancang sebuah penelitian untuk menganalisis Big Data yang berbasis Stream
prosessing. Dalam penelitian tersebut, perancang menggunakan data file CSV
yang diolah pada proses Spark Streamming. dengan berbagai macam tahapan yang
kemudian menghasilkan beberapa statistic dari hasil proses analisis data tersebut.
Persamaan dari penelitian ini dengan penelitian yang sebelumnya dari penelitian
pertama, penelitian kedua, penelitian ketiga, penelitian keempat serta penelitian
yang akan dilakukan yakni, penggunaan teknologi Big data baik Hadoop maupun
Spark untuk menganalisis suatu data. Adapun perbedaaannya, penelitian pertama
menggunakan MapReduce yang merupakan model pemograman dari Hadoop
untuk menganalisa performa kecepatan dari paket data jaringan, penelitian kedua
menggunakan teknologi Hadoop untuk menganalisa sentiment dari Big Data,
penelitian ketiga menggunakan Hadoop beserta seluruh komponennya seperti
Spark untuk menganalisa sistem pada android, penelitian keempat menggunakan
model pemrogaman MapReduce untuk menghitung K-Means secara manual,
penelitian kelima menggunakan teknologi Big data namun tidak menggunakan
Hadoop seperti pada penelitian yang akan dilakukan menggunakan hadoop dan
model pemograman mapReduce untuk melakukan analisis data log.
Adapun ringkasan dari penelitian yang akan dilakukan yakni penggunaan aplikasi
yang terdapat pada cloudera yang merupakan pengembangan dari teknologi big
data dalam hal ini hadoop untuk menganalisis sebuah data pada server website
guna menghasilkan file yang berisi informasi tentang website tersebut.
III. LANDASAN TEORI
3.1 BigData
Istilah Big Data telah menjadi topik dominan dan sangat dibahas dalam
dunia IT. Banyak pihak yang heran mengapa topic ini baru menjadi pusat
perhatian padahal ledakan informasi telah terjadi secara terus menerus sejak
dimulainya era informasi. Secara bahasa Big Data berarti suatu data dengan
kapasitas yang besar. Kebanyakan perusahaan-perusahaan terkenal pada saat ini
telah meberdayakan informasi dan data dengan beragam teknologi manajemen
data guna menunjang kemajuan bisnisnya. Dalam defenisinya, Big Data adalah
suatu sistem yang menggunakan NoSQL dalam memproses atau mengolah data
yang berukuran sangat besar, misalnya dalam skala petabyte. Namun selain itu
Big Data memiliki arti yang lebih kompleks sehingga perlu definisi yang sedikit
lebih kompleks pula demi mendeskripsikannya secara menyeluruh. Salah satu
defenisi Big Data yaitu data yang sudah sangat sulit untuk dikoleksi, disimpan,
dikelola maupun dianalisa dengan menggunakan sistem database biasa karena
volumenya yang terus berlipat. Big Data memiliki tiga karakteristik/atribut yang
dikenal dengan istilah 3V: Volume, Variety, Velocity.
3.2 Mapreduce
MapReduce merupakan model pemograman untuk mengimplementasikan
komputasi data yang terdistribusi pada sejumlah data yang besar beserta
framework yang besar pula. Proses pengolahan data pada beberapa kelompok
server komoditas. Pada awalnya dikembangkan oleh google dan dibangun di atas
prinsip-prinsip terkenal dalam beberapa proses parallel yang terdistribusi dalam
beberapa waktu (Lin & Dyer, 2010). MapReduce waktu itu telah banyak
digunakan secara luar dan di adobsi melalui sistem implementasi open source
yang akhir nya dikembangkan menjadi Hadoop, yang dalam perkembangannya
dipimpin oleh pihak Yahoo (sekarang menjadi proyek Apache). Hari ini beberapa
penyedia software mulai bermunculan guna mensupport hadoop, yang merupakan
proyek yang sangat berpengaruh bagi perkembangan industry dan akademik.
Proses map bertugas untuk mengumpulkan informasi dari potongan-potongan data
yang terdistribusi dalam tiap computer dalam cluster. Hasilnya diserahkan kepada
proses Reduce untuk di proses lebih lanjut. Hasil proses Reduce merupakan hasil
akhir yang dikirim ke pengguna.
IV. RANCANGAN PENELITIAN
Mapreduce merupakan sebuah model pemograman untuk pemrosesan data.
Model ini cukup sederhana namun tidak terlalu sederhana dalam menjalankan
program tertentu, karena pada dasarnya mapreduce bersifat parallel sehingga
sangat efisien dalam menganalisa data berskala besar. Prosesnya adalah
melakukan mapping atau pemetaan suatu reduce yakni pengurangan atau
penggabungan data-data yang sama. Sedangkan detail dari proses map dan
reducenya tergantung dari data apa yang ingin didapatkan. Mapreduce dipilih
sebagai metode pada penelitian kali ini karena dapat membantu organisasi dalam
memproses dan menganalisa data multi-struktur dengan volume yang sangat
besar. Contoh penerapannya antara lain adalah indexing, searh, analisa grafik,
analisa teks, machine learning, transformasi data dan lainnya.
Dalam kasus ini, ingin menganalisa data dari sebuah file log yang berisi data
dari setiap aktivitas yang terjadi pada sebuah website baik ukuran yang sedang
atau skit maupun dengan ukuran file yang sangat besar yang dapat diproses oleh
mapreduce.
Gambar 4. 1Proses Map dan Reduce (Bambang, 2009)
1. Proses Map
Data dari file log yang di import pada Hue UI akan di proses
menggunakan Hive yang sebenarnya merupakan sebuah API
(Application Programming Interface) untuk menjalankan Mapreduce.
Langkah awal yang dilakukan oleh mapreduce sendiri adalah dengan
terlebih dahulu membaca tiap baris dari setiap kata yang terdapat pada
file log. karena pada dasarnya file log tersebut sama seperti file yang
berformat text, artinya file yang berisi data berupa text. Tiap baris pada
file log tersebut memiliki data-data yang terdiri dari tanggal dan waktu,
ip address, akses halaman, kode akses halaman, dan lainnya.Namun
setiap server, OS, maupun aplikasi lainnya memiliki format data log
yang berbeda-beda. Kemudian setiap kata dari file log yang telah dibaca
akan membuat sebuah map atau pemisahan dari setiap kata-kata tersebut
menjadi beberapa pengelompokkan kategori berdasarkan key dari data
berkeriteria yang sama untuk kemudian membuat sebuah nama dari jenis
tiap karakteristik data yang ada atau bisa disebut nama kolom. Kolom-
kolom dibuat berdasarkan tiap data yang memiliki kriteria data yang
sama dari file log tersebut, misalkan data 127.0.0.1 yang diselaraskan
dengan data yang lain dengan angka yang sama seperti 192.168.0.0.1
dan data dengan angka atau huruf yang sama lainnya kemudian di proses
dengan mapping lalu terbuatlah sebuah kolom dengan nama ip address
atau ip host. Begitupula dengan data yang lain seperti 2017-04-13 lalu
disamakan dengan data lain yang memiliki kriteria yang sama seperti
2018-04-01 dan lainnya, maka dari data tersebut akan membuat sebuah
kolom dari hasil proses mapping yang nkemduain menjadi sebuah
kolom date atau tanggal. Proses ini terus terus berjalan sampai akhirnya
tidak lagi ditemukan data dengan format atau karakteristik yang sama.
2. Proses Reduce
Pada tahap ini, reduce mengambil output dari hasil proses map seebagai
masukkan dan penggabungan atau pengelompokkan data ke satu set data
yang di proses secara berurut. Proses reduce biasnya selalu dilakukan
setelah proses map. Proses yang dilakukan reduce adalah melakukan
sorting atau pengelompokkan dari data log yang telah dimapping
disesuaikan dan diurutkan dengan kata-kata atau jenis data yang sama.
Sama seperti pada proses mapping, setiap baris dipilih sesuai dengan
karakteristik data yang sama, namun pada proses mapping yang
dilakukan hanyalah memisahkan data dengan membuat beberapa jenis
kolom yang berbeda, sedangkan reduce memproses data dengan
mengurutkan karakteristik data yang sama pada kolom yang telah di
sesuaikan oleh proses mapping. Contohnya pada kasus ini dari hasil
mapping data log yang telah di proses, menghasilkan beberapa nama
kolom seperti ip_address, lalu pada proses mapping didapatlah beberapa
data seperti 127.0.0.1, 192.168.0.1, dan lainnya dimana data tersebut
merupakan sebuah data ip pengunjung yang kemudian reduce menyusun
data tersebut kedalam barisan kolom ip_address, begitupula dengan
proses pada baris kata yang lainnya akan terus diproses hingga tidak
ditemukan lagi kata-kata atau baris angka yang memiliki karakteristik
dengan angka atau huruf yang sama. Setelah itu reduce akan
menjumlahkan total dari kata-kata atau angka dari setiap kolom yang
telah dipisahkan.
V. HASIL DAN PEMBAHASAN
Dari semua proses analisa data log tersebut menghasilkan beberapa data
yang menjadi kan file yang tadinya tak terpakai menjadi sebuah informasi yang
dapat dimanfaatkan oleh pemilik website. Berikut merupakan rangkuman singkat
dari semua proses analisa data yang terlihat pada Gambar 5.1
Gambar 5. 1 File log yang belum di analisa
Gambar 5.1 merupakan tampilan dari data log sebelum di analisis
menggunakan hue ui. terlihat sangat bahwa data dari file log masih acak dan tidak
berurutan yang sekilas terlihat seperti file spam sehingga susah untuk digunakan
atau dibaca oleh pemilik web.
Gambar 5. 21 File log yang telah dianalisa
Gambar 5.2 merupakan hasil dari file log yang telah dianalisa menggunakan
Hue UI, yang tadinya data masih acak dengan tulisan memanjang tidak teratur lalu
setelah dianalisa menggunakan Hue UI menjadi data yang dapat mudah dibaca
yang di pisah dan diurutkan berdasarkan kolom yang sesuai dari setiap data
tersebut, sehingga dapat menjadi sebuah informasi bagi pemilik website untuk
meningkatkan pengunjung ataupun mendeteksi kerusakan dan penyerang apabila
website terkena serangan dari hacker yang tidak bertanggung jawab. Hasil dari
analisa tersebut kemudian dirangkum untuk dijadikan sebuah data statistic yang
dilakukan dengan menggunakan data yang diperoleh dari hasil konversi data yang
bertipe file log diproses dengan bantuan aplikasi Hue UI. kemudian data
dikelompokkan berdasarkan kolom data dimana nantinya data tersebut dapat
digunakan sebagai informasi bagi pemilik website, untuk kepentingan
pembatasan jumlah data, dilakukan penyaringan data untuk log akses pada tanggal
yang sama.
VI. KESIMPULAN DAN SARAN
6.1 Kesimpulan
Berdasarkan penelitian yang telah dilakukan mengenai analisis data log
dapat disimpulkan sebagai berikut.
a. Analisis data log menggunakan aplikasi hue yang merupakan bagian dari
cloudera ini dapat mengolah data log tersebut dengan baik sehingga data
tersebut tidak terbuang sia-sia yang kemudian dapat membantu pemilik
website untuk memonitor semua aktifitas yang terjadi pada web dari
jumlah pengunjung, halaman yang dikunjungi, lokasi pengunjung,
kerusakan yang terjadi pada website, waktu pengunjung, dan lainnya.
b. menjadikan data log website yang tadinya menumpuk tidak terpakai
menjadi sebuah data informasi yang mudah dibaca.
6.2 Saran
Dalam proses penelitian yang telah dilakukan tentunya terdapat beberapa
kekurangan yang nantinya dapat dikembangkan lagi menggunakan ide yang lain.
a. Platform yang digunakan dapat dikembangkan oleh pihak pembuat
platform cloudera dengan memperkecil ukuran serta besarnya kinerja serta
menyesuaikan dan mengubah kernel pada system cloudera agar bisa
digunakan pada spesifikasi hardware yang lebih kecil dan dapat digunakan
pada setiap jenis sistem operasi yang ada seperti linux, mac, windows dan
lainnya.
Platform yang digunakan dapat dikembangkan oleh pihak pengembang
dengan menambah fitur hue pada menu indexe agar langsung dapat mengimport
file log yang berukuran lebih besar.
DAFTAR PUSTAKA
,
Karya, G, dan Wijaya, C., 2015, Eksplorasi Teknologi Big Data Hadoop untuk sistem
aplikasi berbasis komunitas studi kasus : aplikasi pembukuan UMK, Universitas
Katolik Parahyangan, Bandung.
Kementrian Komunikasi dan Informasi., 2015, Buku saku big data, Jakarta.
Khusumanegara, P., 2014, Analisis Performa kecepatan Mapreduce pada Hadoop
menggunakan Tcp Packet Flow, 72, Universitas Indonesia, Jakarta.
Lin,J.,& Dryer,C.,2010.Data-Internsive Text Processing with MapRedue.umi,3(1),1-177.
Purnama,I.K.E.2014.Sentiment Analysis berbasis Big Data. Rekayasa Teknologi Industri
dan Informasi, 142-149, Institut Teknologi Sepuluh Nopember, Surabaya.
Pratama,Adnan., 2013, Teknologi Big Data dengan Hadoop.
https://medium.com/skyshidigital/teknologi-big-data-dengan-hadoop-
d8a2e93791a8, diakses 9 Juli 2018, pukul 16.20 WIB.
Tumbel,C.Z.,Sitepu,H.,& Hutagalung, M.2017.Analisis Big Data Berbasis Stream
Procesing Menggunakan Apache Spark. JurnalTelematika, 11(1), 6, Institut
Telnologi Harapan bangsa, bandung.
Vione, E. 2016. Implementasi K-Means Clustering pada lingkungan Big Data
menggunakan model pemograman Maprduce, Universitas Sanata Dharma,
Yogyakarta.
Dr.Mesterjon, M.kom, ET, 2016, Extract Transform Load, Diakses 2 September 2018,
dari https://www.softbless.com/ETL-Indonesia.