KLASIFIKASI DOKUMEN NASKAH DINAS...

KLASIFIKASI DOKUMEN NASKAH DINAS MENGGUNAKAN ALGORITMA TERM FREQUENCY – INVERSED DOCUMENT FREQUENCY

DAN VECTOR SPACE MODEL

MANUSCRIPT DOCUMENT CLASSIFICATION ALGORITHM USING THE OFFICE OF TERM FREQUENCY - INVERSE DOCUMENT FREQUENCY

AND VECTOR SPACE MODEL

Herman 1, Andani Achmad 2, Amil Ahmad Ilham 2

1Balai Besar Pengkajian dan Pengembangan Komunikasi dan Informatika Makassar, Kementerian Komunikasi dan Informatika

2Jurusan Elektro, Prodi Informatika, Fakultas Teknik, Universitas Hasanuddin

Alamat Korespondensi: Herman, S.Kom Balai Besar Pengkajian dan Pengembangan Komunikasi dan Informatika Makassar, Kementerian Komunikasi dan Informatika Makassar. Sulawesi Selatan. HP: 08219200121

Email: [email protected]

ABSTRAK

Penelitian ini bertujuan untuk merancang dan mengimplementasikan sistem klasifikasi dokumen naskah dinas dengan banyak kategori sehingga dapat mempermudah dalam penyimpanan dan pencarian dokumen naskah dinas. Penelitian ini menerapkan metode text mining dengan supervised learning menggunakan algoritma term frequency – inverse document frequency (TF-IDF) dan vector space model. Metode text mining menggunakan teks di dokumen untuk menentukan kata kunci. Algoritma TF-IDF melakukan pemberian bobot pada setiap kata kunci disetiap kategori dan vector space model untuk mencari kemiripan kata kunci dengan kategori yang tersedia. Implementasi sistem ini melakukan pembelajaran untuk mendapatkan model dari setiap kategori sehingga pada saat klasifikasi menggunakan model tersebut untuk dibandingkan dengan data uji. Hasil penelitian ini menunjukkan bahwa perbedaan jumlah data training mempengaruhi akurasi klasifikasi dokumen. Faktor fisik dokumen dan hasil pembacaan optical character recognition (OCR) juga menjadi factor yang dapat mempengaruhi akurasi klasifikasi dokumen. Kata kunci : Klasifikasi dokumen, naskah dinas, TF-IDF, vector space model.

ABSTRACT

The aims of the study were to design and implement a classification system of documents with many categories of services to facilitate storage and retrieval of documents in the office script. The method of study was a text mining a supervised leraning algorithm of the term frequency - inverse document frequency (TF-IDF) and the vector space model. Text mining method used the text in the document to determine the key word. TF-IDF algorithm to assigned weighting on every keyword on every category and vector space model to seek similarities of keywords with in the available category.The implementation of the system is the learning process of finding such a model in every category so that during classification, the model is used to compare with the compare data. These results of the research indicated that the differences of training data number influenced document classification accuracy. Document physical factor and the result of optical character recognition (OCR) was also a factor which can influence the document classification accuracy.

Key words: Documents classification, official script, TF-IDF, vector space model.

PENDAHULUAN

Dalam puluhan tahun terakhir, jumlah dokumen semakin lama semakin bertambah

banyak dan beragam. Jika jumlah dokumen semakin bertambah banyak maka proses

pencarian dan penyajian dokumen menjadi lebih sukar / sulit, sehingga akan lebih mudah jika

dokumen tersebut sudah tersedia sesuai dengan kategorinya masing-masing. Sebagai

konsekuensi, sangatlah penting untuk bisa mengorganisir dan mengklasifikasi dokumen

secara otomatis.

Klasifikasi dokumen teks adalah permasalahan yang mendasar dan penting. Didalam

dokumen teks, tulisan yang terkandung adalah bahasa alami manusia, yang merupakan

bahasa dengan struktur yang kompleks dan jumlah kata yang sangat banyak. Oleh karena itu,

permasalahan ini merupakan masalah yang cukup kompleks dikarenakan penggunaan bahasa

alami tersebut. Salah satu dari beberapa metode yang dapat digunakan dalam tujuan untuk

mengklasifikasikan dokumen, dimulai dari pengelolaan dokumen teks dengan menggunakan

metode text mining dan mengklasifikasikan dokumen menggunakan algoritma Term

Frequency – Inversed Document Frequency (TF-IDF) serta Vector Space Model.

Kenyataan masih banyaknya instansi pemerintah baik lembaga negara, pemerintah

pusat dan daerah, perguruan tinggi negeri serta BUMN/D yang belum sepenuhnya

melaksanakan pedoman tata naskah dinas khususnya dalam mengklasifikasikan naskah dinas

sesuai dengan kategori yang secara umum telah diatur pada Peraturan Menteri Negara

Pemberdayaan Aparatur Negara (PERMENPAN) nomor 22 tahun 2008 tentang Pedoman

Umum Tata Naskah Dinas.

Berdasarkan hal tersebut, penulis akan melakukan penelitian dokumen naskah dinas

secara otomatis.

Tujuan dari penelitian ini adalah untuk implementasi sistem klasifikasi dokumen

naskah dinas dengan banyak kategori sehingga dapat mempermudah dalam pencarian

dokumen naskah dinas dan mengetahui tingkat akurasi hasil klasifikasi dengan metode TF-

IDF dan Vector Space Model dalam mengklasifikasikan dokumen naskah dinas

METODE PENELITIAN

Rancangan Sistem

Pada penelitian ini berfokus pada bagaimana mengimplementasikan sistem klasifikasi

secara otomatis. Sistem secara umum dapat dilihat pada gambar 1 berikut yaitu sistem ini

bekerja dimulai dari dokumen yang masih dalam bentuk fisik (kertas) di scan menggunakan

media scanner untuk di konversi ke dalam bentuk file berbasis teks (*.txt) ataupun

mengekstrak file yang telah di digitalkan dalam bentuk image menggunakan teknik OCR

(Optical Character Recognizing), kemudian hasilnya dilakukan proses text mining, yang

meliputi proses case folding, tokenizing dan filtering menggunakan stoplist. Setelah itu term

yang dihasilkan dilakukan proses pembobotan atas frekuensi kemunculannya dengan

algoritma TF – IDF, yang selanjutnya akan dilakukan pencarian kemiripan dengan algoritma

Vector Space Model. Ketika hasil similiarity / kemiripan diperoleh maka akan dilakukan

pemeringkatan berdasarkan bobotnya, dimana bobot yang tertinggi adalah yang diasumsikan

sebagai hasil klasifikasi.

Pemodelan Sistem

Use Case Diagram

Pada sistem ini terdapat dua aktor yaitu user. Ketika pertama kali menjalankan sistem,

user melakukan login sesuai dengan hak yang diperolehnya. Kemudian user dapat

mengupload dokumen dalam bentuk image yang telah diketahui kategorinya dan melakukan

proses pembelajaran. Selanjutnya user dapat melakukan klasifikasi dokumen yang belum

diketahui kategorinya dan sistem mengklasifikasikan secara otomatis berdasarkan kategori

yang ada. User juga dapat mencari dan melihat hasil klasifikasi dokumen yang telah

tersimpan seperti yang terlihat pada gambar 2,3,4,5. ,Pressman, R (2002), Suhendar.,Gunadi,

H. (2002), Sommerville, I. (2003).

Activity Diagram

Pada gambar 5, Pressman, R (2002), Suhendar.,Gunadi, H. (2002) activity diagram

diperlihatkan aktivitas yang dilakukan user yaitu proses desain diawali memilih menu

training untuk melakukan pelatihan pada sistem, menu klasifikasi untuk menguji sistem

dalam mengklasifikasikan dokumen naskah dinas dan menu searching untuk melakukan

pencarian sesuai dengan kata kunci untuk menemukan dokumen yang relevan.

Rancangan Interface

Pada rancangan interface, untuk menu training dan klasifikasi semua dimulai dari

mengupload file image yang akan dikonversi menjadi teks dan dilakukan proses untuk

memperoleh kata kunci, dimana kata kunci tersebut yang menjadi dasar dalam perhitungan

untuk mengklasifikasikan dokumen naskah dinas seperti yang terlihat pada gambar 6,7,8,9.

HASIL

Hasil implementasi metode text klasifikasi dokumen naskah dinas terdiri dari 2 (dua)

tugas utama yaitu klasifikasi dokumen dan retrival dokumen. Pada bagian klasifikasi terdapat

2 (dua) proses baik training maupun klasifikasi dengan menggunakan metode text mining,

TF-IDF dan Vector Space Model.

Hasil pengujian klasifikasi terhadap dokumen yang telah sebelumnya dilakukan telah

dilakukan proses training ternyata mampu mengklasifikasikan semua dokumen dengan benar.

Namun untuk hasil pengujian klasifikasi terhadap dokumen yang belum pernah dilakukan

training sebelumnya hanya mampu menghasilkan tingkat akurasi dalam klasifikasi dokumen

di kisaran 70 – 80%. Pengujian yang dilakukan mencoba mengukur tingkat akurasi

berdasarkan jumlah data training. Hasil pengujian klasifikasi dokumen menunjukkan bahwa

jumlah data training mempengaruhi tingkat akurasi klasifikasi dokumen. Jumlah dokumen

yang dilatih / training berpengaruh terhadap akurasi ketepatan klasifikasi dokumen. Bentuk

fisik dokumen dan sistem OCR berpengaruh terhadap data training maupun hasil klasifikasi,

hal ini dapat terlihat pada tabel 1,2,3,4.

Pengujian Tingkat Akurasi Algoritma

Hasil pengujian akurasi terhadap 50 dokumen uji yang terbagi dari 5 kategori

masing-masing sebanyak 10 dokumen terhadap jumlah data training sebanyak 50 dokumen

yang masing-masing kategori terdiri dari 10 dokumen yang telah digunakan untuk dilatih

sepenuhnya adalah seluruh klasifikasi 100% benar, seperti pada tabel 1.

Hasil pengujian akurasi terhadap 50 dokumen uji yang terbagi dari 5 kategori

masing-masing sebanyak 10 dokumen terhadap jumlah data training sebanyak 50 dokumen

yang masing-masing kategori terdiri dari 10 dokumen yang belum pernah dilatih

sebelumnya,dapat dilihat pada tabel 2.

Pada skenario ini, penulis melakukan pengujian klasifikasi seperti pada skenario 2

tetapi dengan meningkatkan jumlah data pembelajaran / latih., dapat dilihat pada tabel. 3

Hasil pengujian terhadap 20 dokumen uji dengan jumlah data latih yang berbeda,

dimana jumlah data latih terus ditambah menghasilkan adanya peningkatan hasil klasifikasi

dari 70% menjadi 75%, dapat dilihat pada tabel 4.

Namun disamping itu juga terdapat faktor lain yang turut mempengaruhi hasil

klasifikasi yaitu dokumen fisik naskah dinas yang dapat menghasilkan karakter-karakter yang

tidak jelas setelah proses ekstraksi teks sehingga bukan hanya menghilangkan kata kunci

yang dibutuhkan untuk proses klasifikasi tetapi menambah kata kunci baru yang tidak

dibutuhkan yang hanya menambah panjang waktu komputasi / perhitungan, seperti pada

PEMBAHASAN

Rancangan dari sistem klasifikasi terdiri dari 5 form utama yaitu form training,

klasifikasi, stoplist, searching dan print.

Tahapan-tahapan yang dilakukan dalam klasifikasi adalah proses ekstraksi dokumen,

melakukan proses text mining dimana diantaranya proses case folding, tokenizing dan

filtering. Setelah itu dilakukan proses pembobotan menggunakan algoritma term frequency

dan menghitung inversed document frequency.

Perbedaan pada tahap training dan klasifikasi terletak pada perhitungan cosine. Pada

tahap training proses dilakukan dari ekstraksi gambar ke teks kemudian pengolahan teks

menjadi kata kunci kemudian menghitung nilai setiap kata kunci sampai dengan pembobotan

setiap kata kunci pada setiap kategori setelah itu dismpan kedalam database yang dijadikan

sebagai model pembelajaran.

Kemudian pada proses klasifikasi, pada tahap preprocessing baik ekstraksi gambar ke

teks dan proses text mining diperlakukan sama dengan tahap training namun setelah

memperoleh kata kunci dari dokumen tersebut maka proses penentuan kategorinya dimulai

dengan mencari kata kunci yang sama yang tersimpan pada database, untuk kemudian

dihitung bobot antara jumlah dari bobot semua kata kunci pada suatu kategori dengan jumlah

bobot dari kata kunci yang ada pada database, ini dapat terlihat seperti pada tabel 6 dan 7.

KESIMPULAN DAN SARAN

Berdasarkan hasil penelitian maka dapat disimpulkan bahwa Klasifikasi dokumen

menggunakan algoritma TF-IDF dan vector space model mampu mengklasifikasikan

dokumen naskah dinas dengan banyak kategori. Hasil pengujian klasifikasi terhadap

dokumen yang telah dilakukan training sebelumnya mampu mengklasifikasikan dokumen

dengan akurat. Hasil pengujian klasifikasi terhadap dokumen yang belum pernah dilakukan

training sebelumnya menghasilkan tingkat akurasi di kisaran 70 – 80%. Hasil pengujian

klasifikasi dokumen menunjukkan bahwa jumlah data training mempengaruhi tingkat akurasi

klasifikasi dokumen. Jumlah dokumen yang dilatih / training berpengaruh terhadap akurasi

ketepatan klasifikasi dokumen. Bentuk fisik dokumen dan sistem OCR berpengaruh terhadap

data training maupun hasil klasifikasi. Hasil dari proyek akhir ini belum sempurna, oleh

karenanya untuk meningkatkan hasil yang dicapai dapat dilakukan diharapkan untuk

menggunakan sistem ekstraksi teks (OCR ) yang yang lebih lengkap dalam mendeteksi hasil

karakter baik hasil ketikan maupun tulisan tangan sehingga didapatkan hasil pembacaan yang

lebih baik dalam pengklasifikasian dokumen naskah dinas. Perlunya dikembangkan suatu

sistem untuk perbaikan hasil pembacaan secara otomatis yang dapat diintegrasikan dengan

sistem ini sehingga dapat menghasilkan tingkat akurasi klasifikasi yang lebih baik.

DAFTAR PUSTAKA

Arief, Achmad Fauzi. (2010). Perangkat Lunak Pengkonversi Teks Tulisan Tangan Menjadi Teks Digital.

Aunurokhman, Ahmad Hatta (2010). Digital Documents Management System Using Text mining.

Basnur, P. W., & Sensuse, D. I. (April 2010). Pengklasifikasian Otomatis Berbasis Ontologi Untuk Artikel Berita Berbahasa Indonesia. Makara, Teknologi, Vol. 14, No.2 , 29-35.

Chenometh, Megan, Song, Min (2009) Text Categorization, dalam Encyclopedia of Data Warehouse & Data Mining, IGI Global, hal. 1936-1941

Hariyanto, Bambang. (2000) Pengarsipan dan Akses pada Sistem Berkas. Februari Bandung : Informatika.

Hasibuan, Z. A. (2007). Metodologi Penelitian Pada Bidang Ilmu Komputer dan Teknologi Informasi. Makassar.

Kurniadi, Adi. (2002). Pemrograman Microsoft Visual Basic 6.0. Jakarta: Elex Media. Koswara Eko. (2011), Visual Basic 6 Beginner Guide, Mediakom, Yokyakarta. Kristanto, A. (2003). Perancangan Sistem Informasi dan Aplikasinya. Gava Media,

Yogyakarta. M. Nazir. (1988) Metode Penelitian. Jakarta: PT. Ghalia Indonesia. Oktanty, Rhizzajian. (2010). Design Structure Of Information System Decree In Faculty Of

Information Techonology. Umar, Husein. (2008) Metode Penelitian untuk Skripsi dan Tesis Bisnis. PT. Rajagrafindo

Persada.

Tabel 1. Hasil Klasifikasi menggunakan Dokumen yang telah dilatih sebelumnya.

DATA UJIKLASIFIKASI

BENARPERSENTASE

20 20 100 %

Tabel 2. Hasil Klasifikasi menggunakan Dokumen yang belum dilatih sebelumnya.

DATA UJIKLASIFIKASI

BENARPERSENTASE

20 14 70 %

Tabel 3. Jumlah data latih yang akan digunakan untuk skenario 3.

KATEGORIJUMLAH DATA

LATIH (P1)JUMLAH DATA

LATIH (P2)JUMLAH DATA

LATIH (P3)Surat Edaran 10 15 20Surat Perintah / Tugas 10 15 20Surat Pengantar 10 15 20Nota Dinas 10 15 20Berita Acara 10 15 20

JUMLAH 50 75 100

Tabel 4. Hasil Rekapitulasi Pengujian Klasifikasi dokumen

DATA LATIH

DATA UJIKLASIFIKASI

BENARPERSENTASE

50 20 14 70 %

75 20 15 75 %

100 20 15 75 %

Tabel 6. Perhitungan TF, IDF dan W

K1 K2 K3 K4 K5 K1 K2 K3 K4 K5berita 1 1 2 1 2 5 0 0 0 0 0 0acara 1 2 1 1 0 4 0.097 0.097 0.194 0.097 0.097 0seminar 2 1 1 2 1 5 0 0 0 0 0 0usulan 2 0 2 2 2 4 0.097 0.194 0 0.194 0.194 0.194penelitian 2 2 2 2 2 5 0 0 0 0 0 0bertempat 1 1 1 1 1 5 0 0 0 0 0 0ruang 2 1 2 2 2 5 0 0 0 0 0 0sidang 1 0 1 0 1 3 0.222 0.222 0 0.222 0 0.222jurusan 1 2 0 1 0 3 0.222 0.222 0.444 0 0.222 0fak 1 0 0 0 0 1 0.699 0.699 0 0 0 0teknik 1 1 1 1 0 4 0.097 0.097 0.097 0.097 0.097 0diadakan 1 1 0 0 0 2 0.398 0.398 0.398 0 0 0evaluasi 1 1 1 0 2 4 0.097 0.097 0.097 0.097 0 0.194nilai 1 1 0 0 0 2 0.398 0.398 0.398 0 0 0diberlakukan 1 1 0 1 0 3 0.222 0.222 0.222 0 0.222 0mengikuti 0 1 1 2 1 4 0.097 0 0.097 0.097 0.194 0.097peraturan 0 1 2 1 2 4 0.097 0 0.097 0.194 0.097 0.194pemerintah 0 1 0 2 1 3 0.222 0 0.222 0 0.444 0.222pegawai 0 1 1 1 1 4 0.097 0 0.097 0.097 0.097 0.097

TERM TF DF IDF W = tf * idf

Tabel 7. Perhitungan Cosine Measure

K1 2 K2 2 K3 2 K4 2 K5 2 Q x K1 Q x K2 Q x K3 Q x K4 Q x K5berita 0 0 0 0 0 0 0 0 0 0 0acara 0 0.01 0.04 0.01 0.01 0 0 0 0 0 0seminar 0 0 0 0 0 0 0 0 0 0 0usulan 0 0.04 0 0.04 0.04 0.04 0 0 0 0 0penelitian 0 0 0 0 0 0 0 0 0 0 0bertempat 0 0 0 0 0 0 0 0 0 0 0ruang 0 0 0 0 0 0 0 0 0 0 0sidang 0 0.05 0 0.05 0 0.05 0 0 0 0 0jurusan 0 0.05 0.2 0 0.05 0 0 0 0 0 0fak 0 0.49 0 0 0 0 0 0 0 0 0teknik 0 0.01 0.01 0.01 0.01 0 0 0 0 0 0diadakan 0 0.16 0.16 0 0 0 0 0 0 0 0evaluasi 0 0.01 0.01 0.01 0 0.04 0 0 0 0 0nilai 0 0.16 0.16 0 0 0 0 0 0 0 0diberlakukan 0.049 0.05 0.05 0 0.05 0 0.0024 0.002 0 0.0024 0mengikuti 0 0 0.01 0.01 0.04 0.01 0 0 0 0 0peraturan 0.009 0 0.01 0.04 0.01 0.04 0 9E-05 0.0004 9E-05 0.0004pemerintah 0.049 0 0.05 0 0.2 0.05 0 0.002 0 0.0097 0.0024pegawai 0.009 0 0.01 0.01 0.01 0.01 0 9E-05 9E-05 9E-05 9E-05

SUM 0.117 1.019 0.697 0.171 0.408 0.230 0.002 0.005 0.000 0.012 0.003SQRT 0.342 1.009 0.835 0.414 0.639 0.479 0.049 0.071 0.021 0.111 0.054

0.002 0.007 0.003 0.030 0.012Cosine

TERMW = tf * idf

Q 2 QK

Character Recognizing

Image File

PreprocessingExtract Text From Image

Scanning Document

Document Paper

Text Result

Tokenizing

Filtering

PreProcessingText Mining

New

Doc

Trai

ning

Training Data

DocumentValue

MetadataInformation

Vektor - Space Model

Information Needed

Database

Information

Image Documnet

Text Query (Searching)

Management Database

DOCUMENT CLASSIFICATION PROCESS

Database

Case Folding

StopList

Term Frequency -

Inverse Document

Frequency (TF-IDF)

Gambar 1. Gambaran sistem secara umum

Gambar 2. Use Case Diagram Sistem

Gambar 3 Use Case Pelatihan / Training

Gambar 4. Use Case Klasifikasi

Gambar 5. Activity Diagram

Gambar 6. Menu Utama

Gambar 7. Form Training Dokumen

Gambar 8. Form Klasifikasi Dokumen

Gambar 9. Form Pencarian Kembali Dokumen

Date post:	26-Mar-2018
Category:	Documents
Upload:	ngocong
View:	225 times
Download:	1 times