Abstract

Ekstraksi informasi dokumen karya tulis ilmiah proses ekstraksi karya ilmiah secara otomatis untuk mendapatkan informasi terstruktur. Penelitian bertujuan untuk mengukur performansi Support Vector Machine (SVM) dalam mengektrak informasi didalam karya ilmiah. Dokumen karya ilmiah yang digunakan dalam penelitian ini adalah berupa lembar sampul dan abstrak dari skripsi, yang tersimpan dalam bentuk format .pdf. Setiap dokumen diubah terlebih dahulu ke format text. Hasil mengubah format dokumen masuk ke dalam tahapan persiapan, yaitu filtering, segmentasi, tokenizing, pelabelan, ektraksi fitur, dan seleksi fitur. Fitur yang digunakan dalam penelitian ini ada sebanyak 14 fitur. Hasil dari seleksi fitur setiap dokumen masuk kedalam proses klasifikasi untuk menentukan mengklasifikasi 16 kelas dari setiap dokumen tersebut. Di dalam penelitian ini performansi dari model yang dibuat oleh SVM mengunakan akurasi. Berdasarkan pengujian yang telah dilakukan dengan nilai gamma=0.5, dihasilkan akurasi tanpa Information Gain sebesar 90.68% sementara akurasi dengan Information Gain sebesar 90.99%. Untuk nilai error rate sebesar 9.32%, nilai precision sebesar 93.79%, nilai recall sebesar 90.74% dan nilai f-1 score sebesar 89.21%. Kesalahan yang paling banyak terjadi, pada pengklasifikasian judul lembar sampul. Kesalahan ini terjadi dikarenakan didalam penelitian ini dokumen yang digunakan, lembar sampul dan abstrak karya ilmiah, berasal dari sebuah dokumen yang sama, sehingga judul lembar sampul dan abstrak berisi hal yang sama, sehingga judul lembar sampul sering terklasifikasi judul abstrak.