2017
Articles

Pembangunan Kamus Bahasa Indonesia sebagai Sumber Daya Natural Language Processing (NLP) Bahasa Indonesia

Published June 20, 2017

Abstract

Kamus adalah buku yang memuat kata-kata
beserta keterangan maknanya, pemakaiannya atau
terjemahannya. Kamus Besar Bahasa Indonesia terdiri dari
lema, label kamus dan arti kata. Pembangunan kamus
bahasa Indonesia sudah diteliti sebelumnya dalam
“Pembangunan Kamus Jenis Kata Sebagai Sumber Daya
NLP Bahasa Indonesia†telah mendeteksi sebanyak 38.870
lema. Kemudian dilakukan pengembangan dalam penelitian
berjudul “Pengembangan Pendeteksian Kamus Jenis Kata
Sebagai Sebagai Sumber Daya NLP Bahasa Indonesiaâ€
telah mendeteksi sebanyak 43.060 lema. Selanjutnya
dilakukan pengembangan dengan mendeteksi lema berupa
kata majemuk dalam penelitian berjudul “Pengembangan
Kamus Jenis Kata yang dilengkapi Kata Majemuk Sebagai
Sumber Daya NLP Bahasa Indonesia†telah mendeteksi
sebanyak 51.147 lema. Masalah dalam penelitian
sebelumnya belum terdeteksinya label kamus selain jenis
kata dan arti kata.
Dari hasil analisis yang telah dilakukan, maka untuk
dapat mendeteksi lema, label kamus dan arti kata dilakukan
beberapa tahapan terdiri dari tahapan penyusunan data
masukan yang bertujuan untuk memperbaiki data masukan
agar memiliki pola entri yang sama dan tahapan
pendeteksian lema, label kamus dan arti kata yang bertujuan
untuk mendeteksi elemen-elemen kamus.
Hasil dari penelitian ini telah berhasil mendeteksi
elemen kamus berupa lema, label kamus dan arti kata dan
berhasil mendapatkan hasil lema sebanyak 51.972 lema
dengan persentase sebesar 57.72% dari total jumlah 90.049
lema pada Kamus Besar Bahasa Indonesia edisi ke empat
yang digunakan sebagai data masukan. Berdasarkan hasil
analisis, peningkatan hasil pendeteksian terjadi karena
proses pendeteksian menggunakan penanda tag html strong
untuk lema dan tag html em untuk label kamus, sehingga
dapat mendeteksi seluruh lema yang terdapat didata
masukan.

Kata kunci : Kamus bahasa indonesia, kamus online, lema,
Wordnet.