2017
Articles

Pembangunan Kamus Bahasa Indonesia sebagai Sumber Daya Natural Language Processing (NLP) Bahasa Indonesia

Published June 20, 2017

Abstract

Kamus adalah buku yang memuat kata-katabeserta keterangan maknanya, pemakaiannya atauterjemahannya. Kamus Besar Bahasa Indonesia terdiri darilema, label kamus dan arti kata. Pembangunan kamusbahasa Indonesia sudah diteliti sebelumnya dalam“Pembangunan Kamus Jenis Kata Sebagai Sumber DayaNLP Bahasa Indonesia” telah mendeteksi sebanyak 38.870lema. Kemudian dilakukan pengembangan dalam penelitianberjudul “Pengembangan Pendeteksian Kamus Jenis KataSebagai Sebagai Sumber Daya NLP Bahasa Indonesia”telah mendeteksi sebanyak 43.060 lema. Selanjutnyadilakukan pengembangan dengan mendeteksi lema berupakata majemuk dalam penelitian berjudul “PengembanganKamus Jenis Kata yang dilengkapi Kata Majemuk SebagaiSumber Daya NLP Bahasa Indonesia” telah mendeteksisebanyak 51.147 lema. Masalah dalam penelitiansebelumnya belum terdeteksinya label kamus selain jeniskata dan arti kata.Dari hasil analisis yang telah dilakukan, maka untukdapat mendeteksi lema, label kamus dan arti kata dilakukanbeberapa tahapan terdiri dari tahapan penyusunan datamasukan yang bertujuan untuk memperbaiki data masukanagar memiliki pola entri yang sama dan tahapanpendeteksian lema, label kamus dan arti kata yang bertujuanuntuk mendeteksi elemen-elemen kamus.Hasil dari penelitian ini telah berhasil mendeteksielemen kamus berupa lema, label kamus dan arti kata danberhasil mendapatkan hasil lema sebanyak 51.972 lemadengan persentase sebesar 57.72% dari total jumlah 90.049lema pada Kamus Besar Bahasa Indonesia edisi ke empatyang digunakan sebagai data masukan. Berdasarkan hasilanalisis, peningkatan hasil pendeteksian terjadi karenaproses pendeteksian menggunakan penanda tag html stronguntuk lema dan tag html em untuk label kamus, sehinggadapat mendeteksi seluruh lema yang terdapat didatamasukan.Kata kunci : Kamus bahasa indonesia, kamus online, lema,Wordnet.