Pendeteksian Relasi Antar Makna Pada Wordnet Bahasa Indonesia

Muhamad Iffandi Pribadi, Ken Kinanti Purnamasari

Abstract


Abstrak - Perkembangan WordNet saat ini sudah dicoba diaplikasikan di berbagai negara seperti bahasa-bahasa Arab, Spanyol, Perancis, Belanda dll. Meskipun Wordnet Pertama diciptakan dengan cara manual, pengembangan selanjutnya dilakukan dengan teknik otomatis dan semi otomatis untuk membuat Multilingual WordNet. Metode tersebut secara umum dibagi dua cara yaitu Merge Approach dan Expand approach. Merge Approach adalah metode yang digunakan Princeston University dalam membuat WordNet, selain menghabiskan banyak waktu, merge approach juga sangat mahal untuk dibangun, karena harus melibatkan lexicographer untuk membuat synset. Lalu pendekatan selanjutnya adalah Expand Approach, berbeda dengan merge approach, expand approach mentranslasi synset yang ada di Princeston WordNet(PWN) ke target Bahasa dan mengambil semua relasi yang ada di PWN. Expand approach membutuhkan validasi manual agar informasi yang dihasilkan tidak ambigu.

Pada penelitian sebelumnya mengenai pengembangan wordnet bahasa indonesia data yang dihasilkan dari kategori noun, verb, adj, dan adverb  hasil yang didapat untuk Synset adalah sebesar  40774  dari total 117791 Synset dan Unique Strings dihasilkan  23964 dari  155467. Pada proses translasi kategori noun yang berdampak besar untuk presentase hasil uji hanya didapat 15,4 % untuk Unique Strings. Masalah dalam penelitian sebelumnya yaitu tidak lengkapnya kata terjemahan dari hasil translasi menggunakan MRD Cambridge Dictionary dikarenakan bentuk kata dari noun kebanyakan adalah istilah kata benda yang bersifat regional dalam Bahasa Inggris. Banyak istilah-istilah Medis, Kimia, dan Istilah untuk kamus khusus lainya yang tidak dapat diterjemahkan dan kata majemuk dalam Bahasa inggris sangat sedikit terjemahan Bahasa Indonesia nya.

Pada tahap pertama, hasil ekstraksi Unique Strings sebanyak 100% dari total data awal 155467 dan Synset sebanyak 100% dari total data awal sebanyak 117791. Pada tahap kedua pada proses translasi didapatkan Unique Strings sebanyak 15.4% dan Synset sebanyak 34.6%. Hal tersebut dikarenakan kualitas dari MRD Sendiri. Banyak lema atau istilah lokal dalam bahasa Inggris yang tidak ada dalam bahasa Indonesia.

Kata Kunci :  wordnet, wordnet Bahasa Indonesia, Expand approach, Automatic Translation.


Full Text:

PDF

Refbacks

  • There are currently no refbacks.