PENENTUAN MULTIPLE MEMBERSHIP DOKUMEN

Stephanie Betha R.H

Abstract


Multiple membership merupakan keanggotaan yang dimiliki oleh seseorang pada beberapa komunitas. Multiple membership pada dokumen artinya suatu dokumen dapat mengandung konten dari beberapa jenis kategori. Jenis kategori pada dokumen dapat ditentukan dengan mengukur kemiripan dokumen tersebut dengan kategori yang ada. Vector Space Model adalah suatu model yang digunakan untuk mengukur kemiripan antara suatu dokumen dan suatu query dengan mewakili setiap dokumen dalam sebuah koleksi sebagai sebuah titik dalam ruang vektor. Hasil dari pengukuran kemiripan tersebut merupakan nilai cosine similarity antara vektor query dari dokumen terhadap vektor kategori. Permasalahan yang terjadi adalah suatu pengukuran kemiripan vektor query dokumen, dapat menghasilkan nilai cosine similarity dengan selisih yang kecil antara vektor kategori satu dengan vektor kategori lain. Hal ini menyebabkan kedua vektor kategori tersebut menjadi saling dominan satu sama lain pada dokumen. Oleh karena itu, dibutuhkan suatu nilai batas untuk menentukan kondisi kapan suatu vektor kategori dapat dinyatakan sebagai vektor kategori yang saling dominan. Penetapan nilai batas ini menggunakan K-Means Clustering. Nilai batas ini ditetapkan berdasarkan pengelompokkan nilai jarak antar presentase cosine similarity pada suatu dokumen. Penentuan multiple membership dokumen ini akan dilakukan pada atribut judul dan kata kunci pada dokumen publikasi ilmiah.

Keywords


Dokumen;Multiple Membership;Nilai Batas;K-Means

Full Text:

PDF

References


Nevedov, N. (2011) : Community Detection and Its Applications for Mobile Networks “, Proceedings of the International Conference on Web Intelligence, Mining and Semantics, Article No. 64,

Meng, Qinxue dan Kennedy, Paul (2012) : Using Field of Research to Discover Research Group from Co-Authorship. IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining

Ning Liu, dkk (2004) : Learning Similarity Measures in Non-orthogonal Space. Washington D.C. CIKM 04.

Mandala, R dan Setiawan, H. (2002) : Peningkatan Performansi Sistem Temu Kembali Informasi dengan Perluasan Query Secara Otomatis. Institut Teknologi Bandung.

Turney, Peter dan Pantel, Patrick. (2010) : From Frequency to Meaning : Vector Space Models of Semantics, Journal of Artificial Intelligence Research, 37:141-188.

Wesan, Barbakh And Colin Fyfe (2008) : Local vs global interactions in clustering algorithms: Advances over K-means. International Journal of knowledge-based and Intelilligent Engineering Systems 12.83 – 99.

Guo, Qinglin (2008) : The similarity Computing of Document based on VSM. Annual IEEE International Computer Software and Applications Conference

Pannu Mandeep, et al. (2014) : A Comparision of Information Retrieval Model, ACM, 978-1-4503-2899-9/14/05.

M. Durairaj, dkk. (2014) : Educational Data Mining for Prediction of Student Performance using Clustering Algorithms. (IJCSIT) International Journal of Computer Science and Information Technologies, Vol. 5 (4) , 2014, 5987-5991

Jain,A.K, dkk. (1999) : Data Clustering: A Review. ACM Comput. Surv., sept, Volume 31, pp. 264—323Guo, Qinglin (2008) : The similarity Computing of Document based on VSM. Annual IEEE International Computer Software and Applications Conference

Trstenjak, B, dkk. (2013) : KNN with TF-IDF Based Framework for Text Categorization. 24th DAAAM International Symposium on Intelligent Manufacturing and Automation.


Refbacks

  • There are currently no refbacks.