Abstract

Penelitian ini bertujuan untuk menguji performansi Neighbor Weighted K-Nearest Neighbor (NWKNN) dalam menangani dataset yang tidak seimbang dalam kasus analisis sentiment berbasis aspek. Data yang digunakan didalam penelitian ini adalah ulasan produk kecantikan yang berasal dari situs kaggel. Diperoleh data sebanyak 2.449 ulasan. Setiap ulasan produk sebelum masuk ketahapan klasifikasi, melalui preprocessing. Dalam penelitian ini tahapan preprocessing terdiri dari proses casefolding, cleaning, tokenisasi, normalisasi, stemming, convert negasi, dan stopword removal. Agar hasil preprocessing dapat diolah oleh algoritma klasifikasi maka setiap ulasan yang sudah diprepocessing masuk kedalam ekstraksi fitur. Metode ekstraksi fitur yang digunakan dalam penelitian ini adalah TF-IDF. Hasil ekstraksi fitur lah yang masuk kedalam proses klasifikasi. Didalam penelitian ini setiap ulasan melalui proses klasifikasi beberapa kali. Karena dalam penelitian ini dalam penanganan multilabel menggunakan teknik binary relevance. Setiap klasifikasi menggunakan NWKNN. Pengklasifikasian dilakukan sebanyak empat kali sesuai dengan aspek yang digunakan didalam penelitian ini, yaitu: harga, kemasan, efektifitas dan aroma. Sehingga setiap klasifikasi menghasilkan polaritas untuk setiap aspek, yaitu: positif, negative, atau non sentiment. Hasil pengujian perfomansi dengan Confusion Matrix dihasilkan performansi NWKNN lebih tinggi dibandingkan KNN untuk masing-masing aspek, dalam f1-score. Dimana nilai e dan k yang optiman untuk metode NWKNN yaitu nilai k=40 dan e=2. Ini menunjukkan bahwa NWKNN terbukti lebih baik bekerja jika dataset tidak seimbang dibandingkan KNN.