Perbandingan Pengklasifikasi k-Nearest Neighbor dan Neighbor-Weighted k-Nearest Neighbor Pada Sistem Analisis Sentimen dengan Data Microblog

M Martha(1), V Christanti(2), D S Naga(3), P T D Rompas(4),


(1) Universitas Tarumanagara
(2) Universitas Tarumanagara
(3) Universitas Tarumanagara
(4) Universitas Negeri Manado
Corresponding Author

Abstract


Sistem analisis sentimen merupakan suatu sistem yang dibangun untuk menganalisis sentimen dalam bahasa Indonesia pada data yang diambil dari microblog, yaitu Twitter, Facebook, dan YouTube. Data tersebut diklasifikasikan menggunakan K-Nearest Neighbor (KNN) dan Neighbor-Weighted K-Nearest Neighbor (NW-KNN). Sistem analisis sentimen dibagi menjadi 4 (empat) tahap, yaitu tahap microblog crawling, tahap pra-pemrosesan data, tahap ekstraksi fitur, dan tahap klasifikasi sentimen. Data yang ada akan diklasifikasikan ke dalam 5 (lima) kelas, yaitu sangat positif, positif, netral, negatif, dan sangat negatif. Data tersebut kemudian akan dievaluasi menggunakan confusion matrix. Pengujian dilakukan dengan 50 data uji. NW-KNN memiliki akurasi yang paling tinggi di antara seluruh pengklasifikasi, yaitu 86% pada saat K = 9. Sedangkan untuk KNN, akurasi dari pengklasifikasi tersebut sebesar 82% pada saat K = 3. Kesimpulannya adalah NW-KNN berhasil mengatasi data latih dengan komposisi kelas yang tidak seimbang.

Kata kunci: KNN, NW-KNN, Analisis Sentimen, Data Microblog



References


Ehlers, U. D. (2013). Open learning cultures. A Guide to Quality, Evaluation, and Assessment for Future Learning. Heidelberg, Berlin.

Grossman, D. A., & Frieder, O. (2012). Information retrieval: Algorithms and heuristics (Vol. 15). Springer Science & Business Media.

Harlili, & Wibisono, Yudi (2013). Sistem Analisis Opini Microblogging Berbahasa Indonesia. Departemen Teknik Informatika Institut Teknologi Bandung.

Indriati, I., & Ridok, A. (2016). Sentiment Analysis For Review Mobile Applications Using Neighbor Method Weighted K-Nearest Neighbor (Nwknn). Journal of Enviromental Engineering and Sustainable Technology, 3(1), 23-32.

Jurafsky, D., & James, H. (2000). Speech and language processing an introduction to natural language processing, computational linguistics, and speech.

Keller, K. L., & Lehmann, D. R. (2006). Brands and branding: Research findings and future priorities. Marketing science, 25(6), 740-759.

Retnawiyati, Eka, et al. (2015). Analisis Sentimen pada Data Twitter dengan Menggunakan Text Mining terhadap Suatu Produk. Departemen Teknik Informatika Universitas Bina Darma.

Ridok, A., & Latifah, R. (2015). Klasifikasi Teks Bahasa Indonesia Pada Corpus Tak Seimbang Menggunakan NWKNN. Proceedings Konferensi Nasional Sistem dan Informatika (KNS&I).

Suprapto, F. (2015). Pengembangan Aplikasi Sentiment Analysis Menggunakan Metode Naïve Bayes (Studi Kasus Sentiment Analysis Dari Media Twitter). SESINDO 2015.


Full Text: PDF

Article Metrics

Abstract View : 523 times
PDF Download : 151 times

Refbacks

  • There are currently no refbacks.