Analisa Sentimen Data Text Preprocessing Pada Data Mining Dengan Menggunakan Machine Learning

Bhustomy Hakim

Abstract


Teks merupakan data perhari yang sangat mudah dihasilkan di zaman media sosial ini. Dengan banyaknya data teks yang tersedia di internet, data mining seperti analisa sentimen dapat dilakukan untuk kebutuhan strategis. Namun untuk melakukan data preprocessing pada teks masih mendapatkan tantangan tersendiri. Seperti perlakuan stopwords, stemming atau normalisasi dapat dilakukan dalam tahap preprocessing ini yang tentunya akan mempengaruhi akurasi dari hasil data mining tersebut. Oleh karena itu penelitian ini dilakukan untuk melihat pengaruh data preprocessing pada teks terhadap akurasi model data mining analisa sentimen dengan machine learning. Classifier yang digunakan adalah Naïve Bayes untuk pengklasifikasian sentiment ulasan akan positif atau negatif. Dan dataset teks yang digunakan adalah 50.000 ulasan di Internet Movie Database (IMDB) yang dibagi menjadi 25.000 untuk training set dan 25.000 untuk testing set. Di masing-masing itu, terdapat 12.500 ulasan positif dan ulasan negatif. Dengan dataset tersebut, terdapat tiga perlakuan berbeda yaitu; Baseline dimana dataset dibiarkan original tidak dilakukan preprocessing apa-apa, Stopwords dimana kata-kata yang berulang yang dianggap sebagai kata penghubung atau klausal di dataset akan dihapus dan menyisakan kalimat intinya saja, dan Stemming dimana dataset teks akan dinormalisasi dan dipotong untuk mendapatkan akar kalimatnya saja. Ketiga perlakuan itu masing-masing diimplemetasikan di model machine learning untuk analisa sentimen. Ulasan baru juga dibuat untuk menguji hasil model dari ketiga perlakuan dataset berbeda tersebut. Tentunya hasil yang berbeda juga didapatkan dari masing-masing ketiga dataset tersebut. Hal ini membuktikan bahwa data preprocessing berpengaruh dengan hasil akurasi dari model data mining yang dilakukan. Dalam penelitian ini, dataset dengan perlakuan Baseline menjadi yang paling tinggi akurasinya

Keywords


Data Preprocessing, Analisa Sentiment, Data Mining, Stopwords, Stemming

Full Text:

PDF


DOI: http://dx.doi.org/10.30813/jbase.v4i2.3000

Refbacks

  • There are currently no refbacks.


ISSN: 2620-7907


View My Stats