Ditemukan 2 dokumen yang sesuai dengan query
Heninggar Septiantri
Abstrak :
Ambiguitas adalah masalah yang seringkali ditemui dalam pemrosesan bahasa alami oleh komputer. Word Sense Disambiguation (WSD) adalah upaya untuk menentukan makna yang tepat dari sebuah kata yang ambigu. Berbagai penelitian tentang WSD telah banyak dikerjakan, namun penelitian WSD untuk bahasa Indonesia belum banyak dilakukan. Ketersediaan korpus paralel berbahasa Inggris-Indonesia dan sumber pengetahuan bahasa berupa WordNet bahasa Inggris dan bahasa Indonesia dapat dimanfaatkan untuk menyediakan data pelatihan untuk WSD dengan metode Cross-Lingual WSD (CLWSD). Data pelatihan ini kemudian dijadikan input untuk klasifikasi dengan algoritma Naive Bayes, sehingga model klasifikasinya dapat digunakan untuk melakukan monolingual WSD untuk bahasa Indonesia.
Evaluasi klasifikasi menunjukkan rata-rata akurasi hasil klasifikasi lebih tinggi dari baseline. Penelitian ini juga menggunakan stemming dan stopwords removal untuk mengetahui bagaimana efeknya terhadap klasifikasi. Penggunaan stemming menaikkan rata-rata akurasi, sedangkan penerapan stopwords removal menurunkan rata-rata akurasi. Namun pada kata yang memiliki dua makna dalam konteks yang cukup jelas berbeda, stemming dan stopwords removal dapat menaikkan rata-rata akurasi.
Ambiguity is a problem we frequently face in natural languange processing. Word Sense Disambiguation (WSD) is an attempt to decide the correct sense of an ambiguous word. Various research in WSD have been conducted, but research in WSD for Indonesian Language is still rare to find. The availability of parallel corpora in English and Indonesian language and WordNet for both language can be used to provide training data for WSD with Cross-Lingual WSD (CLWSD) method. This training data can be used as input to the classification process using Naive Bayes classifier.
The model resulted by the classification process is then used to do monolingual WSD for Indonesian language. The whole process in this research results in higher accuracy compared to baseline. This research also includes the use of stemming and stopwords removal. The effect of stemming is increasing the average accuracy, whereas stopwords removal is decreasing average accuracy. Nevertheless, for ambiguous words that have distinct context of usage, the use of stemming and stopwords removal can increase average accuracy.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2013
T-Pdf
UI - Tesis Membership Universitas Indonesia Library
Heninggar Septiantri
Abstrak :
Penelitian mengenai sistem penilai jawaban esai sudah pernah dilakukan dengan metode Latent Semantic Analysis (LSA). Salah satu keterbatasan yang dialami adalah keterbatasan dokumen training untuk mengoptimalkan hasil LSA. Dengan keterbatasan tersebut penggunaan Vector Space Model (VSM) dapat dipertimbangkan. Penelitian ini membandingkan LSA dan VSM untuk menilai jawabanbentuk esai serta meneliti pengaruh pemotongan imbuhan dan perluasan kunci jawaban terhadap efektifitas sistem. Uji coba dilakukan dengan 13 soal esai dengan 42 peserta ujian. Secara keseluruhan, rata-rata korelasi nilai VSM-manusia lebih tinggi dari LSA-manusia.
Research in automated essay scoring system has been done using Latent Semantic Analysis (LSA) method. One of the limitations is the lack of training documents to optimize LSA results. Regarding such limitation, the use of Vector Space Model (VSM) can be considered. This research aims to compare LSA and VSM to score essay answer and to investigate the effect of stemming and query expansion toward the effectiveness of the system. Experiments are done with 13 problems with 42 test participants. Overall results show that average correlation of score between VSM-human is higher than LSA-human.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open Universitas Indonesia Library