Hasil Pencarian

Ditemukan 2 dokumen yang sesuai dengan query

Suryanto Ang

Pengelompokan dokumen bahasa indonesia dengan teknik reduksi dimensi nonnegative matrix factorization dan random projection

"Pengelompokan dokumen atau document clustering telah menjadi suatu teknik yang berguna dalam pengorganisasian sekumpulan dokumen. Dengan teknik ini, komputer bisa secara otomatis mengelompokkan sekumpulan dokumen ke dalam kluster-kluster yang cocok yang merepresentasikan data yang ada. Dengan demikian, proses pencarian informasi bisa dilakukan dengan lebih efisien. Telah banyak metode yang dikembangkan untuk mendukung pengelompokan dokumen. Dua diantara metode-metode tersebut adalah Nonnegative Matrix Factorization (NMF) dan Random Projection (RP). Pada penelitian ini, proses pengelompokan dokumen dilakukan dengan metode reduksi dimensi NMF dan RP pada dokumen berbahasa Indonesia. Untuk metode RP, diperlukan tahap tambahan untuk dapat mengelompokkan dokumen. Metode yang digunakan pada tahap ini adalah K-Means. Data yang digunakan pada percobaan adalah artikel media massa. Percobaan dilakukan dengan variasi pada variabel percobaan seperti jumlah kluster, jumlah data, jenis data, dan informasi fitur.

Dari percobaan yang telah dilakukan, terlihat bahwa teknik NMF dan RP dapat diterapkan dalam aplikasi pengelompokan dokumen bahasa Indonesia. Akurasi pengelompokan bisa mencapai 97%. Dari percobaan terlihat juga bahwa teknik NMF menghasilkan akurasi yang lebih tinggi daripada RP dengan kisaran perbedaan sekitar 2%. Ukuran dan jumlah kluster juga mempengaruhi akurasi. Ukuran kluster yang semakin besar menyebabkan peningkatan akurasi sedangkan jumlah kluster yang semakin banyak menyebabkan penurunan akurasi. Dengan ukuran kluster 296 dan jumlah kluster 2 misalnya, akurasi mencapai 96%. Disamping itu, informasi fitur berupa presence merupakan yang paling cocok digunakan karena menghasilkan akurasi yang paling tinggi, juga mencapai 97%. Jumlah fitur yang lebih banyak dan tidak mengandung stopwords juga memberikan akurasi yang lebih tinggi.

Document clustering has been a beneficial technique in organizing documents. With good document clustering technique, computer can automatically group collection of documents into meaningful clusters. The information retrieval process thus can be done eficiently. There have been lots of methods developed in supporting document clustering process. Two of them are Nonnegative Matrix Factorization (NMF) and Random Projection (RP). In this research, document clustering process is conducted on Indonesian documents using both NMF and RP dimensional reduction method. For RP, additional clustering process is required. For this purpose, K-Means is used. Documents used are mass media articles. Experiments are conducted with variation of experiment variables including number of cluster, number of data, types of data, feature, etc.

From the experiments conducted, it can be concluded that NMF and RP technique can be used in document clustering application for Indonesian documents. The accuracy reaches 97%. Experiments also show that NMF yields better accuracy than RP with difference range about 2%. Cluster size and cluster number also influence the accuracy. The bigger the cluster size, the higher the accuracy while the more the cluster number, the lower the accuracy. For example, with cluster size 296 and cluster number 2, the accuracy reaches 96%. Despitefully, using presence as feature is the most appropriate one because it results in the highest accuracy among others, also reaches 97%. In addition, the more the features used and excluding the stopwords, the higher the accuracy will be."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009

S-Pdf

UI - Skripsi Open Universitas Indonesia Library

Muhammad Rifky Yusdiansyah

Analisis akurasi fuzzy C-means dengan reduki dimensi random projection pada pendeteksian topik = Accuracy analysis of fuzzy C-means with random projection dimensional reduction on topic detection

"Pendeteksian topik (Topic detection) adalah suatu proses yang digunakan untuk menganalisis kata-kata pada suatu koleksi data tekstual untuk menentukan topik-topik yang ada pada koleksi tersebut, bagaimana hubungan topik-topik tersebut satu sama lainnya, dan bagaimana mereka berubah dari waktu ke waktu. Metode Fuzzy C-Means (FCM) merupakan metode clustering yang sering digunakan pada masalah pendeteksian topik. Fuzzy C-Means dapat mengelompokkan dataset ke beberapa cluster dengan baik pada dataset dengan dimensi yang rendah, namun gagal pada dataset yang berdimensi tinggi. Untuk mengatasi permasalahan tersebut, dilakukan reduksi dimensi pada dataset sebelum dilakukan pendeteksian topik menggunakan metode FCM. Pada penelitian ini digunakan data tweets akun berita nasional pada sosial media Twitter yang kemudian dilakukan pen-deteksian topik menggunakan metode Random space-based Fuzzy C-Means (RFCM) dan Kernelized Random space-based Fuzzy C-Means (KRFCM). Metode pembelajaran RFCM dan KRFCM terbagi menjadi dua langkah yaitu mereduksi dimensi dataset ke dimensi yang lebih rendah dengan menggunakan random projection dan melakukan metode pem-belajaran FCM pada RFCM dan metode pembelajaran KFCM pada KRFCM. Setelah didapatkan topik-topik, kemudian dilakukan evaluasi dengan menghitung nilai coher-ence pada topik. Nilai coherence yang digunakan pada penelitian ini menggunakan sa-tuan Pointwise Mutual Information (PMI). Penelitian dilakukan dengan membandingkan nilai rata-rata PMI dari RFCM dan KRFCM dengan Eigenspace-based Fuzzy C-Means (EFCM) dan Kernelized Eigenspace-based Fuzzy C-Means (KEFCM). Hasil yang didapatkan menggunakan data tweets akun berita nasional menunjukkan bahwa metode RFCMdan KRFCM menawarkan running time untuk reduksi dimensi yang lebih cepat namun memiliki rata-rata nilai PMI yang lebih kecil dibandingkan rata-rata nilai PMI yang di-hasilkan oleh metode pembelajaran EFCM dan KEFCM.

Topic detection is a process that is used to analyze

words in a collection of textual data to determine which topics are in the collection, how the topics relate to each other, and how they change over time. Fuzzy C-Means (FCM) Method is a clustering method that is often used in topic detection problems. Fuzzy C-Means can group datasets into several clusters properly on dataset with low dimensions, but failed on the high dimension dataset. To overcome this problem, a dimension reduction is performed on the previous dataset Topic detection was performed using the FCM method. In this study used data on national news account tweets on Twitter social media which is then detected topics using the Randomspace-based Fuzzy C-Means (RFCM) method Kernelized Randomspace-based Fuzzy C-Means (KRFCM). RFCM learning methods and KRFCM is divided into two steps, namely reducing the dataset dimension to dimensions lower cost by using random projection and learning methods FCM on RFCM and KFCM learning methods on KRFCM. After obtained topics, then conducted an evaluation by calculating the value of coherence on the topic. The coherence value used in this study uses units Pointwise Mutual Information (PMI). Research carried out by comparing

the average PMI values of RFCM and KRFCM with Eigenspace-based Fuzzy C-Means (EFCM) and Kernelized Eigenspace-based Fuzzy C-Means (KEFCM). Results obtained using national news account tweets data shows that the RFCM method and KRFCM offers running time for faster dimension reduction however has an average PMI value that is smaller than the average PMI value produced by the EFCM and KEFCM learning methods."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian