Hasil Pencarian

Ditemukan 106480 dokumen yang sesuai dengan query

Robertus Agung Pradana

Fuzzy C-Means Clustering dengan Reduksi Dimensi Convolutional Autoencoder pada Pendeteksian Topik = Fuzzy C-Means Clustering with Convolutional Autoencoder Dimensional Reduction for Topic Detection

"Pendeteksian topik adalah suatu proses yang digunakan untuk menganalisis kata-kata pada suatu koleksi data tekstual untuk menentukan topik-topik yang ada pada koleksi tersebut, bagaimana hubungan topik-topik tersebut satu sama lainnya, dan bagaimana mereka berubah dari waktu ke waktu. Metod (FCM) merupakan metode yang sering digunakan pada masalah pendeteksian topik. FCM dapat mengelompokkan dataset ke beberapa kelompok dengan baik pada dataset dengan dimensi yang rendah, namun gagal pada dataset yang berdimensi tinggi. Untuk mengatasi permasalahan tersebut, dilakukan reduksi dimensi pada dataset sebelum dilakukan pendeteksian topik. Pada penelitian ini digunakan Convolutional Autoencoder dalam reduksi dimensi pada dataset. Oleh sebab itu, metode yang digunakan pada penelitian ini dalam pendeteksian topik adalah metode Convolutional-based Fuzzy C-Means (CFCM). Data yang digunakan dalam penelitian ini data coherence pada topik antara metode CFCM dengan satu convolutional layer (CFCM-1CL) dan metode CFCM dengan tiga convolutional layer (CFCM-3CL). Hasil penelitian ini menunjukkan bahwa nilai coherence dari metode CFCM-1CL lebih tinggi dibandingkan metode CFCM-3CL.

Topic detection is a process used to analyze words in a collection of textual data to determine the topics in the collection, how they relate to each other, and how they change from time to time. The Fuzzy C-Means (FCM) method is a clustering method that is often used in topic detection problems. Fuzzy C-Means can group dataset into multiple clusters on low-dimensional dataset, but fails on high-dimensional dataset. To overcome this problem, dimension reduction is carried out on the dataset before topic detection is carried out. In this study, Convolutional Autoencoder (CAE) is used in the reduction of dimensions in the dataset. Therefore, the method used in this research in topics detection is the Convolutional-based Fuzzy C-Means (CFCM) method. The data used in this study tweets national news account data on social media Twitter. CFCM method are divided into two stages, namely reducing the dataset dimension to a lower dimension using CAE and then clustering the dataset by using FCM to obtain topics. After the topics are obtained, an evaluation is done by calculating the value of coherence on the topics obtained. The study was conducted by comparing the coherence value on the topic between the CFCM method with one convolutional layer (CFCM-1CL) and the CFCM method with three convolutional layers (CFCM-3CL). The results of this study indicate that the coherence value of the CFCM-1CL method is higher than the CFCM-3CL method"

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Cari yang mirip

Tambahkan ke Favorit

Metadata PDF

Abstrak PDF

Abstrak

Natasha Rosaline

Fuzzy C-Means Clustering dengan Reduksi Dimensi Deep Autoencoders untuk Pendeteksian Topik pada Data Tekstual Twitter = Fuzzy C-Means Clustering with Deep Autoencoders Dimensional Reduction for Topic Detection on Textual Data from Twitter

"Pendeteksian topik merupakan suatu teknik untuk memperoleh informasi dengan cara mengekstrak topik-topik dari kumpulan data yang sangat besar. Salah satu metode yang digunakan untuk pendeteksian topik adalah metode clustering, yaitu Fuzzy C-Means (FCM). Namun, kinerja dari FCM menjadi buruk saat harus melakukan clustering pada data yang berdimensi tinggi. Kelemahan dari FCM tersebut dapat ditanggulangi dengan cara melakukan reduksi dimensi. Pada penelitian ini, digunakan suatu metode deep learning, yaitu Deep Autoencoders (DAE), untuk mereduksi dimensi dari kumpulan data. Metode FCM clustering dengan reduksi dimensi DAE ini disebut Deep Autoencoders-Based Fuzzy C-Means (DFCM). Metode DFCM dibagi menjadi dua tahapan, yakni mereduksi dimensi kumpulan data yang berdimensi tinggi menggunakan Deep Autoencoders, dan melakukan FCM clustering pada data yang telah direduksi. Hasil dari metode DFCM adalah topik-topik. Topik-topik tersebut dievaluasi menggunakan nilai coherence. Pada penelitian ini, dibangun dua metode DFCM, yaitu FCM berbasis DAE dengan satu lapisan tersembunyi (DFCM-single hidden layer) dan FCM berbasis DAE dengan multi lapisan tersembunyi (DFCM-multi hidden layers). Hasil dari kedua metode ini menunjukkan bahwa topik-topik pada DFCM-single hidden layer memiliki nilai coherence lebih tinggi dari topik-topik pada DFCM-multi hidden layers.
Topic detection is a technique to find out information by extracting topics from big data. One method used for topic detection is the clustering method, namely Fuzzy C-Means (FCM). However, the performance of FCM becomes worse when clustering on highdimensional data. That weakness is resolved by dimensional reduction. In this research, deep learning method is used to reduce the dimensions of the data set, namely Deep Autoencoders (DAE). FCM clustering method with DAE dimensional reduction is called Deep Autoencoders-Based Fuzzy C-Means (DFCM). DFCM is divided into two parts. First, reducing the dimensions of high-dimensional data collection using Deep Autoencoders. Second, performing FCM clustering on the reduced data. Results of DFCM are topics. These topics are evaluated using the value of coherence. In this research, two DFCM methods were built, namely DAE with one hidden layer based FCM (DFCM-single hidden layer) and DAE with multi-hidden layers based FCM (DFCMmulti hidden layers). The results of these two methods show that the topics in DFCMsingle hidden layer have a higher coherence value than the topics in DFCM-multi hidden layers."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership  Universitas Indonesia Library

Cari yang mirip

Tambahkan ke Favorit

Metadata PDF

Abstrak PDF

Abstrak

Christhoper Nugraha

Pendeteksian topik pada twitter menggunakan online eigenspace-based fuzzy c-means clustering untuk big data = Topic detection on twitter using online eigenspace-based fuzzy c-means clustering for big data / Christhoper Nugraha

"ABSTRAK
Deteksi topik adalah proses menganalisis kumpulan data tekstual untuk menentukan topik pengumpulan data tekstual. Salah satu metode pengelompokan yang dapat digunakan untuk deteksi topik adalah metode Fuzzy C-Means (FCM). Namun, penggunaan FCM sederhana untuk pendeteksian topik tentang big data kurang efektif, karena akan memakan waktu lama dan banyak memori. FCM sederhana juga memiliki masalah lain, ketika melakukan deteksi topik aktif data dimensi tinggi, FCM sederhana hanya akan menghasilkan satu topik. Dalam penelitian ini, suatu gabungan metode Single-Pass Fuzzy C-Means (SPFCM) dan Fuzzy C-Means Berbasis Eigenspace (EFCM) diusulkan, yaitu Single-Pass Eigenspace-Based Fuzzy C-Means (SPEFCM) metode untuk mengatasi masalah ini. Data yang digunakan untuk deteksi topik adalah
tweet yang berasal dari aplikasi Twitter. Lalu, keakuratan topik didapat menggunakan SPEFCM dan EFCM akan dibandingkan berdasarkan nilai koherensi. Itu hasil simulasi menunjukkan bahwa nilai koherensi topik yang diperoleh menggunakan SPEFCM adalah sebanding dengan EFCM. Ini menunjukkan bahwa SPEFCM adalah metode yang tepat untuk mendeteksi topik pada data besar, tanpa mengurangi kualitas topik yang dihasilkan.
ABSTRACT
Topic detection is the process of analyzing a textual data set to determine the topic of textual data collection. One of the grouping methods that can be used for topic detection is the Fuzzy C-Means (FCM) method. However, the use of simple FCM for the detection of topics about big data is less effective, because it will take a long time and a lot of memory. Simple FCM also has another problem, when detecting active topics of high dimensional data, simple FCM will only produce one topic. In this study, a combination of the Single-Pass Fuzzy C-Means (SPFCM) method and the Fuzzy C-Means Based on Eigenspace (EFCM) is proposed, namely the Single-Pass Eigenspace-Based Fuzzy C-Means (SPEFCM) method to overcome this problem. The data used for topic detection is
tweets that come from the Twitter application. Then, the accuracy of the topics obtained using SPEFCM and EFCM will be compared based on coherence values. The simulation results show that the topic coherence value obtained using SPEFCM is comparable to EFCM. This shows that SPEFCM is the right method for detecting topics in big data, without reducing the quality of the topics produced."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-pdf

UI - Skripsi Membership  Universitas Indonesia Library

Cari yang mirip

Tambahkan ke Favorit

Metadata PDF

Abstrak PDF

Abstrak

Triyana Muliawati

Fuzzy c-means pada ruang eigen untuk pendeteksian topik = Fuzzy c means in eigen space for topic detection / Triyana Muliawati

"ABSTRAK
Seiring perkembangan teknologi informasi dan komunikasi, pemenuhan
kebutuhan informasi dapat diperoleh melalui media sosial, seperti Twitter.
Banyaknya pengguna internet telah memicu aliran data yang sangat besar dan
cepat, sehingga membuat analisis secara manual sulit atau bahkan tidak mungkin
dilakukan. Metode otomatis diperlukan untuk menganalisis data tersebut yang
salah satunya yaitu dengan topic detection and tracking (TDT). Suatu metode
alternatif laindari TDT untuk masalah pendeteksian topik selain latent dirichlet
allocation (LDA) adalah fuzzy clustering dengan menggunakan algoritma fuzzy Cmeans
(FCM). FCM pada pendeteksian topik dapat memenuhi asumsi bahwa
suatu dokumen pada Twitter dapat terdiri dari beberapa topik. FCM bekerja cukup
baik di dimensi data yang rendah, akan tetapi gagal dalam dimensi data yang
tinggi. Oleh karena itu, dibutuhkan suatu metode untuk mereduksi dimensi ruang
eigen yang tinggi ke dimensi yang lebih rendah. Salah satu metodenya adalah
singular value decomposition (SVD) dengan menggunakan truncated SVD. Pada
penelitian ini, dilakukan prosestruncated SVD kemudian FCM yang
dinamakanfuzzy C-means pada ruang eigen (Eigen FCM). Hasil akurasi dari
metode ini menunjukkan peningkatan lebih baik dibandingkan FCM dan LDA
pada pendeteksian topik.
ABSTRACT
As the information and communication technology developed, the fulfillment of
information can be obtained through social media, like Twitter. The enormous
number of internet users has triggeredfast and large data flow, thus making the
analysis manually is difficult, or even impossible. The automated methods for
data analysis is needed now, one of which is the topic detection and tracking
(TDT). An alternative method other than TDT fortopic detection problemother
than latent dirichlet allocation (LDA) is a fuzzy clustering algorithms using fuzzy
C-means (FCM). FCM in topic detection meet the assumption that a document on
Twitter can consists of several topics. FCM works pretty well in low-dimensional
data, but fail in high-dimensional data. Therefore, we need a method to reduce the
dimension of the high-dimensional eigenspaceinto lower dimension. One method
to do that is the singular value decomposition (SVD) using truncated SVD. This
papercarried out the truncated SVD process then FCM called fuzzy C-means on
the eigenspace (Eigen FCM). The results of the accuracy of this method shows an
increase is better than FCM and LDA on topic detection."

2016

T45625

UI - Tesis Membership  Universitas Indonesia Library

Cari yang mirip

Tambahkan ke Favorit

Metadata PDF

Abstrak PDF

Abstrak

Muhammad Rifky Yusdiansyah

Analisis akurasi fuzzy C-means dengan reduki dimensi random projection pada pendeteksian topik = Accuracy analysis of fuzzy C-means with random projection dimensional reduction on topic detection

"Pendeteksian topik (Topic detection) adalah suatu proses yang digunakan untuk menganalisis kata-kata pada suatu koleksi data tekstual untuk menentukan topik-topik yang ada pada koleksi tersebut, bagaimana hubungan topik-topik tersebut satu sama lainnya, dan bagaimana mereka berubah dari waktu ke waktu. Metode Fuzzy C-Means (FCM) merupakan metode clustering yang sering digunakan pada masalah pendeteksian topik. Fuzzy C-Means dapat mengelompokkan dataset ke beberapa cluster dengan baik pada dataset dengan dimensi yang rendah, namun gagal pada dataset yang berdimensi tinggi. Untuk mengatasi permasalahan tersebut, dilakukan reduksi dimensi pada dataset sebelum dilakukan pendeteksian topik menggunakan metode FCM. Pada penelitian ini digunakan data tweets akun berita nasional pada sosial media Twitter yang kemudian dilakukan pen-deteksian topik menggunakan metode Random space-based Fuzzy C-Means (RFCM) dan Kernelized Random space-based Fuzzy C-Means (KRFCM). Metode pembelajaran RFCM dan KRFCM terbagi menjadi dua langkah yaitu mereduksi dimensi dataset ke dimensi yang lebih rendah dengan menggunakan random projection dan melakukan metode pem-belajaran FCM pada RFCM dan metode pembelajaran KFCM pada KRFCM. Setelah didapatkan topik-topik, kemudian dilakukan evaluasi dengan menghitung nilai coher-ence pada topik. Nilai coherence yang digunakan pada penelitian ini menggunakan sa-tuan Pointwise Mutual Information (PMI). Penelitian dilakukan dengan membandingkan nilai rata-rata PMI dari RFCM dan KRFCM dengan Eigenspace-based Fuzzy C-Means (EFCM) dan Kernelized Eigenspace-based Fuzzy C-Means (KEFCM). Hasil yang didapatkan menggunakan data tweets akun berita nasional menunjukkan bahwa metode RFCMdan KRFCM menawarkan running time untuk reduksi dimensi yang lebih cepat namun memiliki rata-rata nilai PMI yang lebih kecil dibandingkan rata-rata nilai PMI yang di-hasilkan oleh metode pembelajaran EFCM dan KEFCM.
Topic detection is a process that is used to analyze
words in a collection of textual data to determine which topics are in the collection, how the topics relate to each other, and how they change over time. Fuzzy C-Means (FCM) Method is a clustering method that is often used in topic detection problems. Fuzzy C-Means can group datasets into several clusters properly on dataset with low dimensions, but failed on the high dimension dataset. To overcome this problem, a dimension reduction is performed on the previous dataset Topic detection was performed using the FCM method. In this study used data on national news account tweets on Twitter social media which is then detected topics using the Randomspace-based Fuzzy C-Means (RFCM) method Kernelized Randomspace-based Fuzzy C-Means (KRFCM). RFCM learning methods and KRFCM is divided into two steps, namely reducing the dataset dimension to dimensions lower cost by using random projection and learning methods FCM on RFCM and KFCM learning methods on KRFCM. After obtained topics, then conducted an evaluation by calculating the value of coherence on the topic. The coherence value used in this study uses units Pointwise Mutual Information (PMI). Research carried out by comparing
the average PMI values of RFCM and KRFCM with Eigenspace-based Fuzzy C-Means (EFCM) and Kernelized Eigenspace-based Fuzzy C-Means (KEFCM). Results obtained using national news account tweets data shows that the RFCM method and KRFCM offers running time for faster dimension reduction however has an average PMI value that is smaller than the average PMI value produced by the EFCM and KEFCM learning methods."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-pdf

UI - Skripsi Membership  Universitas Indonesia Library

Cari yang mirip

Tambahkan ke Favorit

Metadata PDF

Abstrak PDF

Abstrak

Diyah Septi Andryani

Implementasi hybrid clustering menggunakan algoritma fuzzy c-means dan algoritma divisive untuk menganalisis kekerabatan dna human papillomavirus penyebab kanker serviks = The implementation of hybrid clustering using fuzzy c means algorithm and divisive algorithm for analysing dna human papillomavirus cause of cervical cancer

"Clustering bertujuan untuk mengklasifikasikan pola yang berbeda ke dalam kelompok yang disebut cluster. Analisis gen dengan menggunakan metode clustering dinilai lebih akurat dibandingkan analisis nukleotida menggunakan penyejajaran DNA. Hybrid clustering pada tesis ini mengkombinasikan algoritma fuzzy c-means dan algoritma divisive mampu meningkatkan keakurasian jika dibandingkan pendekatan pengelompokan partitional tradisional. Algoritma divisive akan dijalankan pada step kedua setelah hasil clustering yang diperoleh dari pengelompokan partisi fuzzy c-means.
Penentuan jumlah cluster terbaik ditentukan dari nilai Indeks Davies Bauldin yang paling minimum. Sebanyak 1252 barisan DNA HPV Human papillomavirus diperoleh dari Genbank NCBI dengan proses melakukan ekstraksi ciri DNA, selanjutnya dilakukan normalisasi. Proses ekstraksi ciri, normalisasi, dan penerapan algoritma partisi fuzzy c-means dan divisive dalam metode hybrid clustering menggunakan bantuan program open source.
Pada hasil hybrid clustering level awal diperoleh jumlah cluster optimum sebanyak 3 cluster dengan nilai Indeks Davies Bouldin paling minimum adalah 0.9715919. Pada level ke-2 clustering didapatkan cluster ke-1 terbagi atas 9 sub cluster dengan nilai IDB minimum adalah 0.8909797. Cluster ke-2 terbagi atas 2 sub cluster dengan nilai IDB minimum adalah 0.7650508. Cluster 3 terbagi atas 2 sub cluster dengan nilai IDB minimum adalah 0.9112528. Nilai IDB pada level kedua selalu lebih kecil dibanding nilai IDB pada level 1. Hal ini mengindikasikan bahwa hybrid clustering memberikan hasil yang lebih baik terhadap hasil clustering.

Clustering aims to classify the different patterns into groups called clusters. Analysis gene by using clustering method is considered more accurate than analysis of nucleotide using DNA alignment. In this thesis, hybrid clustering algorithm which combines fuzzy c means and algorithm divisive will be improve accuracy when compared to partitional clustering. Divisive algorithms will applied on second level after clustering partition using fuzzy c means.
To find the best number of clusters is determined using the minimum value of Davies Bouldin Index DBI of the cluster results. The data is 1252 sequences of HPV DNA sequences obtained from Gen Bank Database in the National Centre for Biotechnology Information NCBI at http www.ncbi.nlm.nih.gov in FASTA format. The data is converted into numerical form through feature extraction using n mers frequency.
The results on first level hybrid clustering obtained the optimum cluster divided into three clusters with the value of the minimum Davies Bouldin Index is 0.9715919. Morever, DBI values after implementing the second step of clustering are always producing smaller IDB values compare to the results of using first step clustering only. This condition indicates that the hybrid approach in this study produce better performance of the cluster results, in term its DBI values."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017

T47171

UI - Tesis Membership  Universitas Indonesia Library

Cari yang mirip

Tambahkan ke Favorit

Metadata PDF

Abstrak PDF

Abstrak

Ghea Suryawati

Penerapan algoritma partisi fuzzy c means dalam metode hopach clustering = Implementation of fuzzy c means partitioning alghorithm in hopach clustering methode / Ghea Suryawati

"Salah satu cara untuk mengetahui fungsi dari ekpresi gen (DNA/Protein) adalah dengan analisis kelompok (Clustering). Metode pengelompokan HOPACH mengkombinasikan agglomerative dan partisi. Partisi yang dapat digunakan antara lain PAM, SOM, dan K-Means yang termasuk dalam hard clustering. Dalam beberapa kasus karena beberapa hal pengelompokkan objek dengan hard clustering menjadi kurang tepat. Karena itu kemudian muncul teori himpunan fuzzy (kabur, tidak pasti) yang mendasari berkembangnya metode fuzzy clustering. Salah satu metode fuzzy clustering adalah metode Fuzzy c-means (FCM) yang merupakan perkembangan dari k-means.
Hasil dari penerapan algoritma partisi fuzzy c-means dalam metode pengelompokan HOPACH adalah algortima pengelompokan dengan langkah-langkah: ekstraksi ciri dengan n-mers frecuency, normalisasi, partisi dengan FCM, menentukan kelompok terbaik dengan mencari nilai MSS minimum, ordering, dan collapsing. Hal ini dilakukan berulang kali sampai kriteria berhenti terpenuhi. Penerapan algoritma ini dilakukan dengan program R. Pada penerapan algoritma partisi dalam metode HOPACH clustering, langkah normalisasi tidak perlu dilakukan, karena FCM sendiri sudah mengatasi masalah adanya outliers. Kekurangan dari penerapan ini adalah running time program yang cukup lama untuk nilai batas toleransi yang kecil.
One of the way to know the function of gene expression by clustering analysis. HOPACH clustering is combine thea agglomerative and partition method. The partition are PAM, SOM, and K-means which is part of hard clustering. In some cases because of the placement object in to a cluster with hard clustering can cause an error. So that is the reason why fuzzy set theory occurs and became the foundation of fuzzy clustering. One of the fuzzy clustering methods is Fuzzy C-means (FCM) which is developed from K-means.
The result from the implementation of FCM partitioning algorithm in HOPACH clustering method is the clustering algorithm which the steps are: characteristic extraction, normalization, partition using FCM, choosing the best cluster with the minimum MSS, ordering and collapsing. The process need done by iteration until the stopping criteria has reached. The implementation of this algorithm is use R program. In the implementation of FCM partitioning algorithm in HOPACH clustering method, normalization process can be deleted, because the FCM already sole the outliers problem. This disadvantage of this implementation is the running time program need quite along time for the small tolerance limits."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2016

T44901

UI - Tesis Membership  Universitas Indonesia Library

Cari yang mirip

Tambahkan ke Favorit

Metadata PDF

Abstrak PDF

Abstrak

Yudho Prakoso

Kernelisasi metode fuzzy C-means berbasis ruang eigen untuk pendeteksian topik pada Twitter = Kernelized eigenspace based fuzzy C-means for topic detection in Twitter

"Salah satu metode otomatis untuk analisis data tekstual adalah deteksi topik. Eigenspace-based Fuzzy C-Means EFCM adalah metode berbasis soft clustering untuk pendeteksian topik. Pertama, EFCM menggunakan dekomposisi nilai tunggal terpotong untuk mengubah data tekstual dimensi tinggi menjadi data berdimensi rendah. Selanjutnya, proses pengelompokan dilakukan dalam ruang dimensi yang lebih kecil. Namun, proses transformasi itu dapat menghilangkan beberapa fitur penting dari data tekstual. Karena itu, akurasi dapat berkurang.
Dalam penelitian ini digunakan kernel trick untuk mengatasi kelemahan tersebut sehingga proses clustering dapat dilakukan dalam ruang dimensi yang lebih tinggi. Simulasi menunjukkan bahwa pendekatan ini memberikan akurasi yang lebih baik dalam menemukan topik daripada EFCM untuk masalah mendeteksi topik di Twitter.
One of automated methods for textual data analysis is topic detection. Eigenspace based fuzzy c means EFCM is a soft clustering based method for topic detection. Firstly, EFCM use truncated singular value decomposition to transform high dimensional textual data to low dimensional data. Next, the clustering process is conducted in the smaller dimensional space. However, that transformation process may eliminate some important features from the textual data. Therefore, the accuracy may be reduced.
In this study used kernel trick to overcome that weakness so that the clustering process is performed in a higher dimensional space. Simulations show that this approach gives better accuracies in term of topic recall than EFCM for the problem of sensing trending topic in Twitter."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018

S-Pdf

UI - Skripsi Membership  Universitas Indonesia Library

Cari yang mirip

Tambahkan ke Favorit

Metadata PDF

Abstrak PDF

Abstrak

Praditya Nugraha

Analisis akurasi fuzzy C-means berbasis kernel untuk pendeteksian topik pada data Twitter = Accuracy analysis kernelized fuzzy C-means for topic detection on Twitter

"Salah satu metode otomatis untuk analisis data tekstual adalah deteksi topik. Fuzzy C- Means di Ruang Eigen (EFCM) adalah metode berbasis soft clustering untuk pendetek- sian topik. Pada Algoritme EFCM adanya reduksi dimensi data awal menjadi lebih kecil. Namun, proses reduksi itu dapat menghilangkan beberapa fitur penting dari data tekstual. Sehingga, akurasi dapat berkurang. Dalam mengatasi hilangnya fitur penting digunakan bantuan Kernelisasi Fuzzy C-Means di Ruang Eigen sehingga proses clustering dapat di- lakukan dalam ruang dimensi yang lebih tinggi. Dalam penelitian ini akan dicek akurasi dari metode EFCM dan KEFCM dan perbandingannya dengan metode standar seperti Latent Dirichlet Allocation (LDA) dan Nonnegative Matrix Factorization (NMF) dalam masalah pendeteksian topik. Simulasi menunjukkan bahwa KEFCM memberikan akurasi yang lebih baik dalam menemukan topik daripada metode standar LDA dan EFCM namun tidak lebih baik dari NMF untuk masalah mendeteksi topik berita online di Twitter.
One of automated methods for textual data analysis is topic detection. Fuzzy C-Means in Eigenspace (EFCM) is a soft clustering-based method for topic detection. In, EFCM Algorithm there is a step to transform high dimensional textual data into lower dimensional data. However, that transformation process may eliminate some important features from the textual data. Therefore, the accuracy may be reduced. To overcome in losing important features Kernelized Fuzzy C-Means in Eigenspace (KEFCM) is needed, so that clustering process can be done in higher dimensional space. In this study the accuracy of EFCM and KEFCM will be evaluated and these methods will be compared by any standard method such as Latent Dirichlet Allocation (LDA) and Nonnegative Matrix Factorization (NMF) for topic detection problem. Simulations show that KEFCM gives better accuracy to find topics than LDA and EFCM method. However, these methods fail to give better results than NMF for the problem of sensing trending topic in online news in Twitter."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019

S-pdf

UI - Skripsi Membership  Universitas Indonesia Library

Cari yang mirip

Tambahkan ke Favorit

Metadata PDF

Abstrak PDF

Abstrak

Egira Adhani Khairunnisa

Analisis Cluster Kinerja Mahasiswa Tahun Pertama Menggunakan Fuzzy C-Means Clustering Dengan Metode Seleksi Fitur Chi-Square = Analysis of The First-Year University Students Performance Clusters Using Fuzzy C-Means Clustering with Chi-Square Feature Selection Method

"
Saat ini tidak ada keraguan bagi siswa-siswi sekolah menengah untuk melanjutkan pendidikannya ke jenjang universitas. Namun, transisi dari sekolah menengah ke pendidikan tinggi adalah tantangan besar bagi mahasiswa tahun pertama. Kinerja mahasiswa pada tahun pertama cenderung menentukan kinerja mahasiswa tersebut di tahun-tahun akademik berikutnya. Penting untuk mencari karakteristik-karakteristik mahasiswa berdasarkan kinerjanya pada awal tahun semester akademik, sehingga dapat dilakukan pendeteksian awal untuk mencegah penurunan kinerja dan meningkatkan prestasi akademik mahasiswa. Penelitian ini bertujuan untuk mengelompokkan 140 mahasiswa semester pertama. Fitur-fitur diseleksi menggunakan Chi-Square lalu digunakan Fuzzy C-Means clustering untuk mengelompokkan mahasiswa. Dari hasil simulasi, mahasiswa dikelompokkan ke dalam dua cluster dengan kinerja cluster kedua lebih baik dibanding kinerja cluster pertama.
Currently there is no doubt for high school students to continue their education at the university level. However, the transition from high school to university is a major challenge for the first-year students. Moreover, student performance during the first year tends to determine their performance in the following academic years. It is important to find student's characteristics based on their performance at the beginning of the academic semester so that early detection can be done to prevent performance degradation and increase student academic achievement. This study aims to cluster 140 first year students. Features are selected using the Chi-Square feature selection method and then using Fuzzy C-Means clustering to group the students. From simulation result, students are grouped into two clusters with the second cluster's performance is better than the first cluster's performance.
"

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership  Universitas Indonesia Library

Cari yang mirip

Tambahkan ke Favorit

Metadata PDF

Abstrak PDF

Abstrak

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian