Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 7 dokumen yang sesuai dengan query
cover
Raden Trivan Sutrisman
Abstrak :
ABSTRAK Perkembangan berita online di Indonesia saat ini sudah semakin meningkat sehingga kebutuhan dalam melakukan analisis data berita sangat diperlukan untuk mendapatkan intisari informasi yang akurat dan cepat. Topik merupakan komponen dasar yang sering digunakan untuk menganalisis data dalam bentuk teks seperti berita. Dengan menggunakan pemodelan topik, dapat dilakukan pendeteksian topik secara otomatis pada koleksi dokumen berita yang sangat besar dan sulit dilakukan secara manual oleh manusia. Salah satu pemodelan topik yang dapat digunakan adalah metode clustering menggunakan Eigenspace Based Fuzzy C-Means (EFCM). Metode EFCM pada umumnya menggunakan inisialisasi random. Pada penelitian ini akan diimplementasikan metode inisialisasi menggunakan Non-Negative Double Singular Value Decomposition (NNDSVD) dan Fuzzy C-Means++ (FCM++) sebagai alternatif metode inisialisasi pada algoritma EFCM. Hasil simulasi menggunakan inisialisasi NNDSVD dan FCM++ menunjukkan nilai akurasi yang lebih baik dalam hal tingkat interpretabilitas topik daripada metode random.
ABSTRACT The rapid increasing of online news in Indonesia creates the need for news analysis to obtain information as fast as possible. Topics are basic components that are often used to analyze data in the textual forms, such as the news article. By using topic modeling, topics can be detected automatically on large news documents which are difficult to perform manually. One of the topic modeling that can be used is the clustering-based method, i.e., Eigenspace-based Fuzzy C-Means (EFCM). The common initialization method of EFCM is random. In this research, Non-Negative Double Singular Value Decomposition (NNDSVD) and Fuzzy C-Means++ (FCM++) will be used as initialization methods of EFCM. The simulations show that the NNDSVD and FCM++ methods gives better accuracies in term of interpretability score than the random method.
Depok: Universitas Indonesia, 2018
T50041
UI - Tesis Membership  Universitas Indonesia Library
cover
Julizar Isya Pandu Wangsa
Abstrak :
Pendeteksian topik merupakan suatu proses pengidentifikasian suatu tema sentral yang ada dalam kumpulan dokumen yang luas dan tidak terorganisir. Hal ini merupakan hal sederhana yang bisa dilakukan secara manual jika data yang ada hanya sedikit. Untuk data yang banyak dibutuhkan pengolahan yang tepat agar representasi topik dari setiap dokumen didapat dengan cepat dan akurat sehingga machine learning diperlukan. BERTopic adalah metode pemodelan topik yang memanfaatkan teknik clustering dengan menggunakan model pre-trained Bidirectional Encoder Representations from Transformers (BERT) untuk melakukan representasi teks dan Class based Term Frequency Invers Document Frequency (c-TF-IDF) untuk ekstraksi topik. Metode clustering yang digunakan pada penelitian ini adalah metode ­K-Means, Density-Based Spatial Clustering of Applications with Noise (DBSCAN), dan Hierarchical Density-Based Spatial Clustering of Applications with Noise (HDBSCAN). BERT dipilih sebagai metode representasi teks pada penelitian ini karena BERT merepresentasikan suatu kalimat berdasarkan sequence-of-word dan telah memperhatikan aspek kontekstual kata tersebut dalam kalimat. Hasil representasi teks merupakan vektor numerik dengan dimensi yang besar sehingga perlu dilakukan reduksi dimensi menggunakan Uniform Manifold Approximation and Projection (UMAP) sebelum clustering dilakukan. Model BERTopic dengan tiga metode clustering ini akan dianalisis kinerjanya berdasarkan matrik nilai coherence, diversity, dan quality score. Nilai quality score merupakan perkalian dari nilai coherence dengan nilai diversity. Hasil simulasi yang didapat adalah model BERTopic menggunakan metode clustering K-Means lebih unggul 2 dari 3 dataset untuk nilai quality score dari kedua metode clustering yang ada. ......Topic detection is the process of identifying a central theme in a large, unorganized collection of documents. This is a simple thing that can be done manually if there is only a small amount of data. For large amounts of data, proper processing is needed to represent the topic of each document quickly and accurately, so machine learning is required. BERTopic is a topic modeling method that utilizes clustering techniques by using pre-trained Bidirectional Encoder Representations from Transformers (BERT) models to perform text representation and Class based Term Frequency Inverse Document Frequency (c-TF-IDF) for topic extraction. The clustering methods used in this research are the K-Means, Density-Based Spatial Clustering of Applications with Noise (DBSCAN), and Hierarchical Density-Based Spatial Clustering of Applications with Noise (HDBSCAN). BERT was chosen as the text representation method in this research because BERT represents a sentence based on sequence-of-words and has considered the contextual aspects of the word in the sentence. The result of text representation is a numeric vector with large dimensions, so it is necessary to reduce the dimensions using Uniform Manifold Approximation and Projection (UMAP) before clustering is done. The BERTopic model with three clustering methods will be analyzed for performance based on the matrix of coherence, diversity, and quality score values. The quality score value is the multiplication of the coherence value with the diversity value. The simulation results obtained are the BERTopic model using K-Means clustering method is superior to 2 of the 3 datasets for the quality score value of the two existing clustering methods.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Naufal Farhan
Abstrak :

Pendeteksian topik adalah suatu proses yang digunakan untuk menganalisis kata-kata pada suatu koleksi data tekstual untuk menentukan topik-topik yang ada pada koleksi tersebut. Salah satu metode standar yang digunakan untuk pendeteksian topik adalah metode clustering. Deep embedded clustering (DEC) adalah algoritma clustering dengan pendekatan deep learning yang menyatukan pembelajaran fitur dan clustering menjadi satu kerangka kerja sehingga dapat menghasilkan kinerja yang lebih baik. Namun metode DEC memiliki kelemahan, yaitu terjadinya penyimpangan ruang embedded ketika melakukan pembelajaran yang didapat ketika membuang decoder. Kelemahan tersebut diatasi dengan tidak membuang decoder, sehingga diperoleh metode yang lebih baik lagi yaitu Improved Deep Embedded Clustering (IDEC). Proses mempertahankan decoder disebut sebagai pelestarian struktur lokal. Pada penelitian ini, metode IDEC diadaptasi untuk masalah pendeteksian topik data tekstual berbahasa Indonesia. Selanjutnya kinerja metode IDEC dibandingkan dengan metode penelitian lain yang menggunakan DEC untuk masalah pendeteksian topik yaitu dengan cara membandingkan nilai dari coherence. Nilai coherence yang dihasilkan menunjukkan bahwa metode DEC lebih cocok jika dibandingkan dengan metode IDEC untuk permasalahan pendeteksian topik. Hal tersebut terjadi karena bagian decoder pada metode IDEC diperbarui sehingga parameter decoder sudah tidak sesuai untuk mengembalikan data ke dimensi semula. Sedangkan pada metode DEC bagian decoder dibuang sehingga parameter tidak diperbarui.


Topic detection is a process that is used to analyze words in a textual data collection to determine the topics within that collection. One of this standard topic detection method is clustering method. Deep embedded clustering (DEC) is a clustering algorithm with a deep learning approach that combines feature learning and clustering into one framework to obtain a better performance. However, DEC method has a weakness namely the distortion of embedded space that is caused by removing the decoder during the learning process. This weakness can be overcome by preserving the decoder, hence a better method is acquired, namely Improved Deep Embedded Clustering (IDEC). The process of preserving the decoder is called local structure preservation. In this research we adapt IDEC method for topic detection problem in Indonesian textual dataset. Furthermore, we compare the performance of IDEC method and other research using DEC by comparing the coherence value. The acquired coherence value shows that DEC method is more suitable compared to IDEC method for topic detection problems. This happens because of the decoder part in IDEC method is updated, so that the decoder parameters are no longer suitable to return the data into the original dimension. While in the DEC method the decoder was removed, therefore the parameters are not updated.

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2020
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Christhoper Nugraha
Abstrak :
ABSTRAK
Deteksi topik adalah proses menganalisis kumpulan data tekstual untuk menentukan topik pengumpulan data tekstual. Salah satu metode pengelompokan yang dapat digunakan untuk deteksi topik adalah metode Fuzzy C-Means (FCM). Namun, penggunaan FCM sederhana untuk pendeteksian topik tentang big data kurang efektif, karena akan memakan waktu lama dan banyak memori. FCM sederhana juga memiliki masalah lain, ketika melakukan deteksi topik aktif data dimensi tinggi, FCM sederhana hanya akan menghasilkan satu topik. Dalam penelitian ini, suatu gabungan metode Single-Pass Fuzzy C-Means (SPFCM) dan Fuzzy C-Means Berbasis Eigenspace (EFCM) diusulkan, yaitu Single-Pass Eigenspace-Based Fuzzy C-Means (SPEFCM) metode untuk mengatasi masalah ini. Data yang digunakan untuk deteksi topik adalah tweet yang berasal dari aplikasi Twitter. Lalu, keakuratan topik didapat menggunakan SPEFCM dan EFCM akan dibandingkan berdasarkan nilai koherensi. Itu hasil simulasi menunjukkan bahwa nilai koherensi topik yang diperoleh menggunakan SPEFCM adalah sebanding dengan EFCM. Ini menunjukkan bahwa SPEFCM adalah metode yang tepat untuk mendeteksi topik pada data besar, tanpa mengurangi kualitas topik yang dihasilkan.
ABSTRACT
Topic detection is the process of analyzing a textual data set to determine the topic of textual data collection. One of the grouping methods that can be used for topic detection is the Fuzzy C-Means (FCM) method. However, the use of simple FCM for the detection of topics about big data is less effective, because it will take a long time and a lot of memory. Simple FCM also has another problem, when detecting active topics of high dimensional data, simple FCM will only produce one topic. In this study, a combination of the Single-Pass Fuzzy C-Means (SPFCM) method and the Fuzzy C-Means Based on Eigenspace (EFCM) is proposed, namely the Single-Pass Eigenspace-Based Fuzzy C-Means (SPEFCM) method to overcome this problem. The data used for topic detection is tweets that come from the Twitter application. Then, the accuracy of the topics obtained using SPEFCM and EFCM will be compared based on coherence values. The simulation results show that the topic coherence value obtained using SPEFCM is comparable to EFCM. This shows that SPEFCM is the right method for detecting topics in big data, without reducing the quality of the topics produced.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2019
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Syach Riyan Muhammad Ardiyansyah
Abstrak :
Pendeteksian topik merupakan sebuah proses dalam menganalisis data teks untuk menemukan sebuah topik-topik yang ada pada data teks. Pada era digital saat ini, pendeteksian topik sering digunakan untuk menganalisis topik dan mengelompokkan informasi berdasarkan topiknya. Machine learning membantu proses pendeteksian topik menjadi lebih cepat dan efisien, terutama pada data teks dengan ukuran data yang besar. Salah satu metode machine learning yang dapat digunakan untuk pendeteksian topik adalah metode clustering. Namun karena dimensi data yang tinggi membuat beberapa metode clustering kurang efektif menyelesaikan pendeteksian topik. Untuk mengatasi hal tersebut data yang memiliki ukuran dimensi yang cukup tinggi perlu dilakukan proses reduksi dimensi terlebih dahulu. Improved Deep Embedded Clustering (IDEC) merupakan sebuah metode clustering yang secara bersamaan melakukan reduksi dimensi data dan clustering. Oleh karena itu, pada penelitian ini dilakukan pendeteksian topik dengan metode clustering IDEC. Data yang digunakan pada penelitian ini merupakan data berita online AG News, Yahoo! Answer, dan R2. Namun pada metode IDEC, data teks tidak bisa langsung menerima input berupa data teks. Data teks perlu diubah menjadi vektor representasi yang dapat diterima input. Pada penelitian ini digunakan metode representasi teks Bidirectional Encoder Representation from Transformers (BERT). Data teks mula-mula akan diubah oleh BERT menjadi vektor representasi, setelah itu vektor representasi akan diterima dan dilakukan pendeteksian topik oleh metode IDEC. Kemudian pada proses simulasi dilakukan perbandingan kinerja model IDEC dengan representasi teks BERT dan model IDEC dengan representasi teks TF-IDF. Didapatkan hasil simulasi dari kinerja model IDEC dengan representasi teks BERT memiliki kinerja yang lebih unggul dibandingkan dengan model IDEC dengan representasi teks TF-IDF ......Topic detection is a process in analyzing text data to find topics that exist in text data. In today's digital era, topic detection is often used to analyze topics and grouping the information by topic. Machine learning helps the topic detection process to be faster and more efficient, especially in text data with large data sizes. One of the machine learning methods that can be used for topic detection is the clustering method. However, because the high data dimensions make some clustering methods less effective in completing topic detection. To overcome this, data that has a sufficiently high dimension size needs to be carried out in a dimension reduction process first. Improved Deep Embedded Clustering (IDEC) is a clustering method that simultaneously performs data dimension reduction and clustering. Therefore, in this study, topic detection was carried out using the IDEC clustering method. The data used in this study is the online news data of AG News, Yahoo! Answer, and R2. However, in the IDEC method, text data cannot directly receive input in the form of text data. Text data needs to be converted into a vector representation that can accept input. In this study, the Bidirectional Encoder Representation from Transformers (BERT) text representation method was used. The text data will first be converted by BERT into a vector representation, after that the vector representation will be accepted and topic detection will be carried out by the IDEC method. Then the simulation process compares the performance of the IDEC model with the BERT text representation and the IDEC model with the TF-IDF text representation. The simulation results obtained from the performance of the IDEC model with the text representation of BERT which has superior performance compared to the IDEC model with the text representation of TF-IDF.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ichsani Mursidah
Abstrak :
ABSTRAK
Pendeteksian topik adalah proses untuk menemukan topik atau pokok pembahasan utama dalam suatu kumpulan dokumen. Untuk data yang besar, pendeteksian topik dengan manual sulit atau bahkan tidak mungkin dilakukan. Sehingga, dibutuhkan metode otomatis yang dikenal dengan istilah Topic Detection and Tracking (TDT). Pada penelitian ini metode TDT yang digunakan untuk masalah pendeteksian topik adalah fuzzy C-means (FCM). FCM bekerja cukup baik pada dimensi data yang rendah, tetapi gagal pada dimensi data yang tinggi. Pada metode fuzzy c-means umumnya dilakukan inisialisasi random yang menyebabkan data konvergen ke satu pusat (centre of gravity) sehingga topik-topik yang dihasilkan antara satu dengan yang lainnya sama. Untuk mengatasi masalah tersebut dibutuhkan inisialisasi yang tidak random, yaitu dengan menggunakan inisialisasi berbasis singular value decomposition (SVD). Hasil akurasi dari metode ini menunjukkan adanya peningkatan lebih baik dibandingkan dengan metode FCM dengan inisialisasi random. Dengan nilai akurasi terbaik untuk FA Cup adalah 0,923, untuk US Elections adalah 0,661 dan untuk Super Tuesday adalah 0,727.
ABSTRACT
Topic detection is the process of finding the main topic or topic in a document. For large data, manual topic detection is difficult or even impossible. Thus, it takes an automatic method known as Topic Detection and Tracking (TDT). In this research the TDT method used for topic detection problem is fuzzy C-means (FCM). FCM works reasonably well on low data dimensions, but fails on high data dimensions. In the method of fuzzy c-means is generally done random initialization that causes data convergent to one center (center of gravity) so that the topics generated from one another are equal. To solve this problem requires non-random initialization, ie by using a singular value decomposition (SVD) based initialization. The accuracy of this method shows a better improvement compared to the FCM method with random initialization. With the best accuracy value for the FA Cup is 0.923, for US Elections is 0.661 and for Super Tuesday is 0.727.
2017
T48587
UI - Tesis Membership  Universitas Indonesia Library
cover
Anne Parlina
Abstrak :
Tren adalah suatu pola yang berulang, sementara analisis tren merupakan praktik pengumpulan dan analisis data dalam upaya untuk menemukan pola tersebut. Analisis tren adalah suatu metode untuk memproyeksikan kondisi masa depan berdasarkan data masa lalu hingga saat ini. Tinjauan literatur sistematis, bibliometrik, dan topic modeling adalah beberapa contoh pendekatan yang sering dipakai untuk menangkap fenomena perkembangan tren sains dan teknologi. Penelitian ini bertujuan untuk melakukan pengujian dan implementasi algoritma deteksi topik berbasis clustering yang dikombinasikan dengan analisis kualitatif dalam pendeteksian tren topik untuk mendapatkan gambaran yang menyeluruh mengenai konsep, struktur ilmiah, topik utama, dan perkembangan bidang teknologi big data dan smart sustainable city. Analisis topik dilakukan terhadap kumpulan data bibliografi publikasi ilmiah terkait kedua bidang tersebut yang didapat dari basis data Scopus dan CORE. Pengujian terhadap kinerja algoritma Deep-autoencoder based Fuzzy C-Means (DFCM) untuk deteksi topik dari corpus dokumen publikasi ilmiah menunjukkan bahwa algoritma DFCM menunjukkan kinerja yang baik serta dapat mengungguli kinerja algoritma-algoritma standar yang banyak dipakai untuk pendeteksian topik seperti Non-negatif Matrix Factorization (NMF) dan Latent Dirichlet Allocation (LDA) pada corpus dengan ukuran besar. Analisis hasil clustering terhadap data publikasi ilmiah memberikan gambaran perkembangan dan topik-topik yang menjadi “highlight” dalam periode tertentu, mencari research gap dan mengetahui karakteristik penelitian, serta memprediksi topik penelitian apa saja yang menjanjikan di masa depan. ......A trend is a recurring pattern, while trend analysis is the practice of collecting and analyzing data to find that pattern. Trend analysis is a method for projecting future conditions based on past to present data. Systematic literature review, bibliometrics, and topic modeling are examples of approaches that are often used to capture the phenomenon of the development of science and technology trends. This study examined and implemented clustering-based topic detection algorithms, combined with qualitative analysis, to comprehensively picture the concept, scientific structure, main topics, and developments in big data technology and smart and sustainable city. The topic analysis is performed on collecting bibliographic data from scientific publications related to these two fields obtained from the Scopus and CORE database. In this research, the deep-autoencoder based on the Fuzzy C-Means (DFCM) algorithm's performance for topic detection from the corpus of scientific publication documents was examined. Based on the experiment's results, it can be concluded that the DFCM algorithm shows good performance and can outperform standard algorithms that are widely used for topic detection, such as Non-negative Matrix Factorization (NMF) and Latent Dirichlet Allocation (LDA) on topic detection tasks in huge corpus text. The clustering results analysis on scientific publication data provides an overview of research topics and developments that become "highlights" in a certain period, discover research gaps and characteristics, and predict what research topics are promising in the future.
Depok: Fakultas Teknik Universitas Indonesia, 2021
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library