Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 5 dokumen yang sesuai dengan query
cover
Delano Novrilianto
Abstrak :
ABSTRAK
Pendeteksian topik merupakan proses untuk mendapatkan topik dari koleksi data tekstual. Salah satu metode otomatis untuk masalah pendeteksian topik adalah Separable Nonnegative Matrix Factorization SNMF . Terdapat tiga tahap yang dilakukan untuk menyelesaikan SNMF yakni membentuk matriks kookurensi kata-kata, menentukan kata-kata anchor, dan mencari matriks kata-topik. Metode yang umum digunakan untuk menentukan kata-kata anchor pada tahap kedua dari penyelesaian SNMF adalah dengan metode berbasis Convex Hull. Pada penelitian ini digunakan pendekatan lain untuk menentukan kata-kata anchor yaitu dengan memakai metode Singular Value Decomposition SVD . Topik-topik yang dihasilkan dengan kata-kata anchor -nya ditentukan dengan metode SVD dievaluasi tingkat intepretabilitasnya dengan memakai satuan Pointwise Mutual Information PMI dan dibandingkan dengan topik-topik dimana kata-kata anchor -nya ditentukan dengan metode berbasis Convex Hull. Waktu komputasi yang dibutuhkan untuk menentukan kata-kata anchor dengan metode SVD juga dibandingkan dengan waktu komputasi yang dibutuhkan untuk menentukan kata-kata anchor dengan metode berbasis Convex Hull.
ABSTRACT
Topic detection is the process of getting topics from a collection of textual data. One of the methods for detection problems is the Separable Nonnegative Matrix Factorization SNMF . There are three stages done to complete SNMF that is to form the word kookurensi matrix, determine the anchor words, and search for the word topic matrix. The common method used to determine the anchor words in the second stage of SNMF completion is the Convex Hull based method. In this research another approach is used to determine the anchor words, that is using Singular Value Decomposition SVD method. The resulting topics where the anchor words are determined by the SVD method will be evaluated for their interpretability level by using the Pointwise Mutual Information PMI unit and will compare with the topics where the anchor 39 s words are based on the Convex Hull based method. The computational time required to determine the anchor words by the SVD method will also be compared with the computational time required to determine the anchor words by the Convex Hull based method.
2017
S68021
UI - Skripsi Membership  Universitas Indonesia Library
cover
Suryanto Ang
Abstrak :
Pengelompokan dokumen atau document clustering telah menjadi suatu teknik yang berguna dalam pengorganisasian sekumpulan dokumen. Dengan teknik ini, komputer bisa secara otomatis mengelompokkan sekumpulan dokumen ke dalam kluster-kluster yang cocok yang merepresentasikan data yang ada. Dengan demikian, proses pencarian informasi bisa dilakukan dengan lebih efisien. Telah banyak metode yang dikembangkan untuk mendukung pengelompokan dokumen. Dua diantara metode-metode tersebut adalah Nonnegative Matrix Factorization (NMF) dan Random Projection (RP). Pada penelitian ini, proses pengelompokan dokumen dilakukan dengan metode reduksi dimensi NMF dan RP pada dokumen berbahasa Indonesia. Untuk metode RP, diperlukan tahap tambahan untuk dapat mengelompokkan dokumen. Metode yang digunakan pada tahap ini adalah K-Means. Data yang digunakan pada percobaan adalah artikel media massa. Percobaan dilakukan dengan variasi pada variabel percobaan seperti jumlah kluster, jumlah data, jenis data, dan informasi fitur. Dari percobaan yang telah dilakukan, terlihat bahwa teknik NMF dan RP dapat diterapkan dalam aplikasi pengelompokan dokumen bahasa Indonesia. Akurasi pengelompokan bisa mencapai 97%. Dari percobaan terlihat juga bahwa teknik NMF menghasilkan akurasi yang lebih tinggi daripada RP dengan kisaran perbedaan sekitar 2%. Ukuran dan jumlah kluster juga mempengaruhi akurasi. Ukuran kluster yang semakin besar menyebabkan peningkatan akurasi sedangkan jumlah kluster yang semakin banyak menyebabkan penurunan akurasi. Dengan ukuran kluster 296 dan jumlah kluster 2 misalnya, akurasi mencapai 96%. Disamping itu, informasi fitur berupa presence merupakan yang paling cocok digunakan karena menghasilkan akurasi yang paling tinggi, juga mencapai 97%. Jumlah fitur yang lebih banyak dan tidak mengandung stopwords juga memberikan akurasi yang lebih tinggi.
Document clustering has been a beneficial technique in organizing documents. With good document clustering technique, computer can automatically group collection of documents into meaningful clusters. The information retrieval process thus can be done eficiently. There have been lots of methods developed in supporting document clustering process. Two of them are Nonnegative Matrix Factorization (NMF) and Random Projection (RP). In this research, document clustering process is conducted on Indonesian documents using both NMF and RP dimensional reduction method. For RP, additional clustering process is required. For this purpose, K-Means is used. Documents used are mass media articles. Experiments are conducted with variation of experiment variables including number of cluster, number of data, types of data, feature, etc. From the experiments conducted, it can be concluded that NMF and RP technique can be used in document clustering application for Indonesian documents. The accuracy reaches 97%. Experiments also show that NMF yields better accuracy than RP with difference range about 2%. Cluster size and cluster number also influence the accuracy. The bigger the cluster size, the higher the accuracy while the more the cluster number, the lower the accuracy. For example, with cluster size 296 and cluster number 2, the accuracy reaches 96%. Despitefully, using presence as feature is the most appropriate one because it results in the highest accuracy among others, also reaches 97%. In addition, the more the features used and excluding the stopwords, the higher the accuracy will be.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Rosiana Disiati Prabandari
Abstrak :
ABSTRAK
Era globalisasi tidak dapat menahan besarnya pengaruh kecanggihan teknologi informasi, salah satunya adalah internet. Perkembangan teknologi internet tentu meningkatkan jumlah informasi yang tersedia. Informasi tersebut dapat berupa berita ? berita aktual yang dapat diakses melalui media sosial, seperti Twitter. Oleh karena itu, dibutuhkan suatu cara cepat dan efisien untuk menemukan topik utama dari Twitter. Pendeteksian topik pada dokumen yang sangat besar sulit dilakukan secara manual sehingga dibutuhkan metode otomatis, salah satunya faktorisasi matriks yaitu Nonnegative Matrix Factorization (NMF). Salah satu metode NMF yang telah berhasil dikembangkan dengan komplesitas waktu polinomial adalah P-NMF dengan algoritma AGM yang memiliki asumsi bahwa setiap topik memiliki sedikitnya satu kata yang tidak terdapat pada topik lainnya yang disebut sebagai kata anchor. P-NMF dengan algoritma AGM terdiri dari tiga tahapan, yaitu pembentukan matriks coocurance, pencarian kata anchor, dan recover. Pada penelitian ini akan diterapkan P-NMF dengan Recover KL untuk mendeteksian topik pada twitter, kemudian hasilnya akan dibandingkan dengan LDA dan P-NMF dengan Original Recover. Penelitian menunjukan bahwa P-NMF dengan Recover KL mampu meningkatkan akurasi untuk pendeteksian topik pada Twitter.
ABSTRACT
The era of globalization can?t withstand the influence of sophistication of information technology, such as Internet. Development of Internet technology would increase the amount of information. The information may be actual news that can be accessed through social media, such as Twitter. Therefore, needed a fast and efficient way to find the main topics of Twitter. Detection topics on very large documents difficult to do manually so it takes automated methods, one of which is nonnegative matrix factorization (NMF). One method that has been successfully developed NMF with polynomial time complexity is P-NMF algorithm AGM which assumes that each topic has at least one word that doesn?t appear on other topics, called anchor words. P-NMF algorithm AGM consists of three steps, the establishment of a matrix coocurance, finding anchor words, and recover. This research will be implemented P-NMF with Recover KL to detect topics on twitter, then the results will be compared with the LDA and P-NMF with Original Recover. Research shows that P-NMF with Recover KL can improve detection accuracy for topics on Twitter.
2016
T46037
UI - Tesis Membership  Universitas Indonesia Library
cover
Furida Lusi S.
Abstrak :
Salah satu media sosial yang berkembang saat ini adalah twitter, twitter menjadi salah satu tempat bagi masyarakat untuk memberikan opini atau pendapat terhadap hal-hal yang menarik bagi masyarakat, sehingga opini-opini dan pendapat yang tertuang di dalam twitter dapat menjadi acuan bagi orang yang membutuhkan. Sehingga dibutuhkan metode otomatis untuk menganalisis hal tersebut yaitu dengan analisis sentiment sentiment analysis. Secara umum, masalah sentimen analisis merupakan suatu masalah klasifikasi, yaitu bagaimana mengklasifikasikan suatu data tekstual ke dalam kelas sentimen positif atau negatif. Salah satu metode klasifikasi yang dapat digunakan adalah Support vector machine SVM. Pada proses klasifikasi sentimen dari data tekstual, data tekstual tersebut umunya direpresentasikan dalam vektor dengan fitur atau dimensi berupa kata. Disamping fitur kata, saat ini ada metode untuk mendeteksi topik pada suatu data tekstual yaitu dengan Nonnegative Matrix Factorization NMF. Pada penelitian yang dianalisis adalah menggunakan fitur topik untuk analisis sentimen dengan cara menggabungkan metode Nonnegative Matrix Factorization NMF dan Support vector machine SVM . Nilai akurasi dari metode penggabungan ini menunjukkan hasil yang lebih baik.
One social media developed at this time is twitter, twitter became one of the places for the public to give opinions or views on matters of interest to the public, so that the opinions and views expressed in twitter can be a reference for people in need. So it takes an automatic method for analyzing it is by analysis of sentiment sentiment analysis. In general, sentiment analysis problem is a problem of classification., Namely how to classify a class of textual data into a positive or negative sentiment. One method of classification that can be used is Support vector machine SVM. In the process of sentiment classification of textual data, textual data are generally represented by a vector with a feature or dimension in the form of words. Besides the features of the word, at this time there is a method for detecting a topic in a textual data that is with nonnegative Matrix Factorization NMF. In the study are analyzed using the feature topic for sentiment analysis by combining methods nonnegative Matrix Factorization NMF and Support vector machine SVM. Rated accuracy of this incorporation method showed better results.
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2017
T47000
UI - Tesis Membership  Universitas Indonesia Library
cover
Ika Dwi Novitasari
Abstrak :
ABSTRAK
Pendeteksian topik merupakan suatu proses untuk menemukan topik atau pokok pembahasan utama dalam suatu kumpulan dokumen. Pada penelitian ini, pendeteksian topik diterapkan pada media sosial, yaitu Twitter. Pendeteksian topik pada Twitter secara manual sulit dilakukan karena terlalu banyak tweets. Oleh karena itu, dibutuhkan adanya pendeteksian topik secara otomatis. Salah satu metode otomatis untuk pendeteksian topik adalah metode Separable-Nonnegative Matrix Factorization S-NMF dengan algoritma AGM. S-NMF merupakan model berbasis faktorisasi matriks yang dapat diselesaikan secara langsung dengan menggunakan asumsi bahwa setiap topik memiliki satu kata yang tidak terdapat pada topik lainnya yang disebut kata anchor. S-NMF dengan algoritma AGM terdiri dari tiga tahapan, yaitu pembentukan matriks coocurance, penentuan kata anchor, dan recover. Dalam penelitian ini dilakukan proses penentuan kata anchor berbasis Singular Value Decomposition SVD . Kemudian, hasilnya akan dibandingkan dengan penentuan kata anchor metode Convex Hull berbasis Gram-Schmidt. Penelitian memberikan hasil bahwa dengan memperhatikan semua kata sebagai kandidat kata anchor, SVD memberikan hasil yang lebih baik daripada Convex Hull. Sedangkan, jika menggunakan anchor threshold, Convex Hull masih memberikan hasil yang lebih baik dibandingkan dengan SVD.
ABSTRACT
Topic detection is a process to find main topic or main subject of discussion in a collection of documents. In this research, topic detection is applied to social media, namely Twitter. Manual detection of topics on Twitter is difficult because of too many tweets. Therefore, it is necessary to detect topics automatically. One of the automatic methods for topic detection is the Separable Nonnegative Matrix Factorization S NMF method with the AGM algorithm. S NMF is a matrix factorization based model that can be solved directly using the assumption that each topic has one word that is not present in another topic called anchor words. S NMF with AGM algorithm consists of three stages, namely the formation of coocurance matrix, finding the anchor words, and recover. In this research, the process of finding anchor words was done based on Singular Value Decomposition SVD . Then, the result was compared to anchor word finding by Convex Hull based method. The results has shown that by considering all words as anchor word candidates, SVD gave better results rather than Convex Hull. Meanwhile, when the anchor finding was done by using anchor threshold, Convex Hull still gave better result rather than SVD.
2017
T47592
UI - Tesis Membership  Universitas Indonesia Library