Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 206596 dokumen yang sesuai dengan query
cover
Ahmad Fauzi
"Adanya peristiwa selama tahapan penyelenggaraan pemilu 2024, menimbulkan berbedaan pandangan diantara para Ahli, akan potensi terciptanya persepsi buruktentang Pemilu 2024. Sehingga dibutuhkan pengukuran perbandingan sentimen untuk menindaklanjuti dan membuktikan pandangan tersebut. Di sisi lain media sosial hadir sebagai tempat yang memungkinkan penggunanya untuk mengeskpresikan opini yang dimiliki, termasuk opini tentang penyelenggaraan Pemilu. Besarnya adopsi media sosial di Indonesia, memungkinkannya digunakan sebagai sumber data dalam pengukuran perbandingan sentimen masyarakat terkait dengan Pemilu 2024. Namun dalam menganalisa data yang berasal dari media sosial membutuhkan sumber daya dan waktu yang tidak sedikit jika dilakukan secara manual, dikarenakan adanya karakterstik high velocity, high volume dan high variety yang dimiliki oleh data yang berasal dari media sosial. Text analytics dengan pendekatan machine learning telah banyak digunakan dan menjadi state-of-the-art cara yang mengatasi permasalahan tersebut. Penelitian ini mengkomparasikan algoritma deep learning dengan algoritma machine learning tradisional seperti SVM, random forest dan logistic regression, dalam upaya membangun model analisis sentimen yang dapat digunakan untuk mengukur perbandingan sentimen masyarakat terhadap Pemilu 2024. Teknik pemodelan topik Latent Dirichlet Allocation juga digunakan untuk mengidentifikasi topik pembicaraan yang tersembunyi di dalamnya. Hasil dari penelitian menunjukkan algoritma SVM dengan teknik vektorisasi TF-IDF unigram muncul sebagai algoritma dengan hasil kinerja prediksi terbaik dengan nilai f1-score 0.7890. Selain itu terdapat dinamika pergeseran dominasi sentimen mulai dari masa kampanye, masa tenang dan masa pemungutan sampai dengan masa rekapitulasi suara. Hasil penelitian ini diharapkan dapat memberikan informasi yang bernilai bagi para pemangku kepentingan seperti: Pengamat politik, Praktisi politik, Pemerintah dan Penyelenggara Pemilu.

The events occurring during the stages of the 2024 General Election have sparked differing opinions among experts regarding the potential for negative perceptions of the election. Consequently, there is a need to measure sentiment patterns to follow up on and substantiate these views. Meanwhile, social media serves as a platform that allows users to express their opinions, including those about the election. The widespread adoption of social media in Indonesia enables it to be used as a data source for measuring public sentiment patterns related to the 2024 General Election. Analyzing data from social media requires significant resources and time if done manually, due to the high velocity, high volume, and high variety characteristics of social media data. Text analytics with a machine learning approach has been extensively used and has become the state-of-the-art method for addressing these challenges. This study compares deep learning algorithms with traditional machine learning algorithms such as Support Vector Machine (SVM), Random Forest, and Logistic Regression in an effort to build a sentiment analysis model that can be used to measure public sentiment patterns toward the 2024 General Election. The Latent Dirichlet Allocation (LDA) topic modeling technique is also used to identify hidden discussion topics within the data. The results of the study indicate that the SVM algorithm with TF-IDF unigram vectorization technique emerged as the algorithm with the best predictive performance, achieving an f1-score of 0.7890. Meanwhile, the measurement of sentiment patterns showed dynamic shifts in sentiment from the campaign period, the quiet period, and the voting period up to the recapitulation period. The findings of this study are expected to provide valuable information for stakeholders such as political observers, political practitioners, the government, and election organizers.
"
Jakarta: Fakultas Ilmu Komputer Universitas Indonesia, 2024
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Dwi Guna Mandhasiya
"Ilmu Data adalah irisan dari matematika dan statistika, komputer, serta keahlian domain. Dalam beberapa tahun terakhir inovasi pada bidang ilmu data berkembang sangat pesat, seperti Artificial Intelligence (AI) yang telah banyak membantu kehidupan manusia. Deep Learning (DL) sebagai bagian dari AI merupakan pengembangan dari salah satu model machine learning yaitu neural network. Dengan banyaknya jumlah lapisan neural network, model deep learning mampu melakukan proses ekstrasi fitur dan klasifikasi dalam satu arsitektur. Model ini telah terbukti mengungguli teknik state-of-the-art machine learning di beberapa bidang seperti pengenalan pola, suara, citra, dan klasifikasi teks. Model deep learning telah melampaui pendekatan berbasis AI dalam berbagai tugas klasifikasi teks, termasuk analisis sentimen. Data teks dapat berasal dari berbagai sumber, seperti sumber dari media sosial. Analisis sentimen atau opinion mining merupakan salah satu studi komputasi yang menganalisis opini dan emosi yang diekspresikan pada teks. Pada penelitian ini analisis peforma machine learning dilakukan pada metode deep learning berbasis representasi data BERT dengan metode CNN dan LSTM serta metode hybrid deep learning CNN-LSTM dan LSTM-CNN. Implementasi model menggunakan data komentar youtube pada video politik dengan topik terkait Pilpres 2024, kemudian evaluasi peforma dilakukan menggunakan confusion metric berupa akurasi, presisi, dan recall.

Data Science is the intersection of mathematics and statistics, computing, and a domain of expertise. In recent years innovation in the field of data science has developed very rapidly, such as Artificial Intelligence (AI) which helped a lot in human life. Deep Learning (DL) as part of AI is the development of one of the machine learning models, namely neural network. With the large number of neural network layers, deep learning models are capable of performing feature extraction and classification processes in a single architecture. This model has proven to outperform state-of-the-art machine learning techniques in areas such as pattern recognition, speech, imagery, and text classification. Deep learning models have gone beyond AI-based approaches in a variety of text classification task, including sentiment analysis. Text data can come from various sources, such as source from social media. Sentiment analysis or opinion mining is a computational study that analyze opinions and emotions expressed in text. In this research, machine learning performance analysis is carried out on a deep learning method based on BERT data representation with the CNN and LSTM and hybrid deep learning CNN-LSTM and LSTM-CNN method. The implementation of the model uses YouTube commentary data on political videos related to the 2024 Indonesia presidential election, then performance analysis is carried out using confusion metrics in the form of accuracy, precision, and recall."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Aditya Tejabaswara
"Pesatnya perkembangan teknologi disertai dengan tingkat penggunaannya membawa dampak positif di berbagai bidang kehidupan manusia, namun juga dapat membawa dampak negatif jika tidak didukung dengan tanggung jawab pengguna teknologi itu sendiri. Bidang telekomunikasi adalah salah satu bidang yang perkembangannya sangat dirasakan oleh manusia. Salah satu dari perkembangan telekomunikasi adalah lahirnya media sosial. Manusia menggunakan media sosial untuk berbagi informasi apapun kepada siapapun. Namun yang menjadi masalah kemudian adalah apakah informasi yang tersebar merupakan informasi yang nilai kebenarannya telah teruji atau hanya sebuah rumor. Rumor dapat saja mengakibatkan tersebarnya informasi yang salah di suatu golongan atau komunitas manusia.
Adapun topik yang terkait pada tugas akhir ini adalah siak-ng yang menjadi trending topic di media sosial twitter. l. Mengidentifikasi rumor pada media sosial online sangat krusial nilainya karena mudahnya informasi yang disebar oleh sumber yang tidak jelas.
Pada tugas akhir ini akan ditunjukkan salah satu cara pengidentifikasian rumor dengan menggunakan kalkulasi graph edit distance. Graph edit distance merupakan salah satu langkah yang paling cocok untuk menentukan persamaan antar grafik dan pengenalan pola jaringan kompleks. Untuk mencapai tujuan akhir, langkahlangkah yang dilakukan adalah pengambilan data, konversi data, pengolahan data, dan visualisasi. Dengan pengolahan data didapat Sembilan padanan kata antara Parent Node dan Child Node serta 3 kategori edge label. Pada akhirnya ditemukan bahwa rumor sistem siak-ng sedang mengalami load tinggi merupakan rumor yang nilai kebenarannya tinggi.

Rapid development of technology coupled with the utilizing bring positive impact in many areas of human life, but also have negative impacts if not supported with the responsibility of the users. Telecommunications is one area in which development is perceived by humans. One of the development of telecommunications is social media established.Humans use social media to share any information with anyone. However, the issue then is whether the spread of information is information whose truth value has been tested or just a rumor. Rumors will lead to the spread of false information in a group or people's community.
The topics related to this thesis is the SIAK-NG become trending topic on social media Twitter. Identifying online rumors on social media is crucial value because of the information ease spread by unverified sources.
At the end of this assignment will be demonstrated one way of identifying the rumor by using graph edit distance calculations. Graph edit distance is one of the most appropriate steps to determine the similarities between graphs and pattern recognition of complex networks. To achieve the ultimate goal, the steps taken are data retrieval, data conversion, data processing, and visualization. By data processing obtain nine words comparison between Parent node and Child Node with three edge label category. Finally, the tweet that said the system has high range of load was the true rumor.
"
Depok: Fakultas Teknik Universitas Indonesia, 2012
S42944
UI - Skripsi Open  Universitas Indonesia Library
cover
Faza Muthmainnah
"Perkembangan teknologi dan digitalisasi telah memudahkan akses informasi melalui internet, termasuk dalam jurnalistik. Data menunjukkan bahwa terdapat ribuan portal berita daring di Indonesia, dengan detik.com menjadi salah satu yang paling banyak diakses dan terverifikasi oleh Dewan Pers. Penelitian ini menganalisis tren dan sentimen berita pemilihan umum 2024 di detik.com menggunakan metode deep learning. Data dikumpulkan dari berita selama tiga bulan masa kampanye dan dibagi menjadi tiga dataset sesuai pasangan calon presiden. Metode yang digunakan mencakup Exploratory Data Analysis (EDA) dan analisis sentimen menggunakan model Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), dan Gated Recurrent Unit (GRU), serta advanced model-nya. Hasil penelitian menunjukkan pasangan calon nomor urut 02 memiliki frekuensi pemberitaan tertinggi yang fluktuatif, sementara pasangan calon nomor urut 01 dan 03 lebih stagnan. Sentimen positif mendominasi pemberitaan dengan topik berbeda pada setiap peak conversation. Analisis sentimen menunjukkan model CNN-LSTM memiliki akurasi tertinggi, namun model dasar CNN, LSTM, dan GRU juga menunjukkan performa baik dengan akurasi, F1-Score, precision, dan recall di atas 80%, serta waktu runtime yang lebih singkat, menjadikannya pilihan lebih optimal untuk dataset ini.

The rapid development of technology and digitalization has facilitated access to information, including journalism. Thousands of online news portals exist in Indonesia, with detik.com being one of the most accessed and verified by Dewan Pers. This study analyzes trends and sentiment in news about the 2024 general election reported by detik.com. Data were collected during the three-month campaign period and divided into three datasets for each presidential candidate pair. Methods used include Exploratory Data Analysis (EDA) to identify trends and news frequency, and sentiment analysis using Natural Language Processing (NLP) techniques like Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), and Gated Recurrent Unit (GRU), along with advanced models. Results show that candidate pair 02 has the highest and most fluctuating news frequency, while pairs 01 and 03 have more stable trends. Positive sentiment dominates coverage for all candidates, with different topics during peak discussions: pair 01 in campaign contexts, pair 02 during the third debate, and pair 03 early in the nomination period. The CNN-LSTM model shows the highest accuracy in sentiment analysis, but fundamental models—CNN, LSTM, and GRU—also perform well, achieving over 80% accuracy, F1-Score, precision, and recall, with shorter runtime."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Amanda Nydia Augustizhafira
"Analisis sentimen merupakan bagian dari data mining text mining , yaitu proses memahami, mengekstrak, dan mengolah data tekstual secara otomatis untuk mendapatkan informasi. Pada penelitian ini, analisis sentimen diterapkan pada salah satu media sosial, yaitu Twitter. Analisis sentimen tergolong sebagai masalah klasifikasi yang dapat diselesaikan menggunakan salah satu metode machine learning, yaitu Neural Network. Pada machine learning, data dibagi menjadi data pelatihan dan data pengujian yang berasal dari domain yang sama.
Permasalahan utama pada penelitian ini adalah data pelatihan dan data pengujian berasal dari dua domain yang berbeda, sehingga perlu diterapkan pembelajaran lain selain machine learning. Masalah tersebut dapat diselesaikan dengan menggunakan transfer learning. Transfer learning merupakan suatu pembelajaran model yang dibangun oleh suatu data pelatihan dari suatu domain dan diuji oleh suatu data pengujian dari domain yang berbeda dari domain data pelatihan. Simulasi dalam penelitian ini menghasilkan suatu akurasi transfer learning dengan metode Neural Network yang nantinya akan diuji dengan fitur n-gram bi-gram dan tri-gram serta satu metode seleksi fitur, yaitu Extra-Trees Classifier.
Dalam penelitian ini, nilai akurasi transfer learning tertinggi didapat saat hidden layer berjumlah satu. Sebagian besar nilai akurasi tertinggi didapat saat penggunaan 250 neuron pada hidden layer. Fungsi aktivasi ReLU dan tanh menghasilkan nilai akurasi yang lebih tinggi dibandingkan fungsi aktivasi logistic sigmoid. Penggunakan metode seleksi fitur dapat meningkatkan kinerja transfer learning sehingga nilai akurasinya lebih tinggi dibandingkan simulasi tanpa penggunaan metode seleksi fitur.

Sentiment analysis is a part of data mining text mining , which is the process of understanding, extracting, and processing textual data automatically to obtain information. In this research, sentiment analysis is applied to one social media called Twitter. Sentiment analysis is categorized as a classification problem that can be solved using one of machine learning methods, namely Neural Network. In machine learning, data is divided into training data and test data from the same domain.
The main problem in this research is training data and test data come from two different domains, so it is necessary to apply other learning beside machine learning. The problem can be solved by using transfer learning. Transfer learning is a model learning constructed by a training data from a domain and tested by a test data from a different domain from the training data domain. The simulation in this research resulted in an accuracy of learning transfer with Neural Network method which will be tested using n grams bi grams and tri grams and one feature selection method called Extra Trees Classifier.
In this research, the highest value of transfer learning accuracy is obtained when one hidden layer is used. Most of the highest accuracy values are obtained from the use of 250 neurons on the hidden layer. The activation function of ReLU and tanh yield a higher accuracy value than the logical activation function sigmoid . The use of feature selection method can improve the transfer learning performance so that the accuracy value is higher than simulation without the use of feature selection method.
"
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Syach Riyan Muhammad Ardiyansyah
"Pendeteksian topik merupakan sebuah proses dalam menganalisis data teks untuk menemukan sebuah topik-topik yang ada pada data teks. Pada era digital saat ini, pendeteksian topik sering digunakan untuk menganalisis topik dan mengelompokkan informasi berdasarkan topiknya. Machine learning membantu proses pendeteksian topik menjadi lebih cepat dan efisien, terutama pada data teks dengan ukuran data yang besar. Salah satu metode machine learning yang dapat digunakan untuk pendeteksian topik adalah metode clustering. Namun karena dimensi data yang tinggi membuat beberapa metode clustering kurang efektif menyelesaikan pendeteksian topik. Untuk mengatasi hal tersebut data yang memiliki ukuran dimensi yang cukup tinggi perlu dilakukan proses reduksi dimensi terlebih dahulu. Improved Deep Embedded Clustering (IDEC) merupakan sebuah metode clustering yang secara bersamaan melakukan reduksi dimensi data dan clustering. Oleh karena itu, pada penelitian ini dilakukan pendeteksian topik dengan metode clustering IDEC. Data yang digunakan pada penelitian ini merupakan data berita online AG News, Yahoo! Answer, dan R2. Namun pada metode IDEC, data teks tidak bisa langsung menerima input berupa data teks. Data teks perlu diubah menjadi vektor representasi yang dapat diterima input. Pada penelitian ini digunakan metode representasi teks Bidirectional Encoder Representation from Transformers (BERT). Data teks mula-mula akan diubah oleh BERT menjadi vektor representasi, setelah itu vektor representasi akan diterima dan dilakukan pendeteksian topik oleh metode IDEC. Kemudian pada proses simulasi dilakukan perbandingan kinerja model IDEC dengan representasi teks BERT dan model IDEC dengan representasi teks TF-IDF. Didapatkan hasil simulasi dari kinerja model IDEC dengan representasi teks BERT memiliki kinerja yang lebih unggul dibandingkan dengan model IDEC dengan representasi teks TF-IDF

Topic detection is a process in analyzing text data to find topics that exist in text data. In today's digital era, topic detection is often used to analyze topics and grouping the information by topic. Machine learning helps the topic detection process to be faster and more efficient, especially in text data with large data sizes. One of the machine learning methods that can be used for topic detection is the clustering method. However, because the high data dimensions make some clustering methods less effective in completing topic detection. To overcome this, data that has a sufficiently high dimension size needs to be carried out in a dimension reduction process first. Improved Deep Embedded Clustering (IDEC) is a clustering method that simultaneously performs data dimension reduction and clustering. Therefore, in this study, topic detection was carried out using the IDEC clustering method. The data used in this study is the online news data of AG News, Yahoo! Answer, and R2. However, in the IDEC method, text data cannot directly receive input in the form of text data. Text data needs to be converted into a vector representation that can accept input. In this study, the Bidirectional Encoder Representation from Transformers (BERT) text representation method was used. The text data will first be converted by BERT into a vector representation, after that the vector representation will be accepted and topic detection will be carried out by the IDEC method. Then the simulation process compares the performance of the IDEC model with the BERT text representation and the IDEC model with the TF-IDF text representation. The simulation results obtained from the performance of the IDEC model with the text representation of BERT which has superior performance compared to the IDEC model with the text representation of TF-IDF."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Adhimas Yudha Prawira
"Twitter merupakan salah satu media sosial yang digunakan secara massive di Indonesia. Para pengguna Twitter ini membicarakan berbagai macam hal, salah satunya terkait pencalonan presiden. Perbincangan para pengguna Twitter ini memiliki nilai sentimen baik positif maupun negatif. Dukungan masyarakat terhadap masing-masing kandidat calon presiden dapat diketahui dengan melihat sentimen masyarakat melalui perbincangan mereka di Twitter, hal ini sering disebut juga sebagai analisis sentimen. Namun, jumlah pengguna dan obrolan para pengguna Twitter yang sangat banyak mengakibatkan data yang akan diproses membutuhkan waktu yang cukup lama. Untuk melakukan proses analisis sentimen para pengguna Twitter secara cepat dan otomatis dapat digunakan bantuan mesin. Salah satu metode yang digunakan untuk melakukan proses analisis sentimen adalah Support Vector Machine (SVM). Pada dasarnya, semakin banyak data yang digunakan sebagai data training dalam pemilihan model fungsi klasifikator maka akan memberikan generalisasi akurasi analisis sentimen untuk data testing yang tinggi pula. Namun di sisi lain, semakin banyaknya data training juga akan menyebabkan besarnya dimensi ruang fitur. Hal ini membuat mesin membutuhkan waktu yang cukup lama dalam melakukan pembentukan fungsi klasifikator. Untuk menanggulangi hal ini, akan dilakukan metode optimasi fitur sehingga mesin dapat tetap membentuk fungsi klasifikator dengan akurasi yang tinggi namun dengan dimensi ruang fitur yang rendah.

Twitter is a social media that used in Indonesia massively. Twitter users talk (tweet) about various things, one of them is about presidential nomination. Twitter user conversations have a positive or negative sentiment. Community support for each presidential candidate can be determined by looking at the public sentiment through their conversations on Twitter, this is often referred to sentiment analysis. However, the number of users and tweets cause the data to be processed requires quite a long time. Machine can be used to make the process of Twitter sentiment analysis quickly and automatically. One method that used to perform the sentiment analysis process is a Support Vector Machine (SVM). Basically, the more data that used as data training in the model selection function will give a high accuracy generalization sentiment analysis on data testing. On the other hand, the increasing number of training data will also cause large dimensional feature space. This makes the machine takes a long time to perform model selection. To overcome this problem, feature optimization will be performed. Feature optimization will preserve the high accuracy of the model, but with a low dimensional feature space."
Universitas Indonesia, 2014
S57179
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nadya Safitri
"Pemilihan metode machine learning atau deep learning menjadi suatu permasalahan dalam klasifikasi. Hal ini didapatkan dari penelitian yang menunjukkan bahwa deep learning kinerjanya lebih baik daripada machine learning, namun terdapat penelitian bahwa kedua metode tersebut kinerjanya tidak menentu tergantung dataset yang digunakan. Oleh karena itu, penelitian ini membandingkan kinerja dari machine learning dan deep learning untuk permasalahan klasifikasi teks dan analisis sentimen terhadap dampak Covid-19 di Indonesia. Hasil penelitian ini menunjukkan bahwa kinerja pada klasifikasi teks dan analisis sentimen menggunakan metode machine learning lebih baik dibandingkan dengan deep learning. Hasil penelitian mengenai klasifikasi teks menunjukkan bahwa kinerja metode machine learning yaitu Label Powerset dan Random Forest menghasilkan akurasi 77 % sedangkan kinerja metode deep learning yaitu Long Short-Term Memory (LSTM) dan Gate Reccurent Unit (GRU) menghasilkan akurasi 48%. Hasil penelitian mengenai analisis sentimen menunjukkan bahwa kinerja metode machine learning yaitu Label Powerset dan Random Forest menghasilkan akurasi 63 % sedangkan kinerja metode deep learning yaitu Long Short-Term Memory (LSTM) dan Gate Reccurent Unit (GRU) menghasilkan akurasi 55% dan 54%. Keseimbangan jumlah label pada semua label mempengaruhi hasil dari klasifikasi. Oleh karena itu, disarankan untuk menggunakan metode untuk menyeimbangkan jumlah label yang digunakan untuk klasifikasi.

The choice of machine learning or deep learning methods becomes a problem in classification. This is obtained from research which shows that deep learning performs better than machine learning, but there is research that the two methods perform erratically depending on the dataset used. Therefore, this study compares the performance of machine learning and deep learning for text classification problems and sentiment analysis on the impact of Covid-19 in Indonesia. The results of this study indicate that the performance of text classification and sentiment analysis using machine learning methods is better than deep learning. The results of research on text classification show that the performance of machine learning methods, namely Label Power and Random Forest, produces an accuracy of 77%, while the performance of deep learning methods, namely Long Short-Term Memory (LSTM) and Gate Recurrent Unit (GRU), produces an accuracy of 48%. The results of the research on sentiment analysis show that the performance of machine learning methods, namely Label Power and Random Forest, produces an accuracy of 63%, while the performance of deep learning methods, namely Long Short-Term Memory (LSTM) and Gate Recurrent Unit (GRU), produces 55% and 54% accuracy. The balance of the number of labels on all labels affects the results of the classification. Therefore, it is advisable to use a method to balance the number of labels used for classification."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Theresia Gowandi
"Analisis sentimen adalah salah satu bidang dari Pemrosesan Bahasa Alami yang membangun sistem untuk mengenal opini dalam teks dan mengelompokkan ke dalam sentimen positif atau negatif. Banyak peneliti telah membangun model yang menghasilkan akurasi terbaik dalam melakukan analisis sentimen. Tiga diantaranya adalah Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), dan Gated Recurrent Unit (GRU), yang merupakan bagian dari deep learning. CNN digunakan karena kemampuannya dalam mengekstrak fitur penting dalam penggalan kalimat, sedangkan LSTM dan GRU digunakan karena kemampuannya yang memiliki memori akan input yang telah diproses sebelumnya. GRU memiliki struktur yang lebih sederhana dibandingkan dengan LSTM. Ketiga model tersebut dapat digabungkan menjadi model gabungan LSTM-CNN, CNN-LSTM, GRU-CNN, dan CNN-GRU. Penelitian sebelumnya telah membuktikan bahwa model gabungan tersebut memiliki akurasi yang lebih baik dibandingkan dengan model dasar LSTM, GRU, dan CNN. Implementasi model dilakukan pada data ulasan aplikasi berbahasa Indonesia. Hasilnya, didapatkan bahwa hampir seluruh model gabungan memiliki akurasi yang lebih baik dibandingkan dengan model dasar.

Sentiment analysis is one of the fields of Natural Language Processing that builds a system to recognize and extract opinion in the form of text into positive or negative sentiment. Nowadays, many researchers have developed methods that yield the best accuracy in performing analysis sentiment. Three particular models are Convolutional Neural Network (CNN), Long Short-Term Memory (LSTM), and Gated Recurrent Unit (GRU), which are part of deep learning architectures. CNN is used because of its ability to extract important features from each sentence fragment, while LSTM and GRU are used because of their ability to have a memory of prior inputs. GRU has a simpler and more practical structure compared to LSTM. These models can be combined into combined LSTM-CNN, CNN-LSTM, GRU-CNN, and CNN-GRU model. Former researches have proved that these models have better accuracy compared to standard models. This research is focused on the performance of all the combined LSTM-CNN, CNN-LSTM, GRU-CNN, CNN-GRU models and will be compared to the standard LSTM, GRU, CNN models. Implementation of the model is performed on a collection of application review data in Indonesian text. As a result, almost all of the combined models have better accuracy than the standard models."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Doni Pradana
"Customer churn merupakan masalah serius di banyak sektor, termasuk sektor telekomunikasi. Pengertian costumer churn adalah berhentinya penggunaan suatu layanan dan beralih ke penyedia lain atau tidak memperbarui kontrak. Untuk mengatasi risiko churn, perusahaan telekomunikasi perlu menggunakan model prediksi dengan bantuan metode machine learning. Terdapat beberapa model prediksi churn yang telah diajukan oleh para peneliti, termasuk pemilihan algoritma yang sesuai dan dataset untuk studi kasus. Pada tesis ini menggunakan dataset IBM Telco Customer Churn sebagai data pelatihan dan pengujian. Tantangan umum dalam klasifikasi adalah ketidakseimbangan data, yang dapat menyebabkan kegagalan dalam memprediksi kelas minoritas. Oleh karena itu, tesis ini menggunakan beberapa teknik augmentasi data seperti SMOTE, HAT, dan CVAE, sebagai teknik dalam menyeimbangkan data. Pembelajaran ensembel khususnya metode CART (Classification and Regression Tree) sering digunakan untuk menyelesaikan permasalahan klasifikasi dan regresi. Model Adaboost adalah algoritma pembelajaran ensemble yang menggunakan pohon keputusan sebagai dasar pembelajaran. Dalam pelatihan model Adaboost, Bayesian Optimization (BO) digunakan sebagai metode pencarian hyperparameter terbaik. Dari hasil percobaan dan pengujian yang diajukan, model Adaboost dapat memberikan nilai testing f1-score dan recall sebesar 0,661 dan 0,653 pada pelatihan dengan dataset tidak seimbang. Model Adaboost-SMOTE mempunyai nilai testing f1-score dan recall sebesar 0,646 dan 0,826. Penggunaan optimasi Bayesian Optimization pada model Adaboost-SMOTE dapat menaikkan testing f1-score dan recall menjadi 0,649 dan 0,849. Tes ANOVA dan Tukey HSD mengungkapkan variasi yang signifikan dalam hasil pelatihan dari model machine learning, dan menyoroti dampak penggunaan data seimbang dalam pelatihan model yang signifikan.

Customer churn is a severe problem in various sectors, including telecommunications. Customer churn refers to discontinuing the service, switching to another provider, or not renewing the contract. To deal with churn risk, telecommunication companies need to use predictive models with the help of machine learning methods. Several churn prediction models have been proposed by researchers, including the selection of suitable algorithms and data sets for case studies. In this thesis, research is conducted using the IBM Telco Customer Churn dataset. A common challenge in classification is data imbalance, which can lead to failure in predicting minority classes. Therefore, this thesis using several data augmentation techniques, such as SMOTE, HAT, and CVAE, for balancing data technique. Ensemble learning, especially the CART (Classification and Regression Tree) method, is often used to solve classification and regression problems. Adaboost is an ensemble learning algorithm that uses decision trees as the basis for learning. In the Adaboost model training, Bayesian Optimization (BO) is used to find the best hyperparameters. From the trials and tests carried out, Adaboost achieved an f1-score and recall test of 0.661 and 0.653, respectively, in training with an unbalanced dataset. The Adaboost SMOTE model achieved f1 and memory test scores of 0.646 and 0.826, respectively. Using Bayesian Optimization in the Adaboost SMOTE model increased the testing f1-score and recall scores to 0.649 and 0.849, respectively. ANOVA and Tukey HSD tests reveal significant variation in machine learning model training results and highlight the considerable impact of using balanced data in model training."
Depok: Fakultas Teknik Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>