Hasil Pencarian

Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 8 dokumen yang sesuai dengan query
cover
Tsarina Dwi Putri
"ABSTRAK
Penggunaan word embedding sebagai pemodelan topik telah banyak dilakukan. Hasil dari pemodelan topik tersebut turut membantu dalam mengubah pola pikir para peneliti tentang teks sebagai suatu nilai. Menurut studi yang dilakukan oleh Mikolov et al. (2013) mengenai word embedding, mereka mengubah teks-teks tersebut menjadi suatu vektor yang dapat divisualisasikan dalam ruang vektor kontinu yang secara fleksibel dapat dihitung jarak kedekatannya dan dapat diolah lebih lanjut dengan menggabungkannya dengan metode yang lain seperti LSTM (Long Short Term Memory), CNN (Convolutional Neural Network), dll untuk berbagai keperluan penelitian. Beragam penelitian berkembang menggunakan hasil dari nilai embedding tersebut untuk tujuan yang lebih kompleks, mendorong penulis untuk kembali mengkaji manfaat dasar dari hal tersebut kemudian menggalinya untuk tujuan akhir lain yang belum pernah dilakukan penelitian lain sebelumnya.
Penelitian ini menggunakan nilai akhir embedding secara sederhana sebagai sistem rekomendasi berbasis konten yang kemudian berkembang dengan kebaruan untuk digunakan sebagai alat bantu untuk melakukan tinjauan sistematis. Hasil penelitian ini menunjukkan bahwa kebaikan penggunaan metode word embedding sangat bervariasi tergantung dari dataset dan hyperparameter yang digunakan.

ABSTRACT
The utilization of word embedding as topic modeling has been widely carried out. The results helped to change the researchers' mindset regarding text as a value. According to a study conducted by Mikolov et al. (2013) regarding word embedding, they convert these texts into vectors that can be visualized in a continuous vector space which can be flexibly calculated of its proximity and can be further processed by combining it with other methods such as LSTM (Long Short Term Memory), CNN (Convolutional Neural Network), etc. for various research purposes. Various studies have been developing by using the embedding value for more complex purposes, thus encouraging the author to re-examine the basic benefits of it then explore it for other purposes that have never been done by other studies before.
This study simply used embedding value as a content-based recommendation system which then it developed with novelty to be used as a tool to conduct systematic review. The results of this study indicate that the merits of using word embedding method vary greatly depending on the dataset and hyperparameters used."
Lengkap +
Depok: Fakultas Teknik Universitas Indonesia , 2020
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Theresia Veronika Rampisela
"

Penelitian ini mencari dosen pakar di Fakultas Ilmu Komputer Universitas Indonesia (Fasilkom UI) dengan menggunakan data abstrak dan metadata tugas akhir mahasiswa Fasilkom UI menggunakan teknik information retrieval. Pencarian pakar dilakukan tanpa query expansion dan dengan query expansion. Metode yang digunakan untuk mencari dosen pakar adalah metode berbasis BM25 serta kombinasi antara word2vec dan doc2vec, yang merupakan word embedding dan document embedding. Teknik yang digunakan untuk mengatasi masalah vocabulary mismatch adalah teknik query expansion dengan pendekatan statistik, semantik, serta hybrid. Kontribusi penelitian ini adalah 2 metode baru untuk pencarian pakar tanpa query expansion, 6 jenis kombinasi relasi ontologi berdasarkan concept hierarchy ACM CCS 2012 untuk mengekspansi kueri, serta 14 jenis kombinasi antara metode query expansion berbasis embedding dan ontologi. Evaluasi dari hasil pencarian pakar dilakukan dengan menghitung binary relevance berdasarkan human judgment. Pada penelitian ini, metode pencarian pakar tanpa query expansion dengan hasil yang paling baik adalah metode BM25-sum dengan nilai AP@5 sebesar 0.648. Pencarian pakar dengan berbagai macam jenis query expansion tidak dapat meningkatkan performa retrieval tanpa query expansion secara signifikan, tetapi pencarian dengan query expansion menggunakan metode berbasis embedding, yaitu w2v-w2v memiliki nilai AP@5 sebesar 0.696, yang lebih tinggi dari skor AP@5 dari BM25-sum tanpa query expansion. Pencarian pakar dengan query expansion berbasis ontologi serta hybrid mampu menghasilkan skor AP@5 setinggi 0.664. Skor tersebut tidak setinggi pencarian dengan query expansion dengan w2v-w2v, namun hasilnya lebih baik dari pencarian tanpa query expansion.


This research searches for expert lecturers in the Faculty of Computer Science, Universitas Indonesia (Fasilkom UI) with information retrieval techniques using students’ thesis abstract and metadata. The retrieval process is done without and with query expansion. The methods used to find expert lecturers are BM25-based methods as well as combinations between word2vec and doc2vec, which are word embedding and document embedding. We performed query expansion using statistical, semantic, and hybrid approaches to solve vocabulary mismatch problems. This research’s contributions are 2 new methods to retrieve experts without query expansion, 6 types of ontological relations based on the ACM CCS 2012 concept hierarchy to expand queries, and 14 types of combinations between embedding-based and ontology-based query expansion methods. The expert retrieval result is evaluated by calculating binary relevance based on human judgment. Expert search method without query expansion that produces the best result in this research is the BM25-sum method, with an AP@5 score of 0.648. Even though expert retrieval with various query expansion methods does not increase the performance of retrieval without query expansion significantly, the expert search method with embedding-based query expansion method, i.e. w2v-w2v, achieved an AP@5 score of 0.696, which is higher than that of BM25-sum without query expansion. Ontology-based and hybrid query expansion expert search methods managed to score 0.664 for AP@5. This score is not as high as that of w2v-w2v, but the result is still better than that of retrieval without query expansion.

"
Lengkap +
Depok: Fakultas Ilmu Komputer Universitas Indonesia , 2020
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Nicholas Pangestu
"Panjangnya suatu berita terkadang mengurangi minat seseorang untuk membaca berita, hal ini dapat kita lihat dari banyaknya istilah “tl:dr” pada thread di internet. Peringkasan dokumen dapat menciptkan ringkasan berita dan mengurangi waktu yang dibutuhkan untuk membaca. Salah satu cara yang dapat digunakan untuk melakukan peringkasan dokumen adalah menggunakan algoritma Textrank. Pada penelitian ini akan diimplementasikan word embedding untuk membantu algoritma Textrank memahami makna suatu kata dengan lebih baik. Hasil yang didapatkan menunjukkan bahwa penggunaan word embedding meningkatkan performa dari algoritma Textrank hingga 13% pada ROUGE-1 dan hingga 21% pada ROUGE-2. Model word embedding BERT memiliki performa tertinggi jika dibandingkan dengan word2vec (3% lebih tinggi pada ROUGE-1 dan 7% lebih tinggi pada ROUGE-2) dan fasttext (5% lebih tinggi pada ROUGE-1 dan 10% lebih tinggi pada ROUGE-2). Pada penelitian ini juga mengimplementasikan pembobotan TF-IDF dalam membuat sebuah representasi suatu kata. Hasil yang didapatkan menunjukkan bahwa pembobotan TF-IDF dapat meningkatkan performa dari tiap model word embedding yang digunakan hingga 11% pada ROUGE-1 dan hingga 19% pada ROUGE-2 dibandingkan performa tanpa pembobotan TF-IDF.

The length of article news sometimes reduces one's interest in reading the news, we can see this from the many terms "tl:dr" in threads on the internet. Document summarization can create news summaries and reduce the time it takes to read. One way to do document summarization is to use the Textrank algorithm. In this research, word embedding will be implemented to help the Textrank algorithm understand the meaning of a word better. The results show that the use of word embedding improves the performance of the Textrank algorithm up to 13% in ROUGE-1 and up to 21% in ROUGE-2. BERT word embedding model has the highest performance when compared to word2vec (3% higher in ROUGE-1 and 7% higher in ROUGE-2) and fasttext (5% higher in ROUGE-1 and 10% higher in ROUGE-2). This study also implements TF-IDF weighting to make a word representation. The results show that TF-IDF weighting can improve the performance of each word embedding model used up to 11% in ROUGE-1 and 19% in ROUGE-2 compared to the performance without using TF-IDF."
Lengkap +
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Suci Fitriyani
"Analisis sentimen merupakan studi komputasi untuk menganalisis opini seseorang terhadap suatu entitas yang diekspresikan dalam sebuah teks. Tersedia cukup banyak model machine learning terutama deep learning yang dapat digunakan untuk melakukan analisis sentimen seperti Convolutional Neural Network (CNN) dan Bidirectional Long Short-Term Memory (BiLSTM). Pada dasarnya, model deep learning tidak dapat memproses langsung sebuah data dalam bentuk teks sehingga diperlukan metode untuk mentransformasi teks menjadi tensor numerik seperti word embedding. Pada penelitian ini, diajukan model gabungan CNN-BiLSTM dengan word embedding fastText untuk melakukan analisis sentimen. Model tersebut dilatih menggunakan data tweet berbahasa Indonesia tentang opini masyarakat mengenai rencana subsidi pembelian kendaraan listrik di Indonesia. Data tersebut diklasifikasikan menjadi sentimen positif, negatif, dan netral dan ditemukan bahwa komposisi dari ketiga sentimen tersebut tidaklah seimbang (imbalanced dataset) dimana kelas positif memiliki lebih sedikit data dibanding kelaskelas lainnya. Untuk mengatasi masalah tersebut, digunakan metode resampling SMOTE agar jumlah data pada kelas positif dapat mengimbangi kelas lainnya. Model fastTextCNN-BiLSTM diukur performanya dengan melihat nilai akurasi, precision, recall, dan f1-score. Dari hasil penelitian didapat bahwa model gabungan CNN-BiLSTM memberikan nilai akurasi, precision, recall, dan f1-score yang paling baik dibanding model CNN dan BiLSTM saja. Model-model yang menggunakan word embedding fastText juga memberikan performa yang lebih baik dibanding model tanpa fastText (menggunakan word embedding standar). Secara keseluruhan, model gabungan fastTextCNN-BiLSTM ditemukan memiliki performa yang lebih baik dibandingkan dengan model-model lainnya.

Sentiment analysis is a computational study to analyze person’s opinion about an entity expressed in text. There are several machine learning models, especially deep learning models that can be used for sentiment analysis, such as Convolutional Neural Network (CNN) and Bidirectional Long Short-Term Memory (BiLSTM). Essentially, deep learning models cannot directly process textual data and they need a method to transform text into numerical tensors such as word embedding. In this research, a hybrid model CNN-BiLSTM with fastText word embedding is proposed for sentiment analysis. The model is trained using Indonesian tweets data regarding public opinions on the plan for subsidizing the purchase of electric vehicles in Indonesia. The data is classified into positive, negative, and neutral sentiments, and it is found that the composition of these sentiments is imbalanced, with the positive class having fewer data compared to the other classes. To address this issue, the SMOTE resampling method is used to balance the data in the positive class with the other classes. The performance of the fastText-CNNBiLSTM model is measured by accuracy, precision, recall, and f1-score. The research results show that the hybrid model CNN-BiLSTM achieves the highest accuracy, precision, recall, and f1-score compared to the single models CNN and BiLSTM. Models with fastText word embedding also outperform models without fastText (with standard word embedding). Overall, the hybrid model fastText-CNN-BiLSTM is found to outperform other models in terms of performance."
Lengkap +
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dhita Putri Pratama
"COVID-19 telah merenggut nyawa banyak manusia. Tercatat per tanggal 29 Juni 2021, sudah terdapat sekitar 3,923,238 pasien yang meninggal dunia akibat penyakit dengan tingkat penularan yang tinggi ini. Dengan semakin banyaknya orang yang terinfeksi COVID-19, persediaan alat untuk mendeteksi penyakit ini pun juga semakin terbatas yang dapat menyebabkan pandemi COVID-19 pun menjadi semakin tidak terkendali. Oleh karena itu, penting untuk mempertimbangkan metode deteksi COVID-19 lainnya yang dapat membantu para staf kesehatan untuk melakukan deteksi pasien positif COVID-19.
Metode deteksi COVID-19 lainnya yang bisa dipertimbangkan untuk dikembangkan adalah metode deteksi COVID-19 dengan artificial intelligence. Dengan metode tersebut, data-data seperti data gejala pasien, data citra toraks, serta data interpretasi citra berupa teks dapat dimanfaatkan untuk mengembangkan suatu model prediksi COVID-19. Ketiga tipe data yang berbeda tersebut dapat dikombinasikan sebagai data input untuk membangun suatu model klasifikasi COVID-19. Pengkombinasian data yang berbeda dapat dilakukan dengan cara melakukan konkatenasi pada tiap input layer yang menerima data gejala dan data teks dengan suatu layer dari arsitektur CNN. Beberapa arsitektur CNN yang dapat digunakan pada penelitian ini adalah ResNet, DenseNet, Inception-ResNet, DarkCovidNet, CoroNet, dan COVID-Net. Selain itu, metode Grad-CAM juga dipilih untuk proses deteksi persebaran coronavirus.
Hasil pengujian menunjukkan bahwa banyak model yang dihasilkan dari pendekatan kombinasi data gambar, data tabular, dan data teks memiliki nilai sensitivitas, akurasi, serta f1-score yang tinggi. Hal tersebut menunjukkan bahwa pendekatan tersebut secara umum menghasilkan model-model dengan performa yang tinggi juga seimbang. Namun, berdasarkan hasil pengujian pula, diketahui bahwa model yang memiliki performa tertinggi dicapai oleh model dari pendekatan klasifikasi gambar dengan data tabular yang menggunakan arsitektur DenseNet khususnya dengan nilai learning rate = 10-3. Model tersebut tercatat memiliki performa yang tinggi dan seimbang dengan nilai sensitivitasnya mencapai angka 1,00, akurasi mencapai angka 0,94, dan F1-Score mencapai angka 0,94.

COVID-19 has taken the lives of many people. As of June 29th 2021, there were approximately 3.923.238 deaths due to this highly contagious disease. With the increasing number of infected people, the COVID-19 detection tool supplies are also getting limited that can lead to an out-of-control situation. Therefore, it is quite necessary to consider alternative methods for COVID-19 detection.
Another COVID-19 detection that can be considered to be developed is a COVID-19 detection method with artificial intelligence. With artificial intelligence, a COVID-19 prediction model can be built by using any available data such as patient symptom dataset, patient thorax images especially chest X-Ray, and thorax interpretations in text form. Those three types of data can be utilized and combined as data input to build a COVID-19 detection system. The combination of those three different types of data can be done with the concatenation of each input layer of tabular and text data with a layer from a CNN architecture. In this study, there are six CNN architectures used and those are ResNet, DenseNet, Inception-ResNet, DarkCovidNet, CoroNet, and COVID-Net. Besides, the Grad-CAM technique is also implemented for coronavirus detection purposes.
The result shows that most of the models from the combined image, tabular, and text datasets offer high sensitivities, accuracies, and scores of F1-Score. It means that the combined image, tabular, and text datasets generally obtained high performance and balanced models. However, according to the test results, the best performance model is achieved by the combined image and tabular datasets approach with DenseNet architecture and the learning rate of \(10^{-3}\). Such a model achieves the best performance model with an accuracy score of 0.94, a sensitivity score of 1.00, and an f1-score of 0.94.
"
Lengkap +
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Piawai Said Umbara
"Penelitian ini bertujuan untuk mengevaluasi efektivitas kombinasi metode TextRank dengan word embedding pada dataset IndoSum. Dua skenario eksperimen diterapkan: unweighted dan weighted. Hasil eksperimen menunjukkan bahwa penggunaan model word embedding pada algoritma TextRank terbukti meningkatkan performa sistem peringkasan. Skenario unweighted menguji perbandingan performa antara sistem baseline (kombinasi dari TextRank dengan Word2Vec dan pembobotan TF-IDF yang dilatih menggunakan dataset Liputan6) dengan beberapa sistem lainnya yang memadukan algoritma TextRank dengan model word embedding tanpa pembobotan TF-IDF. Skenario weighted menguji perbandingan sistem yang memadukan algoritma TextRank dengan model word embedding tanpa pembobotan TF-IDF dengan counterpart-nya yang memadukan algoritma TextRank dengan model word embedding ditambah pembobotan TF-IDF. Pada skenario unweighted, kombinasi TextRank dan fastText yang dilatih dengan dataset IndoSum menunjukkan peningkatan performa tertinggi untuk skor ROUGE-1 dan ROUGE-2 masing-masing sebesar 7,51% dan 4,24%. Sedangkan pada skenario weighted, pembobotan TF-IDF pada word embedding menunjukkan peningkatan performa sebagian besar sistem peringkasan dibandingkan penggunaan word embedding tanpa pembobotan TF-IDF, dengan rata-rata peningkatan performa sistem sebesar 5,55% pada ROUGE-1 dan 9,95% pada ROUGE-2.

This research evaluates the effectiveness of combining the TextRank method with word embedding on the IndoSum dataset. Two experimental scenarios were applied: unweighted and weighted. The experimental results show that using word embedding models in the TextRank algorithm significantly improves the summarization system's performance. The unweighted scenario tested the performance comparison between the baseline system (a combination of TextRank with Word2Vec and TF-IDF weighting trained using the Liputan6 dataset) and several other systems combining the TextRank algorithm with word embedding models without TF-IDF weighting. The weighted scenario compared systems that combined the TextRank algorithm with word embedding models without TF-IDF weighting to their counterparts that included TF-IDF weighting. In the unweighted scenario, the combination of TextRank and fastText trained with the IndoSum dataset demonstrated the highest performance improvement, with ROUGE-1 and ROUGE-2 scores increasing by 7.51% and 4.24%, respectively. Meanwhile, in the weighted scenario, applying TF-IDF weighting to word embedding showed performance improvement in most summarization systems compared to using word embedding without TF-IDF weighting, with an average performance increase of 5.55% in ROUGE-1 and 9.95% in ROUGE-2."
Lengkap +
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Mohammad Darrel Tristan Budiroso
"Penelitian ini menangani masalah pengenalan emosi dalam percakapan berbahasa Indonesia, yang penting untuk aplikasi seperti pengenalan ucapan, interaksi manusiamesin, dan analisis sentimen. Untuk mengatasi kompleksitas data suara dan teks, penelitian ini menggabungkan Word Embedding (Word2Vec) dan spektrum suara (MFCC) menggunakan Convolutional Neural Network (CNN). Word2Vec mengubah dataset suara menjadi representasi teks vektor, sementara MFCC digunakan untuk ekstraksi fitur dari spektrum suara. Model yang dikembangkan dievaluasi dengan dataset percobaan berbahasa Indonesia, dan pendekatan Weighted Average Ensemble yang mengintegrasikan kedua metode ini mencapai akurasi 70%. Hasil ini menunjukkan bahwa integrasi teknologi Word Embedding dan analisis spektrum suara dapat meningkatkan akurasi pengenalan emosi dalam bahasa Indonesia. Penelitian ini berkontribusi signifikan terhadap teknologi pengenalan emosi dan berpotensi meningkatkan interaksi manusia dengan teknologi serta aplikasi dalam analisis sentimen dan pengolahan bahasa alami.

This research addresses the issue of emotion recognition in Indonesian language conversations, which is crucial for applications such as speech recognition, humanmachine interaction, and sentiment analysis. To tackle the complexity of voice and text data, this study combines Word Embedding (Word2Vec) and sound spectrum analysis (MFCC) using Convolutional Neural Network (CNN). Word2Vec is used to convert voice datasets into vector text representations, while MFCC is employed for feature extraction from the sound spectrum. The developed models were evaluated using an experimental dataset in Indonesian, and the Weighted Average Ensemble approach, which integrates both methods, achieved an accuracy of 70%. These results indicate that integrating Word Embedding technology and sound spectrum analysis can significantly enhance the accuracy of emotion recognition in Indonesian conversations. This research contributes significantly to the development of emotion recognition technology and has the potential to improve human interaction with technology, as well as applications in sentiment analysis and natural language processing."
Lengkap +
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Harnindyto Wicaksana
"Penelitian analisis sentimen sudah banyak dikaji untuk berbagai bahasa, termasuk bahasa Indonesia. Namun sayangnya, belum terdapat penelitian benchmarking analisis sentimen untuk teks berbahasa Indonesia. Hal ini menyebabkan kesulitan bagi para peneliti untuk mendapatkan informasi mengenai metode klasifikasi dengan performa terbaik pada saat ini. Dengan adanya permasalahan tersebut, penelitian ini dilakukan dengan tujuan membantu memberikan arahan untuk penelitian sentimen analisis dalam bahasa Indonesia. Untuk dapat memberikan arahan, penelitian ini berusaha untuk membandingkan pendekatan klasifikasi sentimen rule-based, machine learning dan deep learning serta teknik ekstraksi fitur untuk mendapatkan skenario analisis sentimen terbaik. Berdasarkan hasil eksperimen penelitian, ditunjukkan bahwa klasifikasi terbaik dicapai oleh deep learning, disusul dengan metode klasifikasi machine learning dan rule-based. Pencapaian nilai terbaik pada klasifikasi menggunakan deep learning diperoleh menggunakan model BERT. Untuk klasifikasi menggunakan machine learning, didapatkan bahwa nilai F1-Score terbaik diperoleh saat digunakan metode klasifikasi Logistic Regression dengan teknik ekstraksi fitur kombinasi unigram dengan leksikon kombinasi. Sedangkan untuk klasifikasi rule-based nilai F1-Score tertinggi didapatkan menggunakan metode klasifikasi adjektiva.

Currently, there have been many kinds of research done on sentiment analysis. However, there are no papers on sentiment analysis benchmarks for the Indonesian language. Due to the absence of such research, it became difficult for researchers to get information about classifiers with the best performance. Because of this problem, this research is conducted so it would be easier for researchers to get information and direction on doing Indonesian sentiment analysis. In this paper, we held an experiment comparing sentiment classification using rule-based, machine learning, and deep learning and comparing feature extraction techniques to achieve the best sentiment analysis scenario. Based on our experiments in this research, prediction using deep learning classification gave the best result compared to machine learning and rule-based classification. Using deep learning classification, the BERT model is used to get the best result. The best F1-Score for machine learning classification is obtained using a Logistic Regression classifier alongside a combination of unigram and combined lexicon feature extraction. Meanwhile, the best F1-Score for the rule-based classification is obtained using the Adjective classification method."
Lengkap +
Depok: Fakultas Ilmu Komputer Universitas Indonesia;, 2021
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library