Hasil Pencarian

Ditemukan 12 dokumen yang sesuai dengan query

Tsarina Dwi Putri

Analisis sistem rekomendasi berbasis konten dan perancangan tinjauan sistematis pada dataset publikasi penelitian (dengan pendekatan Word Embedding) = Content-Based recommendation system analysis and designing a systematic review on research publication dataset (using Word Embedding Approach)

"ABSTRAK

Penggunaan word embedding sebagai pemodelan topik telah banyak dilakukan. Hasil dari pemodelan topik tersebut turut membantu dalam mengubah pola pikir para peneliti tentang teks sebagai suatu nilai. Menurut studi yang dilakukan oleh Mikolov et al. (2013) mengenai word embedding, mereka mengubah teks-teks tersebut menjadi suatu vektor yang dapat divisualisasikan dalam ruang vektor kontinu yang secara fleksibel dapat dihitung jarak kedekatannya dan dapat diolah lebih lanjut dengan menggabungkannya dengan metode yang lain seperti LSTM (Long Short Term Memory), CNN (Convolutional Neural Network), dll untuk berbagai keperluan penelitian. Beragam penelitian berkembang menggunakan hasil dari nilai embedding tersebut untuk tujuan yang lebih kompleks, mendorong penulis untuk kembali mengkaji manfaat dasar dari hal tersebut kemudian menggalinya untuk tujuan akhir lain yang belum pernah dilakukan penelitian lain sebelumnya.

Penelitian ini menggunakan nilai akhir embedding secara sederhana sebagai sistem rekomendasi berbasis konten yang kemudian berkembang dengan kebaruan untuk digunakan sebagai alat bantu untuk melakukan tinjauan sistematis. Hasil penelitian ini menunjukkan bahwa kebaikan penggunaan metode word embedding sangat bervariasi tergantung dari dataset dan hyperparameter yang digunakan.

ABSTRACT

The utilization of word embedding as topic modeling has been widely carried out. The results helped to change the researchers' mindset regarding text as a value. According to a study conducted by Mikolov et al. (2013) regarding word embedding, they convert these texts into vectors that can be visualized in a continuous vector space which can be flexibly calculated of its proximity and can be further processed by combining it with other methods such as LSTM (Long Short Term Memory), CNN (Convolutional Neural Network), etc. for various research purposes. Various studies have been developing by using the embedding value for more complex purposes, thus encouraging the author to re-examine the basic benefits of it then explore it for other purposes that have never been done by other studies before.

This study simply used embedding value as a content-based recommendation system which then it developed with novelty to be used as a tool to conduct systematic review. The results of this study indicate that the merits of using word embedding method vary greatly depending on the dataset and hyperparameters used."

Depok: Fakultas Teknik Universitas Indonesia , 2020

T-Pdf

UI - Tesis Membership Universitas Indonesia Library

Theresia Veronika Rampisela

Pengembangan sistem pencarian pakar dengan query expansion menggunakan Word Embedding, Document Embedding, dan Ontologi = Developing Expert Search System with Query Expansion Using Word Embedding, Document Embedding, and Ontology

Penelitian ini mencari dosen pakar di Fakultas Ilmu Komputer Universitas Indonesia (Fasilkom UI) dengan menggunakan data abstrak dan metadata tugas akhir mahasiswa Fasilkom UI menggunakan teknik information retrieval. Pencarian pakar dilakukan tanpa query expansion dan dengan query expansion. Metode yang digunakan untuk mencari dosen pakar adalah metode berbasis BM25 serta kombinasi antara word2vec dan doc2vec, yang merupakan word embedding dan document embedding. Teknik yang digunakan untuk mengatasi masalah vocabulary mismatch adalah teknik query expansion dengan pendekatan statistik, semantik, serta hybrid. Kontribusi penelitian ini adalah 2 metode baru untuk pencarian pakar tanpa query expansion, 6 jenis kombinasi relasi ontologi berdasarkan concept hierarchy ACM CCS 2012 untuk mengekspansi kueri, serta 14 jenis kombinasi antara metode query expansion berbasis embedding dan ontologi. Evaluasi dari hasil pencarian pakar dilakukan dengan menghitung binary relevance berdasarkan human judgment. Pada penelitian ini, metode pencarian pakar tanpa query expansion dengan hasil yang paling baik adalah metode BM25-sum dengan nilai AP@5 sebesar 0.648. Pencarian pakar dengan berbagai macam jenis query expansion tidak dapat meningkatkan performa retrieval tanpa query expansion secara signifikan, tetapi pencarian dengan query expansion menggunakan metode berbasis embedding, yaitu w2v-w2v memiliki nilai AP@5 sebesar 0.696, yang lebih tinggi dari skor AP@5 dari BM25-sum tanpa query expansion. Pencarian pakar dengan query expansion berbasis ontologi serta hybrid mampu menghasilkan skor AP@5 setinggi 0.664. Skor tersebut tidak setinggi pencarian dengan query expansion dengan w2v-w2v, namun hasilnya lebih baik dari pencarian tanpa query expansion.

This research searches for expert lecturers in the Faculty of Computer Science, Universitas Indonesia (Fasilkom UI) with information retrieval techniques using students’ thesis abstract and metadata. The retrieval process is done without and with query expansion. The methods used to find expert lecturers are BM25-based methods as well as combinations between word2vec and doc2vec, which are word embedding and document embedding. We performed query expansion using statistical, semantic, and hybrid approaches to solve vocabulary mismatch problems. This research’s contributions are 2 new methods to retrieve experts without query expansion, 6 types of ontological relations based on the ACM CCS 2012 concept hierarchy to expand queries, and 14 types of combinations between embedding-based and ontology-based query expansion methods. The expert retrieval result is evaluated by calculating binary relevance based on human judgment. Expert search method without query expansion that produces the best result in this research is the BM25-sum method, with an AP@5 score of 0.648. Even though expert retrieval with various query expansion methods does not increase the performance of retrieval without query expansion significantly, the expert search method with embedding-based query expansion method, i.e. w2v-w2v, achieved an AP@5 score of 0.696, which is higher than that of BM25-sum without query expansion. Ontology-based and hybrid query expansion expert search methods managed to score 0.664 for AP@5. This score is not as high as that of w2v-w2v, but the result is still better than that of retrieval without query expansion.

Depok: Fakultas Ilmu Komputer Universitas Indonesia , 2020

T-Pdf

UI - Tesis Membership Universitas Indonesia Library

Nicholas Pangestu

Penggunaan Word Embedding dan Bobot Kata pada Algoritma Textrank untuk Peringkasan Artikel Bahasa Indonesia = The Use of Word Embedding and Word Weight in Textrank Algorithm for Summarizing Indonesian Articles

"Panjangnya suatu berita terkadang mengurangi minat seseorang untuk membaca berita, hal ini dapat kita lihat dari banyaknya istilah “tl:dr” pada thread di internet. Peringkasan dokumen dapat menciptkan ringkasan berita dan mengurangi waktu yang dibutuhkan untuk membaca. Salah satu cara yang dapat digunakan untuk melakukan peringkasan dokumen adalah menggunakan algoritma Textrank. Pada penelitian ini akan diimplementasikan word embedding untuk membantu algoritma Textrank memahami makna suatu kata dengan lebih baik. Hasil yang didapatkan menunjukkan bahwa penggunaan word embedding meningkatkan performa dari algoritma Textrank hingga 13% pada ROUGE-1 dan hingga 21% pada ROUGE-2. Model word embedding BERT memiliki performa tertinggi jika dibandingkan dengan word2vec (3% lebih tinggi pada ROUGE-1 dan 7% lebih tinggi pada ROUGE-2) dan fasttext (5% lebih tinggi pada ROUGE-1 dan 10% lebih tinggi pada ROUGE-2). Pada penelitian ini juga mengimplementasikan pembobotan TF-IDF dalam membuat sebuah representasi suatu kata. Hasil yang didapatkan menunjukkan bahwa pembobotan TF-IDF dapat meningkatkan performa dari tiap model word embedding yang digunakan hingga 11% pada ROUGE-1 dan hingga 19% pada ROUGE-2 dibandingkan performa tanpa pembobotan TF-IDF.

The length of article news sometimes reduces one's interest in reading the news, we can see this from the many terms "tl:dr" in threads on the internet. Document summarization can create news summaries and reduce the time it takes to read. One way to do document summarization is to use the Textrank algorithm. In this research, word embedding will be implemented to help the Textrank algorithm understand the meaning of a word better. The results show that the use of word embedding improves the performance of the Textrank algorithm up to 13% in ROUGE-1 and up to 21% in ROUGE-2. BERT word embedding model has the highest performance when compared to word2vec (3% higher in ROUGE-1 and 7% higher in ROUGE-2) and fasttext (5% higher in ROUGE-1 and 10% higher in ROUGE-2). This study also implements TF-IDF weighting to make a word representation. The results show that TF-IDF weighting can improve the performance of each word embedding model used up to 11% in ROUGE-1 and 19% in ROUGE-2 compared to the performance without using TF-IDF."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Suci Fitriyani

Model Gabungan fastText-CNN-BiLSTM untuk Analisis Sentimen pada Data Opini Berbahasa Indonesia = Hybrid Model fastText-CNN-BiLSTM for Sentiment Analysis on Indonesian Opinion Data

"Analisis sentimen merupakan studi komputasi untuk menganalisis opini seseorang terhadap suatu entitas yang diekspresikan dalam sebuah teks. Tersedia cukup banyak model machine learning terutama deep learning yang dapat digunakan untuk melakukan analisis sentimen seperti Convolutional Neural Network (CNN) dan Bidirectional Long Short-Term Memory (BiLSTM). Pada dasarnya, model deep learning tidak dapat memproses langsung sebuah data dalam bentuk teks sehingga diperlukan metode untuk mentransformasi teks menjadi tensor numerik seperti word embedding. Pada penelitian ini, diajukan model gabungan CNN-BiLSTM dengan word embedding fastText untuk melakukan analisis sentimen. Model tersebut dilatih menggunakan data tweet berbahasa Indonesia tentang opini masyarakat mengenai rencana subsidi pembelian kendaraan listrik di Indonesia. Data tersebut diklasifikasikan menjadi sentimen positif, negatif, dan netral dan ditemukan bahwa komposisi dari ketiga sentimen tersebut tidaklah seimbang (imbalanced dataset) dimana kelas positif memiliki lebih sedikit data dibanding kelaskelas lainnya. Untuk mengatasi masalah tersebut, digunakan metode resampling SMOTE agar jumlah data pada kelas positif dapat mengimbangi kelas lainnya. Model fastTextCNN-BiLSTM diukur performanya dengan melihat nilai akurasi, precision, recall, dan f1-score. Dari hasil penelitian didapat bahwa model gabungan CNN-BiLSTM memberikan nilai akurasi, precision, recall, dan f1-score yang paling baik dibanding model CNN dan BiLSTM saja. Model-model yang menggunakan word embedding fastText juga memberikan performa yang lebih baik dibanding model tanpa fastText (menggunakan word embedding standar). Secara keseluruhan, model gabungan fastTextCNN-BiLSTM ditemukan memiliki performa yang lebih baik dibandingkan dengan model-model lainnya.

Sentiment analysis is a computational study to analyze person’s opinion about an entity expressed in text. There are several machine learning models, especially deep learning models that can be used for sentiment analysis, such as Convolutional Neural Network (CNN) and Bidirectional Long Short-Term Memory (BiLSTM). Essentially, deep learning models cannot directly process textual data and they need a method to transform text into numerical tensors such as word embedding. In this research, a hybrid model CNN-BiLSTM with fastText word embedding is proposed for sentiment analysis. The model is trained using Indonesian tweets data regarding public opinions on the plan for subsidizing the purchase of electric vehicles in Indonesia. The data is classified into positive, negative, and neutral sentiments, and it is found that the composition of these sentiments is imbalanced, with the positive class having fewer data compared to the other classes. To address this issue, the SMOTE resampling method is used to balance the data in the positive class with the other classes. The performance of the fastText-CNNBiLSTM model is measured by accuracy, precision, recall, and f1-score. The research results show that the hybrid model CNN-BiLSTM achieves the highest accuracy, precision, recall, and f1-score compared to the single models CNN and BiLSTM. Models with fastText word embedding also outperform models without fastText (with standard word embedding). Overall, the hybrid model fastText-CNN-BiLSTM is found to outperform other models in terms of performance."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Dhita Putri Pratama

Implementasi sistem klasifikasi dan diagnostik coronavirus disease 2019 (covid-19) dengan citra toraks = The implementation of classification and diagnostic system for coronavirus disease (covid-19) with thorax images.

"COVID-19 telah merenggut nyawa banyak manusia. Tercatat per tanggal 29 Juni 2021, sudah terdapat sekitar 3,923,238 pasien yang meninggal dunia akibat penyakit dengan tingkat penularan yang tinggi ini. Dengan semakin banyaknya orang yang terinfeksi COVID-19, persediaan alat untuk mendeteksi penyakit ini pun juga semakin terbatas yang dapat menyebabkan pandemi COVID-19 pun menjadi semakin tidak terkendali. Oleh karena itu, penting untuk mempertimbangkan metode deteksi COVID-19 lainnya yang dapat membantu para staf kesehatan untuk melakukan deteksi pasien positif COVID-19.

Metode deteksi COVID-19 lainnya yang bisa dipertimbangkan untuk dikembangkan adalah metode deteksi COVID-19 dengan artificial intelligence. Dengan metode tersebut, data-data seperti data gejala pasien, data citra toraks, serta data interpretasi citra berupa teks dapat dimanfaatkan untuk mengembangkan suatu model prediksi COVID-19. Ketiga tipe data yang berbeda tersebut dapat dikombinasikan sebagai data input untuk membangun suatu model klasifikasi COVID-19. Pengkombinasian data yang berbeda dapat dilakukan dengan cara melakukan konkatenasi pada tiap input layer yang menerima data gejala dan data teks dengan suatu layer dari arsitektur CNN. Beberapa arsitektur CNN yang dapat digunakan pada penelitian ini adalah ResNet, DenseNet, Inception-ResNet, DarkCovidNet, CoroNet, dan COVID-Net. Selain itu, metode Grad-CAM juga dipilih untuk proses deteksi persebaran coronavirus.

Hasil pengujian menunjukkan bahwa banyak model yang dihasilkan dari pendekatan kombinasi data gambar, data tabular, dan data teks memiliki nilai sensitivitas, akurasi, serta f1-score yang tinggi. Hal tersebut menunjukkan bahwa pendekatan tersebut secara umum menghasilkan model-model dengan performa yang tinggi juga seimbang. Namun, berdasarkan hasil pengujian pula, diketahui bahwa model yang memiliki performa tertinggi dicapai oleh model dari pendekatan klasifikasi gambar dengan data tabular yang menggunakan arsitektur DenseNet khususnya dengan nilai learning rate = 10-3. Model tersebut tercatat memiliki performa yang tinggi dan seimbang dengan nilai sensitivitasnya mencapai angka 1,00, akurasi mencapai angka 0,94, dan F1-Score mencapai angka 0,94.

COVID-19 has taken the lives of many people. As of June 29th 2021, there were approximately 3.923.238 deaths due to this highly contagious disease. With the increasing number of infected people, the COVID-19 detection tool supplies are also getting limited that can lead to an out-of-control situation. Therefore, it is quite necessary to consider alternative methods for COVID-19 detection.
Another COVID-19 detection that can be considered to be developed is a COVID-19 detection method with artificial intelligence. With artificial intelligence, a COVID-19 prediction model can be built by using any available data such as patient symptom dataset, patient thorax images especially chest X-Ray, and thorax interpretations in text form. Those three types of data can be utilized and combined as data input to build a COVID-19 detection system. The combination of those three different types of data can be done with the concatenation of each input layer of tabular and text data with a layer from a CNN architecture. In this study, there are six CNN architectures used and those are ResNet, DenseNet, Inception-ResNet, DarkCovidNet, CoroNet, and COVID-Net. Besides, the Grad-CAM technique is also implemented for coronavirus detection purposes.
The result shows that most of the models from the combined image, tabular, and text datasets offer high sensitivities, accuracies, and scores of F1-Score. It means that the combined image, tabular, and text datasets generally obtained high performance and balanced models. However, according to the test results, the best performance model is achieved by the combined image and tabular datasets approach with DenseNet architecture and the learning rate of \(10^{-3}\). Such a model achieves the best performance model with an accuracy score of 0.94, a sensitivity score of 1.00, and an f1-score of 0.94.
"

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Piawai Said Umbara

Perbandingan Performa Algoritma TextRank dengan Unweighted dan Weighted Word Embedding pada Peringkasan Dataset IndoSum = Performance Comparison of TextRank Algorithm with Unweighted and Weighted Word Embedding on IndoSum Dataset Summarization

"Penelitian ini bertujuan untuk mengevaluasi efektivitas kombinasi metode TextRank dengan word embedding pada dataset IndoSum. Dua skenario eksperimen diterapkan: unweighted dan weighted. Hasil eksperimen menunjukkan bahwa penggunaan model word embedding pada algoritma TextRank terbukti meningkatkan performa sistem peringkasan. Skenario unweighted menguji perbandingan performa antara sistem baseline (kombinasi dari TextRank dengan Word2Vec dan pembobotan TF-IDF yang dilatih menggunakan dataset Liputan6) dengan beberapa sistem lainnya yang memadukan algoritma TextRank dengan model word embedding tanpa pembobotan TF-IDF. Skenario weighted menguji perbandingan sistem yang memadukan algoritma TextRank dengan model word embedding tanpa pembobotan TF-IDF dengan counterpart-nya yang memadukan algoritma TextRank dengan model word embedding ditambah pembobotan TF-IDF. Pada skenario unweighted, kombinasi TextRank dan fastText yang dilatih dengan dataset IndoSum menunjukkan peningkatan performa tertinggi untuk skor ROUGE-1 dan ROUGE-2 masing-masing sebesar 7,51% dan 4,24%. Sedangkan pada skenario weighted, pembobotan TF-IDF pada word embedding menunjukkan peningkatan performa sebagian besar sistem peringkasan dibandingkan penggunaan word embedding tanpa pembobotan TF-IDF, dengan rata-rata peningkatan performa sistem sebesar 5,55% pada ROUGE-1 dan 9,95% pada ROUGE-2.

This research evaluates the effectiveness of combining the TextRank method with word embedding on the IndoSum dataset. Two experimental scenarios were applied: unweighted and weighted. The experimental results show that using word embedding models in the TextRank algorithm significantly improves the summarization system's performance. The unweighted scenario tested the performance comparison between the baseline system (a combination of TextRank with Word2Vec and TF-IDF weighting trained using the Liputan6 dataset) and several other systems combining the TextRank algorithm with word embedding models without TF-IDF weighting. The weighted scenario compared systems that combined the TextRank algorithm with word embedding models without TF-IDF weighting to their counterparts that included TF-IDF weighting. In the unweighted scenario, the combination of TextRank and fastText trained with the IndoSum dataset demonstrated the highest performance improvement, with ROUGE-1 and ROUGE-2 scores increasing by 7.51% and 4.24%, respectively. Meanwhile, in the weighted scenario, applying TF-IDF weighting to word embedding showed performance improvement in most summarization systems compared to using word embedding without TF-IDF weighting, with an average performance increase of 5.55% in ROUGE-1 and 9.95% in ROUGE-2."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Heidi Renata Halim

Deteksi Pertanyaan Duplikat Pada Forum Kesehatan Berbahasa Indonesia Dengan Ekspansi Kata = Duplicate Question Detection in Indonesian Health Forum With the Help of Term Expansion

"Seiring dengan majunya teknologi di Indonesia, banyak layanan kesehatan online yang bermunculan. Pengguna bisa bertanya langsung pada tenaga medis profesional tiap mereka memiliki masalah kesehatan ringan yang tidak membutuhkan janji temu langsung dengan dokter. Sebagai pengguna, tentunya mereka mengharapkan respon yang cepat dari situs yang mereka gunakan, hal ini kedengarannya mustahil dilakukan karena tidak semua tenaga medis profesional yang bekerja pada layanan medis tersebut ada setiap saat memantau semua pertanyaan yang masuk. Namun, hal ini bisa dilakukan dengan cara mencocokan pertanyaan yang baru dimasukkan dan mencari pertanyaan yang sudah pernah ditanyakan di masa lalu yang memiliki persamaan dengan pertanyaan yang baru dimasukkan. Secara singkat, kita bisa mencari duplikat dari pertanyaan yang ditanyakan oleh pengguna dan mengembalikan jawaban dari pertanyaan duplikat tersebut daripada menunggu jawaban langsung dari dokter. Penelitian ini akan menggunakan pendekatan temu balik informasi dalam mendeteksi pertanyaan duplikat yang pernah ditanyakan di masa lalu. Selain itu, penelitian ini juga akan mengkombinasikan ekspansi kata yang dilakukan kepada kueri, dokumen, serta filter kata-kata stopword untuk meningkatkan skor reciprocal-rank dan recall dari model yang digunakan. Hasil penelitian ini menyimpulkan bahwa ekspansi kata yang dilakukan pada kueri serta dokumen tidak menghasilkan skor reciprocal rank dan recall yang lebih baik. Penggunaan word embedding untuk memperbanyak kata stopword yang dihapus dari data mampu menghasilkan skor reciprocal rank yang lebih tinggi meskipun nilainya belum signifikan.

With the advancement of technology and internet in Indonesia, many online healthcare services have emerged where users can directly consult with medical professionals if they have minor health issues that do not require an in-person appointment with a doctor. As users, they naturally expect quick responses from the sites they use. This seems impossible to do as not all medical professionals working who are working on these services are always available to monitor every incoming question. However, this can be achieved by matching newly submitted questions with previously asked questions that have similarities. In short, we can search for duplicates of the questions asked by users and return answers from those duplicate questions instead of waiting for a direct response from a doctor. This research will use an information retrieval approach to detect duplicate questions that have been asked in the past. Additionally, this study will combine query expansion, document expansion, and stopwords filtering to improve the reciprocal-rank and recall scores of the model used. This research concludes that query and document expansion do not yield better reciprocal rank and recall scores. On the other hand, using

word embedding to expand the stopwords list removed from the data can help achieve higher reciprocal rank scores, although the improvement displays are still not significant enough to be categorized as a major change."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Mohammad Darrel Tristan Budiroso

Perancangan Model Pengenalan Emosi Dalam Percakapan Bahasa Indonesia Menggunakan Word Embedding Dan Spektrum Suara Pada Metode Machine Learning = Design Of Speech Emotion Recognition Model In Indonesian Conservations Using Word Emebedding And Sound Spectrum Within Machine Learning Methods

"Penelitian ini menangani masalah pengenalan emosi dalam percakapan berbahasa Indonesia, yang penting untuk aplikasi seperti pengenalan ucapan, interaksi manusiamesin, dan analisis sentimen. Untuk mengatasi kompleksitas data suara dan teks, penelitian ini menggabungkan Word Embedding (Word2Vec) dan spektrum suara (MFCC) menggunakan Convolutional Neural Network (CNN). Word2Vec mengubah dataset suara menjadi representasi teks vektor, sementara MFCC digunakan untuk ekstraksi fitur dari spektrum suara. Model yang dikembangkan dievaluasi dengan dataset percobaan berbahasa Indonesia, dan pendekatan Weighted Average Ensemble yang mengintegrasikan kedua metode ini mencapai akurasi 70%. Hasil ini menunjukkan bahwa integrasi teknologi Word Embedding dan analisis spektrum suara dapat meningkatkan akurasi pengenalan emosi dalam bahasa Indonesia. Penelitian ini berkontribusi signifikan terhadap teknologi pengenalan emosi dan berpotensi meningkatkan interaksi manusia dengan teknologi serta aplikasi dalam analisis sentimen dan pengolahan bahasa alami.

This research addresses the issue of emotion recognition in Indonesian language conversations, which is crucial for applications such as speech recognition, humanmachine interaction, and sentiment analysis. To tackle the complexity of voice and text data, this study combines Word Embedding (Word2Vec) and sound spectrum analysis (MFCC) using Convolutional Neural Network (CNN). Word2Vec is used to convert voice datasets into vector text representations, while MFCC is employed for feature extraction from the sound spectrum. The developed models were evaluated using an experimental dataset in Indonesian, and the Weighted Average Ensemble approach, which integrates both methods, achieved an accuracy of 70%. These results indicate that integrating Word Embedding technology and sound spectrum analysis can significantly enhance the accuracy of emotion recognition in Indonesian conversations. This research contributes significantly to the development of emotion recognition technology and has the potential to improve human interaction with technology, as well as applications in sentiment analysis and natural language processing."

Depok: Fakultas Teknik Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Andreas Parasian

Pemetaan Persepsi Pelanggan Terhadap Aspek Video Game Melalui Aspect-based Sentiment Analysis = Mapping Customer Perception Toward Video Game Aspects Through Aspect-based Sentiment Analysis

"Persaingan antar perusahaan semakin sengit seiring waktu. Banyak perusahaan optimis akan performanya di masa depan, namun banyak juga perusahaan yang tidak yakin dapat bersaing. Kesulitan ini terutama dihadapi oleh perusahaan-perusahaan pada sektor dengan potensi besar yang diperebutkan seperti sektor video game. Perusahaan-perusahaan tersebut perlu memerhatikan persepsi / sentimen pelanggan agar dapat meningkatkan dan mempertahankan daya saingnya dalam jangka panjang. Persepsi ini umumnya ditunjukkan pelanggan melalui ulasan mereka terhadap produk perusahaan. Dengan demikian, perusahaan video game dapat mengidentifikasi kesempatan pengembangan atau peningkatan daya saing dengan memerhatikan persepsi pelanggan dari ulasan video game. Pembuatan model dengan metode Aspect Category Sentiment Analysis, salah satu bagian dari rangkaian metode Aspect-based Sentiment Analysis, dapat menjadi salah satu solusi agar perusahaan video game dapat melakukan hal tersebut. Oleh karena itu, penelitian ini memakai metode Aspect Category Sentiment Analysis secara unsupervised untuk membuat model sebagai solusi terhadap permasalahan perusahaan video game dan perusahaan lain yang kesulitan bersaing. Model tersebut dibuat dengan memanfaatkan vektor yang dihasilkan oleh model Word Embedding untuk merepresentasikan hubungan sentimen antar kata yang ada di ulasan video game. Hasil evaluasi menunjukkan bahwa model yang dibuat dapat merepresentasikan hubungan sentimen terhadap aspek video game yang diulas oleh pelanggan. Informasi ini kemudian dapat dipetakan agar perusahaan video game dapat mengidentifikasi kesempatan pengembangan atau peningkatan daya saing.

Competition among firms is intensifying over time. Many are optimistic about its future growth, but there are also many who are unsure about their own competitive capabilities. This pessimistic outlook is shared by a lot of firms in business sectors with many yet heavily contested business opportunities such as the video game sector. These firms must pay closer attention to the perception or sentiment of their customers so they can increase and maintain their long-term competitiveness. Such perception is generally expressed by customers through their product reviews. Hence, video game companies can identify product development opportunities or unknown competitive advantages/disadvantages by closely monitoring customer perception from video game reviews. Models created through Aspect Category Sentiment Analysis, a sub-discipline of Aspect-based Sentiment Analysis, can be a solution for video game companies to do such an endeavor. Therefore, this research created an unsupervised Aspect Category Sentiment Analysis model as a solution for video game companies and companies that face a similar problem. The model is created by utilizing the capability of word vectors from word embeddings to represent semantic relationships such as sentiment toward video game aspects that are mentioned in customer reviews. Thorough numerical and qualitative evaluation shows that the model can reliably represent such sentiment. Video game companies can then map the sentiment that is identified by the model to identify product development opportunities or unknown competitive advantages/disadvantages."

Fakultas Teknik Universitas Indonesia, 2023

S-pdf

UI - Dokumentasi Universitas Indonesia Library

Arya Bintang Pratama Kumaladjati

Sistem Temu-Kembali Dokumen Hukum dengan Menggunakan Ekspansi Istilah = Legal Document Retrieval System by Using Term Expansion

"Penelitian ini bertujuan untuk meningkatkan efektivitas model Temu-kembali Informasi di bidang hukum dengan memanfaatkan metode Term Expansion. Latar belakang penelitian ini didasarkan pada kebutuhan praktisi hukum akan sistem yang dapat melakukan pencarian informasi secara otomatis dan efisien dalam database dokumen hukum yang besar dan kompleks. Pendekatan yang diusulkan dalam penelitian ini menggunakan arsitektur Cascade-Ranking Model, yang terdiri dari dua tahapan utama: Sparse Retrieval Model untuk pencarian awal dan algoritma Re-ranking untuk penyusunan ulang hasil pencarian. Penelitian ini berfokus pada eksplorasi kinerja Sparse Retrieval Model melalui penerapan teknik Term Expansion, yang mencakup Query Expansion dan Document Expansion. Query Expansion dilakukan dengan berbagai pendekatan, termasuk non-contextual word embedding, contextual word embedding dengan BERT, dan Local Analysis. Document Expansion melibatkan penambahan prediksi query yang relevan ke dalam dokumen untuk meningkatkan kecocokan dengan query pengguna. Hasil dari eksperimen menunjukkan bahwa tidak ada skenario yang secara mutlak unggul dalam semua metrik evaluasi yang digunakan. Beberapa skenario menunjukkan keunggulan dalam satu metrik tertentu namun mengalami penurunan pada metrik lainnya. Pada salah satu skenario berhasil meningkatkan R@20 dari 0,896 menjadi 0,906, selain itu pada skenario lainnya berhasil meningkatkan metrik P@5 dari 0,186 menjadi 0,192. Selain itu, pada skenario yang menggunakan stopword dengan konteks hukum untuk melakukan filter terhadap kata yang ingin diekspansi dengan word embedding, berhasil meningkatkan R@20 dari 0,896 menjadi 0,916 dan mendapatkan p-value sebesar 0,045. P-value yang dibawah 0,05 ini berarti terjadi peningkatan yang signifikan pada skenario tersebut. Meskipun dapat meningkatkan beberapa metrik, Query Expansion tidak selalu meningkatkan efektivitas Sparse Retrieval Model secara signifikan, terutama karena kurang presisinya kata yang diekspansi dan keterbatasan vocabulary model embedding yang digunakan. Penggunaan BERT untuk kontekstual checking juga belum memberikan hasil yang optimal.

This research aims to improve the effectiveness of Information Retrieval models in the legal field by utilizing Term Expansion methods. The background of this research is based on the need of legal practitioners for a system that can automatically and efficiently search for information in large and complex legal document databases. The proposed approach in this research uses a Cascade-Ranking Model architecture, which consists of two main stages: a Sparse Retrieval Model for initial searches and a Re-ranking algorithm for reordering search results. This study focuses on exploring the performance of the Sparse Retrieval Model through the application of Term Expansion techniques, which include Query Expansion and Document Expansion. Query Expansion is conducted using various approaches, including non-contextual word embedding, contextual word embedding with BERT, and Local Analysis. Document Expansion involves adding predicted relevant queries into the documents to enhance their match with user queries.The results of the experiments show that no scenario is absolutely superior in all evaluation metrics used. Some scenarios show advantages in one particular metric but experience a decline in others. In one scenario, the R@20 metric was successfully increased from 0.896 to 0.906, while in another scenario, the P@5 metric was increased from 0.186 to 0.192. Additionally, in a scenario that used legal context stopwords to filter the words to be expanded with word embedding, R@20 was increased from 0.896 to 0.916, achieving a p-value of 0.045. This p-value below 0.05 indicates a significant improvement in that scenario. Although some metrics improved, Query Expansion did not always significantly enhance the effectiveness of the Sparse Retrieval Model, primarily due to the imprecision of the expanded words and the limitations of the embedding model’s vocabulary used. The use of BERT for contextual checking also did not yield optimal results."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

<< 1 2 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian