Ditemukan 3 dokumen yang sesuai dengan query
Abdul Rahman
"Website Helpdesk PDDikti memiliki sekumpulan knowledge yang belum didukung oleh sistem pencarian yang efektif. Penelitian ini bertujuan untuk membangun system temu-balik informasi yang efektif dengan skor metrik yang tinggi terhadap knowledge Helpdesk PDDikti. Metode yang digunakan dalam penelitian ini adalah penerapan model temu-balik informasi berbasis text matching pada berbagai model, yang kemudian disempurnakan dengan dua metode perbaikan ranking dokumen: (1) metode eskpansi istilah pada dokumen menggunakan prediksi kueri dari model doc2query, dan (2) metode reranking dokumen menggunakan model LambdaMART. Hasil penelitian menunjukkan bahwa di antara beberapa model temu-balik informasi berbasis text matching, model BM25 memberikan kinerja terbaik dengan skor MRR 0,781. Selanjutnya, hasil ranking dokumen dari model BM25 dapat ditingkatkan akurasinya melalui metode ekspansi istilah dengan lima kueri menggunakan pemilihan kandidat random sampling, yang meningkatkan skor MRR menjadi 0,799. Namun, penggunaan metode reranking dengan model LambdaMART untuk meningkatkan akurasi hasil ranking dokumen belum memberikan hasil yang lebih baik dibandingkan metode ekspansi istilah. Meskipun demikian, terdapat varian model reranking LambdaMART yang menggunakan fitur semantic similarity dan fitur skor agregat, yang mampu mengalahkan model BM25 tanpa ekspansi istilah, dengan skor MRR terbaik masing-masing 0,782 dan 0,787. Meskipun begitu, peningkatan ini masih belum cukup signifikan.
The PDDikti Helpdesk website has a collection of knowledge that is not yet supported by an effective search system. This study aims to develop an effective information retrieval system with high metric scores for the PDDikti Helpdesk knowledge base. The method used in this research involves applying text matching-based information retrieval models across various models, which are then refined using two document ranking improvement methods: (1) term expansion in documents using query predictions from the doc2query model, and (2) document reranking using the LambdaMART model.The research results indicate that among several text matching-based information retrieval models, the BM25 model provides the best performance with an MRR score of 0.781. Furthermore, the document ranking results from the BM25 model can be improved in accuracy through the term expansion method with five queries using random sampling for candidate selection, which increases the MRR score to 0.799.However, the use of the reranking method with the LambdaMART model to improve document ranking accuracy did not yield better results compared to the term expansion method. Nevertheless, there are variants of the LambdaMART reranking model that use semantic similarity features and aggregate score features, which managed to outperform the BM25 model without term expansion, with the best MRR scores of 0.782 and 0.787, respectively. However, these improvements are still not significant enough."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership Universitas Indonesia Library
Kenneth Jonathan
"Terdapat beberapa masalah yang muncul seiring dengan bertambahnya peraturan. Hal tersebut menyebabkan proses pengumpulan dan evaluasi peraturan memakan waktu yang relatif lebih lama. Oleh karena itu, diperlukan suatu sistem yang dapat mengotomatiskan kebutuhan tersebut, salah satunya adalah Information Retrieval. Penelitian ini bertujuan untuk meningkatkan efektivitas sistem Information Retrieval melalui pendekatan re-ranker berbasis fitur dengan memanfaatkan beberapa jenis fitur, seperti atribut kuantitatif sederhana, skor text matching, dan document embeddings. Ditemukan bahwa skor kesamaan Jaccard, nilai relevansi BM25 dan nilai relevansi LemurTF_IDF merupakan karakteristik yang dapat membantu peningkatan efektivitas re-ranking secara konsisten dalam domain legal. Sementara itu, fitur yang memanfaatkan embeddings dari BERT maupun T5 didapatkan bermanfaat, namun memiliki kontribusi yang lebih kecil dari fitur perhitungan sederhana seperti kesamaan Jaccard. Selain itu, didapatkan bahwa pemanfaatan seluruh fitur sebagai masukan dari re-ranker LambdaMART dapat meningkatkan seluruh metrik sistem sekitar 4,17% secara signifikan dengan nilai metrik utama, recall@3, tertinggi diperoleh DLH13 (Reranker) dengan nilai 0,6632 dan peningkatan sebesar 5,64%. Namun, saat dilakukan percobaan menggunakan hanya ketiga fitur tersebut, didapatkan peningkatan sebesar 3, 739% yang tidak signifikan.
There are several issues that arise with the increasing number of regulations. This causes the process of collecting and evaluating regulations to take relatively longer. Therefore, a system is needed to automate these needs, one of which is Information Retrieval. This research aims to improve the effectiveness of the Information Retrieval system through a feature-based re-ranker approach by utilizing several types of features, such as simple quantitative attributes, text matching scores, and document embeddings. It was found that Jaccard similarity scores, BM25 relevance values, and LemurTF_IDF relevance values are characteristics that can consistently help improve re-ranking effectiveness in the legal domain. Meanwhile, features that utilize BERT and T5 embeddings were found to be beneficial but contributed less than simple calculation features like Jaccard similarity. Additionally, it was found that using all the features as input for the LambdaMART re-ranker can significantly improve all system metrics by about 4,17%, with the highest main metric value, recall@3, achieved by DLH13 (Reranker) with a value of 0, 6632 and an increase of 5,64%. However, when experiments were conducted using only the three features mentioned, an insignificant increase of 3, 739% was obtained."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership Universitas Indonesia Library
Kenneth Jonathan
"Terdapat beberapa masalah yang muncul seiring dengan bertambahnya peraturan. Hal tersebut menyebabkan proses pengumpulan dan evaluasi peraturan memakan waktu yang relatif lebih lama. Oleh karena itu, diperlukan suatu sistem yang dapat mengotomatiskan kebutuhan tersebut, salah satunya adalah Information Retrieval. Penelitian ini bertujuan untuk meningkatkan efektivitas sistem Information Retrieval melalui pendekatan re-ranker berbasis fitur dengan memanfaatkan beberapa jenis fitur, seperti atribut kuantitatif sederhana, skor text matching, dan document embeddings. Ditemukan bahwa skor kesamaan Jaccard, nilai relevansi BM25 dan nilai relevansi LemurTF_IDF merupakan karakteristik yang dapat membantu peningkatan efektivitas re-ranking secara konsisten dalam domain legal. Sementara itu, fitur yang memanfaatkan embeddings dari BERT maupun T5 didapatkan bermanfaat, namun memiliki kontribusi yang lebih kecil dari fitur perhitungan sederhana seperti kesamaan Jaccard. Selain itu, didapatkan bahwa pemanfaatan seluruh fitur sebagai masukan dari re-ranker LambdaMART dapat meningkatkan seluruh metrik sistem sekitar 4,17% secara signifikan dengan nilai metrik utama, recall@3, tertinggi diperoleh DLH13 (Reranker) dengan nilai 0,6632 dan peningkatan sebesar 5,64%. Namun, saat dilakukan percobaan menggunakan hanya ketiga fitur tersebut, didapatkan peningkatan sebesar 3, 739% yang tidak signifikan.
There are several issues that arise with the increasing number of regulations. This causes the process of collecting and evaluating regulations to take relatively longer. Therefore, a system is needed to automate these needs, one of which is Information Retrieval. This research aims to improve the effectiveness of the Information Retrieval system through a feature-based re-ranker approach by utilizing several types of features, such as simple quantitative attributes, text matching scores, and document embeddings. It was found that Jaccard similarity scores, BM25 relevance values, and LemurTF_IDF relevance values are characteristics that can consistently help improve re-ranking effectiveness in the legal domain. Meanwhile, features that utilize BERT and T5 embeddings were found to be beneficial but contributed less than simple calculation features like Jaccard similarity. Additionally, it was found that using all the features as input for the LambdaMART re-ranker can significantly improve all system metrics by about 4,17%, with the highest main metric value, recall@3, achieved by DLH13 (Reranker) with a value of 0, 6632 and an increase of 5,64%. However, when experiments were conducted using only the three features mentioned, an insignificant increase of 3, 739% was obtained."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership Universitas Indonesia Library