Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 2 dokumen yang sesuai dengan query
cover
Desmond Darma Putra
Abstrak :
WordNet merupakan basis data kamus bahasa Inggris yang dikembangkan oleh Princeton University. WordNet memfokuskan isinya lebih kepada makna kata daripada kata itu sendiri. Saat ini, WordNet banyak digunakan sebagai sumber informasi untuk aplikasi di bidang Information Retrieval dan Natural Language Processing. Selain itu, WordNet juga mulai dikembangkan untuk bahasa-bahasa lain seperti Jerman, Perancis, Belanda, dan lain lain. Secara umum, pengembangan WordNet dapat dibagi menjadi dua, yaitu pendekatan merge dan expand. Dalam penelitian tugas akhir ini, penulis mengembangkan versi awal untuk WordNet bahasa Indonesia dengan menggunakan pendekatan expand. Data-data yang dipersiapkan untuk pengembangan WordNet bahasa Indonesia, antara lain Princeton WordNet 3.0, kamus dwibahasa (Inggris-Indonesia) dan Kamus Besar Bahasa Indonesia (KBBI). Langkah pertama yang dilakukan dengan pendekatan ini adalah memetakan makna yang terdapat di dalam Princeton WordNet dengan makna yang terdapat dalam KBBI. Makna yang digunakan dari Princeton WordNet untuk pemetaan ini difokuskan kepada makna yang merupakan anggota Common Base Concepts. Proses ini dilakukan dengan menggunakan aplikasi web-based dan melibatkan sejumlah pengguna untuk berpartisipasi. Langkah selanjutnya yang dilakukan adalah mengevaluasi hasil pemetaan tersebut dengan memeriksa kelas kata dan kesepakatan antar pengguna dengan menggunakan statistik Kappa. Setelah proses evaluasi, dibuatlah basis data WordNet bahasa Indonesia. Basis data ini dibuat dengan mengadaptasi struktur basis data dan relasi semantik yang ada di dalam Princeton WordNet. Langkah terakhir yang dilakukan adalah membuat aplikasi web-based untuk mengakses WordNet bahasa Indonesia. Dari 3920 makna Princeton WordNet yang dipersiapkan, 1544 makna diantaranya berhasil dipetakan ke dalam bahasa Indonesia. Jumlah makna yang dipetakan ini dipengaruhi oleh beberapa hal, salah satunya adalah kurangnya promosi mengenai eksperimen pemetaan ini sehingga jumlah pengguna yang berpartisipasi masih sedikit. Hasil pemetaan tersebut kemudian dievaluasi dengan memeriksa kelas kata dan kesepakatan antar pengguna (statistik Kappa). Secara rata-rata, kesepakatan antar pengguna dalam melakukan pemetaan dapat dikategorikan intermediate to good. Setelah evaluasi tersebut, dibuat 4 buah versi basis data antara lain versi tolerant, strict, very strict, dan ?strict + filter kesepakatan?. Versi "strict + filter kesepakatan" inilah yang dipilih menjadi basis data dari WordNet bahasa Indonesia. Basis data tersebut dapat diakses melalui aplikasi web-based dengan alamat http://bahasa.cs.ui.ac.id/iwn/.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Gibran Brahmanta Patriajati
Abstrak :
Text Summarization secara ekstraktif merupakan suatu isu yang dapat meningkatkan kualitas pengalaman pengguna ketika menggunakan suatu sistem perolehan informasi. Pada bahasa Inggris, terdapat beberapa penelitian terkait Text Summarization secara ekstraktif salah satunya adalah penelitian Belwal et al. (2021) yang memperkenalkan suatu metode Text Summarization secara ekstraktif yang berbasiskan proses Topic Modeling serta Semantic Measure menggunakan WordNet. Sementara pada bahasa Indonesia, juga terdapat beberapa penelitian terkait Text Summarization secara ekstraktif tetapi belum ada yang menggunakan metode yang sama seperti yang diperkenalkan oleh Belwal et al. (2021). Agar metode yang diperkenalkan Belwal et al. (2021) dapat digunakan pada bahasa Indonesia, proses Semantic Measure menggunakan WordNet harus diganti dengan Similarity Measure menggunakan Vector Space Model karena tidak adanya model WordNet bahasa Indonesia yang dapat digunakan oleh umum. Dalam menggunakan metode yang diperkenalkan oleh Belwal et al. (2021) pada bahasa Indonesia, terdapat beberapa metode yang dapat digunakan untuk melakukan Topic Modeling, Vector Space Model, serta Similarity Measure yang terdapat di dalamnya. Penelitian ini berfokus untuk mencari kombinasi metode ketiga hal yang telah disebutkan sebelumnya yang dapat memaksimalkan performa metode Text Summarization yang diperkenalkan oleh Belwal et al. (2021) pada bahasa Indonesia dengan menggunakan pendekatan hill-climbing. Proses evaluasi dilakukan dengan menggunakan metrik ROUGE-N dalam bentuk F-1 Score pada dua buah dataset yaitu Liputan6 serta IndoSUM. Hasil penelitian menemukan bahwa kombinasi metode yang dapat memaksimalkan performa metode Text Summarization secara ekstraktif yang diperkenalkan oleh Belwal et al. (2021) adalah Non-Negative Matrix Factorization untuk Topic Modeling, Word2Vec untuk Vector Space Model, serta Euclidean Distance untuk Similarity Measure. Kombinasi metode tersebut memiliki nilai ROUGE-1 sebesar 0.291, ROUGE-2 sebesar 0.140, dan ROUGE-3 sebesar 0.079 pada dataset Liputan6. Sementara pada dataset IndoSUM, kombinasi metode tersebut memiliki nilai ROUGE-1 sebesar 0.455, ROUGE-2 sebesar 0.337, dan ROUGE-3 sebesar 0.300. Performa yang dihasilkan oleh kombinasi metode tersebut bersifat cukup kompetitif dengan performa metode lainnya seperti TextRank serta metode berbasiskan model Deep Learning BERT apabila dokumen masukannya bersifat koheren. ......Extractive text summarization is an issue that can improve the quality of user experience when using an information retrieval system. Research related to extractive text summarization is a language-specific research. In English, there are several studies related to extractive text summarization, one of them is the research of Belwal et al. (2021) They introduced an extractive Text Summarization method based on the Topic Modeling process and Semantic Measure using WordNet. While in Indonesian, there are also several studies related to extractive text summarization, but none have used the same method as introduced by Belwal et al. (2021). In order to use the method introduced by Belwal et al. (2021) in Indonesian, the Semantic Measure process using WordNet must be replaced with Similarity Measure using the Vector Space Model because there is no Indonesian WordNet model that can be used by the public. When using the method introduced by Belwal et al. (2021) in Indonesian, there are several methods that can be used to perform Topic Modeling, Vector Space Model, and Similarity Measure that contained in there. This study focuses on finding a combination of the three methods previously mentioned that can maximize the performance of the Text Summarization method introduced by Belwal et al. (2021) in Indonesian using hill-climbing approach. The evaluation process is carried out using the ROUGE-N metric in the form of F-1 Score on two datasets, namely Liputan6 and IndoSUM. The results of the study found that the combination of methods that can maximize the performance of the extractive text summarization method introduced by Belwal et al. (2021) are Non-Negative Matrix Factorization for Topic Modeling, Word2Vec for Vector Space Model, and Euclidean Distance for Similarity Measure. The combination of those methods has a ROUGE-1 value of 0.291, ROUGE-2 value of 0.140, and ROUGE-3 value of 0.079 in the Liputan6 dataset. Meanwhile, in the IndoSUM dataset, the combination of those methods has a ROUGE-1 value of 0.455, ROUGE-2 value of 0.337, and ROUGE-3 value of 0.300. The performance generated by the combination of those methods is quite competitive with the performance of other methods such as TextRank and Deep Learning BERT model based method if the input document is coherent.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library