Hasil Pencarian

Ditemukan 15 dokumen yang sesuai dengan query

Fariz Wahyuzan Dwitilas

Named Entity Recognition pada Dokumen Legal Berbahasa Indonesia = Named Entity Recognition on Indonesian Legal Documents

Sebagai negara hukum, Indonesia memiliki sistem peradilan yang aktif. Setiap bulannya, terdapat sekitar 100.000 dokumen putusan yang dihasilkan oleh lembaga kehakiman di Indonesia. Volume dokumen yang banyak tersebut menimbulkan suatu tantangan bagi insan hukum di Indonesia. Guna mendukung dan mengakomodasi institusi publik dari aspek teknologi dan informasi, serta mendorong pelaksanaan keterbukaan informasi bagi masyarakat umum, maka dibutuhkan suatu metode yang dapat membantu untuk mencari dan mengumpulkan informasi penting dari suatu dokumen putusan pengadilan. Secara khusus, metode ini juga ditujukan untuk membantu para praktisi hukum untuk kepentingan penegakan hukum dan para akademisi hukum untuk kepentingan pendidikan dan pengembangan di bidang hukum. Salah satu teknik untuk mengumpulkan informasi penting dari suatu dokumen adalah Named Entity Recognition (NER). Teknik NER bekerja dengan cara menandai kata-kata yang merupakan informasi penting seperti orang, tempat, lokasi, waktu, kejadian, dan lainnya. NER dapat diterapkan untuk berbagai bidang permasalahan, seperti medis, hukum, dan pertanian. NER yang secara spesifik bekerja untuk menandai entitas hukum disebut dengan Legal Entity Recognition (LER). Penelitian sebelumnya telah menerapkan LER untuk dokumen legal berbahasa Indonesia dengan pendekatan BiLSTM dan CRF sehingga diperlukan penelitian lebih lanjut untuk mengetahui bagaimana performa model-model lain terhadap kasus tersebut. Penelitian ini menguji performa language model, yaitu model berbasis RoBERTa dan model berbasis BERT serta membandingkannya dengan deep learning model, yaitu BiLSTM dan BiLSTM-CRF sebagai model baseline penelitian sebelumnya untuk task LER bahasa indonesia. Hasil penelitian menunjukkan model berbasis RoBERTa memliki performa terbaik untuk task LER pada dataset penulis, XLM-R large dengan skor F1 sebesar 0,9295, XLM-R base dengan skor F1 sebesar 0,9281 dan Indonesian RoBERTa dengan skor F1 sebesar 0,9246.

As a rule of law country, Indonesia has an active justice system. Every month, there are around 100,000 decision documents produced by the judiciary in Indonesia. The large volume of documents poses a challenge for legal people in Indonesia. In order to support and accommodate public institutions from the aspects of technology and information, as well as encourage the implementation of information disclosure for the general public, a method is needed that can help find and collect important information from a court decision document. In particular, this method is also intended to assist legal practitioners for the benefit of law enforcement and legal academics for the benefit of education and development in the field of law. One technique for collecting important information from a document is Named Entity Recognition (NER). The NER technique works by marking words that are important information such as people, places, locations, times, events, and so on. NER can be applied to various problem areas, such as medical, legal, and agriculture. NER which specifically works to mark legal entities is called Legal Entity Recognition (LER). Previous studies have applied LER to legal documents in Indonesian using the BiLSTM and CRF approaches, so further research is needed to find out how other models perform in this case. This study examines the performance of language models, namely the RoBERTa-based model and the BERT-based model and compares them with deep learning models, namely BiLSTM and BiLSTM-CRF as the baseline models for previous studies for the Indonesian language LER task. The results showed that the RoBERTa-based model had the best performance for the LER task in the author’s dataset, XLM-R large with an F1 score of 0.9295, XLM-R base with an F1 score of 0.9281 and Indonesian RoBERTa with an F1 score of 0.9246.

"

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Ilma Alpha Mannix

Pencarian Dosen Pakar Menggunakan Pre-Trained Language Model BERT = Academic Expert Finding Using BERT Pre-Trained Language Model

"Penelitian ini bertujuan untuk menguji efektivitas pre-trained language model BERT pada tugas pencarian dosen pakar. Bidirectional Encoder Representations from Transformers (BERT) merupakan salah satu state-of-the-art model saat ini yang menerapkan contextual word representation (contextual embedding). Dataset yang digunakan pada penelitian ini terdiri dari data pakar dan bukti kepakaran. Data pakar merupakan data dosen Fakultas Ilmu Komputer Universitas Indonesia (Fasilkom UI). Data bukti kepakaran merupakan data abstrak digital tugas akhir mahasiswa Fasilkom UI. Model yang diusulkan pada penelitian ini terdiri dari tiga variasi BERT, yaitu IndoBERT (Indonesian BERT), mBERT (Multilingual BERT), dan SciBERT (Scientific BERT) yang akan dibandingkan dengan model baseline menggunakan word2vec. Terdapat dua pendekatan yang dilakukan untuk mendapatkan urutan dosen pakar pada variasi model BERT, yaitu pendekatan feature-based dan fine-tuning. Penelitian ini menunjukkan bahwa model IndoBERT dengan pendekatan feature-based memberikan hasil yang lebih baik dibandingkan baseline dengan peningkatan 6% untuk metrik MRR hingga 9% untuk metrik NDCG@10. Pendekatan fine-tuning juga memberikan hasil yang lebih baik pada model IndoBERT dibandingkan baseline dengan peningkatan 10% untuk metrik MRR hingga 18% untuk metrik P@5. Diantara kedua pendekatan tersebut, dibuktikan bahwa pendekatan fine-tuning memberikan hasil yang lebih baik dibandingkan dengan pendekatan feature-based dengan peningkatan 1% untuk metrik P@10 hingga 5% untuk metrik MRR. Penelitian ini menunjukkan bahwa penggunaan pre-trained language model BERT memberikan hasil yang lebih baik dibandingkan baseline word2vec dalam tugas pencarian dosen pakar.

This study aims to test the effectiveness of the pre-trained language model BERT on the task of expert finding. Bidirectional Encoder Representations from Transformers (BERT) is one of the current state-of-the-art models that applies contextual word representation (contextual embedding). The dataset used in this study consists of expert data and expertise evidence. The expert data is composed of faculty members from the Faculty of Computer Science, University of Indonesia (Fasilkom UI). The expertise evidence data consists of digital abstracts by Fasilkom UI students. The proposed model in this research consists of three variations of BERT, namely IndoBERT (Indonesian BERT), mBERT (Multilingual BERT), and SciBERT (Scientific BERT), which will be compared to a baseline model using word2vec. Two approaches were employed to obtain the ranking of expert faculty members using the BERT variations, namely the feature-based approach and fine-tuning. The results of this study shows that the IndoBERT model with the feature-based approach outperforms the baseline, with an improvement of 6% for the MRR metric and up to 9% for the NDCG@10 metric. The fine-tuning approach also yields better results for the IndoBERT model compared to the baseline, with an improvement of 10% for the MRR metric and up to 18% for the P@5 metric. Among these two approaches, it is proven that the fine-tuning approach performs better than the feature-based approach, with an improvement of 1% for the P@10 metric and up to 5% for the MRR metric. This research shows that the use of the pre-trained language model BERT provides better results compared to the baseline word2vec in the task of expert finding."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Piawai Said Umbara

Perbandingan Performa Algoritma TextRank dengan Unweighted dan Weighted Word Embedding pada Peringkasan Dataset IndoSum = Performance Comparison of TextRank Algorithm with Unweighted and Weighted Word Embedding on IndoSum Dataset Summarization

"Penelitian ini bertujuan untuk mengevaluasi efektivitas kombinasi metode TextRank dengan word embedding pada dataset IndoSum. Dua skenario eksperimen diterapkan: unweighted dan weighted. Hasil eksperimen menunjukkan bahwa penggunaan model word embedding pada algoritma TextRank terbukti meningkatkan performa sistem peringkasan. Skenario unweighted menguji perbandingan performa antara sistem baseline (kombinasi dari TextRank dengan Word2Vec dan pembobotan TF-IDF yang dilatih menggunakan dataset Liputan6) dengan beberapa sistem lainnya yang memadukan algoritma TextRank dengan model word embedding tanpa pembobotan TF-IDF. Skenario weighted menguji perbandingan sistem yang memadukan algoritma TextRank dengan model word embedding tanpa pembobotan TF-IDF dengan counterpart-nya yang memadukan algoritma TextRank dengan model word embedding ditambah pembobotan TF-IDF. Pada skenario unweighted, kombinasi TextRank dan fastText yang dilatih dengan dataset IndoSum menunjukkan peningkatan performa tertinggi untuk skor ROUGE-1 dan ROUGE-2 masing-masing sebesar 7,51% dan 4,24%. Sedangkan pada skenario weighted, pembobotan TF-IDF pada word embedding menunjukkan peningkatan performa sebagian besar sistem peringkasan dibandingkan penggunaan word embedding tanpa pembobotan TF-IDF, dengan rata-rata peningkatan performa sistem sebesar 5,55% pada ROUGE-1 dan 9,95% pada ROUGE-2.

This research evaluates the effectiveness of combining the TextRank method with word embedding on the IndoSum dataset. Two experimental scenarios were applied: unweighted and weighted. The experimental results show that using word embedding models in the TextRank algorithm significantly improves the summarization system's performance. The unweighted scenario tested the performance comparison between the baseline system (a combination of TextRank with Word2Vec and TF-IDF weighting trained using the Liputan6 dataset) and several other systems combining the TextRank algorithm with word embedding models without TF-IDF weighting. The weighted scenario compared systems that combined the TextRank algorithm with word embedding models without TF-IDF weighting to their counterparts that included TF-IDF weighting. In the unweighted scenario, the combination of TextRank and fastText trained with the IndoSum dataset demonstrated the highest performance improvement, with ROUGE-1 and ROUGE-2 scores increasing by 7.51% and 4.24%, respectively. Meanwhile, in the weighted scenario, applying TF-IDF weighting to word embedding showed performance improvement in most summarization systems compared to using word embedding without TF-IDF weighting, with an average performance increase of 5.55% in ROUGE-1 and 9.95% in ROUGE-2."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Naradhipa Mahardhika Setiawan Bhary

Named Entity Recognition pada Dokumen Legal Berbahasa Indonesia = Named Entity Recognition on Indonesian Legal Documents

"Sebagai negara hukum, Indonesia memiliki sistem peradilan yang aktif. Setiap bulannya, terdapat sekitar 100.000 dokumen putusan yang dihasilkan oleh lembaga kehakiman di Indonesia. Volume dokumen yang banyak tersebut menimbulkan suatu tantangan bagi insan hukum di Indonesia. Guna mendukung dan mengakomodasi institusi publik dari aspek teknologi dan informasi, serta mendorong pelaksanaan keterbukaan informasi bagi masyarakat umum, maka dibutuhkan suatu metode yang dapat membantu untuk mencari dan mengumpulkan informasi penting dari suatu dokumen putusan pengadilan. Secara khusus, metode ini juga ditujukan untuk membantu para praktisi hukum untuk kepentingan penegakan hukum dan para akademisi hukum untuk kepentingan pendidikan dan pengembangan di bidang hukum. Salah satu teknik untuk mengumpulkan informasi penting dari suatu dokumen adalah Named Entity Recognition (NER). Teknik NER bekerja dengan cara menandai kata-kata yang merupakan informasi penting seperti orang, tempat, lokasi, waktu, kejadian, dan lainnya. NER dapat diterapkan untuk berbagai bidang permasalahan, seperti medis, hukum, dan pertanian. NER yang secara spesifik bekerja untuk menandai entitas hukum disebut dengan Legal Entity Recognition (LER). Penelitian sebelumnya telah menerapkan LER untuk dokumen legal berbahasa Indonesia dengan pendekatan BiLSTM dan CRF sehingga diperlukan penelitian lebih lanjut untuk mengetahui bagaimana performa model-model lain terhadap kasus tersebut. Penelitian ini menguji performa language model, yaitu model berbasis RoBERTa dan model berbasis BERT serta membandingkannya dengan deep learning model, yaitu BiLSTM dan BiLSTM-CRF sebagai model baseline penelitian sebelumnya untuk task LER bahasa indonesia. Hasil penelitian menunjukkan model berbasis RoBERTa memliki performa terbaik untuk task LER pada dataset penulis, XLM-R large dengan skor F1 sebesar 0,9295, XLM-R base dengan skor F1 sebesar 0,9281 dan Indonesian RoBERTa dengan skor F1 sebesar 0,9246.

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Jafar Abdurrohman

Named Entity Recognition pada Dokumen Legal Berbahasa Indonesia = Named Entity Recognition on Indonesian Legal Documents

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Theresia Veronika Rampisela

Pengembangan sistem pencarian pakar dengan query expansion menggunakan Word Embedding, Document Embedding, dan Ontologi = Developing Expert Search System with Query Expansion Using Word Embedding, Document Embedding, and Ontology

Penelitian ini mencari dosen pakar di Fakultas Ilmu Komputer Universitas Indonesia (Fasilkom UI) dengan menggunakan data abstrak dan metadata tugas akhir mahasiswa Fasilkom UI menggunakan teknik information retrieval. Pencarian pakar dilakukan tanpa query expansion dan dengan query expansion. Metode yang digunakan untuk mencari dosen pakar adalah metode berbasis BM25 serta kombinasi antara word2vec dan doc2vec, yang merupakan word embedding dan document embedding. Teknik yang digunakan untuk mengatasi masalah vocabulary mismatch adalah teknik query expansion dengan pendekatan statistik, semantik, serta hybrid. Kontribusi penelitian ini adalah 2 metode baru untuk pencarian pakar tanpa query expansion, 6 jenis kombinasi relasi ontologi berdasarkan concept hierarchy ACM CCS 2012 untuk mengekspansi kueri, serta 14 jenis kombinasi antara metode query expansion berbasis embedding dan ontologi. Evaluasi dari hasil pencarian pakar dilakukan dengan menghitung binary relevance berdasarkan human judgment. Pada penelitian ini, metode pencarian pakar tanpa query expansion dengan hasil yang paling baik adalah metode BM25-sum dengan nilai AP@5 sebesar 0.648. Pencarian pakar dengan berbagai macam jenis query expansion tidak dapat meningkatkan performa retrieval tanpa query expansion secara signifikan, tetapi pencarian dengan query expansion menggunakan metode berbasis embedding, yaitu w2v-w2v memiliki nilai AP@5 sebesar 0.696, yang lebih tinggi dari skor AP@5 dari BM25-sum tanpa query expansion. Pencarian pakar dengan query expansion berbasis ontologi serta hybrid mampu menghasilkan skor AP@5 setinggi 0.664. Skor tersebut tidak setinggi pencarian dengan query expansion dengan w2v-w2v, namun hasilnya lebih baik dari pencarian tanpa query expansion.

This research searches for expert lecturers in the Faculty of Computer Science, Universitas Indonesia (Fasilkom UI) with information retrieval techniques using students’ thesis abstract and metadata. The retrieval process is done without and with query expansion. The methods used to find expert lecturers are BM25-based methods as well as combinations between word2vec and doc2vec, which are word embedding and document embedding. We performed query expansion using statistical, semantic, and hybrid approaches to solve vocabulary mismatch problems. This research’s contributions are 2 new methods to retrieve experts without query expansion, 6 types of ontological relations based on the ACM CCS 2012 concept hierarchy to expand queries, and 14 types of combinations between embedding-based and ontology-based query expansion methods. The expert retrieval result is evaluated by calculating binary relevance based on human judgment. Expert search method without query expansion that produces the best result in this research is the BM25-sum method, with an AP@5 score of 0.648. Even though expert retrieval with various query expansion methods does not increase the performance of retrieval without query expansion significantly, the expert search method with embedding-based query expansion method, i.e. w2v-w2v, achieved an AP@5 score of 0.696, which is higher than that of BM25-sum without query expansion. Ontology-based and hybrid query expansion expert search methods managed to score 0.664 for AP@5. This score is not as high as that of w2v-w2v, but the result is still better than that of retrieval without query expansion.

Depok: Fakultas Ilmu Komputer Universitas Indonesia , 2020

T-Pdf

UI - Tesis Membership Universitas Indonesia Library

Ronaldi Tjaidianto

Penerjemahan Kalimat dalam Format Bahasa Isyarat Indonesia (BISINDO) menjadi Kalimat Bahasa Indonesia = Translation of Sentences in Indonesian Sign Language Format (BISINDO) into Indonesian Sentences

"Perbedaan media komunikasi yang digunakan antara komunitas tuli dengan masyarakat normal menjadi pembatas dalam menjalin komunikasi antar keduanya. Untuk mengatasi hal ini, diperlukan suatu alat penerjemah yang dapat menerjemahkan bahasa isyarat Indonesia (Bisindo) yang biasa digunakan oleh komunitas tuli di Indonesia ke bahasa lisan dan sebaliknya. Penelitian ini akan berkontribusi pada pembentukan alat penerjemah tersebut dengan menerjemahkan kalimat dalam format Bisindo menjadi kalimat bahasa Indonesia secara satu arah. Penerjemahan dilakukan dengan dua metode berbeda, yaitu penerjemahan berbasis statistik menggunakan model neural machine translation (NMT) dan penerjemahan berbasis aturan. Khusus untuk penerjemahan berbasis aturan, penelitian ini hanya akan berfokus pada sebuah tahapan saja yaitu penambahan preposisi. Selain itu, penelitian ini juga memaparkan metode pembentukan dataset yang menyerupai karakteristik Bisindo dari dataset Indonesia menggunakan aturan-aturan sederhana untuk mengatasi minimnya ketersediaan dataset tersebut. Model NMT terbaik pada eksperimen ini memperoleh peningkatan nilai SacreBLEU sekitar 56%, serta penurunan nilai WER sekitar 7% dari nilai awal yang diperoleh pada dataset testing secara langsung. Di sisi lain, penerjemahan berbasis aturan memperoleh peningkatan nilai SacreBLEU sekitar 1.1% serta penurunan nilai WER sekitar 9.7% dari nilai awal. Sebagai tambahan, model tersebut memperoleh nilai precision sebesar 0.436 dan nilai recall sebesar 0.340 pada performanya dalam menambahkan preposisi secara spesifik.

The difference of communication methods used by the deaf community and the society becomes a boundary that limits the communication between the two. In order to tackle this issue, we need a tool that can translate sign language (especially bahasa isyarat Indonesia or Bisindo which is commonly used by the deaf community in Indonesia) to oral language and vice versa. This experiment will contribute to such tool by building a tool to translate sentences in Bisindo format to Bahasa Indonesia in one direction. Translation is done using two different methods: statistic-based translation using neural machine translation (NMT) models and rule-based translation. Specific to the rule-based approach, we will only focus on one step of the translation process which is adding prepositions. Aside of that, we also propose a method in building Bisindo-like dataset from Bahasa Indonesia dataset in order to handle the low availability of it. The best NMT model in this experiment achieved an improvement around 56% in SacreBLEU and a decrease around 7% in WER compared to the initial metrics value that we got directly from the testing dataset. On the other side, rule-based translation achieved an improvement around 1.1% in SacreBLEU and a decrease around 9.7% in WER compared to the initial metrics value. In addition, the model achieved 0.436 precision score and 0.340 recall score specific to its performance in adding preposition."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Nicholas Pangestu

Penggunaan Word Embedding dan Bobot Kata pada Algoritma Textrank untuk Peringkasan Artikel Bahasa Indonesia = The Use of Word Embedding and Word Weight in Textrank Algorithm for Summarizing Indonesian Articles

"Panjangnya suatu berita terkadang mengurangi minat seseorang untuk membaca berita, hal ini dapat kita lihat dari banyaknya istilah “tl:dr” pada thread di internet. Peringkasan dokumen dapat menciptkan ringkasan berita dan mengurangi waktu yang dibutuhkan untuk membaca. Salah satu cara yang dapat digunakan untuk melakukan peringkasan dokumen adalah menggunakan algoritma Textrank. Pada penelitian ini akan diimplementasikan word embedding untuk membantu algoritma Textrank memahami makna suatu kata dengan lebih baik. Hasil yang didapatkan menunjukkan bahwa penggunaan word embedding meningkatkan performa dari algoritma Textrank hingga 13% pada ROUGE-1 dan hingga 21% pada ROUGE-2. Model word embedding BERT memiliki performa tertinggi jika dibandingkan dengan word2vec (3% lebih tinggi pada ROUGE-1 dan 7% lebih tinggi pada ROUGE-2) dan fasttext (5% lebih tinggi pada ROUGE-1 dan 10% lebih tinggi pada ROUGE-2). Pada penelitian ini juga mengimplementasikan pembobotan TF-IDF dalam membuat sebuah representasi suatu kata. Hasil yang didapatkan menunjukkan bahwa pembobotan TF-IDF dapat meningkatkan performa dari tiap model word embedding yang digunakan hingga 11% pada ROUGE-1 dan hingga 19% pada ROUGE-2 dibandingkan performa tanpa pembobotan TF-IDF.

The length of article news sometimes reduces one's interest in reading the news, we can see this from the many terms "tl:dr" in threads on the internet. Document summarization can create news summaries and reduce the time it takes to read. One way to do document summarization is to use the Textrank algorithm. In this research, word embedding will be implemented to help the Textrank algorithm understand the meaning of a word better. The results show that the use of word embedding improves the performance of the Textrank algorithm up to 13% in ROUGE-1 and up to 21% in ROUGE-2. BERT word embedding model has the highest performance when compared to word2vec (3% higher in ROUGE-1 and 7% higher in ROUGE-2) and fasttext (5% higher in ROUGE-1 and 10% higher in ROUGE-2). This study also implements TF-IDF weighting to make a word representation. The results show that TF-IDF weighting can improve the performance of each word embedding model used up to 11% in ROUGE-1 and 19% in ROUGE-2 compared to the performance without using TF-IDF."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Gabriel Enrique

Cross-lingual Transfer Learning untuk Part-of-speech Tagging Bahasa Jawa = Cross-lingual Transfer Learning for Javanese Part-of-speech Tagging

"Part-of-speech tagging, adalah task di bidang Natural Language Processing di mana setiap kata di dalam suatu kalimat dikategorisasi ke dalam kategori parts-of-speech (kelas kata) yang sesuai. Pengembangan model POS tagger menggunakan pendekatan machine learning membutuhkan dataset dengan ukuran yang besar. Namun, dataset POS tagging tidak selalu tersedia dalam jumlah banyak, seperti dataset POS tagging untuk bahasa Jawa. Dengan jumlah data yang sedikit, model POS tagger yang dilatih kemungkinan tidak akan memiliki performa yang optimal. Salah satu solusinya adalah dengan menggunakan pendekatan cross-lingual transfer learning, di mana model dilatih menggunakan suatu source language pada suatu task agar dapat menyelesaikan task yang sama pada suatu target language. Penelitian ini bertujuan untuk menguji performa pre-trained language model (mBERT, XLM-RoBERTa, IndoBERT) dan melihat pengaruh cross-lingual transfer learning terhadap performa pre-trained language model untuk POS tagging bahasa Jawa. Percobaan yang dilakukan menggunakan lima source language, yaitu bahasa Indonesia, bahasa Inggris, bahasa Uighur, bahasa Latin, dan bahasa Hungaria, serta lima jenis model, yaitu fastText + LSTM, fastText + BiLSTM, mBERT, XLM-RoBERTa, dan IndoBERT; sehingga secara keseluruhan ada total 35 jenis model POS tagger. Model terbaik yang dilatih tanpa pendekatan cross-lingual transfer learning dibangun menggunakan IndoBERT, dengan akurasi sebesar 86.22%. Sedangkan, model terbaik yang dilatih menggunakan pendekatan cross-lingual transfer learning dalam bentuk dua kali fine-tuning, pertama menggunakan source language dan kedua menggunakan bahasa Jawa, sekaligus model terbaik secara keseluruhan dibangun menggunakan XLM-RoBERTa dan bahasa Indonesia sebagai source language, dengan akurasi sebesar 87.65%. Penelitian ini menunjukkan bahwa pendektan cross-lingual transfer learning dalam bentuk dua kali fine-tuning dapat meningkatkan performa model POS tagger bahasa Jawa, dengan peningkatan akurasi sebesar 0.21%–3.95%.

Part-of-speech tagging is a task in the Natural Language Processing field where each word in a sentence is categorized into its respective parts-of-speech categories. The development of POS tagger models using machine learning approaches requires a large dataset. However, POS tagging datasets are not always available in large quantities, such as the POS tagging dataset for Javanese. With a low amount of data, the trained POS tagger model may not have optimal performance. One of the solution to this problem is using the cross-lingual transfer learning approach, where a model is trained using a source language for a task so that it can complete the same task on a target language. This research aims to test the performance of pre-trained language models (mBERT, XLM-RoBERTa, IndoBERT) and to see the effects of cross-lingual transfer learning on the performance of pre-trained language models for Javanese POS tagging. The experiment uses five source languages, which are Indonesian, English, Uyghur, Latin, and Hungarian, as well as five models, which are fastText + LSTM, fastText + BiLSTM, mBERT, XLM-RoBERTa, and IndoBERT; hence there are 35 POS tagger models in total. The best model that was trained without cross-lingual transfer learning approach uses IndoBERT, with an accuracy of 86.22%. While the best model that was trained using a cross-lingual transfer learning approach, implemented using a two fine-tuning process, first using the source language and second using Javanese, as well as the best model overall uses XLM-RoBERTa and Indonesian as the source language, with an accuracy of 87.65%. This research shows that the cross-lingual transfer learning approach, implemented using the two fine-tuning process, can increase the performance of Javanese POS tagger models, with a 0.21%–3.95% increase in accuracy."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Eka Qadri Nuranti B.

Prediksi kategori dan masa hukuman pidana dengan memanfaatkan dokumen putusan terdahulu menggunakan pendekatan convolutional neural network dan attention mechanism = Prediction of category and length of punishment of judicial decisions using previous decision documents using convolutional neural network and attention mechanism approach.

"Pertumbuhan dokumen putusan pengadilan sangat pesat, setiap bulannya bertambah hingga kurang lebih sebanyak 100.000 dokumen dan 94% diantaranya merupakan putusan pengadilan tingkat pertama. Meskipun sistem hukum Indonesia menganut sistem civil law yang mengutamakan perundang-undangan sebagai sumber hukum, namun salah satu sumber pertimbangan hukum dapat bersumber dari putusan hakim terdahulu (yurisprudensi). Oleh karena pertumbuhan dan kebermanfaatan yurisprudensi dalam memutuskan suatu perkara, sangat sulit menemukan informasi atau memanfaatkan dokumen yang bersesuaian dengan kasus yang dihadapi. Penelitian ini melakukan suatu prediksi masa hukuman putusan pengadilan tingkat pertama dengan memanfaatkan yurisprudensi menggunakan Multi-Level Learning CNN+Attention. Hasil dari eksperimen ini mendapatkan kombinasi fitur terbaik yang diperoleh dari dokumen yaitu dengan menggunakan fitur informasi dari riwayat_tuntutan, fakta, fakta_hukum, dan pertimbangan_hukum. Prediksi dilakukan dengan cara category prediction dan regresion prediction. Pada category prediction membuktikan bahwa model Multi- Level CNN+Attention mendapatkan akurasi yang lebih baik dibandingkan model deep learning lainnya yaitu sebesar 77.32%. Untuk regresion prediction menunjukkan bahwa label amar putusan representasi tahun menghasilkan R2-Score lebih baik dibanding representasi hari dan bulan dengan peningkatan sebesar 28.51% dan 25.62%.

The growth of court decision documents has been extremely rapid, each month increasing to approximately 100,000 cases, and 94% of them are court decisions of the first-level case. Although the Indonesian legal system adheres to a civil law system that prioritizes legislation as a source of law, one source of legal considerations can come from previous judges' decisions (jurisprudence). Because of jurisprudence's growth and usefulness in deciding a case, it is complicated to find information or use documents relevant to the topic at hand. This study conducted a prediction of first-level judicial decisions by utilizing jurisprudence using Multi- Level Learning CNN+Attention. This experiment's results get the best combination of features obtained from the document, namely by using the features of prosecution history, facts, legal facts, and legal considerations. Prediction is made through category prediction and regression prediction. The category prediction proves that the Multi-Level CNN+Attention model gets better accuracy than other deep learning models, which is 77.32%. The regression prediction shows the label of year representation decision results in a better R2-Score than the representation of days and months with an increase of 28.51% and 25.62%."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021

T-pdf

UI - Tesis Membership Universitas Indonesia Library

<< 1 2 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian