Sebagai negara hukum, Indonesia memiliki sistem peradilan yang aktif. Setiap bulannya, terdapat sekitar 100.000 dokumen putusan yang dihasilkan oleh lembaga kehakiman di Indonesia. Volume dokumen yang banyak tersebut menimbulkan suatu tantangan bagi insan hukum di Indonesia. Guna mendukung dan mengakomodasi institusi publik dari aspek teknologi dan informasi, serta mendorong pelaksanaan keterbukaan informasi bagi masyarakat umum, maka dibutuhkan suatu metode yang dapat membantu untuk mencari dan mengumpulkan informasi penting dari suatu dokumen putusan pengadilan. Secara khusus, metode ini juga ditujukan untuk membantu para praktisi hukum untuk kepentingan penegakan hukum dan para akademisi hukum untuk kepentingan pendidikan dan pengembangan di bidang hukum. Salah satu teknik untuk mengumpulkan informasi penting dari suatu dokumen adalah Named Entity Recognition (NER). Teknik NER bekerja dengan cara menandai kata-kata yang merupakan informasi penting seperti orang, tempat, lokasi, waktu, kejadian, dan lainnya. NER dapat diterapkan untuk berbagai bidang permasalahan, seperti medis, hukum, dan pertanian. NER yang secara spesifik bekerja untuk menandai entitas hukum disebut dengan Legal Entity Recognition (LER). Penelitian sebelumnya telah menerapkan LER untuk dokumen legal berbahasa Indonesia dengan pendekatan BiLSTM dan CRF sehingga diperlukan penelitian lebih lanjut untuk mengetahui bagaimana performa model-model lain terhadap kasus tersebut. Penelitian ini menguji performa language model, yaitu model berbasis RoBERTa dan model berbasis BERT serta membandingkannya dengan deep learning model, yaitu BiLSTM dan BiLSTM-CRF sebagai model baseline penelitian sebelumnya untuk task LER bahasa indonesia. Hasil penelitian menunjukkan model berbasis RoBERTa memliki performa terbaik untuk task LER pada dataset penulis, XLM-R large dengan skor F1 sebesar 0,9295, XLM-R base dengan skor F1 sebesar 0,9281 dan Indonesian RoBERTa dengan skor F1 sebesar 0,9246.
"
Sebagai negara hukum, Indonesia memiliki sistem peradilan yang aktif. Setiap bulannya, terdapat sekitar 100.000 dokumen putusan yang dihasilkan oleh lembaga kehakiman di Indonesia. Volume dokumen yang banyak tersebut menimbulkan suatu tantangan bagi insan hukum di Indonesia. Guna mendukung dan mengakomodasi institusi publik dari aspek teknologi dan informasi, serta mendorong pelaksanaan keterbukaan informasi bagi masyarakat umum, maka dibutuhkan suatu metode yang dapat membantu untuk mencari dan mengumpulkan informasi penting dari suatu dokumen putusan pengadilan. Secara khusus, metode ini juga ditujukan untuk membantu para praktisi hukum untuk kepentingan penegakan hukum dan para akademisi hukum untuk kepentingan pendidikan dan pengembangan di bidang hukum. Salah satu teknik untuk mengumpulkan informasi penting dari suatu dokumen adalah Named Entity Recognition (NER). Teknik NER bekerja dengan cara menandai kata-kata yang merupakan informasi penting seperti orang, tempat, lokasi, waktu, kejadian, dan lainnya. NER dapat diterapkan untuk berbagai bidang permasalahan, seperti medis, hukum, dan pertanian. NER yang secara spesifik bekerja untuk menandai entitas hukum disebut dengan Legal Entity Recognition (LER). Penelitian sebelumnya telah menerapkan LER untuk dokumen legal berbahasa Indonesia dengan pendekatan BiLSTM dan CRF sehingga diperlukan penelitian lebih lanjut untuk mengetahui bagaimana performa model-model lain terhadap kasus tersebut. Penelitian ini menguji performa language model, yaitu model berbasis RoBERTa dan model berbasis BERT serta membandingkannya dengan deep learning model, yaitu BiLSTM dan BiLSTM-CRF sebagai model baseline penelitian sebelumnya untuk task LER bahasa indonesia. Hasil penelitian menunjukkan model berbasis RoBERTa memliki performa terbaik untuk task LER pada dataset penulis, XLM-R large dengan skor F1 sebesar 0,9295, XLM-R base dengan skor F1 sebesar 0,9281 dan Indonesian RoBERTa dengan skor F1 sebesar 0,9246.
As a rule of law country, Indonesia has an active justice system. Every month, there are around 100,000 decision documents produced by the judiciary in Indonesia. The large volume of documents poses a challenge for legal people in Indonesia. In order to support and accommodate public institutions from the aspects of technology and information, as well as encourage the implementation of information disclosure for the general public, a method is needed that can help find and collect important information from a court decision document. In particular, this method is also intended to assist legal practitioners for the benefit of law enforcement and legal academics for the benefit of education and development in the field of law. One technique for collecting important information from a document is Named Entity Recognition (NER). The NER technique works by marking words that are important information such as people, places, locations, times, events, and so on. NER can be applied to various problem areas, such as medical, legal, and agriculture. NER which specifically works to mark legal entities is called Legal Entity Recognition (LER). Previous studies have applied LER to legal documents in Indonesian using the BiLSTM and CRF approaches, so further research is needed to find out how other models perform in this case. This study examines the performance of language models, namely the RoBERTa-based model and the BERT-based model and compares them with deep learning models, namely BiLSTM and BiLSTM-CRF as the baseline models for previous studies for the Indonesian language LER task. The results showed that the RoBERTa-based model had the best performance for the LER task in the author’s dataset, XLM-R large with an F1 score of 0.9295, XLM-R base with an F1 score of 0.9281 and Indonesian RoBERTa with an F1 score of 0.9246.
"Penelitian ini mencari dosen pakar di Fakultas Ilmu Komputer Universitas Indonesia (Fasilkom UI) dengan menggunakan data abstrak dan metadata tugas akhir mahasiswa Fasilkom UI menggunakan teknik information retrieval. Pencarian pakar dilakukan tanpa query expansion dan dengan query expansion. Metode yang digunakan untuk mencari dosen pakar adalah metode berbasis BM25 serta kombinasi antara word2vec dan doc2vec, yang merupakan word embedding dan document embedding. Teknik yang digunakan untuk mengatasi masalah vocabulary mismatch adalah teknik query expansion dengan pendekatan statistik, semantik, serta hybrid. Kontribusi penelitian ini adalah 2 metode baru untuk pencarian pakar tanpa query expansion, 6 jenis kombinasi relasi ontologi berdasarkan concept hierarchy ACM CCS 2012 untuk mengekspansi kueri, serta 14 jenis kombinasi antara metode query expansion berbasis embedding dan ontologi. Evaluasi dari hasil pencarian pakar dilakukan dengan menghitung binary relevance berdasarkan human judgment. Pada penelitian ini, metode pencarian pakar tanpa query expansion dengan hasil yang paling baik adalah metode BM25-sum dengan nilai AP@5 sebesar 0.648. Pencarian pakar dengan berbagai macam jenis query expansion tidak dapat meningkatkan performa retrieval tanpa query expansion secara signifikan, tetapi pencarian dengan query expansion menggunakan metode berbasis embedding, yaitu w2v-w2v memiliki nilai AP@5 sebesar 0.696, yang lebih tinggi dari skor AP@5 dari BM25-sum tanpa query expansion. Pencarian pakar dengan query expansion berbasis ontologi serta hybrid mampu menghasilkan skor AP@5 setinggi 0.664. Skor tersebut tidak setinggi pencarian dengan query expansion dengan w2v-w2v, namun hasilnya lebih baik dari pencarian tanpa query expansion.
This research searches for expert lecturers in the Faculty of Computer Science, Universitas Indonesia (Fasilkom UI) with information retrieval techniques using students’ thesis abstract and metadata. The retrieval process is done without and with query expansion. The methods used to find expert lecturers are BM25-based methods as well as combinations between word2vec and doc2vec, which are word embedding and document embedding. We performed query expansion using statistical, semantic, and hybrid approaches to solve vocabulary mismatch problems. This research’s contributions are 2 new methods to retrieve experts without query expansion, 6 types of ontological relations based on the ACM CCS 2012 concept hierarchy to expand queries, and 14 types of combinations between embedding-based and ontology-based query expansion methods. The expert retrieval result is evaluated by calculating binary relevance based on human judgment. Expert search method without query expansion that produces the best result in this research is the BM25-sum method, with an AP@5 score of 0.648. Even though expert retrieval with various query expansion methods does not increase the performance of retrieval without query expansion significantly, the expert search method with embedding-based query expansion method, i.e. w2v-w2v, achieved an AP@5 score of 0.696, which is higher than that of BM25-sum without query expansion. Ontology-based and hybrid query expansion expert search methods managed to score 0.664 for AP@5. This score is not as high as that of w2v-w2v, but the result is still better than that of retrieval without query expansion.
"