Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 110542 dokumen yang sesuai dengan query
cover
Clara Vania
"Perolehan opini merupakan sebuah proses perolehan dokumen, dimana dokumen yang diperoleh dan diurutkan berdasarkan opini mengenai sebuah topik kueri yang terdapat pada dokumen. Sebuah dokumen yang relevan harus relevan terhadap topik kueri dan mengandung opini mengenai kueri. Salah satu penelitian perolehan opini yang sedang diminati adalah perolehan opini pada dokumen blog.
Perolehan opini pada dokumen blog dapat membantu dalam menemukan pendapat publik mengenai suatu target, yang kemudian dapat memantau perkembangan merek suatu produk, analisis media, dan menelusuri kebutuhan pasar. Pada tugas akhir ini, perolehan opini dilakukan pada dokumen blog berbahasa Indonesia dengan menggunakan pendekatan statistik. Korpus blog yang digunakan berupa feeds dan permalinks dengan jumlah total sebanyak 21.411 dokumen HTML.
Penelitian dilakukan secara bertahap, yaitu dengan mencoba berbagai teknik pemrosesan kueri, teknik perbaikan kueri, dan teknik pengurutan dokumen berdasarkan opini. Hasil evaluasi terbaik dari setiap penelitian akan digunakan untuk penelitian selanjutnya. Evaluasi dilakukan dengan membandingkan nilai MAP dari masing-masing percobaan.
Hasil penelitian menunjukkan adanya peningkatan sebesar 49% pada penggunaan pemotong kata berimbuhan bahasa Indonesia dan sebesar 20% pada pencarian berdasarkan frase dengan menggunakan judul dan deskripsi pada topik kueri. Selain itu, penambahan bobot apabila kueri terdapat pada field body dan penggunaan Indri pseudo-relevance feedback juga dapat meningkatkan akurasi walau hanya sedikit, yaitu masing-masing sebesar 4,09% dan 0.62%. Eksperimen pengurutan dokumen memberikan hasil terbaik untuk metode pengurutan dengan menambahkan nilai similarity dokumen berdasarkan kata-kata opini, namun tidak terlalu berpengaruh terhadap akurasi perolehan blog, yaitu hanya sebesar 0.11%.

Opinion retrieval is a document retrieval process, which requires documents to be retrieved and ranked based on their opinions about a query topic. A relevant document must relevant to the query topic and also contains opinions about the query. An example of research in opinion retrieval is opinion retrieval from blogs. Opinion retrieval from blog can help to uncover public sentiment about a target, which can be used to do brand monitoring, media analysis, and... In this research, we used Indonesian blogs as our corpus for opinion retrieval using statistical technique. We used both blog feeds and permalinks which are made up of 21.411 HTML documents.
We do research step by step by doing some experiments in query processing techniques, pseudo-relevance feedback techniques, and document ranking based on opinion techniques. The best result from each experiment will be used in the next experiment. To evaluate the accuracy of retrieval, we used the MAP score.
Our result showed that the use of Indonesian stemmer can improve 49% in performance, while query searching with phrase using title and description in query topic can improve 20% in performance. Term weighting in field body can improve performance for about 4.09%, while the...-relevance feedback gives 0.62% performance improvement. Document ranking technique by adding similarity score based on opinion words give the best result, but do not provide any significant performance improvement, that is only about 0.11%."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2009
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Monica Lestari Paramita
"Pesatnya perkembangan informasi menuntut dikembangkannya suatu sistem pencarian data yang baik, yang memberikan kemudahan untuk menemukan informasi yang diinginkan. Sistem pencarian data yang umum digunakan saat ini adalah sistem pencarian data berbasiskan kata. Masukan dari pengguna yang berupa pertanyaan (query) dalam bahasa natural (natural language) akan digunakan oleh sistem pencari informasi untuk menemukan dokumen yang mengandung kata-kata pada query tersebut. Pencarian ini menyebabkan jumlah dokumen yang ditemukan umumnya terlalu banyak karena dokumendokumen yang hanya mengandung sebagian kata dalam query juga akan ikut ditemukan. Jika ditinjau dari isinya, baik query maupun dokumen hampir selalu memiliki keterkaitan dengan lokasi di dalamnya. Hal-hal tersebut mendasari pengembangan sistem pencarian data yang berbasiskan kepada data-data geografis. Sistem bertujuan untuk mengambil nama lokasi dalam query dan membatasi pencarian data pada dokumendokumen yang memiliki lokasi representatif sesuai dengan query saja. Sistem yang dikembangkan dalam penelitian ini dinamakan Sistem Perolehan Informasi Geografis (Geographic Information Retrieval - GIR). Sistem GIR dikembangkan dengan 2 metode utama, yaitu metode pemilihan satu lokasi representatif (metode SLR) dan metode pemilihan banyak lokasi representatif (metode BLR) dalam dokumen. Evaluasi dilakukan dengan membandingkan nilai average precision tiap metode dengan Sistem Bahasa Natural (Natural Language - NL). Hasil metode SLR mengalami penurunan sebesar 15.67% sedangkan hasil metode BLR mengalami penurunan sebesar 6.54%. Untuk memperbaiki hasil tersebut, diimplementasikan 2 metode proses perluasan lokasi yaitu perluasan lokasi ke tingkat lebih tinggi dan lebih rendah (metode QE_S); dan perluasan lokasi ke tingkat yang lebih tinggi, lebih rendah dan tingkat yang sama (metode QE_ETS). Hasil metode SLR dengan QE_S (SLR_QE_S) mengalami peningkatan sebesar 29.23% dan hasil metode SLR dengan QE_ETS (SLR_QE_ETS) mengalami peningkatan sebesar 30.57%. Saat perluasan lokasi diimplementasikan dengan metode BLR, hasil yang diperoleh justru menurun, yaitu hasil metode BLR dengan QE_S (BLR_QE_S) memiliki penurunan sebesar 22.47% dan metode BLR dengan QE_ETS (BLR_QE_ETS) memiliki penurunan sebesar 34.36%. Berdasarkan hasil tersebut, dapat disimpulkan bahwa sistem GIR yang memberikan hasil terbaik adalah metode SLR_QE_ETS sedangkan sistem GIR yang memberikan hasil terburuk adalah metode BLR_QE_ETS."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2006
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dessy Natalia
"Pada era informasi ini, informasi yang tersedia untuk diakses oleh masyarakat sangat berlimpah. Untuk mencari suatu informasi, seorang pengguna dapat memanfaatkan sistem perolehan informasi untuk memperoleh sekumpulan dokumen yang berisi informasi yang dicarinya. Tetapi seringkali untuk mendapatkan jawaban singkat dari suatu pertanyaan, pengguna perlu mencarinya dari banyak dokumen. Untuk menangani kesulitan tersebut, diperlukan suatu sistem yang dapat menerima pertanyaan dalam bahasa sehari-hari dan mengembalikan jawaban secara tepat sehingga pengguna tidak perlu membaca keseluruhan dokumen untuk mencari jawaban. Sistem yang dimaksud adalah sistem tanya jawab, suatu sistem yang dapat mengembalikan jawaban atas pertanyaan bahasa alami dari sekumpulan teks dokumen.
Penelitian ini mengembangkan suatu Sistem Tanya Jawab Bahasa Indonesia (STJBI), yaitu sistem tanya jawab yang melakukan pencarian jawaban dari koleksi dokumen berbahasa Indonesia. Pertanyaan yang dapat diproses STJBI adalah pertanyaan yang berdasarkan fakta tertentu dan berkaitan dengan nama orang, nama organisasi, nama lokasi, serta waktu kejadian. Pertanyaan tersebut dijadikan masukan untuk mencari dokumen yang relevan. Dokumen yang dianggap relevan ini kemudian dibagi menjadi bagian-bagian yang lebih kecil (passage) untuk mendapatkan kandidat jawaban. STJBI menggunakan aturan statistik untuk memberikan bobot pada tiap kandidat jawaban.
Kandidat jawaban yang memiliki nilai tertinggi akan dipilih sebagai jawaban. Pada penelitian ini digunakan tiga ukuran passage yang berbeda yaitu 2, 5, dan 8 kalimat. Hasil uji coba menunjukkan bahwa STJBI dapat mengembalikan jawaban dengan tingkat ketepatan tertinggi sebesar 88.89%, yaitu dengan menggunakan passage yang berukuran 2 kalimat. Dengan menggunakan passage yang berukuran 5 kalimat, STJBI memiliki tingkat ketepatan 86.1%. Sedangkan dengan menggunakan passage yang berukuran 8 kalimat, STBJI hanya memiliki tingkat ketepatan 80.56%. Ketiga jenis ukuran passage memberikan tingkat ketepatan yang sama untuk pertanyaan WAKTU dan ORANG, yaitu sebesar 100% dan 90%. Untuk pertanyaan OGRANISASI, STBJI memiliki tingkat ketepatan 90% (dengan passage berukuran 2 iv kalimat), 80% (dengan passage berukuran 5 kalimat), dan 70% (dengan passage berukuran 8 kalimat). Kinerja STJBI paling buruk diperoleh untuk pertanyaan LOKASI, yaitu hanya 71.4% (dengan passage berukuran 2 dan 5 kalimat) dan 57.1% (dengan passage berukuran 8 kalimat)."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2006
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Nabila Khansa
"Ujaran kebencian dan bahasa kasar mempermudah penyebaran kekerasan di kehidupan nyata, sehingga muncul urgensi adanya pendeteksian secara otomatis. Untuk melanjutkan pekerjaan yang sudah dilakukan oleh Ibrohim dan Budi (2019), penelitian ini membahas dua isu terkait deteksi ujaran kebencian dan bahasa kasar pada mikroblog berbahasa Indonesia. Isu pertama adalah kajian terkait effect size fitur dan pengembangan model menggunakan fitur-fitur tersebut. Metode Analysis of Variance f-test, Logistic Regression Analysis, dan nilai Shapley digunakan untuk melakukan kajian effect size pada fitur-fitur yang dirancang secara manual. Kemudian, digunakan beberapa algoritma pemelajaran mesin untuk mengembangkan model prediksi berbasis fitur-fitur tersebut. Isu kedua adalah kajian bias dalam pengembangan model terkait keberadaan kata-kata bersifat netral pada data yang merupakan ujaran kebencian atau bahasa kasar. Kajian terkait bias dilakukan dengan menggunakan dataset uji bias. Dataset ini dikembangkan dengan menggantikan kata-kata yang dideteksi memiliki potensi adanya bias pada model yang dilatih menggunakan dataset hasil pekerjaan Ibrohim dan Budi (2019). Penelitian ini menunjukkan bahwa keberadaan kata-kata tertentu berpengaruh terhadap hasil deteksi ujaran kebencian dan bahasa kasar. Di antara kata-kata tersebut, terdeteksi beberapa kata-kata yang berpotensi bias, karena memiliki pengaruh terhadap pendeteksian padahal secara sendiri kata-kata yang dideteksi sebagai potensi bias tidak memiliki unsur kebencian atau bersifat kasar. Hasil evaluasi pengambilan sampel bootstrap menunjukkan Logistic Regression dan XGBoost sebagai model dengan akurasi terbaik dalam pendeteksian ujaran kebencian dan bahasa kasar. Namun, ketika model yang sudah dikembangkan digunakan untuk memprediksi dataset sintetis, didapatkan penurunan akurasi dalam pendeteksian ujaran kebencian. Hasil ini menandakan adanya bias pada model yang dikembangkan. Hasil tersebut didukung juga oleh hasil prediksi dengan akurasi rendah ketika model digunakan untuk melakukan pendeteksian ujaran kebencian pada dataset yang dikembangkan secara manual, tetapi ketika kata-kata bias digantikan dari data, akurasi model meningkat. Kontribusi yang diberikan oleh penelitian ini adalah pengembangan dataset uji bias secara otomatis dari dataset yang dikembangkan oleh Ibrohim dan Budi (2019) dan juga dataset uji bias yang dikembangkan secara manual.

Hate speech and abusive language facilitate the spread of violence in real life, hence the urgency of automatic detection. To continue the work done by Ibrohim dan Budi (2019), this research addresses two issues related to the detection of hate speech and abusive language on Indonesian-language microblogs. The first issue is a study on the effect size of features and the development of models using these features. Analysis of Variance f-test, Logistic Regression Analysis, and Shapley values are used to investigate the effect size of manually designed features. Several machine learning algorithms are then employed to develop prediction models based on these features. The second issue involves studying bias in model development concerning the presence of neutral words in data that constitute hate speech or abusive language. The study related to bias is conducted by using a bias test dataset. This dataset is developed by replacing words that are detected to have the potential for bias in models trained using the dataset resulting from the work of Ibrohim dan Budi (2019). This research demonstrates that certain words significantly influence the detection of hate speech and abusive language. Among these words, some are identified as potentially biased, as they affect detection despite not inherently containing hate or abusive elements. The results of bootstrap sampling evaluation indicate that Logistic Regression and XGBoost are the models with the highest accuracy in detecting hate speech and abusive language. However, when the developed models are used to predict synthetic datasets, a significant decrease in accuracy is observed in hate speech detection. This finding indicates the presence of bias in the developed models. This result is further supported by low-accuracy predictions when the models are used to detect hate speech in manually developed datasets. However, when biased words are replaced in the data, the model’s accuracy significantly improves. The contributions of this research include the development of an automatically generated bias test dataset from the dataset created by Ibrohim dan Budi (2019), as well as a manually developed bias test dataset."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Franky
"Sentimen merupakan opini atau penilaian penulis dokumen mengenai topik yang dibahas dalam dokumen tersebut. Analisis sentimen merupakan suatu tugas yang melakukan polarisasi dokumen berupa pengklasifikasian dokumen ke dalam sentimen positif dan negatif. Penggunaan metode Naive Bayes, Maximum Entropy, dan Support Vector Machine telah ditunjukkan mampu untuk menangkap informasi sentimen dari dokumen review film pada domain bahasa Inggris (Pang, Lee, & Vaithyanathan, 2002). Laporan tugas akhir ini menjelaskan percobaan yang mengaplikasikan kembali metode Naive Bayes, Maximum Entropy, dan Support Vector Machine untuk analisis sentimen pada dokumen berbahasa Indonesia hasil penerjemahan otomatis menggunakan kamus bilingual dan program penerjemah, pada dokumen review film.
Hasil analisis sentimen yang didapat dibanding kan dengan hasil analisis sentimen pada dokumen berbahasa Inggris. Percobaan analisis sentimen dilakukan dengan memvariasikan metode penerjemahan dan pengolahan data, fitur yang digunakan, dan informasi nilai fitur berupa nilai kemunculan fitur (presence), frekuensi, normalisasi nilai frekuensi, dan pembobotan menggunakan tf-idf. Baseline untuk analisis sentimen pada bahasa Indonesia dibuat dengan metode klasifikasi yang sederhana.
Hasil yang didapat menunjukkan bahwa analisis sentimen menggunakan machine learning untuk dokumen berbahasa Indonesia hasil penerjemahan otomatis dapat dilakukan, dengan akurasi tertinggi sebesar 78.82%. Hasil ini lebih baik dari akurasi yang didapat dari baseline sebesar 52.43% tetapi tidak melebihi akurasi tertinggi pada dokumen berbahasa Inggris sebesar 80.09%, namun cukup dekat. Penggunaan fitur yang diambil dari 25% bagian terakhir dokumen memberikan hasil yang lebih baik dari penggunaan fitur yang diambil dari keseluruhan dokumen. Sementara, metode Support Vector Machine secara umum memberikan hasil analisis sentimen dengan akurasi yang lebih baik dari metode machine learning lain yang digunakan."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2008
S-Pdf
UI - Skripsi Open  Universitas Indonesia Library
cover
Mustangimah
"ABSTRAK
Penelitian ini bertujuan untuk mengetahui efektivitas sistem temu-kembali informasi yang diaplikasikan pada dokumen bidang nuklir berbahasa Indonesia, dan untuk mengetahui dokumen yang ditemukan mempunyai hubungan bibliografi. Penelitian dilakukan dengan menggunakan Sistem Temu Kembali Informasi yang dikembangkan di Fakultas Ilmu Komputer, Universitas Indonesia.
Penelitian dilakukan dengan menggunakan dokumen bidang nuklir sebanyak 630 cantuman dalam basis data bibliografi. Pertanyaan (query) yang digunakan berasal dari pemakai (user) berupa judul penelitian dalam bidang nuklir. Pertanyaan terdiri dari 10 pertanyaan sederhana dan 10 pertanyaan kompleks. Pencarian dilakukan dengan pembangunan faset dari istilah yang terkandung dalam pertanyaan dengan memanfaatkan operator Boolean, dan penilaian relevansi terhadap dokumen yang ditemukan dilakukan oleh pakar subjek dalam masing-masing pertanyaan. Hipotesis yang diuji dalam penelitian ini yaitu : ada perbedaan efektivitas temu-kembali informasi pada pertanyaan sederhana dan pertanyaan kompleks, dan semakin tinggi kekuatan pasangan bibliografi semakin tinggi tingkat relevansi dua dokumen. Pengujian hipotesis menggunakan uji Mann-Whitney dengan paket program statistik Kwikstat.
Hasil penelitian menunjukkan bahwa sistem temu-kembali informasi mempunyai ketepatan temu-kembali di atas 50%, dan tidak menunjukkan perbedaan yang nyata antara pertanyaan sederhana dengan pertanyaan kompleks. Analisis pasangan bibliografi (bibliographic coupling) terhadap dokumen yang ditemukan menunjukkan bahwa bibliografi memberikan kontribusi yang lemah (0,15) terhadap pemasangan dokumen. Bila dokumen relevan dipasangkan dengan dokumen lain, kekuatan pasangan bibliografi tidak berpengaruh terhadap tingkat relevansi dokumen kedua. Akan tetapi bila dokumen relevan mar]inal dipasangkan dengan dokumen lain, kekuatan pasangan bibliografi dapat meningkatkan tingkat relevansi dokumen kedua. Hal ini menunjukkan adanya keterhubungan dokumen walaupun bukan keterhubungan subjek yang diindikasikan oleh pasangan bibliografi. Berdasarkan hasil tersebut, bibliografi dapat dimanfaatkan untuk meningkatkan efektivitas sistem temu-kembali informasi yaitu untuk meningkatkan penemuan dokumen yang berguna (pertinent document) dengan penggabungan pencarian berdasarkan istilah dan pencarian berdasarkan sitasi.

ABSTRACT
The objectives of this research are to determine to what extent the information retrieval system effectiveness which applied to nuclear documents collection in Indonesian language, and to determine to what extent the documents retrieved have bibliographic relationship to one another. This research is using the Information Retrieval System developed by Computer Science Faculty, University of Indonesia.
This investigation is using 630 documents in the bibliographic database. The queries come from the real user, consist of 10 simple queries and 10 complex queries. The searching was performed by building facet and combined using Boolean operators, then the subject experts determine relevance judgement of document retrieved for each query. Hypothesis are tested: there exists a difference of information retrieval effectiveness between simple and complex queries, and the higher bibliographic coupling strength between two documents more relevant the two documents. The hypothesis are tested using Mann-Whitney procedure using Kwikstat program package.
The results show that the information retrieval system yielded precision result more than 50% and there is no significance difference between simple and complex queries. Bibliographic coupling analysis shows that the bibliography made a weak contribution to the pairing of documents. If the relevant documents have paired with the other documents, bibliographic strength has not effected the second document relevance level. but if the marginally relevant documents have paired with the other documents, bibliographic strength can increase the second document relevance level. These characteristic shows that there exist document relatedness although there are not subject relatedness. Based on this result, bibliography can be used to improve the information retrieval effectiveness by increasing the pertinent document retrieved using citation-based searching as a complement to term-based searching.
"
Depok: Fakultas Ilmu Pengetahuan Budaya Universitas Indonesia, 1998
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Markus
"Pengenalan entitas bernama merupakan tugas dasar dalam sistem ekstraksi informasi untuk mengenali entitas nama, entitas waktu, dan entitas bilangan. Entitas nama meliputi nama organisasi, nama orang, dan nama lokasi. Pengenalan entitas bernama dilakukan dengan menggunakan aturan yang dibentuk dari sekumpulan fitur suatu kata pada metode association rules. Pencocokan fitur-fitur kata dengan aturan dapat dilakukan dengan dua cara, exact match dan partial match. Pada partial match, digunakan nilai similarity yang merepresentasikan kesamaan suatu fitur-fitur kata dengan aturan. Fitur-fitur yang digunakan dalam penelitian ini dibagi menjadi empat bagian. Fitur pertama merupakan informasi orthographical suatu token (term feature), fitur kedua berisi informasi orthographical token sebelum dan sesudah (neighbourhood feature), fitur ketiga berisi informasi token dalam suatu daftar (list feature),dan fitur keempat berisi informasi global suatu token (global feature). Dokumen yang digunakan pada penelitian ini berjumlah 160 dokumen dengan perbandingan 100 dokumen untuk pelatihan dan 60 dokumen untuk pengujian. Dokumen-dokumen tersebut diperoleh dari koran online berbahasa Indonesia, yaitu Kompas dan Republika. Uji coba dilakukan pada beberapa kombinasi penggunaan keempat fitur di atas, variasi nilai similarity dari 0,1 sampai 0,9 pada partial match, dan variasi jumlah dokumen pelatihan dari 10 dokumen sampai 100 dokumen dengan penambahan jumlah dokumen sebanyak 10 dokumen. Jumlah dokumen pengujian yang digunakan berjumlah 60 dokumen. Hasil uji coba menunjukkan bahwa sistem dapat mengenali entitas bernama dengan nilai F-measure tertinggi 43,34% dengan menggunakan term feature, neighbourhood feature, dan list feature dengan nilai similarity 0,7 pada metode partial match dengan menggunakan 100 dokumen pelatihan."
Depok: Universitas Indonesia, 2007
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Naradhipa Mahardhika Setiawan Bhary
"Sebagai negara hukum, Indonesia memiliki sistem peradilan yang aktif. Setiap bulannya, terdapat sekitar 100.000 dokumen putusan yang dihasilkan oleh lembaga kehakiman di Indonesia. Volume dokumen yang banyak tersebut menimbulkan suatu tantangan bagi insan hukum di Indonesia. Guna mendukung dan mengakomodasi institusi publik dari aspek teknologi dan informasi, serta mendorong pelaksanaan keterbukaan informasi bagi masyarakat umum, maka dibutuhkan suatu metode yang dapat membantu untuk mencari dan mengumpulkan informasi penting dari suatu dokumen putusan pengadilan. Secara khusus, metode ini juga ditujukan untuk membantu para praktisi hukum untuk kepentingan penegakan hukum dan para akademisi hukum untuk kepentingan pendidikan dan pengembangan di bidang hukum. Salah satu teknik untuk mengumpulkan informasi penting dari suatu dokumen adalah Named Entity Recognition (NER). Teknik NER bekerja dengan cara menandai kata-kata yang merupakan informasi penting seperti orang, tempat, lokasi, waktu, kejadian, dan lainnya. NER dapat diterapkan untuk berbagai bidang permasalahan, seperti medis, hukum, dan pertanian. NER yang secara spesifik bekerja untuk menandai entitas hukum disebut dengan Legal Entity Recognition (LER). Penelitian sebelumnya telah menerapkan LER untuk dokumen legal berbahasa Indonesia dengan pendekatan BiLSTM dan CRF sehingga diperlukan penelitian lebih lanjut untuk mengetahui bagaimana performa model-model lain terhadap kasus tersebut. Penelitian ini menguji performa language model, yaitu model berbasis RoBERTa dan model berbasis BERT serta membandingkannya dengan deep learning model, yaitu BiLSTM dan BiLSTM-CRF sebagai model baseline penelitian sebelumnya untuk task LER bahasa indonesia. Hasil penelitian menunjukkan model berbasis RoBERTa memliki performa terbaik untuk task LER pada dataset penulis, XLM-R large dengan skor F1 sebesar 0,9295, XLM-R base dengan skor F1 sebesar 0,9281 dan Indonesian RoBERTa dengan skor F1 sebesar 0,9246.

As a rule of law country, Indonesia has an active justice system. Every month, there are around 100,000 decision documents produced by the judiciary in Indonesia. The large volume of documents poses a challenge for legal people in Indonesia. In order to support and accommodate public institutions from the aspects of technology and information, as well as encourage the implementation of information disclosure for the general public, a method is needed that can help find and collect important information from a court decision document. In particular, this method is also intended to assist legal practitioners for the benefit of law enforcement and legal academics for the benefit of education and development in the field of law. One technique for collecting important information from a document is Named Entity Recognition (NER). The NER technique works by marking words that are important information such as people, places, locations, times, events, and so on. NER can be applied to various problem areas, such as medical, legal, and agriculture. NER which specifically works to mark legal entities is called Legal Entity Recognition (LER). Previous studies have applied LER to legal documents in Indonesian using the BiLSTM and CRF approaches, so further research is needed to find out how other models perform in this case. This study examines the performance of language models, namely the RoBERTa-based model and the BERT-based model and compares them with deep learning models, namely BiLSTM and BiLSTM-CRF as the baseline models for previous studies for the Indonesian language LER task. The results showed that the RoBERTa-based model had the best performance for the LER task in the author’s dataset, XLM-R large with an F1 score of 0.9295, XLM-R base with an F1 score of 0.9281 and Indonesian RoBERTa with an F1 score of 0.9246."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Jafar Abdurrohman
"

Sebagai negara hukum, Indonesia memiliki sistem peradilan yang aktif. Setiap bulannya, terdapat sekitar 100.000 dokumen putusan yang dihasilkan oleh lembaga kehakiman di Indonesia. Volume dokumen yang banyak tersebut menimbulkan suatu tantangan bagi insan hukum di Indonesia. Guna mendukung dan mengakomodasi institusi publik dari aspek teknologi dan informasi, serta mendorong pelaksanaan keterbukaan informasi bagi masyarakat umum, maka dibutuhkan suatu metode yang dapat membantu untuk mencari dan mengumpulkan informasi penting dari suatu dokumen putusan pengadilan. Secara khusus, metode ini juga ditujukan untuk membantu para praktisi hukum untuk kepentingan penegakan hukum dan para akademisi hukum untuk kepentingan pendidikan dan pengembangan di bidang hukum. Salah satu teknik untuk mengumpulkan informasi penting dari suatu dokumen adalah Named Entity Recognition (NER). Teknik NER bekerja dengan cara menandai kata-kata yang merupakan informasi penting seperti orang, tempat, lokasi, waktu, kejadian, dan lainnya. NER dapat diterapkan untuk berbagai bidang permasalahan, seperti medis, hukum, dan pertanian. NER yang secara spesifik bekerja untuk menandai entitas hukum disebut dengan Legal Entity Recognition (LER). Penelitian sebelumnya telah menerapkan LER untuk dokumen legal berbahasa Indonesia dengan pendekatan BiLSTM dan CRF sehingga diperlukan penelitian lebih lanjut untuk mengetahui bagaimana performa model-model lain terhadap kasus tersebut. Penelitian ini menguji performa language model, yaitu model berbasis RoBERTa dan model berbasis BERT serta membandingkannya dengan deep learning model, yaitu BiLSTM dan BiLSTM-CRF sebagai model baseline penelitian sebelumnya untuk task LER bahasa indonesia. Hasil penelitian menunjukkan model berbasis RoBERTa memliki performa terbaik untuk task LER pada dataset penulis, XLM-R large dengan skor F1 sebesar 0,9295, XLM-R base dengan skor F1 sebesar 0,9281 dan Indonesian RoBERTa dengan skor F1 sebesar 0,9246.


As a rule of law country, Indonesia has an active justice system. Every month, there are around 100,000 decision documents produced by the judiciary in Indonesia. The large volume of documents poses a challenge for legal people in Indonesia. In order to support and accommodate public institutions from the aspects of technology and information, as well as encourage the implementation of information disclosure for the general public, a method is needed that can help find and collect important information from a court decision document. In particular, this method is also intended to assist legal practitioners for the benefit of law enforcement and legal academics for the benefit of education and development in the field of law. One technique for collecting important information from a document is Named Entity Recognition (NER). The NER technique works by marking words that are important information such as people, places, locations, times, events, and so on. NER can be applied to various problem areas, such as medical, legal, and agriculture. NER which specifically works to mark legal entities is called Legal Entity Recognition (LER). Previous studies have applied LER to legal documents in Indonesian using the BiLSTM and CRF approaches, so further research is needed to find out how other models perform in this case. This study examines the performance of language models, namely the RoBERTa-based model and the BERT-based model and compares them with deep learning models, namely BiLSTM and BiLSTM-CRF as the baseline models for previous studies for the Indonesian language LER task. The results showed that the RoBERTa-based model had the best performance for the LER task in the author’s dataset, XLM-R large with an F1 score of 0.9295, XLM-R base with an F1 score of 0.9281 and Indonesian RoBERTa with an F1 score of 0.9246.

"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Fariz Wahyuzan Dwitilas
"

Sebagai negara hukum, Indonesia memiliki sistem peradilan yang aktif. Setiap bulannya, terdapat sekitar 100.000 dokumen putusan yang dihasilkan oleh lembaga kehakiman di Indonesia. Volume dokumen yang banyak tersebut menimbulkan suatu tantangan bagi insan hukum di Indonesia. Guna mendukung dan mengakomodasi institusi publik dari aspek teknologi dan informasi, serta mendorong pelaksanaan keterbukaan informasi bagi masyarakat umum, maka dibutuhkan suatu metode yang dapat membantu untuk mencari dan mengumpulkan informasi penting dari suatu dokumen putusan pengadilan. Secara khusus, metode ini juga ditujukan untuk membantu para praktisi hukum untuk kepentingan penegakan hukum dan para akademisi hukum untuk kepentingan pendidikan dan pengembangan di bidang hukum. Salah satu teknik untuk mengumpulkan informasi penting dari suatu dokumen adalah Named Entity Recognition (NER). Teknik NER bekerja dengan cara menandai kata-kata yang merupakan informasi penting seperti orang, tempat, lokasi, waktu, kejadian, dan lainnya. NER dapat diterapkan untuk berbagai bidang permasalahan, seperti medis, hukum, dan pertanian. NER yang secara spesifik bekerja untuk menandai entitas hukum disebut dengan Legal Entity Recognition (LER). Penelitian sebelumnya telah menerapkan LER untuk dokumen legal berbahasa Indonesia dengan pendekatan BiLSTM dan CRF sehingga diperlukan penelitian lebih lanjut untuk mengetahui bagaimana performa model-model lain terhadap kasus tersebut. Penelitian ini menguji performa language model, yaitu model berbasis RoBERTa dan model berbasis BERT serta membandingkannya dengan deep learning model, yaitu BiLSTM dan BiLSTM-CRF sebagai model baseline penelitian sebelumnya untuk task LER bahasa indonesia. Hasil penelitian menunjukkan model berbasis RoBERTa memliki performa terbaik untuk task LER pada dataset penulis, XLM-R large dengan skor F1 sebesar 0,9295, XLM-R base dengan skor F1 sebesar 0,9281 dan Indonesian RoBERTa dengan skor F1 sebesar 0,9246.


As a rule of law country, Indonesia has an active justice system. Every month, there are around 100,000 decision documents produced by the judiciary in Indonesia. The large volume of documents poses a challenge for legal people in Indonesia. In order to support and accommodate public institutions from the aspects of technology and information, as well as encourage the implementation of information disclosure for the general public, a method is needed that can help find and collect important information from a court decision document. In particular, this method is also intended to assist legal practitioners for the benefit of law enforcement and legal academics for the benefit of education and development in the field of law. One technique for collecting important information from a document is Named Entity Recognition (NER). The NER technique works by marking words that are important information such as people, places, locations, times, events, and so on. NER can be applied to various problem areas, such as medical, legal, and agriculture. NER which specifically works to mark legal entities is called Legal Entity Recognition (LER). Previous studies have applied LER to legal documents in Indonesian using the BiLSTM and CRF approaches, so further research is needed to find out how other models perform in this case. This study examines the performance of language models, namely the RoBERTa-based model and the BERT-based model and compares them with deep learning models, namely BiLSTM and BiLSTM-CRF as the baseline models for previous studies for the Indonesian language LER task. The results showed that the RoBERTa-based model had the best performance for the LER task in the author’s dataset, XLM-R large with an F1 score of 0.9295, XLM-R base with an F1 score of 0.9281 and Indonesian RoBERTa with an F1 score of 0.9246.

 

"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>