Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 247911 dokumen yang sesuai dengan query
cover
Tosan Wiar Ramdhani
"Penerapan Named Entity Recognition (NER) dalam pengelolaan dokumen kepegawaian pemerintah menghadapi tantangan khas, seperti struktur semi-terstruktur, keberadaan entitas dengan pola tetap, serta kebutuhan akurasi tinggi dalam proses ekstraksi informasi. Model deep learning telah menunjukkan performa unggul dalam tugas NER berbahasa Indonesia, namun belum sepenuhnya efektif dalam menangani kekhususan struktur dokumen administratif. Untuk menjawab permasalahan tersebut, penelitian ini mengembangkan pendekatan hybrid yang menggabungkan kekuatan generalisasi dari beberapa model deep learning (IndoBERT, T5, Qwen, dan SahabatAI) dengan ketelitian pendekatan rule based linguistik sebagai mekanisme label refinement. Sistem NER hybrid ini dirancang untuk meminimalkan kesalahan prediksi, khususnya pada entitas-entitas dengan struktur tetap seperti nama, NIP, golongan, atau jabatan. Eksperimen dilakukan pada sepuluh jenis dokumen kepegawaian hasil pindai dari instansi pemerintah daerah, dengan total lebih dari 6.000 dokumen. Hasil penelitian menunjukkan bahwa pendekatan hybrid mampu meningkatkan performa model deep learning, dengan skor rata-rata F1 score 98% pada sepuluh jenis dokumen kepegawaian. Temuan ini mengindikasikan bahwa integrasi metode rule-based ke dalam sistem NER berbasis deep learning dapat secara signifikan meningkatkan akurasi dan efisiensi pengelolaan dokumen kepegawaian di lingkungan pemerintahan.

The application of Named Entity Recognition (NER) in managing government personnel documents faces unique challenges, such as semi-structured formats, the presence of entities with fixed patterns, and the need for high accuracy in information extraction. Deep learning models have demonstrated strong performance in Indonesian NER tasks; however, they are not yet fully effective in handling the specific structural characteristics of administrative documents. To address this issue, this study proposes a hybrid approach that combines the generalization capabilities of several deep learning models (IndoBERT, T5, Qwen, and SahabatAI) with the precision of linguistic rule-based methods as a label refinement mechanism. The hybrid NER system is designed to minimize prediction errors, particularly for fixed-structure entities such as names, employee identification numbers (NIP), ranks, and job titles. Experiments were conducted on eight types of scanned personnel documents collected from regional government agencies, totaling over 6,000 documents. The results indicate that the hybrid approach enhances the performance of deep learning models, achieving an average F1 score of 98% across the ten document types. These findings suggest that integrating rule based methods into deep learning-based NER systems can significantly improve the accuracy and efficiency of personnel document management in the public sector."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2025
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library
cover
Jafar Abdurrohman
"

Sebagai negara hukum, Indonesia memiliki sistem peradilan yang aktif. Setiap bulannya, terdapat sekitar 100.000 dokumen putusan yang dihasilkan oleh lembaga kehakiman di Indonesia. Volume dokumen yang banyak tersebut menimbulkan suatu tantangan bagi insan hukum di Indonesia. Guna mendukung dan mengakomodasi institusi publik dari aspek teknologi dan informasi, serta mendorong pelaksanaan keterbukaan informasi bagi masyarakat umum, maka dibutuhkan suatu metode yang dapat membantu untuk mencari dan mengumpulkan informasi penting dari suatu dokumen putusan pengadilan. Secara khusus, metode ini juga ditujukan untuk membantu para praktisi hukum untuk kepentingan penegakan hukum dan para akademisi hukum untuk kepentingan pendidikan dan pengembangan di bidang hukum. Salah satu teknik untuk mengumpulkan informasi penting dari suatu dokumen adalah Named Entity Recognition (NER). Teknik NER bekerja dengan cara menandai kata-kata yang merupakan informasi penting seperti orang, tempat, lokasi, waktu, kejadian, dan lainnya. NER dapat diterapkan untuk berbagai bidang permasalahan, seperti medis, hukum, dan pertanian. NER yang secara spesifik bekerja untuk menandai entitas hukum disebut dengan Legal Entity Recognition (LER). Penelitian sebelumnya telah menerapkan LER untuk dokumen legal berbahasa Indonesia dengan pendekatan BiLSTM dan CRF sehingga diperlukan penelitian lebih lanjut untuk mengetahui bagaimana performa model-model lain terhadap kasus tersebut. Penelitian ini menguji performa language model, yaitu model berbasis RoBERTa dan model berbasis BERT serta membandingkannya dengan deep learning model, yaitu BiLSTM dan BiLSTM-CRF sebagai model baseline penelitian sebelumnya untuk task LER bahasa indonesia. Hasil penelitian menunjukkan model berbasis RoBERTa memliki performa terbaik untuk task LER pada dataset penulis, XLM-R large dengan skor F1 sebesar 0,9295, XLM-R base dengan skor F1 sebesar 0,9281 dan Indonesian RoBERTa dengan skor F1 sebesar 0,9246.


As a rule of law country, Indonesia has an active justice system. Every month, there are around 100,000 decision documents produced by the judiciary in Indonesia. The large volume of documents poses a challenge for legal people in Indonesia. In order to support and accommodate public institutions from the aspects of technology and information, as well as encourage the implementation of information disclosure for the general public, a method is needed that can help find and collect important information from a court decision document. In particular, this method is also intended to assist legal practitioners for the benefit of law enforcement and legal academics for the benefit of education and development in the field of law. One technique for collecting important information from a document is Named Entity Recognition (NER). The NER technique works by marking words that are important information such as people, places, locations, times, events, and so on. NER can be applied to various problem areas, such as medical, legal, and agriculture. NER which specifically works to mark legal entities is called Legal Entity Recognition (LER). Previous studies have applied LER to legal documents in Indonesian using the BiLSTM and CRF approaches, so further research is needed to find out how other models perform in this case. This study examines the performance of language models, namely the RoBERTa-based model and the BERT-based model and compares them with deep learning models, namely BiLSTM and BiLSTM-CRF as the baseline models for previous studies for the Indonesian language LER task. The results showed that the RoBERTa-based model had the best performance for the LER task in the author’s dataset, XLM-R large with an F1 score of 0.9295, XLM-R base with an F1 score of 0.9281 and Indonesian RoBERTa with an F1 score of 0.9246.

"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Naradhipa Mahardhika Setiawan Bhary
"Sebagai negara hukum, Indonesia memiliki sistem peradilan yang aktif. Setiap bulannya, terdapat sekitar 100.000 dokumen putusan yang dihasilkan oleh lembaga kehakiman di Indonesia. Volume dokumen yang banyak tersebut menimbulkan suatu tantangan bagi insan hukum di Indonesia. Guna mendukung dan mengakomodasi institusi publik dari aspek teknologi dan informasi, serta mendorong pelaksanaan keterbukaan informasi bagi masyarakat umum, maka dibutuhkan suatu metode yang dapat membantu untuk mencari dan mengumpulkan informasi penting dari suatu dokumen putusan pengadilan. Secara khusus, metode ini juga ditujukan untuk membantu para praktisi hukum untuk kepentingan penegakan hukum dan para akademisi hukum untuk kepentingan pendidikan dan pengembangan di bidang hukum. Salah satu teknik untuk mengumpulkan informasi penting dari suatu dokumen adalah Named Entity Recognition (NER). Teknik NER bekerja dengan cara menandai kata-kata yang merupakan informasi penting seperti orang, tempat, lokasi, waktu, kejadian, dan lainnya. NER dapat diterapkan untuk berbagai bidang permasalahan, seperti medis, hukum, dan pertanian. NER yang secara spesifik bekerja untuk menandai entitas hukum disebut dengan Legal Entity Recognition (LER). Penelitian sebelumnya telah menerapkan LER untuk dokumen legal berbahasa Indonesia dengan pendekatan BiLSTM dan CRF sehingga diperlukan penelitian lebih lanjut untuk mengetahui bagaimana performa model-model lain terhadap kasus tersebut. Penelitian ini menguji performa language model, yaitu model berbasis RoBERTa dan model berbasis BERT serta membandingkannya dengan deep learning model, yaitu BiLSTM dan BiLSTM-CRF sebagai model baseline penelitian sebelumnya untuk task LER bahasa indonesia. Hasil penelitian menunjukkan model berbasis RoBERTa memliki performa terbaik untuk task LER pada dataset penulis, XLM-R large dengan skor F1 sebesar 0,9295, XLM-R base dengan skor F1 sebesar 0,9281 dan Indonesian RoBERTa dengan skor F1 sebesar 0,9246.

As a rule of law country, Indonesia has an active justice system. Every month, there are around 100,000 decision documents produced by the judiciary in Indonesia. The large volume of documents poses a challenge for legal people in Indonesia. In order to support and accommodate public institutions from the aspects of technology and information, as well as encourage the implementation of information disclosure for the general public, a method is needed that can help find and collect important information from a court decision document. In particular, this method is also intended to assist legal practitioners for the benefit of law enforcement and legal academics for the benefit of education and development in the field of law. One technique for collecting important information from a document is Named Entity Recognition (NER). The NER technique works by marking words that are important information such as people, places, locations, times, events, and so on. NER can be applied to various problem areas, such as medical, legal, and agriculture. NER which specifically works to mark legal entities is called Legal Entity Recognition (LER). Previous studies have applied LER to legal documents in Indonesian using the BiLSTM and CRF approaches, so further research is needed to find out how other models perform in this case. This study examines the performance of language models, namely the RoBERTa-based model and the BERT-based model and compares them with deep learning models, namely BiLSTM and BiLSTM-CRF as the baseline models for previous studies for the Indonesian language LER task. The results showed that the RoBERTa-based model had the best performance for the LER task in the author’s dataset, XLM-R large with an F1 score of 0.9295, XLM-R base with an F1 score of 0.9281 and Indonesian RoBERTa with an F1 score of 0.9246."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muchammad Naseer
"Deteksi informasi menjadi langkah krusial untuk melawan penyebaran berita palsu. Sistem deteksi berita palsu konvensional menghasilkan dua keputusan: apakah berita palsu atau asli, begitu pula hasil pengecekan fakta hanya menentukan apakah informasi benar atau salah. Verifikasi fakta menyajikan tiga kemungkinan hasil: informasi didukung bukti (SUPPORTS), dibantah bukti (REFUTES), atau tidak ada cukup bukti untuk mendukung maupun membantah informasi (NOT ENOUGH INFORMATION).
Penelitian ini dimulai dengan menguji performa algoritma BERT, RoBERTa, dan Electra, dengan RoBERTa menunjukkan hasil terbaik. RoBERTa kemudian dikembangkan menjadi RoBERTaEns, sebuah algoritma yang diperkenalkan dalam penelitian ini, melalui penggabungan keunggulan model RoBERTa dengan pendekatan homogeneous ensemble pada FEVER Dataset. Model ini menggabungkan tiga arsitektur RoBERTa (RoBERTa-m1, m2, m3) menggunakan metode bagging ensemble dan persamaan linier untuk meningkatkan ketahanan, membatasi bias, serta mengoptimalkan biaya dan kompleksitas komputasi. RoBERTaEns dibandingkan dengan BERT, XL-Net, dan XLM, menghasilkan akurasi 78,4% dan F1-Score 84,2%, melampaui algoritma lain.
Penelitian juga mengevaluasi algoritma khusus untuk tugas verifikasi fakta, yaitu Neural Semantic Matching Networks (NSMN), dengan performa rendah (akurasi 69,43%) yang berdasarkan hipotesis diakibatkan dari overfitting yang disebabkan oleh BiLSTM dalam arsitekturnya. Untuk mengatasi ini, model Deep One-Directional Neural Semantic Siamese Network (DOD-NSSN) berbasis Siamese MaLSTM diperkenalkan. Model ini menggunakan Manhattan Fact Relatedness Score (MFRS) sebagai fact-relatedness score baru yang juga diperkenalkan dalam penelitian ini untuk prediksi klasifikasi akhir. Saat dibandingkan dengan NSMN, BERT, RoBERTa, XLM, dan XLNet, DOD-NSSN menunjukkan akurasi tertinggi (91,86%). Hal ini membuktikan bahwa DOD-NSSN cocok untuk klasifikasi data tekstual dan meningkatkan akurasi verifikasi fakta. Studi ini berkontribusi signifikan dalam pengembangan algoritma berbasis transformer (RoBERTaEns), dan neural network (DOD-NSSN), serta dalam menghasilkan metrik pengukuran jarak kedekatan antara klaim dan evidence (MFRS) untuk mekanisme verifikasi fakta dengan akurasi yang baik.

Information detection is a crucial step in combating the spread of fake news. Conventional fake news detection systems typically produce two decisions: whether the news is fake or real, and fact-checking results determine whether the information is true or false. Fact verification, however, provides three possible outcomes: information supported by evidence (SUPPORTS), refuted by evidence (REFUTES), or insufficient evidence to either support or refute the information (NOT ENOUGH INFORMATION).
This study was started by evaluating the performance of the BERT, RoBERTa, and Electra algorithm were compared, with RoBERTa demonstrating superior results. Building upon these findings, RoBERTa was extended into RoBERTaEns, an algorithm introduced in this study, by combining the strengths of the RoBERTa model using a homogeneous ensemble approach on the FEVER Dataset. This model integrates three RoBERTa architectures (RoBERTa-m1, m2, m3) using the bagging ensemble method and linear equations to enhance robustness, reduce bias, and optimize computational cost and complexity. RoBERTaEns was benchmarked against BERT, XL-Net, and XLM, achieving an accuracy of 78,4% and an F1-Score of 84,2%, outperforming other algorithms.
The study also evaluated a specialized algorithm for fact verification tasks, i.e., Neural Semantic Matching Networks (NSMN), which exhibited low performance (accuracy 69.43%). This underperformance was hypothesized to result from overfitting caused by the BiLSTM architecture. To address it, a novel model, Deep One-Directional Neural Semantic Siamese Network (DOD-NSSN), based on Siamese MaLSTM, was introduced. The model used Manhattan Fact Relatedness Score (MFRS) as a newly introduced fact-relatedness score in this study for final classification predictions. DOD-NSSN was tested against NSMN, BERT, RoBERTa, XLM, and XL-Net, achieving the highest accuracy (91,86%), demonstrating the suitability of DOD-NSSN for textual data classification and enhancing fact verification accuracy. This study contributes significantly to the development of transformer-based algorithm (RoBERTaEns), and neural network algorithm (DOD-NSSN), also in producing metrics for measuring the relatedness between claims and evidence (MFRS) for fact verification mechanisms with good accuracy.
"
Depok: Fakultas Teknik Universitas Indonesia, 2025
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library
cover
Fariz Wahyuzan Dwitilas
"

Sebagai negara hukum, Indonesia memiliki sistem peradilan yang aktif. Setiap bulannya, terdapat sekitar 100.000 dokumen putusan yang dihasilkan oleh lembaga kehakiman di Indonesia. Volume dokumen yang banyak tersebut menimbulkan suatu tantangan bagi insan hukum di Indonesia. Guna mendukung dan mengakomodasi institusi publik dari aspek teknologi dan informasi, serta mendorong pelaksanaan keterbukaan informasi bagi masyarakat umum, maka dibutuhkan suatu metode yang dapat membantu untuk mencari dan mengumpulkan informasi penting dari suatu dokumen putusan pengadilan. Secara khusus, metode ini juga ditujukan untuk membantu para praktisi hukum untuk kepentingan penegakan hukum dan para akademisi hukum untuk kepentingan pendidikan dan pengembangan di bidang hukum. Salah satu teknik untuk mengumpulkan informasi penting dari suatu dokumen adalah Named Entity Recognition (NER). Teknik NER bekerja dengan cara menandai kata-kata yang merupakan informasi penting seperti orang, tempat, lokasi, waktu, kejadian, dan lainnya. NER dapat diterapkan untuk berbagai bidang permasalahan, seperti medis, hukum, dan pertanian. NER yang secara spesifik bekerja untuk menandai entitas hukum disebut dengan Legal Entity Recognition (LER). Penelitian sebelumnya telah menerapkan LER untuk dokumen legal berbahasa Indonesia dengan pendekatan BiLSTM dan CRF sehingga diperlukan penelitian lebih lanjut untuk mengetahui bagaimana performa model-model lain terhadap kasus tersebut. Penelitian ini menguji performa language model, yaitu model berbasis RoBERTa dan model berbasis BERT serta membandingkannya dengan deep learning model, yaitu BiLSTM dan BiLSTM-CRF sebagai model baseline penelitian sebelumnya untuk task LER bahasa indonesia. Hasil penelitian menunjukkan model berbasis RoBERTa memliki performa terbaik untuk task LER pada dataset penulis, XLM-R large dengan skor F1 sebesar 0,9295, XLM-R base dengan skor F1 sebesar 0,9281 dan Indonesian RoBERTa dengan skor F1 sebesar 0,9246.


As a rule of law country, Indonesia has an active justice system. Every month, there are around 100,000 decision documents produced by the judiciary in Indonesia. The large volume of documents poses a challenge for legal people in Indonesia. In order to support and accommodate public institutions from the aspects of technology and information, as well as encourage the implementation of information disclosure for the general public, a method is needed that can help find and collect important information from a court decision document. In particular, this method is also intended to assist legal practitioners for the benefit of law enforcement and legal academics for the benefit of education and development in the field of law. One technique for collecting important information from a document is Named Entity Recognition (NER). The NER technique works by marking words that are important information such as people, places, locations, times, events, and so on. NER can be applied to various problem areas, such as medical, legal, and agriculture. NER which specifically works to mark legal entities is called Legal Entity Recognition (LER). Previous studies have applied LER to legal documents in Indonesian using the BiLSTM and CRF approaches, so further research is needed to find out how other models perform in this case. This study examines the performance of language models, namely the RoBERTa-based model and the BERT-based model and compares them with deep learning models, namely BiLSTM and BiLSTM-CRF as the baseline models for previous studies for the Indonesian language LER task. The results showed that the RoBERTa-based model had the best performance for the LER task in the author’s dataset, XLM-R large with an F1 score of 0.9295, XLM-R base with an F1 score of 0.9281 and Indonesian RoBERTa with an F1 score of 0.9246.

 

"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Mirsa Salsabila
"Grammatical Error Correction (GEC) adalah salah satu task Natural Language Processing (NLP) yang mendeteksi dan mengoreksi kesalahan tata bahasa dalam sebuah teks. Task ini terus berkembang sampai saat ini dan telah diterapkan menggunakan berbagai metode, seperti rule-based, machine learning-based, dan sebagainya. Tugas akhir ini bertujuan membandingkan dua metode state-of-the-art Grammatical Error Correction yaitu metode T5 dan GECToR menggunakan dataset bahasa Inggris dan bahasa Indonesia. Untuk metode T5, akan dibandingkan model Flan-T5 dan mT5 dengan variasi ukuran base dan large. Adapun model yang dibandingkan untuk metode GECToR adalah model RoBERTa dan XLNet dengan variasi ukuran base dan large. Untuk dataset bahasa Inggris, akan digunakan dataset FCE untuk training dan dataset CoNLL-14 untuk testing. Sedangkan untuk dataset bahasa Indonesia, akan digunakan dataset Gramatika. Kemudian, untuk evaluasi digunakan metrik F0.5. Berdasarkan hasil uji coba, didapatkan bahwa untuk dataset bahasa Inggris FCE+CoNLL-14, metode T5 dengan varian model Flan-T5 unggul dari kedua varian metode GECToR dengan skor F0.5 sebesar 52,85%. Varian Flan-T5 ini unggul dengan margin sebesar 15,83% dari varian terbaik metode GECToR, yaitu RoBERTa. Sedangkan, metode GECToR dengan varian RoBERTa lebih unggul dengan margin 10,12% dari metode T5 dengan varian model mT5. Untuk dataset bahasa Indonesia Gramatika, kedua varian metode T5 lebih unggul dari metode GECToR. Varian terbaik metode T5 dengan skor F0.5 sebesar 45,38% dengan margin 31,05% dari varian terbaik metode GECToR, yaitu RoBERTa.

Grammatical Error Correction (GEC) is one of the Natural Language Processing (NLP) tasks that detect and correct grammatical errors in a text. This task continues to grow today and has been implemented using various methods, such as rule-based, machine learning-based, and so on. This final project aims to compare two state-of-the-art Grammatical Error Correction methods, namely the T5 and GECToR methods using English and Indonesian datasets. For the T5 method, Flan-T5 and mT5 models will be compared with base and large size variations. As for the GECToR method, RoBERTa and XLNet models will be compared with base and large size variations. For the English dataset, the FCE dataset will be used for training and the CoNLL-14 dataset for testing. As for the Indonesian dataset, the Grammatical dataset will be used. Then, the F0.5 metric is used for evaluation. Based on the experimental results, it is found that for the FCE+CoNLL-14 English dataset, the T5 method with the Flan-T5 model variant is superior to both variants of the GECToR method with an F0.5 score of 52.85%. The Flan-T5 variant is superior by a margin of 15.83% to the best variant of the GECToR method, RoBERTa. Meanwhile, the GECToR method with the RoBERTa variant is superior by a margin of 10.12% to the T5 method with the mT5 model variant. For the Indonesian Grammatical dataset, both variants of the T5 method are superior to the GECToR method. The best variant of the T5 method with an F0.5 score of 45.38% with a margin of 31.05% from the best variant of the GECToR method, which is RoBERTa."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Fauzi Rahmad
"Arsitektur model deep learning kini sudah semakin kompleks setiap harinya. Namun semakin besar model maka dibutuhkan kekuatan komputasi yang cukup besar juga dalam menjalankan model. Sehingga tidak semua perangkat Internet of Things (IoT) dapat menjalankan model yang begitu besar secara efisien. Untuk itu teknik model optimization sangat diperlukan. Pada penelitian kali ini penulis menggunakan metode optimasi menggunakan layer weight regularization, serta penyederhanaan arsitektur model pada hybrid deep learning model. Dataset yang digunakan pada penelitian kali ini adalah N-BaIoT. Sementara evaluasi performa model yang digunakan adalah accuracy, confussion matrix, dan detection time. Dengan tingkat accuracy yang sama, model yang diusulkan berhasil meningkatkan waktu deteksi model lebih cepat 0,8 ms dibandingkan dengan model acuan.

The deep learning model architecture is getting more complex every day. However, the larger the model, the greater the computational power is needed to run the model. So not all Internet of Things (IoT) devices can run such a large model efficiently. For this reason, model optimization techniques are needed. In this study, the author uses an optimization method using layer weight regularization, as well as simplification of the model architecture on the hybrid deep learning model. The dataset used in this research is N-BaIoT. While the evaluation of the performance of the model used is accuracy, confusion matrix, and detection time. With the same level of accuracy, the proposed model succeeded in increasing the detection time of the model by 0.8 ms faster than the reference method."
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Alif Ahsanil Satria
"Pengenalan entitas bernama (named-entity recognition atau NER) adalah salah satu topik riset di bidang pemrosesan bahasa alami (natural language processing atau NLP). Pen- genalan entitas bernama merupakan langkah awal mengubah unstructured text menjadi structured text. Pengenalan entitas bernama berguna untuk mengerjakan NLP task yang lebih high-level seperti ekstraksi informasi (information extraction atau IE), Question Answering (QA), dan lain-lain. Penelitian ini memanfaatkan data berita dan wikipedia masing-masing sebanyak 200 dokumen yang digunakan untuk proses pengujian dan pelatihan. Penelitian ini mencoba mengeksplorasi entitas bernama baru yang tidak sebatas Person, Location, dan Organization. Named entity baru tersebut adalah Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), dan Miscellaneous. Jadi, penelitian ini menggunakan 11 entitas bernama. Dalam penelitian ini, permasalahan tersebut dipandang sebagai se- quence labelling. Penelitian ini mengusulkan penggunaan model conditional random field sebagai solusi permasalahan ini. Penelitian ini mengusulkan penggunaan fitur tambahan seperti kata sebelum, kata sesudah, kondisi huruf kapital di awal kata, dan lain-lain, serta word embedding. Penelitian ini menghasilkan performa dengan nilai F-measure terbaik sebesar 67.96% untuk data berita dan 67.09% untuk data wikipedia.

Named Entity Recognition or NER is one of research topics in Natural Language Pro- cessing (NLP) subject. NER is the first step to transform unstructured text to structured text. NER is used for doing more high-level NLP task such as Information Extraction (IE), Question Answering (QA), etc. This research uses news and wikipedia data with 200 documents of each, which is used for training and testing process. This research tries exploring new named entities in addition to Person, Location, and Organization. These named entities are Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), and Miscellaneous. Therefore, this research uses 11 named entities. This research views this problem as sequence labelling. This research proposes conditional random field model as the solution for this problem. This research proposes some features, for example additional features such as previous word, next word, initial capital letter condition, etc, and word embedding. This research results p1qerformance with the best F-Measure of 67.09% for wikipedia data and 67.96% for news data."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Dwi Guna Mandhasiya
"Ilmu Data adalah irisan dari matematika dan statistika, komputer, serta keahlian domain. Dalam beberapa tahun terakhir inovasi pada bidang ilmu data berkembang sangat pesat, seperti Artificial Intelligence (AI) yang telah banyak membantu kehidupan manusia. Deep Learning (DL) sebagai bagian dari AI merupakan pengembangan dari salah satu model machine learning yaitu neural network. Dengan banyaknya jumlah lapisan neural network, model deep learning mampu melakukan proses ekstrasi fitur dan klasifikasi dalam satu arsitektur. Model ini telah terbukti mengungguli teknik state-of-the-art machine learning di beberapa bidang seperti pengenalan pola, suara, citra, dan klasifikasi teks. Model deep learning telah melampaui pendekatan berbasis AI dalam berbagai tugas klasifikasi teks, termasuk analisis sentimen. Data teks dapat berasal dari berbagai sumber, seperti sumber dari media sosial. Analisis sentimen atau opinion mining merupakan salah satu studi komputasi yang menganalisis opini dan emosi yang diekspresikan pada teks. Pada penelitian ini analisis peforma machine learning dilakukan pada metode deep learning berbasis representasi data BERT dengan metode CNN dan LSTM serta metode hybrid deep learning CNN-LSTM dan LSTM-CNN. Implementasi model menggunakan data komentar youtube pada video politik dengan topik terkait Pilpres 2024, kemudian evaluasi peforma dilakukan menggunakan confusion metric berupa akurasi, presisi, dan recall.

Data Science is the intersection of mathematics and statistics, computing, and a domain of expertise. In recent years innovation in the field of data science has developed very rapidly, such as Artificial Intelligence (AI) which helped a lot in human life. Deep Learning (DL) as part of AI is the development of one of the machine learning models, namely neural network. With the large number of neural network layers, deep learning models are capable of performing feature extraction and classification processes in a single architecture. This model has proven to outperform state-of-the-art machine learning techniques in areas such as pattern recognition, speech, imagery, and text classification. Deep learning models have gone beyond AI-based approaches in a variety of text classification task, including sentiment analysis. Text data can come from various sources, such as source from social media. Sentiment analysis or opinion mining is a computational study that analyze opinions and emotions expressed in text. In this research, machine learning performance analysis is carried out on a deep learning method based on BERT data representation with the CNN and LSTM and hybrid deep learning CNN-LSTM and LSTM-CNN method. The implementation of the model uses YouTube commentary data on political videos related to the 2024 Indonesia presidential election, then performance analysis is carried out using confusion metrics in the form of accuracy, precision, and recall."
Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Denanir Fadila Nasiri
"Legal reasoning merupakan metode yang digunakan untuk menerapkan aturan atau Undang-Undang terhadap fakta yang dimiliki dengan tujuan untuk memperoleh argumentasi hukum. Salah satu metode legal reasoning adalah dengan penalaran induktif, yaitu didasarkan pada kasus-kasus terdahulu. Mahkamah Agung di Indonesia melalui situs Direktori Putusan Pengadilan, yang menyediakan dokumen hasil proses pengadilan yang saat ini menampung jumlah dokumen yang sangat besar. Kumpulan dokumen tersebut dapat dimanfaatkan untuk melakukan aktivitas legal reasoning, seperti klasifikasi jenis tindak pidana (criminal offense). Pada penelitian ini, penulis mengusulkan metode deep learning untuk mengklasifikasikan jenis tindak pidana. Hal ini dapat berguna untuk memberikan efisiensi dan referensi kepada praktisi hukum maupun memudahkan masyarakat untuk memahami dasar hukum dari suatu kasus. Secara spesifik, salah satu rancangan model yang diusulkan adalah dengan penerapan model LEAM (Label Embedding Attentive Model) dengan penambahan sejumlah keyword pada label embedding. Model ini secara konsisten memberikan performa yang baik dalam eksperimen, termasuk pada imbalanced dataset dengan perolehan f1-score 68%.

Legal reasoning is a sequence of activities to identify law rules and obtain legal arguments. One of the method in legal reasoning is by using inductive reasoning, which analyzes previous decided cases. Indonesia’s Supreme Court stores the court decision documents online in a large sum. These collections can be utilized to perform legal reasoning, where in this research we focus on the classification of criminal offense. We performed pre-processing tasks including conversion of document to text and cleaning text. We then compared deep learning models, such as LSTM, BiLSTM, CNN+LSTM, and LEAM (Label Embedding Attentive Model). Instead of using only the label name in LEAM, we also carried out experiments by adding related keywords for each label. The LEAM model with additional keywords obtained the best result in an imbalanced dataset with 68% macro average f1-score."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>