Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 8 dokumen yang sesuai dengan query
cover
Novi Yusliani
"Fokus dari penelitian ini adalah untuk mengembangkan data dan sistem Question Answering (QA) Bahasa Indonesia untuk pertanyaan non-factoid. Penelitian ini merupakan penelitian QA non-factoid pertama untuk Bahasa Indonesia. Adapun sistem QA terdiri atas 3 komponen yaitu penganalisis pertanyaan, pengambil paragraf, dan pencari jawaban. Dalam komponen penganalisis pertanyaan, dengan asumsi bahwa pertanyaan yang diajukan merupakan pertanyaan sederhana, digunakan sistem yang berbasis aturan sederhana dengan mengandalkan kata pertanyaan yang digunakan (“apa”, “mengapa”, dan “bagaimana”). Paragraf diperoleh dengan menggunakan pencarian kata kunci baik dengan menggunakan stemming ataupun tidak. Untuk pencari jawaban, jawaban diperoleh dengan menggunakan pola kata-kata khusus yang ditetapkan sebelumnya untuk setiap jenis pertanyaan. Dalam komponen pencari jawaban ini, diperoleh kesimpulan bahwa penggunaan kata kunci non-stemmed bersamaan dengan kata kunci hasil stemming memberikan nilai akurasi jawaban yang lebih baik, jika dibandingkan dengan penggunaan kata kunci non-stemmed saja atau kata kunci stem saja. Dengan menggunakan 90 pertanyaan yang dikumpulkan dari 10 orang Indonesia dan 61 dokumen sumber, diperoleh nilai MRR 0.7689, 0.5925, dan 0.5704 untuk tipe pertanyaan definisi, alasan, dan metode secara berurutan.
Focus of this research is to develop QA data and system in Bahasa Indonesia for non-factoid questions. This research is the first non-factoid QA for Bahasa Indonesia. QA system consists of three components: question analyzer, paragraph taker, and answer seeker. In the component of question analyzer, by assuming that the question posed is a simple question, we used a simple rule-based system by relying on the question word used (“what”, “why”, and “how”). On the components of paragraph taker, the paragraph is obtained by using keyword, either by using stemming or not. For answer seeker, the answers obtained by using specific word patterns that previously defined for each type of question. In the component of answer seeker, the conclusion is the use of non-stemmed keywords in conjunction with the keyword stemming results give a better answer accuracy compared to non-use of the keyword or keywords are stemmed stem only. By using 90 questions, we collected from 10 people of Indonesia and the 61 source documents, obtained MRR values 0.7689, 0.5925, and 0.5704 for type definition question, reason, and methods respectively."
Institut Teknologi Bandung, Sekolah Teknik Elektro dan Informatika, 2011
PDF
Artikel Jurnal  Universitas Indonesia Library
cover
Kerenza Doxolodeo
"Konstruksi dataset QA membutuhkan akses ke sumber daya dan finansial yang tidak kecil, sehingga dataset untuk bahasa-bahasa yang kurang dipelajari seperti Ba- hasa Indonesia minim. Studi ini mengkonstruksi dataset QA Indonesia yang dibuat secara otomatis dari awal hingga akhir. Proses dimulai dengan mengambil tripel dari Wikidata dan mengkonversikan tripel tersebut menjadi pertanyaan menggu- nakan CFG. Teks konteks dicari dari korpus Wikipedia Bahasa Indonesia dengan heuristik untuk mencari teks yang sesuai. Pertanyaan-pertanyaan tersebut dival- idasi dengan model M-BERT yang fungsinya sebagai proxy model yang menilai kelayakan pertanyaan. Dataset terdiri dari 134 ribu baris pertanyaan simpel dan 60 ribu pertanyaan kompleks yang menggandung dua buah fakta dalam satu per- tanyaan. Untuk pertanyaan simpel dataset mendapatkan evaluasi yang mirip oleh manusia (72% AC-IQuAD vs 67% SQuAD terjemahan) dan model QA Indonesia yang terbaik adalah yang menggabungkan dataset SQuAD Inggris dan AC-IQuAD (F1 57.03 terhadap dataset TydiQA).

Construction of QA datasets requires access to considerable resources and fi- nance, so datasets for less-learned languages such as Indonesian are scarce. This study constructs an Indonesian QA dataset that is generated automatically end- to-end. The process begins by taking triples from Wikidata and converting those triples into questions using CFG. The context text is searched from the Indonesian Wikipedia corpus with heuristics to find the appropriate text. These questions were validated with the M-BERT model which functions as a proxy model that assesses the feasibility of questions. The dataset consists of 134 thousand lines of simple questions and 60 thousand complex questions containing two facts in one ques- tion. For simple queries the datasets received similar evaluations by humans (72% AC-IQuAD vs 67% translated SQuAD) and the best Indonesian QA model was the one combining English SQuAD and AC-IQuAD datasets (F1 57.03 against TydiQA dataset)."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Mohammad Yani
"Performa sistem tanya jawab berbasis Knowledge Graph (KGQA) sangat dipengaruhi oleh dua tugas, yaitu deteksi entitas dan penautan entitas dan relasi. Daftar entitas dan relasi yang dihasilkan oleh tugas ini akan digunakan oleh konstruktor kueri untuk memperoleh data yang benar dari Knowledge Graph (KG). Telah ada beberapa penelitian terkait kedua tugas ini. Namun, pada kedua tugas ini masih terdapat beberapa isu. Terdapat tiga isu utama pada tugas deteksi entitas. Pertama, tidak semua entitas yang ada di dalam pertanyaan digunakan di dalam kueri. Kedua, sebuah pertanyaan menggunakan entitas, tetapi tidak dikenali oleh Named Entity Recognizer (NER), dan ketiga adalah tidak diketahuinya posisi entitas di dalam Triple. Untuk mengatasi isu pada tugas deteksi entitas ini penulis mengusulkan sebuah pendekatan pola berbasis posisi. Pendekatan ini memanfaatkan pola dari sebuah pertanyaan untuk memprediksi di mana posisi entitas berada di dalam Triple. Sementara itu, pada tugas penautan entitas dan relasi, terdapat dua isu utama yaitu isu kesenjangan leksikal dan ambiguitas entitas. Untuk mengatasi isu-isu tersebut, penulis mengusulkan sebuah pendekatan penautan entitas dan relasi dengan menggunakan konsep pencarian bertahap. Dalam pendekatan ini, prediksi relasi dilakukan sebelum penautan entitas. Selanjutnya, penautan entitas dilakukan secara bertahap dimulai dengan pencarian berbasis teks sampai dengan pencarian berbasis vektor. Hasil evaluasi menunjukkan bahwa pendekatan pola berbasis posisi untuk deteksi entitas memperoleh nilai akurasi lebih baik dari Falcon 2.0, yaitu sebesar 98,91% dan 89,52% pada SimpleQuestions dan LC-QuAD 2.0. Pendekatan pencarian bertahap untuk penautan entitas dan relasi juga menunjukkan akurasi yang lebih baik dari Falcon 2.0. Masing-masing 89,87% dan 74,83% pada SimpleQuestions dan LC-QuAD 2.0 untuk penautan entitas dan 91,74% dan 61,96% pada SimpleQuestions dan LC-QuAD 2.0 untuk penautan relasi.

The performance of knowledge graph question answering (KGQA) systems is significantly influenced by entity detection tasks and entity and relation linking tasks. The correct entities and relations output by the tasks is a must to retrieve the correct data from a KG. Some works have been proposed for the tasks. However, the tasks still have challenging issues. There are three main issues with the entity detection task. First, a question may contain an entity(s) that is/are not used in the query. Second, a question uses an unrecognizable entity(s) by Named Entity Recognizer (NER). The last one is where the position of an entity(s) is unknown in the Triple. To address the issues, we propose an approach called the position-based pattern. While the entity and relation linking task have two main issues, namely, lexical gap and entity ambiguity. To overcome the issues, we propose an approach to gradually link entities and relations. Our proposed approach predicts the relation(s) used by the question first and then gradually searches the proper entity(s) against the entity(s) of the KG by using text-based searching and vector-based searching approach. The position-based pattern outperforms the baselines on SimpleQuestions and LC-QuAD 2.0 datasets, namely 98.91% and 89.52% for SimpleQuestions and LC-QuAD 2.0, respectively. For the entity linking task, using a gradual searching approach reaches 89.87% and 74.83% for SimpleQuestions and LC-QuAD 2.0, respectively, on average. This approach outperforms the baseline for relation linking, namely, 91.74% and 61.96% for SimpleQuestions and Lc-QuAD 2.0, respectively."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library
cover
Nur Rachmawati
"Metadata statistik memiliki peran yang sangat penting bagi masyarakat. Dengan adanya metadata statistik, kita dapat mengetahui segala informasi mengenai semua kegiatan statistik yang dilakukan. Pada penelitian ini kami akan membangun sistem Closed Domain Question Answering (CDQA) mengenai metadata statistik (CDQA-Metadata Statistik). Sistem ini dibangun dengan menggunakan metode transfer learning pada data human question dan automatic question. Penggunaan metode transfer learning digunakan karena benchmark yang besar mengenai metadata statistik belum ada sama sekali. Pada penelitian ini kami akan menggunakan arsitektur retriever(BM25)-reader(IndoBERT) berbasis transfer learning. Ada tiga eksperimen utama yang kami lakukan. Hasil eksperimen pertama kami menunjukkan bahwa pada data human question model twostage fine-tuning (human) yang merupakan model dengan metode transfer learning secara statistik sangat signifikan mengguguli model non transfer learning dengan peningkatan exact match sebesar 53 kali lipat dan f1-score sebesar 9 kali lipat. Kemudian pada data automatic question, model two-stage fine-tuning (automatic) yang merupakan model dengan metode transfer learning secara statistik signifikan mengguguli model non transfer learning dengan peningkatan 80 kali lipat untuk exact match dan 13 kali lipat untuk f1-score. Hasil eksperimen kedua kami menujukkan bahwa sistem CDQAMetadata Statistik berbasis transfer learning secara statistik signifikan lebih baik pada data automatic question dibandingkan data human question. Hal ini mungkin disebabkan pada data automatic question memiliki term-of overlap yang lebih banyak dibandingkan data human question. Lalu pada hasil eksperimen ketiga menunjukkan bahwa pada data human question, penambahan data automatic question saat fine-tuning tidak dapat meningkatkan performa CDQA-Metadata Statistik. Begitu juga pada data automatic question, penambahan data human question saat fine-tuning ternyata tidak dapat meningkatkan performa CDQA-Metadata Statistik.

Statistical metadata plays a very important role in society. With statistical metadata, we can find out all the information regarding all statistical activities carried out. In this research we will build a Closed Domain Question Answering system (CDQA) regarding statistical metadata (CDQA-Statistical Metadata). This system was built using the transfer learning method on human question and automatic question data. The use of the transfer learning method is used because large benchmarks regarding statistical metadata do not yet exist. In this research we will use a retriever (BM25)-reader (IndoBERT) architecture based on transfer learning. There were three main experiments we conducted. The results of our first experiment show that in human question data the two-stage fine-tuning (human) model, which is a model using the transfer learning method, is statistically very significantly superior to the non-transfer learning model with an increase in exact match of 53 times and f1-score of 9 times. Then in the automatic question data, the two-stage fine-tuning (automatic) model, which is a model using the transfer learning method, statistically significantly outperforms the non-transfer learning model with an increase of 80 times for exact match and 13 times for f1-score. The results of our second experiment show that CDQA-Metadata Statistik system based on transfer learning significantly as statistics get better performance in automatic question data than in human question data. This is because automatic question data have more term-of overlap than human question data. Then the results of the third experiment show that for human question data, the addition of the automatic question data during fine-tuning cannot improve the performance of CDQA-Metadata Statistics. Likewise for automatic question data, the addition of a human question data during fine-tuning apparently did not improve the performance of CDQA-Metadata Statistics."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Ageng Anugrah Wardoyo Putra
"

Walaupun belum semaju dan sekomprehensif bahasa-bahasa lainnya, penelitian NLP bahasa Indonesia telah mengalami perkembangan yang cukup signifikan. Penelitian NLP tersebut mencakup POS-Tagging, Named Entity Recognition, dependency parsing, coreference resolution, dan lain sebagainya. Dari penelitian-penelitian NLP bahasa Indonesia yang telah ada, perlu dilakukan validasi dan verifikasi apakah modul NLP pada penelitian tersebut masih relevan atau tidak. Hal tersebut perlu dilakukan karena mungkin saja terjadi kesalahan pada penelitian sebelumnya atau terdapat model yang lebih baik dari penelitian tersebut. Proses tersebut dapat dilakukan melalui evaluasi intrinsik maupun ekstrinsik. Evaluasi intrinsik dapat dilakukan dari reproduksi atau replikasi penelitian yang telah ada, sementara itu evaluasi ekstrinsik dilakukan dengan membangun sistem tanya jawab dari modul-modul NLP tersebut. Hasilnya, didapatkan beberapa modul seperti POS-Tagging dan NER masih cukup relevan dan memiliki dataset yang berkualitas. Namun, beberapa modul lain seperti coreference resolution, constituency parsing, dan dependency parsing masih perlu perkembangan lebih lanjut. Berdasarkan hasil evaluasi, sistem yang dibangun memiliki performa terbaik untuk metrik exact match dan F1 berturut-turut di angka 0,108 dan 0,151 untuk dataset SQuAD, 0,063 dan 0,191 untuk dataset TyDiQA, serta 0,127 dan 0,173 untuk dataset IDK-MRC. Dari evaluasi tersebut diketahui juga bahwa sistem tanya jawab yang dibangun menggunakan pipeline modul-modul NLP tidak sebaik model tanya jawab end-to-end menggunakan BERT yang telah di-finetuning. Meskipun begitu, dari hasil penelitian ini ditunjukkan bahwa kita dapat membangun suatu sistem tanya jawab berdasarkan modul-modul NLP bahasa Indonesia yang tersedia.


Although not as advanced and comprehensive as in other languages, research in Indonesian NLP has experienced significant development. This NLP research encompasses POS-Tagging, Named Entity Recognition, dependency parsing, coreference resolution, and other related areas. From the existing NLP studies conducted in the Indonesian language, it is essential to validate and verify whether the NLP modules used in the research are still relevant. This is important because there might have been errors in previous research or there might be better models available. This process can be accomplished through both intrinsic and extrinsic evaluations. Intrinsic evaluation can be conducted by reproducing or replicating existing research, while extrinsic evaluation involves building a question answering system using these NLP modules. The results show that some modules, such as POS-Tagging and NER, are still quite relevant and have high-quality datasets. However, other modules like coreference resolution, constituency parsing, and dependency parsing still require further development. Based on the evaluation results, the constructed system performs best in terms of exact match and F1 metrics, with scores of 0.108 and 0.151 for the SQuAD dataset, 0.063 and 0.191 for the TyDiQA dataset, and 0.127 and 0.173 for the IDK-MRC dataset, respectively. The evaluation also reveals that the question-answering system built using a pipeline of NLP modules does not perform as well as the end-to-end question-answering model using fine-tuned BERT. Nevertheless, this research demonstrates the feasibility of building a question-answering system based on the available Indonesian NLP modules.

"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Siregar, Ahmad Hasan
"Visual Question Answering (VQA) adalah sebuah tugas pembelajaran mesin di mana diberikan pasangan gambar dan pertanyaan visual dalam bahasa natural, mesin harus memprediksi jawaban yang tepat. Kesulitan dari tugas VQA adalah masukan melibatkan dua media informasi (modality), yaitu gambar dan teks. VQA masih merupakan bidang penelitian yang aktif yang setiap tahunnya berbagai peneliti mempublikasikan model VQA, sebuah respons terhadap VQA challenge, dengan akurasi state-of-the-art tahun 2016 di 66.47% dan akurasi state-of-ther-art terakhir tahun 2019 masih di 75.23%. Diketahui bahwa tidak ada data VQA yang tersedia dalam bahasa Indonesia, data VQA Monas disusun dalam bahasa tersebut dengan fokus Monas sebagai konteksnya yang merupakan objek pariwisata di Jakarta. Metode pembelajaran mesin multimodal diajukan menggunakan CNN sebagai image embedding dan beberapa teknik di bidang linguistik sebagai sentence embedding, yaitu Bag-of-Words, fastText, BERT, dan [Bi-]LSTM. Akurasi sebesar 68.39% dicapai pada model dengan performa terbaik. Studi ablasi juga dilaporkan untuk menganalisis pengaruh dari sebuah lapisan individu terhadap akurasi model secara keseluruhan.

Visual Question Answering (VQA) is a machine learning task, given a pair of image and natural language visual question, machine should predict an accurate answer. Difficulty of VQA lies in the fact that the inputs has two information media (modality), i.e. image and text. VQA is an active research field as each year researchers still publish VQA models, a response to a VQA challenge, with state-of-the-art accuracy in 2016 at 66.47% and the latest state-of-the-art accuracy in 2019 is still at 75.23%. Known that there is no VQA dataset available in Bahasa Indonesia, a VQA Monas dataset is established in that language with focus on Monas as the context, a Jakarta tourism object. A multimodal machine learning method is proposed based on CNN for image embedding and several techniques in linguistic field for sentence embedding, i.e. Bag-of-Words, fastText, BERT, and [Bi-]LSTM. Accuracy of 68.39% is achieved on the best performing model. Ablation studies is also shown to analyze the impact of a layer to model’s accuracy as a whole."
Depok: Fakultas Ilmu Kompter Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Ravi Shulthan Habibi
"Sistem tanya jawab merupakan salah satu tugas dalam domain natural language processing (NLP) yang sederhananya bertugas untuk menjawab pertanyaan sesuai konteks yang pengguna berikan ke sistem tanya jawab tersebut. Sistem tanya jawab berbahasa Indonesia sebenarnya sudah ada, namun masih memiliki performa yang terbilang kurang baik. Penelitian ini bereksperimen untuk mencoba meningkatkan performa dari sistem tanya jawab berbahasa Indonesia dengan memanfaatkan natural language inference (NLI). Eksperimen untuk meningkatkan sistem tanya jawab berbahasa Indonesia, penulis menggunakan dua metode, yaitu: intermediate-task transfer learning dan task recasting sebagai verifikator. Dengan metode intermediate-task transfer learning, performa sistem tanya jawab berbahasa Indonesia meningkat, hingga skor F1-nya naik sekitar 5.69 dibandingkan tanpa menggunakan pemanfaatan NLI sama sekali, dan berhasil mendapatkan skor F1 tertinggi sebesar 85.14, namun, peningkatan performa dengan metode intermediate-task transfer learning cenderung tidak signifikan, kecuali pada beberapa kasus khusus model tertentu. Sedangkan dengan metode task recasting sebagai verifikator dengan parameter tipe filtering dan tipe perubahan format kalimat, performa sistem tanya jawab berbahasa Indonesia cenderung menurun, penurunan performa ini bervariasi signifikansinya. Pada penelitian ini juga dilakukan analisis karakteristik pasangan konteks-pertanyaan-jawaban seperti apa yang bisa dijawab dengan lebih baik oleh sistem tanya jawab dengan memanfaatkan NLI, dan didapatkan kesimpulan bahwa: performa sistem tanya jawab meningkat dibandingkan hasil baseline-nya pada berbagai karakteristik, antara lain: pada tipe pertanyaan apa, dimana, kapan, siapa, bagaimana, dan lainnya; kemudian pada panjang konteks ≤ 100 dan 101 ≤ 150; lalu pada panjang pertanyaan ≤ 5 dan 6 ≤ 10; kemudian pada panjang jawaban golden truth ≤ 5 dan 6 ≤ 10; lalu pada keseluruhan answer type selain law dan time; terakhir pada reasoning type WM, SSR, dan MSR.

The question-answering system is one of the tasks within the domain of natural language processing (NLP) that, in simple terms, aims to answer questions based on the context provided by the user to the question-answering system. While there is an existing Indonesian question-answering system, its performance is considered somewhat inadequate. This research conducts experiments to improve the performance of the Indonesian question answering system by utilizing natural language inference (NLI). In order to enhance the Indonesian question-answering system, the author employs two methods: intermediate task transfer learning and task recasting as verifiers. Using the intermediate-task transfer learning method, the performance of the Indonesian question-answering system improves significantly, with an increase of approximately 5.69 in F1 score compared to not utilizing NLI at all, achieving the highest F1 score of 85.14. However, the performance improvement with the intermediate-task transfer learning method tends to be non-significant, except in certain specific cases and particular models. On the other hand, employing the task recasting method as a verifier with filtering parameter type and sentence format change type leads to a decline in the performance of the Indonesian question-answering system, with the significance of this performance decrease varying. Additionally, this research conducts an analysis on the characteristics of context-question-answer pairs that can be better answered by the question-answering system utilizing NLI. The findings conclude that the question-answering system’s performance improves compared to its baseline across various characteristics, including different question types such as what, where, when, who, how, and others. Furthermore, it improves with context lengths ≤ 100 and 101 ≤ 150, question lengths ≤ 5 and 6 ≤ 10, as well as answer lengths (golden truth) ≤ 5 and 6 ≤ 10. Additionally, it performs better in overall answer types excluding law and time, and lastly, in reasoning types WM, SSR, and MSR.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Rafif Priyo Waskito
"Peraturan perundang-undangan baru di Indonesia dapat mengganti, menghapus, atau menambahkan aturan yang sudah berlaku sehingga setiap warga Indonesia memiliki tanggung jawab untuk mengetahui aturan terbaru saat hendak digunakan. Laman pengumpulan informasi ini sudah ada di laman pemerintah resmi seperti peraturan.go.id. Akan tetapi ada informasi yang tidak mudah dicari seperti isi pasal terbaru pada doku- men yang telah diubah oleh dokumen lain. Sekarang, sudah ada informasi peraturan perundang-undangan yang disimpan dalam knowledge graph (KG)-sebuah basis data terstruktur berbentuk kumpulan entitas dan relasi layaknya sebuah graf- bernama LexID KG (Muninggar & Krisnadhi, 2023). Ditambah lagi, LexID QA (Handi, 2023), yaitu sebuah sistem tanya jawab hukum dengan informasinya dari LexID KG, menangani masalah ini tetapi dengan memaksakan struktur inputnya. Menurut Jain, Kumar, Kota, dan Patel (2018) kebebasan membuat input (free-text) merupakan tur bagus karena seakan-akan sedang berinteraksi dengan manusia. Oleh karena itu, penelitian ini berusaha untuk menyelesaikan permasalahan pemaksaan struktur input pada LexID QA dengan beralih ke model machine learning pipeline. Model pipeline-nya tersusun dari model klasi kasi pertanyaan bebas ke kueri SPARQL, sebuah bahasa untuk mengambil informasi dari KG, dan model NER untuk mengambil informasi entitas penting seperti judul dokumen yang dicari pada pertanyaan bebasnya. Kedua model ini berbasiskan BERT (Bidirectional Encoder Representations from Transformers) (Devlin, Chang, Lee, & Toutanova, 2018). Hasil dari model klasi kasi mencapai nilai sempurna pada dataset baru yang dibuat pada penelitian ini. Kemudian, hasil dari model pipeline-nya juga mencapai nilai makro-akurasi sebesar 0.949 pada dataset yang sama.

New laws and regulations in Indonesia can modify, repeal, or adding to existing rules so that every Indonesian citizen has responsibility to know the latest rules when utilizing them. This collection of information is available on of cial government websites such as peraturan.go.id. However, there is information that not easy to nd, such as the contents of latest articles in the documents that have been modi ed by another document. Currently, there is regulatory information stored in a knowledge graph (KG)-a database structured in the form of a collection of entities and relationships like a graph- called LexID KG (Muninggar & Krisnadhi, 2023). Additionally, LexID QA (Handi, 2023), a legal question and answer system with information from LexID KG, addresses this problem but forcing its input structure. According to Jain et al. (2018), free-text input is a good feature because it feels like communication with humans. Therefore, this research trying to solve the problem of forcing input structures in LexID QA by transitioning to a machine learning pipeline model. The pipeline model is composed of free question classi cation model to query SPARQL, a language for retrieving information from KG, and NER model to extracting important entity such as legal title in the free-text input. Both model are based on BERT (Bidirectional Encoder Representations from Transformers) (Devlin et al., 2018). The classi cation model achieved a perfect score on the new dataset created in this research. Furthermore, the pipeline model achieved a macro-accuracy score of 0.949 on the same dataset."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library