Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 123341 dokumen yang sesuai dengan query
cover
Andhika Yusup Maulana
"

Tujuan dari penelitian ini adalah membangun dependency parser untuk Bahasa Indonesia menggunakan pendekatan cross-lingual transfer learning. Sebagai source language dipilih empat bahasa, yaitu Bahasa Perancis, Bahasa Italia, Bahasa Slovenia, dan Bahasa Inggris. Dependency parser dibangun menggunakan transformer (self-attention encoder) sebagai encoder layer dan deep biaffine decoder sebagai decoder layer. Pendekatan transfer learning dengan fine-tuning mampu meningkatkan performa model dependency parser untuk Bahasa Indonesia dengan margin yang paling tinggi yaitu 4.31% untuk UAS dan 4.46% untuk LAS dibandingkan dengan pendekatan training from scratch.


The objective of this research is to build a dependency parser for Indonesian using cross-lingual transfer learning. As the source language, chosen four languages: French, Italian, Slovenian, and English. The dependency parser is built using a transformer (self-attention encoder) as the encoder layer and a deep biaffine decoder as the decoder layer. The transfer learning approach with fine-tuning can improve the performance of the dependency parser model for Indonesian with the highest margin of 4.31% for UAS and 4.46% for LAS compared to the training from scratch approach.

"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Fadli Aulawi Al Ghiffari
"Penelitian ini bertujuan untuk membangun model dependency parser untuk bahasa Jawa menggunakan pendekatan cross-lingual transfer learning. Metode transfer learning dipilih untuk mengatasi kurangnya dataset yang tersedia untuk proses training model pada bahasa Jawa yang merupakan low-resource language. Model dibangun menggunakan arsitektur encoder-decoder, tepatnya menggunakan gabungan dari self-attention encoder dan deep biaffine decoder. Terdapat tiga skenario yang diuji yaitu model tanpa transfer learning, model dengan transfer learning, dan model dengan hierarchical transfer learning. Metode transfer learning menggunakan bahasa Indonesia, bahasa Korea, bahasa Kroasia, dan bahasa Inggris sebagai source language. Sementara metode hierarchical transfer learning menggunakan bahasa Prancis, bahasa Italia, dan bahasa Inggris sebagai source language tahap satu, serta bahasa Indonesia sebagai source language tahap dua (intermediary language). Penelitian ini juga mengujikan empat word embedding yaitu fastText, BERT Jawa, RoBERTa Jawa, dan multilingual BERT. Hasilnya metode transfer learning secara efektif mampu menaikkan performa model sebesar 10%, di mana model tanpa transfer learning yang memiliki performa awal unlabeled attachment score (UAS) sebesar 75.87% dan labeled attachment score (LAS) sebesar 69.04% mampu ditingkatkan performanya hingga mencapai 85.84% pada UAS dan 79.22% pada LAS. Skenario hierarchical transfer learning mendapatkan hasil yang lebih baik daripada transfer learning biasa, namun perbedaannya tidak cukup signifikan.

This research aims to develop a Javanese dependency parser model using a cross-lingual transfer learning approach. The transfer learning method was chosen to overcome the lack of available datasets for the model training process in Javanese, a low-resource language. The model uses an encoder-decoder architecture, precisely combining a self-attention encoder and a deep biaffine decoder. Three scenarios are experimented with: a model without transfer learning, a model with transfer learning, and a model with hierarchical transfer learning. The transfer learning process uses Indonesian, Korean, Croatian, and English as source languages. In contrast, the hierarchical transfer learning process uses French, Italian, and English as the first-stage source languages and Indonesian as the second-stage source language (intermediary language). This research also experimented with four word embedding types: fastText, Javanese BERT, Javanese RoBERTa, and multilingual BERT. The results show that the transfer learning method effectively improves the model’s performance by 10%, where the model without transfer learning has an initial unlabeled attachment score (UAS) performance of 75.87% and labeled attachment score (LAS) of 69.04% can be increased to 85.84% in UAS and 79.22% in LAS. Hierarchical transfer learning has a slightly better result than standard transfer learning, but the difference is insignificant."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Ageng Anugrah Wardoyo Putra
"

Walaupun belum semaju dan sekomprehensif bahasa-bahasa lainnya, penelitian NLP bahasa Indonesia telah mengalami perkembangan yang cukup signifikan. Penelitian NLP tersebut mencakup POS-Tagging, Named Entity Recognition, dependency parsing, coreference resolution, dan lain sebagainya. Dari penelitian-penelitian NLP bahasa Indonesia yang telah ada, perlu dilakukan validasi dan verifikasi apakah modul NLP pada penelitian tersebut masih relevan atau tidak. Hal tersebut perlu dilakukan karena mungkin saja terjadi kesalahan pada penelitian sebelumnya atau terdapat model yang lebih baik dari penelitian tersebut. Proses tersebut dapat dilakukan melalui evaluasi intrinsik maupun ekstrinsik. Evaluasi intrinsik dapat dilakukan dari reproduksi atau replikasi penelitian yang telah ada, sementara itu evaluasi ekstrinsik dilakukan dengan membangun sistem tanya jawab dari modul-modul NLP tersebut. Hasilnya, didapatkan beberapa modul seperti POS-Tagging dan NER masih cukup relevan dan memiliki dataset yang berkualitas. Namun, beberapa modul lain seperti coreference resolution, constituency parsing, dan dependency parsing masih perlu perkembangan lebih lanjut. Berdasarkan hasil evaluasi, sistem yang dibangun memiliki performa terbaik untuk metrik exact match dan F1 berturut-turut di angka 0,108 dan 0,151 untuk dataset SQuAD, 0,063 dan 0,191 untuk dataset TyDiQA, serta 0,127 dan 0,173 untuk dataset IDK-MRC. Dari evaluasi tersebut diketahui juga bahwa sistem tanya jawab yang dibangun menggunakan pipeline modul-modul NLP tidak sebaik model tanya jawab end-to-end menggunakan BERT yang telah di-finetuning. Meskipun begitu, dari hasil penelitian ini ditunjukkan bahwa kita dapat membangun suatu sistem tanya jawab berdasarkan modul-modul NLP bahasa Indonesia yang tersedia.


Although not as advanced and comprehensive as in other languages, research in Indonesian NLP has experienced significant development. This NLP research encompasses POS-Tagging, Named Entity Recognition, dependency parsing, coreference resolution, and other related areas. From the existing NLP studies conducted in the Indonesian language, it is essential to validate and verify whether the NLP modules used in the research are still relevant. This is important because there might have been errors in previous research or there might be better models available. This process can be accomplished through both intrinsic and extrinsic evaluations. Intrinsic evaluation can be conducted by reproducing or replicating existing research, while extrinsic evaluation involves building a question answering system using these NLP modules. The results show that some modules, such as POS-Tagging and NER, are still quite relevant and have high-quality datasets. However, other modules like coreference resolution, constituency parsing, and dependency parsing still require further development. Based on the evaluation results, the constructed system performs best in terms of exact match and F1 metrics, with scores of 0.108 and 0.151 for the SQuAD dataset, 0.063 and 0.191 for the TyDiQA dataset, and 0.127 and 0.173 for the IDK-MRC dataset, respectively. The evaluation also reveals that the question-answering system built using a pipeline of NLP modules does not perform as well as the end-to-end question-answering model using fine-tuned BERT. Nevertheless, this research demonstrates the feasibility of building a question-answering system based on the available Indonesian NLP modules.

"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Popi Puspitasari
Depok: Fakultas Teknik Universitas Indonesia, 2002
S39084
UI - Skripsi Membership  Universitas Indonesia Library
cover
London: Routledge, 1998
410.285 USI
Buku Teks SO  Universitas Indonesia Library
cover
Ika Alfina
"Pada penelitian ini, kami ingin mengatasi masalah langkanya dataset untuk peneli- tian di bidang syntactic parsing untuk Bahasa Indonesia, terutama kurang tersedi- anya dependency treebank berbahasa Indonesia dalam kualitas yang baik. Adapun tujuan dari penelitian ada tiga: 1) mengusulkan petunjuk cara menganotasi depen- dency trebank untuk Bahasa Indonesia yang mengacu kepada aturan anotasi UD v2, 2) membangun dependency treebank yang dianotasi secara manual agar bisa berperan sebagai gold standard, 3) membangun sebuah dependency treebank de- ngan mengkonversi secara otomatis sebuah constituency treebank menjadi sebuah dependency treebank.
Kami sudah membuat panduan anotasi untuk membangun dependency treebank untuk Bahasa Indonesia yang mengacu kepada aturan UD v2. Pedoman tersebut mencakup aturan tokenisasi/segmentasi kata, pelabelan kelas kata (POS tagging), analisis fitur morfologi, dan anotasi hubungan dependency antar kata. Kami men- gusulkan bagaimana memproses klitika, kata ulang, dan singkatan pada tahap to- kenisasi/segmentasi kata. Pada tahapan penentuan kelas kata, kami mengusulkan pemetaan dari daftar kata dalam Bahasa Indonesia ke 17 kelas kata yang didefin- isikan oleh UD v2. Untuk anotasi fitur morfologi, kami telah memilih 14 dari 24 fitur morfologi UD v2 yang dinilai sesuai dengan aturan Bahasa Indonesia, berikut dengan 27 buah label feature-value yang bersesuaian dengan fitur morfologi terkait. Untuk anotasi hubungan dependency antarkata, kami mengusulkan penggunakan 14 buah label yang bersifat language-specific untuk menganotasi struktur sintaks yang khusus terdapat pada Bahasa Indonesia.
Sebuah dependency treebank berbahasa Indonesia yang bisa digunakan sebagai gold standard sudah berhasil dibangun. Treebank ini dibuat dengan merevisi se- cara manual sebuah dependency treebank yang sudah ada. Revisi dilakukan dalam dua fase. Pada fase pertama dilakukan koreksi terhadap tokenisasi/segmentasi kata, pelabelan kelas kata, dan anotasi terhadap hubungan dependency antarkata. Pada fase kedua, selain dilakukan sedikit koreksi untuk perbaikan pada tahap satu, di- tambahkan juga informasi kata dasar (lemma) dan fitur morfologi. Evaluasi ter- hadap kualitas treebank yang baru dilakukan dengan membangun model depen- dency parser menggunakan UDPipe. Hasil pengujian menunjukkan bahwa kami berhasil meningkatkan kualitas treebank, yang ditunjukkan dengan naiknya UAS sebanyak 9% dan LAS sebanyak 14%.
Terkait tujuan penelitian ketiga, kami juga sudah membangun sebuah treebank baru dengan mengkonversi secara otomatis sebuah constituency treebank ke dependency treebank. Pada proyek ini, kami mengusulkan sebuah metode rotasi tree yang bertu- juan mengubah dependency tree awal yang dihasilkan oleh alat NLP untuk Ba- hasa Inggris bernama Stanford UD converter sedemikan agar head-directionality dari frase kata benda yang dihasilkan sesuai dengan aturan Bahasa Indonesia yang umumnya bersifat head-initial. Kami menamakan algoritma yang dihasilkan seba- gai algoritma headSwap dan algoritma compound. Hasil percobaan menunjukkan bahwa metode rotasi tree yang diusulkan berhasil meningkatkan performa UAS se- banyak 32.5%.

In this dissertation, we address the lack of resources for Indonesian syntactic parsing research, especially the need for better quality Indonesian dependency treebanks. This work has three objectives: 1) to propose annotation guidelines for Indonesian dependency treebank that conform to UD v2 annotation guidelines, 2) to build a gold standard dependency treebank, 3) to build a silver standard dependency tree- bank by converting an existing Indonesian constituency treebank automatically to a dependency treebank.
We have proposed a set of annotation guidelines for Indonesian dependency tree- bank that conform to UD v2. The guidelines cover tokenization/word segmenta- tion, POS tagging, morphological features analysis, and dependency annotation. We proposed how to handle Indonesian clitics/multiword tokens, reduplication, and abbreviation for word segmentation. For POS tagging, we presented the mapping from UD v2 guidelines to the Indonesian lexicon. For morphological features, we proposed the use of 14 of 24 UD v2 morphological features along with 27 UD v2 feature-value tags for Indonesian grammar. Finally, we proposed using 14 language- specific relations to annotate the particular structures in Indonesian grammar for dependency annotation.
A gold standard Indonesian dependency treebank also has been built based on our proposed annotation guidelines. The gold standard was constructed by manually revised an existing Indonesian dependency treebank. The revision project consists of two phases. Major revision on word segmentation, POS tagging, and dependency relation annotation was conducted in the first phase. In the second phase, we added the lemma information and morphological features. Finally, we evaluated the qual- ity of the revised treebank by building a dependency parser using UDPipe. The experiment results show that we successfully improved the quality of the original treebank with a margin of 9% for UAS and 14% for LAS.
Finally, we built a silver standard treebank by automatically converting an Indone- sian constituency treebank to a dependency treebank. In this work, we proposed a method to improve the output of an English NLP tool named Stanford UD con- verter. We transformed the output so that it conforms to the head-directionality rule for noun phrases in Indonesian. We called the proposed tree rotation algorithm the headSwap method and the rule for noun phrases as the compound rule. The evaluation shows that our proposed method improved the UAS with a margin of 32.5%.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library
cover
Rocky Arkan Adnan Ahmad
"Model natural language processing (NLP) ditantang tidak hanya memiliki kemampuan “mengingat” secara statistik, tapi juga dapat melakukan semantic reasoning mendekati kemampuan manusia dalam memahami bahasa. Tugas ini disebut juga sebagai tugas yang menguji penalaran (commonsense reasoning) untuk suatu model. Tugas commonsense reasoning pada bahasa Indonesia sudah ada, tetapi performa mesin pada tugas tersebut masih terbilang rendah. Penelitian ini mencoba meningkatkan performa mesin dalam tugas commonsense reasoning bahasa Indonesia. Digunakan tiga buah metode, yaitu intermediate-task transfer learning, cross-lingual transfer learning, dan task recasting. Ditemukan kalau intermediate-task transfer learning efektif dilakukan untuk data commonsense reasoning bahasa Indonesia, dengan peningkatan performa di berbagai tugas. Metode cross-lingual transfer learning juga ditemukan sangat efektif dilakukan. Didapatkan performa yang melebihi baseline pada tugas IndoGrad hanya dengan melatih model dalam data bahasa Inggris dan melakukan klasifikasi secara zero-shot pada data bahasa Indonesia. Lalu didapatkan juga performa state-of-the-art (SOTA) baru dalam IndoGrad yaitu 0.803, naik 0.116 dari performa tertinggi penelitian sebelumnya. Performa tersebut dicapai menggunakan model yang dilakukan fine-tuning pada data bahasa Indonesia setelah dilatih dengan data bahasa Inggris. Pada metode task recasting, performa model masih rendah dan didapatkan performa chance pada data uji. Dilakukan juga penjelasan terhadap model dalam menjawab tugas commonsense reasoning bahasa Indonesia. Penjelasan dilakukan dengan visualisasi attention dan probing task. Ditemukan model mendapatkan kenaikan performa dalam probing task ketika performa pada tugas commonsense reasoning juga naik. Ditemukan juga model dapat menjawab dengan benar dengan memberikan attention yang lebih besar ke pada jawaban yang benar dan mengurangi attention pada jawaban yang salah.

A natural language processing (NLP) model is challenged to not only ’remember’ statistically, but can also perform semantic reasoning close to human ability on language understanding. This task is also known as a commonsense reasoning task. Commonsense reasoning tasks in Indonesian already exist, but the machine performance is still relatively low. This research aims to improve the machine performance on commonsense reasoning tasks in Indonesian. Three methods are used: intermediate-task transfer learning, cross-lingual transfer learning, and task recasting. It was found that intermediate-task transfer learning was effective for commonsense reasoning tasks in Indonesian, with improved performance on various tasks. Cross-lingual transfer learning was also found to be very effective. A model that only trained on English data and performs zero-shot classification was found to have performance that exceeds baseline on the IndoGrad task. A new state-of-the-art (SOTA) performance was also achieved on the IndoGrad task, which is 0.803, up 0.116 from the highest performance in the previous study. This result is achieved using a model that was fine-tuned on Indonesian data after being trained on English data. On the task recasting method, the model performance is still low and chance performance is achieved on the test set. Model explanation on answering a commonsense reasoning task in Indonesian is also conducted. Probing task and attention visualization are used for model explanation. It was found that the model that got increased performance on probing task also got increased performance on commonsense reasoning task. It was also found that the model can answer correctly by giving more attention to the correct answer and reducing attention to the incorrect answer."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Joshua Kurniawan Djafar
"Penerapan dari pengolahan bahasa alami ini telah banyak dilaksanakan dengan tujuan tertentu. Salah satu tujuannya adalah aplikasi basis data yang dikembangkan oleh program ini. Pada dasarnya program ini akan mengolah bentuk dari kalimat-kalimat query dalam bahasa Indonesia dan merubahnya menjadi bentuk SQL standar. SQL standar inilah yang akan diinterpretasikan oleh suatu RDBMS (Oracle, Informix,dan sebagainya). Kelemahan utama dari pengolahan bahasa alami ini adalah keterbatasan dari semantik kalimat yang disebabkan oleh keterbatasan yang ada pada SQL ini sendiri. Suatu kalimat membutuhkan suatu bentuk tata bahasa. Bagaimanapun alaminya suatu kalimat bahasa, kalimat tersebut pasti akan mengikuti kaidah umum yang ada pada suatu struktur tata bahasa. Penyusunan dari tata bahasa inilah yang merupakan hal yang terpenting dalam pengolahan bahasa alami. Tata bahasa semantik adalah tata bahasa yang disusun bukan berdasarkan pada sintak kalimat, tetapi disusun berdasarkan pada arti kata penyusun kalimat. Kebutuhan akan pembentukan tata bahasa semantic ini membutuhkan penelitian tersendiri untuk memperoleh struktur umum dari kalimat-kalimat yang akan digunakan oleh pemakai."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 1992
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Muhammad Faisal Adi Soesatyo
"Pendekatan transfer learning telah digunakan di beragam permasalahan, khususnya low-resource language untuk meningkatkan performa model di masing-masing permasalahan tersebut. Fokus pada penelitian ini ingin menyelidiki apakah pendekatan cross-lingual transfer learning mampu meningkatkan performa pada model constituency parsing bahasa Indonesia. Constituency parsing adalah proses penguraian kalimat berdasarkan konstituen penyusunnya. Terdapat dua jenis label yang disematkan pada konstituen penyusun tersebut, yakni POS tag dan syntactic tag. Parser model yang digunakan di penelitian ini berbasis encoder-decoder bernama Berkeley Neural Parser. Terdapat sebelas macam bahasa yang digunakan sebagai source language pada penelitian ini, di antaranya bahasa Inggris, Jerman, Prancis, Arab, Ibrani, Polandia, Swedia, Basque, Mandarin, Korea, dan Hungaria. Terdapat dua macam dataset bahasa Indonesia berformat Penn Treebank yang digunakan, yakni Kethu dan ICON. Penelitian ini merancang tiga jenis skenario uji coba, di antaranya learning from scratch (LS), zero-shot transfer learning (ZS), dan transfer learning dengan fine-tune (FT). Pada dataset Kethu terdapat peningkatan F1 score dari 82.75 (LS) menjadi 84.53 (FT) atau sebesar 2.15%. Sementara itu, pada dataset ICON terjadi penurunan F1 score dari 88.57 (LS) menjadi 84.93 (FT) atau sebesar 4.11%. Terdapat kesamaan hasil akhir di antara kedua dataset tersebut, di mana masing-masing dataset menyajikan bahwa bahasa dari famili Semitic memiliki skor yang lebih tinggi dari famili bahasa lainnya.

The transfer learning approach has been used in various problems, especially the low-resource languages, to improve the model performance in each of these problems. This research investigates whether the cross-lingual transfer learning approach manages to enhance the performance of the Indonesian constituency parsing model. Constituency parsing analyzes a sentence by breaking it down by its constituents. Two labels are attached to these constituents: POS tags and syntactic tags. The parser model used in this study is based on the encoder-decoder named the Berkeley Neural Parser. Eleven languages are used as the source languages in this research, including English, German, French, Arabic, Hebrew, Polish, Swedish, Basque, Chinese, Korean, and Hungarian. Two Indonesian PTB treebank datasets are used, i.e., the Kethu and the ICON. This study designed three types of experiment scenarios, including learning from scratch (LS), zero-shot transfer learning (ZS), and transfer learning with fine-tune (FT). There is an increase in the F1 score on the Kethu from 82.75 (LS) to 84.53 (FT) or 2.15%. Meanwhile, the ICON suffers a decrease in F1 score from 88.57 (LS) to 84.93 (FT) or 4.11%. There are similarities in the final results between the two datasets, where each dataset presents that the languages from the Semitic family have a higher score than the other language families."
Depok;;: Fakultas Ilmu Komputer Universitas Indonesia;;, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Santos, Cícero Nogueira dos
"The authors describe ETL Committee, an ensemble method that uses ETL as the base learner. Experimental results show that ETL Committee improves the effectiveness of ETL classifiers. The application of ETL is presented to four Natural Language Processing (NLP) tasks : part-of-speech tagging, phrase chunking, named entity recognition and semantic role labeling. Extensive experimental results demonstrate that ETL is an effective way to learn accurate transformation rules, and shows better results than TBL with handcrafted templates for the four tasks. By avoiding the use of handcrafted templates, ETL enables the use of transformation rules to a greater range of tasks."
London: Springer , 2012
e20407585
eBooks  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>