Hasil Pencarian

Ditemukan 2 dokumen yang sesuai dengan query

Lucky Susanto

Pengembangan Tolok Ukur Translasi Standar untuk Bahasa Daerah dengan Sumber Data Terbatas di Indonesia = Developing a Standardized Translation Benchmark for Low Resource Local Languages in Indonesia

Abstrak :
Neural machine translation (NMT) untuk bahasa daerah yang low resource di Indonesia menghadapi tantangan yang signifikan, meliputi kurangnya tolok ukur dasar yang representatif dan ketersediaan data yang terbatas. Penelitian ini mengatasi masalah tersebut dengan cara mengembangkan sebuah tolok ukur dasar yang bersifat replicable untuk empat bahasa daerah di Indonesia yang sering digunakan menggunakan sumber daya komputasi terbatas pada dataset FLORES-200. Penelitian ini mengadakan penyelidikan sistematis dan pemeriksaan menyeluruh terhadap berbagai pendekatan dan paradigma untuk melatih model NMT pada konteks sumber daya komputasi terbatas yang pertama. Tolok ukur ini, dilatih menggunakan sumber daya komputasi dan data pelatihan terbatas, mencapai performa yang kompetitif serta mampu melewati performa GPT-3.5-turbo yang telah di zero-shot untuk berbagai arah translasi dari bahasa Indonesia ke bahasa daerah yang low resource. Penelitian ini berkontribusi kepada kemajuan bidang NMT untuk bahasa-bahasa low resource di Indonesia dan membuka jalan untuk penelitian kedepannya sekaligus mengeksplorasi limitasi GPT-3.5-turbo dalam melakukan translasi bahasa daerah yang low resource. Akhirnya, penelitian ini menunjukkan bahwa melatih model XLM menggunakan data sintetis hasil code-switch memiliki performa translasi diatas pendekatan pelatihan penuh dan pelatihan model XLM dengan data monolingual saja. ......Neural machine translation (NMT) for low-resource local languages in Indonesia faces significant challenges, including the lack of a representative benchmark and limited data availability. This study addresses these challenges by establishing a replicable benchmark for four frequently spoken Indonesian local languages using limited computing resources on the FLORES-200 dataset. This study conduct the first systematic and thorough examination of various approaches and paradigms for NMT models in low-resource language settings. The benchmark, trained with limited computing power and training data, achieves competitive performance and surpass zero-shot GPT-3.5-turbo in multiple translation directions from Indonesian to low-resource local languages. This work contributes to the advancement of NMT for low-resource Indonesian languages and pave ways for future studies while exploring the limit of GPT-3.5-turbo in translating low-resource local languages. This study shows that training XLM models using synthetic data through code-switching increases translation performance of NMT models down the line compared to just training NMT models from scratch or training XLM models with only monolingual data.

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Ryan Pramana

Strategi Strategi Fine-Tuning Dan Augmentasi Data Lintas Bahasa Untuk Meningkatkan Kinerja Model Bert Pada Tugas Machine Reading Comprehensive Dalam Bahasa Sumber Daya Rendah = Fine-Tuning And Crosslingual Data Augmentation Strategies To Improve BERT Model Performance On Machine Reading Comprehension Task In Low Resource Languages

Abstrak :
Machine Reading Comprehension (MRC) merupakan salah satu task di bidang natural language processing (NLP) dimana mesin memiliki tugas untuk membaca secara komprehensif dari sebuah bacaan (passage) yang diberikan agar dapat menjawab pertanyaan terkait. Metode terkini untuk mengautomasi MRC menggunakan deep learning dengan memanfaatkan pretrained language models (PLMs) berbasis BERT. Dalam menangani kasus MRC sumber daya rendah, digunakan PLM multilingual seperti XLM-R. Namun PLM multilingual memiliki masalah untuk bahasa sumber daya rendah yaitu: bahasa sumber daya rendah yang tidak terepresentasi dengan baik, imperfect cross-lingual embeddings alignment dan instabilitas ketika di fine-tuning pada data berukuran kecil. Penelitian ini mengusulkan beberapa strategi fine-tuning dan metode pembentukan data augmentasi untuk meningkatkan kinerja MRC dibahasa sumber daya rendah. Strategi fine-tuning yang diusulkan adalah 2-step fine-tuning dan mixed fine-tuning. Untuk metode pembentukan data augmentasi yaitu dengan penggunaan data asli, pengaplikasian model machine translation dan perturbasi code-switching. Hasil eksperimen menunjukkan, untuk dataset FacQA (Bahasa Indonesia) dan UIT-ViQuAD (Bahasa Vietnam) diperoleh strategi terbaik dengan kombinasi strategi penggunaan data asli dan metode 2-step finetuning dimana menghasilkan peningkatan kinerja sebesar 3.858%, 2.13% secara berurutan. Untuk dataset FQuAD (Bahasa Prancis), strategi terbaik diperoleh de- ngan kombinasi strategi pembentukan data perturbasi code-switching dan metode mixed fine-tuning dimana menghasilkan peningkatan kinerja sebesar 1.493%. ......Machine Reading Comprehension (MRC) is one of the tasks in the field of natural language processing (NLP) where the machine has the task of reading comprehensively from a given passage in order to answer related questions. The latest method for automating MRC uses deep learning by utilizing pretrained language models (PLMs) based on BERT. For handling low-resource MRC, multilingual PLMs such as XLM-R are used. However, multilingual PLM has problems for low resource languages: low resource languages that are underrepresented, imperfect cross-lingual embeddings alignment and instability when finetuned on small data.This study proposes several fine-tuning strategies and data augmentation generation methods to improve lowresource languages MRC performance. The proposed fine-tuning strategies are 2-step fine-tuning and mixed fine-tuning. For the method of form- ing augmented data, namely by using data original model, application of machine translation and code-switching pertubation to optimize cross-lingual embeddings alignment in multilingual PLM. The experimental results show that for the FacQA (Indonesian) and UIT-ViQuAD (Vietnamese) datasets, the best strategy is obtained by combining the strategy of using original data and the 2-step fine-tuning method which results in an performance improvement of 3.858%, 2.13%, respectively. For the FQuAD dataset (French), the best strategy was obtained by a combination of code-switching perturbation strategy and mixed fine-tuning method which resulted in an performance improvement of 1.493%.

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian