Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 9 dokumen yang sesuai dengan query
cover
Siregar, Ahmad Hasan
Abstrak :
Visual Question Answering (VQA) adalah sebuah tugas pembelajaran mesin di mana diberikan pasangan gambar dan pertanyaan visual dalam bahasa natural, mesin harus memprediksi jawaban yang tepat. Kesulitan dari tugas VQA adalah masukan melibatkan dua media informasi (modality), yaitu gambar dan teks. VQA masih merupakan bidang penelitian yang aktif yang setiap tahunnya berbagai peneliti mempublikasikan model VQA, sebuah respons terhadap VQA challenge, dengan akurasi state-of-the-art tahun 2016 di 66.47% dan akurasi state-of-ther-art terakhir tahun 2019 masih di 75.23%. Diketahui bahwa tidak ada data VQA yang tersedia dalam bahasa Indonesia, data VQA Monas disusun dalam bahasa tersebut dengan fokus Monas sebagai konteksnya yang merupakan objek pariwisata di Jakarta. Metode pembelajaran mesin multimodal diajukan menggunakan CNN sebagai image embedding dan beberapa teknik di bidang linguistik sebagai sentence embedding, yaitu Bag-of-Words, fastText, BERT, dan [Bi-]LSTM. Akurasi sebesar 68.39% dicapai pada model dengan performa terbaik. Studi ablasi juga dilaporkan untuk menganalisis pengaruh dari sebuah lapisan individu terhadap akurasi model secara keseluruhan. ......Visual Question Answering (VQA) is a machine learning task, given a pair of image and natural language visual question, machine should predict an accurate answer. Difficulty of VQA lies in the fact that the inputs has two information media (modality), i.e. image and text. VQA is an active research field as each year researchers still publish VQA models, a response to a VQA challenge, with state-of-the-art accuracy in 2016 at 66.47% and the latest state-of-the-art accuracy in 2019 is still at 75.23%. Known that there is no VQA dataset available in Bahasa Indonesia, a VQA Monas dataset is established in that language with focus on Monas as the context, a Jakarta tourism object. A multimodal machine learning method is proposed based on CNN for image embedding and several techniques in linguistic field for sentence embedding, i.e. Bag-of-Words, fastText, BERT, and [Bi-]LSTM. Accuracy of 68.39% is achieved on the best performing model. Ablation studies is also shown to analyze the impact of a layer to model’s accuracy as a whole.
Depok: Fakultas Ilmu Kompter Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Aji Inisti Udma Wijaya
Abstrak :
Sistem rekomendasi dan pemelajaran mesin berbasis graf adalah bidang ilmu yang sedang berkembang dan populer. Sistem rekomendasi telah banyak digunakan sebagai alat yang dapat memberikan rekomendasi produk kepada pengguna. Sistem rekomendasi dapat digunakan untuk melakukan prediksi produk perbankan yang akan disarankan kepada pengguna, sehingga memudahkan pengguna untuk memilih produk perbankan yang tepat dan sudah dipersonalisasi. Perkembangan pemelajaran mesin berbasis graf dapat diimplementasikan dalam segala hal yang dapat direpresentasikan dalam bentuk graf. Rekomendasi produk perbankan dapat diterapkan dalam bentuk graf yaitu dengan menghubungkan nasabah yang pernah membeli produk ataupun nasabah yang memiliki profil yang mirip. Dari graf yang telah dibentuk, akan dilakukan prediksi sehingga nasabah baru dapat diklasifikasikan sebagai direkomendasikan dengan menghubungkan nasabah tersebut kedalam graf. Dalam penelitian ini, diterapkan tiga model rekomendasi berbasis graf dan tiga model rekomendasi berbasis pohon. Model berbasis graf yang digunakan adalah GraphSAGE, GAT dan GCN. Model berbasis pohon yang digunakan adalah Random Forest, LightGBM dan XGBoost. Dari keenam model yang dibuat, dilakukan perbandingan terhadap performa dan waktu inferensi. Hasil eksperimen menunjukkan bahwa model rekomendasi berbasis graf menghasilkan nilai AUC tertinggi 0,974 sedangkan untuk model rekomendasi berbasis pohon mendapatkan nilai AUC tertinggi 0,863 yang menunjukan bahwa model berbasis graf memiliki performa yang lebih baik dibandingkan model berbasis pohon. Pada penelitian ini juga didapatkan bahwa waktu inferensi dari model berbasis pohon lebih cepat 900 kali lipat dibandingkan waktu inferensi model berbasis graf. ......Recommendation systems and graph-based machine learning are growing and popular fields nowadays. Recommendation system has been widely used as a tool that can provide product recommendations to users. Recommendation system can be used to predict banking products that will be suggested to users, making it easier for users to choose the right and personalized banking products. The development of graph-based machine learning can be implemented in everything that can be represented in the form of a graph. Recommendations for banking products can be applied in the form of graphs with connecting customers who have purchased the product or customers who have a similar profile to customers who have purchased the product. From the graph that has been formed, predictions will be made so that new customers can be classified as recommended by connecting these customers to the graph. In this study, three graph-based recommendation models and three tree-based recommendation models were applied. The graph-based models used are GraphSAGE, GAT and GCN. The tree-based models used are Random Forest, LightGBM and XGBoost. Comparison was made on the performance and inference time from the six models that have been made. The experiment results show that the graph-based recommendation model get highest AUC score 0.974 and tree-based recommendation model get highest AUC score 0.863 which indicates that graph-based recommendation model get better performace than tree-based recommendation model. It also fount that time inference of the tree-based model is 900 times faster than the inference time of the graph-based model.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
I Gusti Bagus Hadi Widhinugraha
Abstrak :

Bahasa isyarat merupakan suatu tatanan gerakan yang mewakili suatu kosakata pada bahasa tertentu dan memiliki fungsi untuk membantu penyandang tunarungu dalam mengatasi masalah berkomunikasi. Namun tidak semua masyarakat umum menguasai bahasa isyarat. Dari permasalahan tersebut, sistem penerjemah bahasa isyarat diperlukan dalam membantu proses komunikasi penyandang tunarungu. Sistem penerjemah memerlukan sebuah video gerakan bahasa isyarat untuk kemudian dapat dikenali Dalam sebuah video utuh yang berisi satu sequence gerakan kalimat isyarat terdapat dua jenis gerakan yaitu gerakan isyarat (gesture) yang mengandung arti dan gerakan transisi (non gesture). Pada penelitian ini diusulkan metode untuk menngenali gesture dan non gesture pada kalimat SIBI (Sistem Isyarat Bahasa Indonesia) menggunakan Threshold Conditional Random Field (TCRF). Data yang digunakan adalah 2.255 video rekaman gerakan untuk 28 isyarat kalimat pada SIBI yang di peragakan oleh  tiga orang guru dan dua orang murid dari SLB Santi Rama Jakarta. Untuk merepresentasikan data, pada penelitian ini dibandingkan teknik ekstraksi fitur skeleton, image, gabungan (gabungan antara fitur skeleton dan fitur image) dan MobileNetV2. Untuk klasifikasi digunakan metode TCRF dengan variasi nilai threshold dari 1 sampai 4. Berdasarkan hasil eksperimen, masing-masing teknik ekstraksi fitur menghasilkan akurasi terbaik sebesar 72.5% untuk skeleton dengan threshold 2, 70.3% untuk image dengan threshold 2, 68.5% untuk gabungan dengan threshold 2 dan 93.2% untuk MobileNetV2 dengan threshold 1.5. Berdasarkan akurasi tersebut teknik ekstraksi fitur dengan model MobileNetV2 dapat merepresentasikan data lebih baik dibandingkan dengan ekstraksi skeleton, image, dan gabungan


Sign language is a series of movements that represent the vocabulary of a particular language and is designed to help the hearing-impaired communicate. However, not everyone is familiar with the sign language gestures, so a sign language translation system would aid communication by allowing more people to understand sign language gestures. A video that contains a sequence of sign sentences with two types of movements, namely sign movements (word-gestures) which have represent language constructs, and transitional movements (transitional-gesture). A method to identify both word-gestures and transitional-gestures in a variant of the Indonesian Sign Language System called Sistem Isyarat Bahasa Indonesia (hereafter referred to as SIBI) sentences based on the Threshold Conditional Random Field (TCRF) was implemented. The dataset on which the model is trained, consists of 2,255 videos containing recorded movements for 28 commonly used sentences in SIBI, performed by three teachers and two students of the Santi Rama School (Sekolah Luar Biasa), a school for hearing-impaired students. Several feature extraction techniques were tested, including skeleton, image, skeleton-image combination and MobileNetV2. The classification method uses TCRF with variations in TCRF threshold values between 1 to 4 to recognize word-gestures and transitional-gestures, then deleting frames with transitional-gestures label, and obtaining accuracy from LSTM that recognizes words from the per-frame word-gesture label. The best accuracies achieved by each method were 72.5% for skeleton technique with a TCRF threshold of 2; 70.3% for image technique with a TCRF threshold of 2; 68.5 % for skeleton-image combination, with a TCRF threshold of 2; and 93.2% for MobileNetV2 with threshold 1.5. Using MobileNetV2 as a feature extractor yields significantly better results than previous feature extraction methods.

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
IGM Surya A. Darmana
Abstrak :

Sistem Isyarat Bahasa Indonesia (SIBI) adalah sistem bahasa isyarat yang diakui secara resmi oleh Departemen Pendidikan dan Kebudayaan Indonesia dan digunakan sebagai salah satu media komunikasi dalam proses pembelajaran di SLB (Sekolah Luar Biasa) bagi kaum tunarungu. Bagi kaum awam yang sama sekali tidak mengetahui gerakan isyarat SIBI tentunya akan mengalami kesulitan ketika harus berkomunikasi dengan kaum tunarungu. Berangkat dari hal tersebut, diperlukan suatu sistem penerjemah dari gerakan SIBI ke teks Bahasa Indonesia, ataupun sebaliknya dari teks Bahasa Indonesia ke gerakan SIBI. Penelitian ini merupakan tahapan awal dari sistem penerjemah dari teks Bahasa Indonesia ke bahasa isyarat yang memiliki fokus untuk melakukan proses pembangkitan gerakan isyarat dari suatu kalimat menjadi isyarat SIBI dalam bentuk animasi tiga dimensi gerakan tangan dan jari pada platform telepon pintar. Proses pembangkitan gerakan dimulai dari proses dekonstruksi kalimat menjadi komponen-komponen kata penyusunnya menggunakan look-up table kata berimbuhan, kata dasar, dan kamus slang. Komponen-komponen kata lalu direferensikan dengan animasi gerakannya. Data gerakan didapat melalui proses perekaman menggunakan sensor motion-capture perception neuron v2 yang mengacu pada kamus SIBI. Dalam proses penyusunan gerakan-gerakan SIBI, akan terdapat jeda antara gerakan awal menuju gerakan selanjutnya. Sehingga diperlukan beberapa gerakan transisi yang dibangkitkan menggunakan interpolasi cross-fading. Berdasarkan hasil evaluasi yang telah dilakukan, gerakan yang dibangkitkan dapat merepresentasikan gerakan SIBI yang benar dengan nilai akurasi terbesar 97.56%, dan 84% hasil pembangkitan dinyatakan Sangat Puas, 14% Puas, serta 2% Cukup.


Sign System for Bahasa Indonesia (SIBI) is the official sign language authorized by The Ministry of Education and Culture of Indonesia and being used as one of the communication media by School for Children with Special Needs (SLB) for people with hearing impairments in the process of learning. For people who have a lack of knowledge about SIBI gestures certainly will have difficulty to communicate with people with hearing impairments. Thus, a translation system from SIBI gestures to sentences in Bahasa Indonesia or vice versa is needed. This research is the initial stage of a translation system from sentences in Bahasa Indonesia to SIBI Gestures. The focus of this research is to generate sign gestures in the form of 3D Animation from a sentence input in text format and deployed on the smartphone device. The generation process started from deconstructing the input sentence into its word components using a look-up table that consists of affixes, root words, and a slang dictionary. Then, this word components referred to their gesture animations. The gesture data were recorded with motion-capture sensor Perception Neuron v2 and using the official SIBI Dictionary as reference. In the process of combining the SIBI gestures, a pause between the initial gesture and the next gesture has occurred. Thus, transition gestures also needed to be generated using the cross-fading interpolation. Based on evaluation results, generated gestures correctly represent smooth SIBI gestures with the largest accuracy score of 97.56% with a level of Very Satisfied 84%, Satisfied 14%, Fair 2%.

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
T-Pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Rusnanda Farhan
Abstrak :
Penilaian citra embrio manusia memiliki peran yang penting dalam proses Fertilisasi In Vitro (FIV) atau yang dikenal juga sebagai proses bayi tabung. Penilaian citra embrio ini dilakukan secara manual oleh ahli embriologi. Hal ini tentunya membutuhkan waktu yang lama dan konsentrasi yang tinggi dari ahli embriologi sehingga perlu ada sistem yang dapat membantu ahli embriologi dalam melakukan penilaian dengan lebih efisien. Salah satu waktu penilaian embrio yang paling penting yaitu ketika embrio berusia lima hari, dimana ini merupakan tahap penilaian akhir sebelum proses implantasi ke rahim. Penilaian embrio pada hari kelima didasarkan pada tiga aspek yaitu derajat ekspansi, Inner Cell Mass, dan Trophoectoderm, yang menjadi tantangan tersendiri dalam penelitian di bidang ini. Permasalahan lain yang muncul yaitu ketersediaan data yang terbatas dan ketidakseimbangan proporsi kelas atau target pada dataset. Penelitian ini mengusulkan penggunaan augmentasi data berbasis Generative Adversarial Network seperti VanillaGAN, InfoGAN, DCGAN, dan Adversarial Autoencoder sehagai solusi permasalahan ketidakseimbangan data. Penelitian ini juga mengembangkan model klasifikasi berbasis Convolutional Neural Network sebagai klasifikator untuk menilai citra embrio. Penelititan ini menggunakan 10-fold cross validation untuk mengukur kinerja model. Untuk kategori derajat ekspansi, penelitian ini memperoleh hasil terbaik dengan model Convolutional Neural Network yang dikombinasikan dengan Adversarial Autoencoder sebagai augmentasi data dengan nilai f1-score sebesar 0.92. Untuk kategori Inner Cell Mass, penelitian ini memperoleh hasil terbaik dengan model Convolutional Neural Network yang dikombinasikan dengan VanillaGAN sebagai augmentasi data dengan nilai f1-score sebesar 0.92. Serta untuk kategori Trophoectoderm, model Convolutional Neural Network yang dikombinasikan dengan Adversarial Autoencoder memperoleh hasil terbaik dengan nilai f1-score sebesar 0.89. ......Assessment of human embryo images has an important role in the process of In Vitro Fertilization (IVF). Evaluation of this embryo image is done manually by the embryologist. This requires a long time and high concentration of embryologists, so it is necessary to create a system that can assist embryologists in making assessments more efficiently. One of the most important parts of human embryo assessment is the embryo on the fifth day after fertilization. Evaluation of embryos on the fifth day is based on three aspects, namely the degree of expansion, Inner Cell Mass, and Trophoectoderm, which is a particular challenge in research in this field. Another problem for this case is the limited availability of data and an imbalanced dataset. This study proposes the use of Generative Adversarial Network-based for data augmentation such as VanillaGAN, InfoGAN, DCGAN, and Adversarial Autoencoder as a solution to imbalanced data problems. This study also developed a classification model based on the Convolutional Neural Network as a classifier for assessing embryo images. This research uses 10-fold cross validation to measure model performance. This study obtained the best results for the degree of expansion category with the Convolutional Neural Network model combined with the Adversarial Autoencoder as a data augmentation with an f1-score of 0.92. This study obtained the best results for the Inner Cell Mass category with the Convolutional Neural Network model combined with VanillaGAN as a data augmentation with an f1-score of 0.92. The best result for Trophoectoderm category is Convolutional Neural Network model combined with the Adversarial Autoencoder as a data augmentation with an f1-score of 0.89.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Alif Ahsanil Satria
Abstrak :
Pengenalan entitas bernama (named-entity recognition atau NER) adalah salah satu topik riset di bidang pemrosesan bahasa alami (natural language processing atau NLP). Pengenalan entitas bernama merupakan langkah awal mengubah unstructured text menjadi structured text. Pengenalan entitas bernama berguna untuk mengerjakan NLP task yang lebih high-level seperti ekstraksi informasi (information extraction atau IE), Question Answering (QA), dan lain-lain. Penelitian ini memanfaatkan data berita dan wikipedia masing-masing sebanyak 200 dokumen yang digunakan untuk proses pengujian dan pelatihan. Penelitian ini mencoba mengeksplorasi entitas bernama baru yang tidak sebatas Person, Location, dan Organization. Named entity baru tersebut adalah Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), dan Miscellaneous. Jadi, penelitian ini menggunakan 11 entitas bernama. Dalam penelitian ini, permasalahan tersebut dipandang sebagai sequence labelling. Penelitian ini mengusulkan penggunaan model conditional random field sebagai solusi permasalahan ini. Penelitian ini mengusulkan penggunaan fitur tambahan seperti kata sebelum, kata sesudah, kondisi huruf kapital di awal kata, dan lain-lain, serta word embedding. Penelitian ini menghasilkan performa dengan nilai F-measure terbaik sebesar 67.96% untuk data berita dan 67.09% untuk data wikipedia. ......
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Lucky Susanto
Abstrak :
Neural machine translation (NMT) untuk bahasa daerah yang low resource di Indonesia menghadapi tantangan yang signifikan, meliputi kurangnya tolok ukur dasar yang representatif dan ketersediaan data yang terbatas. Penelitian ini mengatasi masalah tersebut dengan cara mengembangkan sebuah tolok ukur dasar yang bersifat replicable untuk empat bahasa daerah di Indonesia yang sering digunakan menggunakan sumber daya komputasi terbatas pada dataset FLORES-200. Penelitian ini mengadakan penyelidikan sistematis dan pemeriksaan menyeluruh terhadap berbagai pendekatan dan paradigma untuk melatih model NMT pada konteks sumber daya komputasi terbatas yang pertama. Tolok ukur ini, dilatih menggunakan sumber daya komputasi dan data pelatihan terbatas, mencapai performa yang kompetitif serta mampu melewati performa GPT-3.5-turbo yang telah di zero-shot untuk berbagai arah translasi dari bahasa Indonesia ke bahasa daerah yang low resource. Penelitian ini berkontribusi kepada kemajuan bidang NMT untuk bahasa-bahasa low resource di Indonesia dan membuka jalan untuk penelitian kedepannya sekaligus mengeksplorasi limitasi GPT-3.5-turbo dalam melakukan translasi bahasa daerah yang low resource. Akhirnya, penelitian ini menunjukkan bahwa melatih model XLM menggunakan data sintetis hasil code-switch memiliki performa translasi diatas pendekatan pelatihan penuh dan pelatihan model XLM dengan data monolingual saja. ......Neural machine translation (NMT) for low-resource local languages in Indonesia faces significant challenges, including the lack of a representative benchmark and limited data availability. This study addresses these challenges by establishing a replicable benchmark for four frequently spoken Indonesian local languages using limited computing resources on the FLORES-200 dataset. This study conduct the first systematic and thorough examination of various approaches and paradigms for NMT models in low-resource language settings. The benchmark, trained with limited computing power and training data, achieves competitive performance and surpass zero-shot GPT-3.5-turbo in multiple translation directions from Indonesian to low-resource local languages. This work contributes to the advancement of NMT for low-resource Indonesian languages and pave ways for future studies while exploring the limit of GPT-3.5-turbo in translating low-resource local languages. This study shows that training XLM models using synthetic data through code-switching increases translation performance of NMT models down the line compared to just training NMT models from scratch or training XLM models with only monolingual data.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Zafira Binta Feliandra
Abstrak :
Penyakit stroke adalah penyebab kematian terbesar kedua di dunia. Pasien stroke harus menjalani perawatan berupa latihan rehabilitasi secara rutin untuk memulihkan fungsi motorik mereka. Sering kali pasien stroke kesulitan mendapatkan perawatan karena keterbatasan ekonomi dan mobilisasi. Selain itu, kondisi pandemi COVID-19 sekarang ini membuat pasien takut untuk pergi ke rumah sakit. Telehealth sebagai pelayanan kesehatan jarak jauh merupakan salah satu solusi untuk kondisi tersebut. Aplikasi telehealth untuk rehabilitasi stroke dapat dikembangkan dikombinasikan dengan teknologi human motion detection. Penelitian ini bertujuan untuk mengetahui model human motion detection yang dapat mendeteksi gerakan secara stabil serta untuk mengetahui model klasifikasi yang dapat mengklasifikasi gerakan stroke dan non stroke secara akurat. Penelitian dilakukan menggunakan data video gerakan pasien stroke dan orang sehat sebagai input model human motion detection. Keypoints hasil ekstraksi dari model human motion detection kemudian ditransformasi menjadi gambar RGB dan digunakan sebagai input model klasifikasi. Penelitian ini membandingkan tiga model human motion detection, yaitu PoseNet, BlazePose, dan MoveNet, serta dua model klasifikasi gambar, yaitu AlexNet dan SqueezeNet. Beberapa eksperimen dilakukan untuk mengklasifikasi gerakan stroke dan non stroke. Terdapat eksperimen dengan pembagian data tanpa 3-Fold Cross Validation, eksperimen dengan pembagian data 3-Fold Cross Validation, eksperimen menggunakan semua keypoints hasil ekstraksi model human motion detection, dan eksperimen menggunakan beberapa keypoints yang relevan. Model human motion detection dan model klasifikasi terbaik dari hasil penelitian ini diharapkan dapat berkontribusi kepada para pihak yang ingin mengembangkan aplikasi telehealth sebagai sarana rehabilitasi stroke. Berdasarkan hasil penelitian ini, didapatkan bahwa MoveNet adalah model human motion detection yang paling stabil dalam memantau pergerakan pasien dan AlexNet adalah model klasifikasi terbaik untuk mengklasifikasikan pasien stroke dan non stroke berdasarkan gerakan upper body dan gerakan lower body. ......Stroke is the second biggest cause of death in the world. Stroke patients must undergo rehabilitation on regular basis to exercise and restore their motor functions. Oftentimes, stroke patients find it difficult to get their treatment because of economic and mobility limitations. In addition, the current state of the COVID-19 pandemic makes patients afraid to go to the hospital. Telehealth as a long-distance health service is one of the solution for this condition. Telehealth applications for stroke rehabilitation can be developed in combination with human motion detection technology. This study aims to determine the human motion detection model that can detect movement steadily and determine the classification model that can classify stroke and non-stroke motions accurately. The study was conducted using video data of stroke patients and healthy people as input for the human motion detection model. Keypoints extracted from the human motion detection model are then transformed into RGB images and used as input for the classification model. This study compares three models of human motion detection, namely PoseNet, BlazePose, and MoveNet and two image classification models, namely AlexNet and SqueezeNet. Several experiments were conducted to classify stroke and non-stroke motions. There are experiments without data splitting 3-Fold Cross Validation, experiments with data splitting 3-Fold Cross Validation, experiments using all keypoints extracted from the human motion detection model, and experiments using several relevant keypoints. The most steady human motion detection model and the best classification model from the results of this study are expected to contribute to those who want to develop telehealth applications as a means of stroke rehabilitation. Based on the results of this study, it was found that MoveNet is the most steady human motion detection model for monitoring the patients motions and AlexNet is the best classification model for classifying stroke and non stroke patients based on upper body and lower body movements.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
TA-pdf
UI - Tugas Akhir  Universitas Indonesia Library
cover
Achmad Fatchuttamam Abka
Abstrak :
Peringkasan lintas bahasa adalah sebuah proses menghasilkan ringkasan dalam bahasa target dari dokumen sumber berbahasa lain. Secara tradisional, peringkasan lintas bahasa dilakukan dalam skema pipeline yang melibatkan dua langkah, yaitu penerjemahan dan peringkasan. Pendekatan ini memiliki masalah, yaitu munculnya error propagation. Untuk mengatasi masalah tersebut, penelitian ini mengusulkan peringkasan lintas bahasa abstraktif end-to-end tanpa secara eksplisit menggunakan mesin penerjemah. Arsitektur peringkasan lintas bahasa yang diusulkan berbasis Transformer yang sudah terbukti memiliki performa baik dalam melakukan text generation. Model peringkasan lintas bahasa dilatih dengan 2-task learning yang merupakan gabungan peringkasan lintas bahasa dan peringkasan satu bahasa. Hal ini dilakukan dengan menambahkan decoder kedua pada Transformer untuk menangani peringkasan satu bahasa, sementara decoder pertama menangani peringkasan lintas bahasa. Pada arsitektur peringkasan lintas bahasa juga ditambahkan komponen multilingual word embeddings. Multilingual word embeddings memetakan kedua bahasa yang berbeda ke dalam ruang vektor yang sama sehingga membantu model dalam memetakan relasi antara input dan output. Hasil eksperimen menunjukkan model usulan mendapatkan kenaikan performa hingga +32,11 ROUGE-1, +24,59 ROUGE-2, +30,97 ROUGE-L untuk peringkasan lintas bahasa dari dokumen sumber berbahasa Inggris ke ringkasan berbahasa Indonesia dan hingga +30,48 ROUGE-1, +27,32 ROUGE-2, +32,99 ROUGE-L untuk peringkasan lintas bahasa dari dokumen sumber berbahasa Indonesia ke ringkasan berbahasa Inggris. ......Cross-lingual summarization (CLS) is a process of generating summaries in the target language from source documents in other languages. Traditionally, cross-lingual summarization is done in a pipeline scheme that involves two steps, namely translation and summarization. This approach has a problem, it introduces error propagation. To overcome this problem, this study proposes end-to-end abstractive cross-lingual summarization without explicitly using machine translation. The proposed cross-lingual summarization architecture is based on Transformer which has been proven to have good performance in text generation. The cross-lingual summarization model is trained with 2-task learning, which is a combination of cross-lingual summarization and monolingual summarization. This is accomplished by adding a second decoder to handle monolingual summarization, while the first decoder handles cross-lingual summarization. The multilingual word embeddings component is also added to the cross-lingual summarization architecture. Multilingual word embeddings map both different languages into the same vector space so that it helps the model in mapping the relationship between input and output. The experimental results show that the proposed model achieves performance improvements of up to +32.11 ROUGE-1, +24.59 ROUGE-2, +30.97 ROUGE-L for cross-lingual summarization from English source documents to Indonesian summaries and up to +30,48 ROUGE-1, +27.32 ROUGE-2, +32.99 ROUGE-L for cross-lingual summarization from Indonesian source documents to English summaries.
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
D-pdf
UI - Disertasi Membership  Universitas Indonesia Library