Hasil Pencarian

Ditemukan 2 dokumen yang sesuai dengan query

Galangkangin Gotera

Pengembangan Neural Language Model Untuk Bahasa Singlish Dengan ELECTRA = Developing a Singlish Neural Language Model using ELECTRA

"Singlish adalah sebuah bahasa informal yang sering digunakan warga Singapura. Karena informal, bahasa Singlish jarang ditemukan di media umum seperti majalah, koran, dan artikel internet. Meski demikian, bahasa ini sangat sering digunakan oleh warga Singapu- ra pada percakapan sehari-hari, baik daring maupun luring. Banyak campuran bahasa lain (code-mixing) merupakan tantangan lain dari Singlish. Keterbatasan GPU juga menjadi tantangan dalam mendapatkan model yang baik. Mempertimbangkan semua tantangan ini, penulis telah melatih sebuah model Efficiently Learning an Encoder that Classifies Token Replacements Accurately (ELECTRA) pada data berbahasa Singlish. ELECTRA merupakan sebuah model baru yang menawarkan waktu training lebih cepat sehingga menjadi pilihan baik jika memiliki keterbatasan GPU. Data Singlish didapatkan melalui web scraping pada reddit dan hardwarezone. Penulis membuat sebuah dataset benchmark pada dua buah permasalahan yaitu sentiment analysis dan singlish identification dengan anotasi manual sebagai metode untuk mengukur kemampuan model dalam Singlish. Penulis melakukan benchmarking pada model yang dilatih dengan beberapa model yang tersedia secara terbuka dan menemukan bahwa model ELECTRA yang dilatih memiliki perbedaan akurasi paling besar 2% dari model SINGBERT yang dilatih lebih lama dengan data yang lebih banyak.

Singlish is an informal language frequently used by citizens of Singapore (Singaporeans). Due to the informal nature, Singlish is rarely found on mainstream media such as magazines, news paper, or internet articles. However, the language is commonly used on daily conversation, whether it be online or offline. The frequent code-mixing occuring in the language is another tough challenge of Singlish. Considering all of these challenges, we trained an Efficiently Learning an Encoder that Classifies Token Replacements Accurately (ELECTRA) model on a Singlish corpus. Getting Singlish data is hard, so we have built our own Singlish data for pre-training and fine-tuning by web scraping reddit and hardwarezone. We also created a human-annotated Singlish benchmarking dataset of two downstream tasks, sentiment analysis and singlish identification. We tested our models on these benchmarks and found out that the accuracy of our ELECTRA model which is trained for a short time differ at most 2% from SINGBERT, an open source pre-trained model on Singlish which is trained with much more data."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Muchammad Naseer

Pengembangan Algoritma Verifikasi Fakta Dengan Pendekatan Model Deep One Directional Neural Semantic Siamese Network Dan Transformer Ensemble = Development Of Fact-Verification Algorithm Using Deep One-Directional Neural Semantic Siamese Network And Transformer Ensemble Approach

"Deteksi informasi menjadi langkah krusial untuk melawan penyebaran berita palsu. Sistem deteksi berita palsu konvensional menghasilkan dua keputusan: apakah berita palsu atau asli, begitu pula hasil pengecekan fakta hanya menentukan apakah informasi benar atau salah. Verifikasi fakta menyajikan tiga kemungkinan hasil: informasi didukung bukti (SUPPORTS), dibantah bukti (REFUTES), atau tidak ada cukup bukti untuk mendukung maupun membantah informasi (NOT ENOUGH INFORMATION).

Penelitian ini dimulai dengan menguji performa algoritma BERT, RoBERTa, dan Electra, dengan RoBERTa menunjukkan hasil terbaik. RoBERTa kemudian dikembangkan menjadi RoBERTaEns, sebuah algoritma yang diperkenalkan dalam penelitian ini, melalui penggabungan keunggulan model RoBERTa dengan pendekatan homogeneous ensemble pada FEVER Dataset. Model ini menggabungkan tiga arsitektur RoBERTa (RoBERTa-m1, m2, m3) menggunakan metode bagging ensemble dan persamaan linier untuk meningkatkan ketahanan, membatasi bias, serta mengoptimalkan biaya dan kompleksitas komputasi. RoBERTaEns dibandingkan dengan BERT, XL-Net, dan XLM, menghasilkan akurasi 78,4% dan F1-Score 84,2%, melampaui algoritma lain.

Penelitian juga mengevaluasi algoritma khusus untuk tugas verifikasi fakta, yaitu Neural Semantic Matching Networks (NSMN), dengan performa rendah (akurasi 69,43%) yang berdasarkan hipotesis diakibatkan dari overfitting yang disebabkan oleh BiLSTM dalam arsitekturnya. Untuk mengatasi ini, model Deep One-Directional Neural Semantic Siamese Network (DOD-NSSN) berbasis Siamese MaLSTM diperkenalkan. Model ini menggunakan Manhattan Fact Relatedness Score (MFRS) sebagai fact-relatedness score baru yang juga diperkenalkan dalam penelitian ini untuk prediksi klasifikasi akhir. Saat dibandingkan dengan NSMN, BERT, RoBERTa, XLM, dan XLNet, DOD-NSSN menunjukkan akurasi tertinggi (91,86%). Hal ini membuktikan bahwa DOD-NSSN cocok untuk klasifikasi data tekstual dan meningkatkan akurasi verifikasi fakta. Studi ini berkontribusi signifikan dalam pengembangan algoritma berbasis transformer (RoBERTaEns), dan neural network (DOD-NSSN), serta dalam menghasilkan metrik pengukuran jarak kedekatan antara klaim dan evidence (MFRS) untuk mekanisme verifikasi fakta dengan akurasi yang baik.

Information detection is a crucial step in combating the spread of fake news. Conventional fake news detection systems typically produce two decisions: whether the news is fake or real, and fact-checking results determine whether the information is true or false. Fact verification, however, provides three possible outcomes: information supported by evidence (SUPPORTS), refuted by evidence (REFUTES), or insufficient evidence to either support or refute the information (NOT ENOUGH INFORMATION).
This study was started by evaluating the performance of the BERT, RoBERTa, and Electra algorithm were compared, with RoBERTa demonstrating superior results. Building upon these findings, RoBERTa was extended into RoBERTaEns, an algorithm introduced in this study, by combining the strengths of the RoBERTa model using a homogeneous ensemble approach on the FEVER Dataset. This model integrates three RoBERTa architectures (RoBERTa-m1, m2, m3) using the bagging ensemble method and linear equations to enhance robustness, reduce bias, and optimize computational cost and complexity. RoBERTaEns was benchmarked against BERT, XL-Net, and XLM, achieving an accuracy of 78,4% and an F1-Score of 84,2%, outperforming other algorithms.
The study also evaluated a specialized algorithm for fact verification tasks, i.e., Neural Semantic Matching Networks (NSMN), which exhibited low performance (accuracy 69.43%). This underperformance was hypothesized to result from overfitting caused by the BiLSTM architecture. To address it, a novel model, Deep One-Directional Neural Semantic Siamese Network (DOD-NSSN), based on Siamese MaLSTM, was introduced. The model used Manhattan Fact Relatedness Score (MFRS) as a newly introduced fact-relatedness score in this study for final classification predictions. DOD-NSSN was tested against NSMN, BERT, RoBERTa, XLM, and XL-Net, achieving the highest accuracy (91,86%), demonstrating the suitability of DOD-NSSN for textual data classification and enhancing fact verification accuracy. This study contributes significantly to the development of transformer-based algorithm (RoBERTaEns), and neural network algorithm (DOD-NSSN), also in producing metrics for measuring the relatedness between claims and evidence (MFRS) for fact verification mechanisms with good accuracy."

Depok: Fakultas Teknik Universitas Indonesia, 2025

D-pdf

UI - Disertasi Membership Universitas Indonesia Library

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian