Hasil Pencarian

Ditemukan 128700 dokumen yang sesuai dengan query

Fairuz Astari Devianty

Ekspansi Data Menggunakan Forward-Backward Translation untuk Deteksi Ujaran Kebencian Multi-Label dalam Bahasa Indonesia = Data Expansion Using Forward-Backward Translation for Multi-Label Hate Speech Detection in Bahasa Indonesia

"Dengan tumbuh dan berkembangnya platform media sosial, komunikasi bisa menjadi lebih mudah dilakukan. Namun, hal tersebut dapat disalahgunakan, seperti penyebaran hate speech melalui media sosial yang semakin marak terjadi. Meski kebebasan berekspresi adalah hak setiap orang di Indonesia, namun karena dampak negatifnya konten kebencian harus dihilangkan. Salah satu solusinya adalah dengan membangun sebuah model yang dapat mendeteksi hate speech secara otomatis. Untuk membangun model pendeteksian hate speech yang baik, dibutuhkan data beranotasi dengan jumlah yang besar untuk melatih model. Selain itu perlu juga diperhatikan target dan kategori dari hate speech tersebut. Namun, saat ini hanya ada satu multi-label hate speech dataset Bahasa Indonesia yang tersedia dan memiliki kekurangan proposi data dari setiap label yang tidak seimbang. Untuk mengatasi masalah kekurangan data ini, penulis mengusulkan sebuah metode yaitu Forward-Backward Translation untuk menghasilkan data secara otomatis. Metode ini merupakan gabungan dari forward translation dan back-translation. Forward translation dilakukan pada dataset dari high-resource language dan back-translation dilakukan pada dataset dari low-resource language. Dengan digabungkannya kedua proses ini dataset yang dihasilkan akan memiliki jumlah yang besar dan memiliki kualitas terjemahan yang baik. Metode ini digunakan untuk menambahkan data pada deteksi multi-label hate speech Bahasa Indonesia dengan tambahan data dari Bahasa Inggris. Performa pendeteksian multi-label hate speech pada dataset baru hasil penelitian ini berhasil meningkat bila dibandingkan dengan pada dataset hate speech Bahasa Indonesia yang sudah ada. Dataset ini mendapatkan F1-score sebesar 0.76 saat melakukan multi-label classification dan F1-score sebesar 0.78 saat melakukan hierarchical classification.

The growth and development of social media platforms make communication easier. However, this can be misused. For example, the spread of hate speech via social media is increasing. Freedom of speech is everyone's right in Indonesia, but malicious content must be eliminated due to its negative impact. One solution is to build a model that can automatically detect hate speech. Building a good hate speech detection model requires a large amount of annotated data to train the model. It is also necessary to pay attention to the target, category, and level of hate speech. However, there is currently only one multi-label hate speech dataset in Bahasa Indonesia available and the proportion of data for each label is unequal. To overcome this data scarcity problem, we propose a forward-backward translation method to generate data automatically. This method combines forward and backward translation. A forward translation is performed for dataset in high-resource languages and a backward translation is performed for dataset in low-resource languages. By combining these two processes, the resulting dataset will have a large amount of data and good translation quality. This method will be used to add data on multi-label hate speech detection in Bahasa Indonesia with additional data from English. As a result of this study, the performance of multi-label hate speech detection in the new dataset improved compared to the existing Bahasa Indonesia hate speech dataset. This dataset gets an F1-score of 0.76 for multi-label classification and an F1-score of 0.78 for hierarchical classification."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Muhammad Okky Ibrohim

Klasifikasi multi label untuk identifikasi ujaran kebencian dan ujaran kasar pada Twitter berbahasa Indonesia = Multi-label classification to identify hate speech and abusive language on Indonesian Twitter

"ABSTRAK

Penyebaran ujaran kebencian dan ujaran kasar di media sosial merupakan hal yang harus diidentifikasi secara otomatis untuk mencegah terjadinya konflik masyarakat. Selain itu, ujaran kebencian mempunyai target, golongan, dan tingkat tersendiri yang juga perlu diidentifikasi untuk membantu pihak berwenang dalam memprioritaskan kasus ujaran kebencian yang harus segera ditangani. Tesis ini membahas klasifikasi teks multi label untuk mengidentifikasi ujaran kasar dan ujaran kebencian disertai identifikasi target, golongan, dan tingkatan ujaran kebencian pada Twitter berbahasa Indonesia. Permasalahan ini diselesaikan menggunakan pendekatan machine learning menggunakan algoritma klasifikasi Support Vector Machine (SVM), NaÃ¯ve Bayes (NB), dan Random Forest Decision Tree (RFDT) dengan metode transformasi data Binary Relevance (BR), Label Power-set (LP), dan Classifier Chains (CC). Jenis fitur yang digunakan antara lain fitur frekuensi term (word n-grams dan character n-grams), fitur ortografi (tanda seru, tanda tanya, huruf besar/kapital, dan huruf kecil), dan fitur leksikon (leksikon sentimen negatif, leksikon sentimen positif, dan leksikon kasar). Hasil eksperimen menunjukkan bahwa secara umum algoritma klasifikasi RFDT dengan metode transformasi LP memberikan akurasi yang terbaik dengan waktu komputasi yang cepat. Algoritma klasifikasi RFDT dengan metode transformasi LP menggunakan fitur word unigram memberikan akurasi sebesar 66,16%. Jika hanya mengidentifikasi ujaran kasar dan ujaran kebencian (tanpa disertai identifikasi target, golongan, dan tingkatan ujaran kebencian), algoritma klasifikasi RFDT dengan metode transformasi LP menggunakan gabungan fitur word unigram, character quadgrams, leksikon sentimen positif, dan leksikon kasar mampu memberikan akurasi sebesar 77,36%.

Hate speech and abusive language spreading on social media needs to be identified automatically to avoid conflict between citizen. Moreover, hate speech has target, criteria, and level that also needs to be identified to help the authority in prioritizing hate speech which must be addressed immediately. This thesis discusses multi-label text classification to identify abusive and hate speech including the target, category, and level of hate speech in Indonesian Twitter. This problem was done using machine learning approach with Support Vector Machine (SVM), NaÃ¯ve Bayes (NB), and Random Forest Decision Tree (RFDT) classifier and Binary Relevance (BR), Label Power-set (LP), and Classifier Chains (CC) as data transformation method. The features that used are term frequency (word n-grams and character n-grams), ortography (exclamation mark, question mark, uppercase, lowercase), and lexicon features (negative sentiment lexicon, positif sentiment lexicon, and abusive lexicon). The experiment results show that in general RFDT classifier using LP as the transformation method gives the best accuracy with fast computational time. RFDT classifier with LP transformation using word unigram feature give 66.16% of accuracy. If only for identifying abusive language and hate speech (without identifying the target, criteria, and level of hate speech), RFDT classifier with LP transformation using combined fitur word unigram, character quadgrams, positive sentiment lexicon, and abusive lexicon can gives 77,36% of accuracy.

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2019

T52442

UI - Tesis Membership Universitas Indonesia Library

Nofa Aulia

Deteksi ujaran kebencian teks panjang berbahasa Indonesia menggunakan data facebook = Hate speech detection on Indonesian long text using facebook data

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2019

T51811

UI - Tesis Membership Universitas Indonesia Library

Nabila Khansa

Deteksi Ujaran Kebencian dan Bahasa Kasar pada Blog Mikro Berbahasa Indonesia = Detection of Hate Speech and Abusive Language on Indonesian Microblogs

"Ujaran kebencian dan bahasa kasar mempermudah penyebaran kekerasan di kehidupan nyata, sehingga muncul urgensi adanya pendeteksian secara otomatis. Untuk melanjutkan pekerjaan yang sudah dilakukan oleh Ibrohim dan Budi (2019), penelitian ini membahas dua isu terkait deteksi ujaran kebencian dan bahasa kasar pada mikroblog berbahasa Indonesia. Isu pertama adalah kajian terkait effect size fitur dan pengembangan model menggunakan fitur-fitur tersebut. Metode Analysis of Variance f-test, Logistic Regression Analysis, dan nilai Shapley digunakan untuk melakukan kajian effect size pada fitur-fitur yang dirancang secara manual. Kemudian, digunakan beberapa algoritma pemelajaran mesin untuk mengembangkan model prediksi berbasis fitur-fitur tersebut. Isu kedua adalah kajian bias dalam pengembangan model terkait keberadaan kata-kata bersifat netral pada data yang merupakan ujaran kebencian atau bahasa kasar. Kajian terkait bias dilakukan dengan menggunakan dataset uji bias. Dataset ini dikembangkan dengan menggantikan kata-kata yang dideteksi memiliki potensi adanya bias pada model yang dilatih menggunakan dataset hasil pekerjaan Ibrohim dan Budi (2019). Penelitian ini menunjukkan bahwa keberadaan kata-kata tertentu berpengaruh terhadap hasil deteksi ujaran kebencian dan bahasa kasar. Di antara kata-kata tersebut, terdeteksi beberapa kata-kata yang berpotensi bias, karena memiliki pengaruh terhadap pendeteksian padahal secara sendiri kata-kata yang dideteksi sebagai potensi bias tidak memiliki unsur kebencian atau bersifat kasar. Hasil evaluasi pengambilan sampel bootstrap menunjukkan Logistic Regression dan XGBoost sebagai model dengan akurasi terbaik dalam pendeteksian ujaran kebencian dan bahasa kasar. Namun, ketika model yang sudah dikembangkan digunakan untuk memprediksi dataset sintetis, didapatkan penurunan akurasi dalam pendeteksian ujaran kebencian. Hasil ini menandakan adanya bias pada model yang dikembangkan. Hasil tersebut didukung juga oleh hasil prediksi dengan akurasi rendah ketika model digunakan untuk melakukan pendeteksian ujaran kebencian pada dataset yang dikembangkan secara manual, tetapi ketika kata-kata bias digantikan dari data, akurasi model meningkat. Kontribusi yang diberikan oleh penelitian ini adalah pengembangan dataset uji bias secara otomatis dari dataset yang dikembangkan oleh Ibrohim dan Budi (2019) dan juga dataset uji bias yang dikembangkan secara manual.

Hate speech and abusive language facilitate the spread of violence in real life, hence the urgency of automatic detection. To continue the work done by Ibrohim dan Budi (2019), this research addresses two issues related to the detection of hate speech and abusive language on Indonesian-language microblogs. The first issue is a study on the effect size of features and the development of models using these features. Analysis of Variance f-test, Logistic Regression Analysis, and Shapley values are used to investigate the effect size of manually designed features. Several machine learning algorithms are then employed to develop prediction models based on these features. The second issue involves studying bias in model development concerning the presence of neutral words in data that constitute hate speech or abusive language. The study related to bias is conducted by using a bias test dataset. This dataset is developed by replacing words that are detected to have the potential for bias in models trained using the dataset resulting from the work of Ibrohim dan Budi (2019). This research demonstrates that certain words significantly influence the detection of hate speech and abusive language. Among these words, some are identified as potentially biased, as they affect detection despite not inherently containing hate or abusive elements. The results of bootstrap sampling evaluation indicate that Logistic Regression and XGBoost are the models with the highest accuracy in detecting hate speech and abusive language. However, when the developed models are used to predict synthetic datasets, a significant decrease in accuracy is observed in hate speech detection. This finding indicates the presence of bias in the developed models. This result is further supported by low-accuracy predictions when the models are used to detect hate speech in manually developed datasets. However, when biased words are replaced in the data, the model’s accuracy significantly improves. The contributions of this research include the development of an automatically generated bias test dataset from the dataset created by Ibrohim dan Budi (2019), as well as a manually developed bias test dataset."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Oky Ade Irmawan

Deteksi Ujaran Kebencian di Twitter dalam Konteks Pemilihan Presiden Indonesia 2024 = Identifying Hate Speech on Twitter in the Context of the 2024 Indonesian Presidential Election

"Ujaran kebencian telah menjadi perhatian yang semakin meningkat di era digital, terutama selama masa pemilu. Kompetisi politik dan polarisasi opini publik dapat menciptakan lingkungan yang rentan terhadap penyebaran ujaran kebencian. Berdasarkan hasil penelitian, ditemukan bahwa jumlah ujaran kebencian meningkat secara signifikan menjelang pemilu 2024. Fenomena ini menggambarkan tantangan berkelanjutan dalam mengendalikan dan mengurangi ujaran kebencian, terutama selama periode pemilu. Mengingat volume konten yang sangat besar di platform media sosial, mengidentifikasi ujaran kebencian secara manual menjadi tugas yang sulit dan memakan waktu, sehingga diperlukan solusi otomatis yang efisien dan akurat. Penelitian ini bertujuan menemukan model terbaik untuk mendeteksi ujaran kebencian dan mengidentifikasi topik-topik utama yang dibahas selama periode Pemilu Presiden 2024. Data dari Twitter yang diambil sejak Januari hingga Maret 2024 diproses dan diklasifikasi untuk mendeteksi ujaran kebencian dengan menggunakan algoritma machine learning Random Forest, SVM, dan Decision Tree serta algoritma deep learning CNN dan BERT. Hasilnya menunjukkan bahwa BERT memberikan tingkat akurasi terbaik sebesar 95%. Pemodelan topik dengan Latent Dirichlet Allocation (LDA) menghasilkan 17 topik utama, termasuk diantaranya ajakan untuk tidak memilih pasangan calon tertentu, penghinaan terhadap calon presiden, isu dinasti politik, dan tuduhan kecurangan oleh rezim dalam Pemilihan Presiden 2024.

Hate speech has become an increasing concern in the digital age, especially during elections. Political competition and polarization of public opinion can create an environment vulnerable to the spread of hate speech. Research results show that the amount of hate speech leading up to the 2024 election has increased significantly. This phenomenon illustrates the ongoing challenges of controlling and reducing hate speech, especially during elections. Given the massive volume of content on social media platforms, manually identifying hate speech becomes a difficult and time-consuming task, thus efficient and accurate automated solutions are needed. This research aims to find the best model to detect hate speech and identify the main topics discussed during the 2024 Presidential Election period. Data from Twitter taken from January to March 2024 was processed and classified to detect hate speech using Random Forest, SVM, and Decision Tree machine learning algorithms as well as CNN and BERT deep learning algorithms. The results show that BERT provides the best accuracy rate of 95%. Topic modeling with Latent Dirichlet Allocation (LDA) produced 17 main topics, including influences to not to vote for specific candidates, insults to presidential candidates, political dynastic issues, and allegations of fraud by the regime in the 2024 Presidential Election."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

TA-pdf

UI - Tugas Akhir Universitas Indonesia Library

Martin Hizkia Parasi

Perancangan Model Pengenalan Emosi pada Percakapan Berbahasa Indonesia dengan Ekstraksi Fitur Mel dan Metode Transfer Learning = Design of Speech Emotion Recognition Model for Indonesian Language with Mel Features and Transfer Learning Methods

Perkembangan teknologi pemrosesan ucapan sangat pesat akhir-akhir ini. Namun, fokus penelitian dalam Bahasa Indonesia masih terbilang sedikit, walaupun manfaat dan benefit yang dapat diperoleh sangat banyak dari pengembangan tersebut. Hal tersebut yang melatarbelakangi dilakukan penelitian ini. Pada penelitian ini digunakan model transfer learning (Inception dan ResNet) dan CNN untuk melakukan prediksi emosi terhadap suara manusia berbahasa Indonesia. Kumpulan data yang digunakan dalam penelitian ini, diperoleh dari berbagai film dalam Bahasa Indonesia. Film-film tersebut dipotong menjadi potongan yang lebih kecil dan dilakukan dua metode ekstraksi fitur dari potongan audio tersebut. Ekstraksi fitur yang digunakan adalah Mel-Spectrogram dan MelFrequency Cepstral Coefficient (MFCC). Data yang diperoleh dari kedua ekstraksi fitur tersebut dilatih pada tiga model yang digunakan (Inception, ResNet, serta CNN). Dari percobaan yang telah dilakukan, didapatkan bahwa model ResNet memiliki performa yang lebih baik dibanding Inception dan CNN, dengan rata-rata akurasi 49%. Pelatihan model menggunakan hyperparameter dengan batch size sebesar 16 dan dropout (0,2 untuk Mel-Spectrogram dan 0,4 untuk MFCC) demi mendapatkan performa terbaik.

Speech processing technology advancement has been snowballing for these several years. Nevertheless, research in the Indonesian language can be counted to be little compared to other technology research. Because of that, this research was done. In this research, the transfer learning models, focused on Inception and ResNet, were used to do the speech emotion recognition prediction based on human speech in the Indonesian language. The dataset that is used in this research was collected manually from several films and movies in Indonesian. The films were cut into several smaller parts and were extracted using the Mel-Spectrogram and Mel-frequency Cepstrum Coefficient (MFCC) feature extraction. The data, which is consist of the picture of Mel-spectrogram and MFCC, was trained on the models followed by testing. Based on the experiments done, the ResNet model has better accuracy and performance compared to the Inception and simple CNN, with 49% of accuracy. The experiments also showed that the best hyperparameter for this type of training is 16 batch size, 0.2 dropout sizes for Mel-spectrogram feature extraction, and 0.4 dropout sizes for MFCC to get the best performance out of the model used.

Depok: Fakultas Teknik Universitas Indonesia, 2022

S-Pdf

UI - Skripsi Membership Universitas Indonesia Library

Naufal Hilmizen

Evaluasi Kinerja Metode Multimodal Deep Learning dalam Mengklasifikasikan COVID-19 Pneumonia pada Data Gambar CT-Scan dan X-Ray Paru-paru Manusia = Evaluation of the Performance of Multimodal Deep Learning Methods in Classifying COVID-19 Pneumonia on CT-Scan and X-Ray Image Data of Human Lungs

"Pada awal pandemi COVID-19, keputusan medis pada pasien ditentukan oleh dokter berdasarkan banyak tes medis (misalnya, tes reaksi berantai polimerase, tes suhu, CTScan atau X-ray). Metode transfer learning telah digunakan dalam beberapa penelitian dan berfokus hanya pada satu biomarker (misalnya, hanya CT-Scan atau X-Ray saja) untuk mendiagnosis pneumonia. Dalam studi terbaru, modalitas tunggal memiliki keakuratan klasifikasi sendiri dan setiap biomarker yang berbeda dapat memberikan informasi pelengkap untuk mendiagnosis COVID-19 pneumonia. Tujuan pada penelitian ini adalah membangun model multimodal yaitu dengan menggabungkan dua masukan (input) menjadi satu keluaran (output) pada tahapan pembuatan model. Dua model transfer learning yang berbeda telah digunakan pada masing-masing masukan dengan dataset open-source 2849 gambar CT-Scan dan 2849 gambar X-ray untuk mengklasifikasikan gambar CT-Scan dan gambar X-ray menjadi dua kelas: normal dan COVID-19 pneumonia. Model transfer learning yang digunakan adalah model DenseNet121, model MobileNet, model Xception, model InceptionV3, model ResNet50 dan model VGG16 untuk proses ekstraksi fitur. Alhasil, akurasi klasifikasi terbaik didapatkan sebesar 99,87% saat penggabungan jaringan ResNet50 dan VGG16. Kemudian, akurasi klasifikasi terbaik didapatkan sebesar 98,00% saat menggunakan modalitas tunggal model ResNet50 dengan data CT-Scan dan akurasi klasifikasi sebesar 98,93% untuk model VGG16 dengan data X-Ray. Metode penggabungan multimodal learning menunjukkan akurasi klasifikasi yang lebih baik dibandingkan dengan metode yang menggunakan hanya satu modalitas saja.

Due to COVID-19 Pandemic, medical decisions on patients were made by doctors based on many medical tests (e.g., polymerase chain reaction test, temperature test, CT-Scan or X-ray). Transfer learning methods have been used in several studies and focus on only one biomarker (eg, CT-Scan or X-Ray only) for diagnosing pneumonia. In recent studies, a single modality has its own classification accuracy and each different biomarker can provide complementary information for diagnosing COVID-19 pneumonia. The purpose of this research is to build a multimodal model by combining two inputs (inputs) into one output (output) at the modeling stage. Two different transfer learning models were used at each input with an open-source dataset of 2849 CT-Scan images and 2849 X-ray images to classify CT-Scan images and X-ray images into two classes: normal and COVID-19 pneumonia. . The transfer learning model used is the DenseNet121 model, the MobileNet model, the Xception model, the InceptionV3 model, the ResNet50 model and the VGG16 model for the feature extraction process. As a result, the best classification accuracy was obtained at 99.87% when merging the ResNet50 and VGG16 networks. Then, the best classification accuracy was obtained at 98.00% when using a single modality ResNet50 model with CT-Scan data and a classification accuracy of 98.93% for the VGG16 model with X-Ray data. The multimodal learning combination method shows better classification accuracy than the method that uses only one modality."

Depok: Fakultas Matematika dan Ilmu Pengetahuan Alam Universitas Indonesia, 2021

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Ajeng Dwi Asti

Identifikasi Target, Kategori, dan Level Ujaran Kebencian pada Data Twitter Berbahasa Daerah Menggunakan Classical Machine Learning dan Deep Learning = Identification of Target, Category, and Level of Hate Speech from Regional Language on Twitter Data Using Classical Machine Learning and Deep Learning

"Ujaran kebencian dapat menyebabkan terjadinya konflik dan pembantaian di masyarakat sehingga harus segera ditangani. Indonesia memiliki lebih dari 700 bahasa daerah dengan karakteristik masing-masing. Ujaran kebencian yang ada di Indonesia juga pernah dilakukan menggunakan bahasa daerah. Media sosial Twitter paling sering digunakan dalam menyebarkan ujaran kebencian. Identifikasi target, kategori, serta level ujaran kebencian dapat membantu Polri dan Kemenkominfo dalam menentukan prioritas penanganan ujaran kebencian sehingga dapat meminimalisir dampaknya. Penelitian ini melakukan identifikasi ujaran kasar dan ujaran kebencian beserta target, kategori, dan level ujaran kebencian pada data Twitter berbahasa daerah menggunakan algoritma classical machine learning dan deep learning. Penelitian ini menggunakan data lima bahasa daerah di Indonesia dengan penutur terbanyak yaitu Jawa, Sunda, Madura, Minang, dan Musi. Pada data Bahasa Jawa performa terbaik diperoleh menggunakan algoritma Support Vector Machine (SVM) dengan transformasi data Classifier Chains (CC) serta kombinasi fitur word unigram, bigram, dan trigram dengan F1-score 70,43%. Algoritma SVM dengan transformasi data CC serta kombinasi fitur word unigram dan bigram memberikan performa terbaik pada data Bahasa Sunda dan Madura dengan masing-masing F1-score 68,79% dan 78,81%. Sementara itu, pada data Bahasa Minang dan Musi hasil terbaik diperoleh menggunakan algoritma SVM dengan transformasi data CC serta fitur word unigram dengan F1-score 83,57% dan 80,72%. Penelitian ini diharapkan dapat digunakan sebagai masukan bagi Polri dan Kemenkominfo dalam pembangunan sistem identifikasi ujaran kasar, ujaran kebencian serta target, kategori, dan level ujaran kebencian pada media sosial.

Hate speech can lead to conflict and massacres in society so it must be dealt immediately. Indonesia has more than 700 regional languages with their own characteristics. Hate speech in Indonesia has also been carried out using regional languages. Twitter is the most frequently used social media to spread hate speech. Identification of targets, categories, and levels of hate speech can help the National Police and the Ministry of Communication and Information to determine priorities for handling hate speech to minimize its impact. This study identifies abusive speech and hate speech along with the target, category, and level of hate speech on regional language Twitter data using classical machine learning and deep learning algorithms. This study uses data from five regional languages in Indonesia with the most speakers, namely Javanese, Sundanese, Madurese, Minang, and Musi. In Java language data, the best performance is obtained using the Support Vector Machine (SVM) algorithm with Classifier Chains (CC) data transformation and a combination of unigram, bigram, and trigram word features with an F1-score of 70.43%. The SVM algorithm with CC data transformation and the combination of unigram and bigram word features provides the best performance on Sundanese and Madurese data with F1-scores of 68.79% and 78.81%, respectively. Meanwhile, in Minang and Musi language data, the best results were obtained using the SVM algorithm with CC data transformation and word unigram features with F1-scores of 83.57% and 80.72%, respectively. This research is expected to be used as input for the National Police and the Ministry of Communication and Information in developing a system for identifying harsh speech, hate speech and the target, category, and level of hate speech on social media."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Sugiri

mCTRLSum: Penggunaan Pretrained Language Generation Model Berbasis Multilingual Pada Abstractive Summarization Terkontrol Menggunakan Keyphrase = mCTRLSum: Utilizing Multilingual Pretrained Language Model For Controllable Abstractive Summarization Using Keyphrase

"Sebagian besar studi terbaru dalam abstractive summarization melakukan pendekatan dengan melakukan fine-tuning pretrained language generation model (PLGM). PLGM yang digunakan biasanya merupakan versi monolingual, yang hanya memiliki informasi bahasa yang sesuai dengan dataset yang digunakan. Penelitian ini menggunakan PLGM berbasis multilingual, yang menghasilkan kinerja yang cukup kompetitif jika dibandingkan dengan solusi state-of-the-art yang ada. Dengan menggunakan PLGM berbasis multilingual manfaat yang dihasilkan akan berdampak lebih luas sebanyak informasi bahasa yang dimiliki oleh PLGM terkait. Teknik CTRLSum, yaitu penambahan keyphrase di awal source document, terbukti dapat membuat PLGM menghasilkan summary sesuai dengan keyphrase yang disertakan. Penelitian ini menggunakan teknik mCTRLSum, yaitu teknik CTRLSum dengan menggunakan multilingual PLGM. Untuk mendapatkan keyphrase, selain dengan menggunakan teknik keyphrase extraction (KPE) yang memilih kata yang ada di source document, juga digunakan teknik keyphrase generation (KPG) yaitu teknik pembangkitan suatu set kata/frasa berdasarkan suatu source document dataset berbahasa Inggris, tidak hanya dilatih menggunakan oracle keyphrase sebagai pseudo-target dari dataset summarization, model KPG juga dilatih menggunakan dataset khusus permasalahan KPG dengan domain dan bahasa yang sama. Dengan teknik mCTRLSum yang memanfaatkan oracle keyphrase, penelitian ini mendeklarasikan batas atas solusi permasalahan abstractive summarization pada dataset Liputan6, dan XLSum berbahasa Inggris, Indonesia, Spanyol, dan Perancis dengan peningkatan terbesar pada dataset Liputan6 sebanyak 22.54 skor ROUGE-1, 18.36 skor ROUGE-2, 15.81 skor ROUGE-L, dan 7.16 skor BERTScore, dan rata-rata 9.36 skor ROUGE-1, 6.47 skor ROUGE-2, 6.68 skor ROUGE-L dan 3.14 BERTScore pada dataset XLSum yang digunakan pada penelitian ini.

Most of the recent studies in abstractive summarization approach by fine-tuning the pre-trained language generation model (PLGM). PLGM used is usually a monolingual version, which only has language information that corresponds to the dataset used. This study uses amultilingual-basedd PLGM, which results in quite competitive performance, compared to existing state-of-the-art solutions. Using a PLGM based on the multilingual benefits generated, it will have a wider impact as much as the language information base owned by the related PLGM. The CTRLSum technique, which is the addition of a keyphrase at the beginning of the source document, is proven to be able to make PLGM produce a summary according to the included keyphrase. This study uses the mCTRLsum technique, namely the CTRLsum technique using multilingual PLGM. To get thekey phrasee, in addition to using the keyphrase extraction (KPE) technique, the words in the source document, keyphrase generation (KPG) techniques are also used, namely the technique of generating a set of words/phrases based on a source document. On the English dataset, not only using the oracle keyphrase as the pseudo-target of the dataset summariza buttion, the KPG model also uses the dataset specifically for KPG problems with the same domain and language. With the mCTRLsum technique that utilizes the oracle keyphrase, this study declares the upper bound of the solution to the abstractive summarization problem in the Liputan6 and XLSum in English, Indonesian, Spanish, and French datasets with the highest increase in Liputan6 dataset of 22.54 ROUGE-1 score, 18.36 ROUGE-2 score, 15.81 ROUGE-L score, and 7.16 BERTScore, and in average of 9.36 ROUGE-1 score, 6.47 ROUGE-2 score, 6.68 ROUGE-L score, and 3.14 BERTScore on XLSum dataset used in this research."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Hutagaol, Ester Josephin Pratiwi

Penegakan hukum terhadap tindak pidana ujaran kebencian (hate speech) di Indonesia = law enforcement of hate speech in Indonesia

"Ujaran kebencian merupakan perkataan, perilaku, tulisan, ataupun pertunjukan yang dilarang karena dapat memicu terjadinya tindakan kekerasan, diskriminasi, permusuhan atas dasar suku, agama, ras dan antargolongan (SARA). Salah satu faktor lemahnya penegakan hukum terhadap fenomena ujaran kebencian yaitu terletak pada pengaturan mengenai ujaran kebencian itu sendiri, dimana terdapat

ketidakjelasan parameter dalam pengaturannya. Akibat dari ketidakjelasan parameter tersebut, maka kepastian hukum terkait ujaran kebencian akan sulit dicapai selain itu akan semakin besar kemungkinan terjadinya kesewenangwenangan. Penelitian ini ditujukan untuk mengetahui dan memahami bagaimanakah sejarah peraturan tentang ujaran kebencian di Indonesia, apa yang menjadi parameter suatu perbuatan termasuk sebagai ujaran kebencian (hate speech) serta praktik penegakan hukum terhadap tindak pidana ujaran kebencian (hate speech) di Indonesia. Melalui penelitian Yuridis-Normatif dengan

pendekatan sejarah, undang-undang dan konseptual, maka penelitian ini menghasilkan tiga kesimpulan yaitu: 1. Sejarah peraturan tindak pidana ujaran kebencian (hate speech) di Indonesia sesungguhnya berasal dari British Indian Penal Code yang saat itu berlaku di India yang dijajah oleh Inggris. Berdasarkan Traktat London, semua jajahan Perancis diserahkan ke tangan Inggris. Belanda

yang merupakan jajahan Perancis kemudian jatuh ke tangan Inggris, maka Inggrislah yang membawa pasal tersebut ke Belanda, kemudian Belanda menerapkan pasal tersebut ke Indonesia karena dianggap memiliki kesamaan dengan India yang memiliki ragam kultur dan agama. 2. Parameter ujaran

kebencian yaitu perbuatan yang dilakukan di muka umum; bersifat permusuhan, penghinaan atau merendahkan, dan kebencian; dilakukan dengan sengaja baik langsung maupun tidak langsung; menimbulkan terjadinya kerusuhan yang

menyebabkan terjadinya kerugian materiil, immateriil dan jiwa. 3. Penegakan hukum terhadap tindak pidana ujaran kebencian berdasarkan analisis dari tujuh putusan ialah bahwa hakim kurang memberikan tafsiran dan argumen terhadap unsur pasal yang tidak jelas tersebut dan ada hakim yang memperluas makna golongan menjadi tidak sesempit pada suku, agama dan ras saja.

Hate speech is a word, behavior, writing, or show that is prohibited because it can trigger acts of violence, discrimination, animosity on the basis of ethnicity,

religion, race and intergroup (SARA). One factor that is weak law enforcement against the phenomenon of hate speech is located in the regulation of the hate speech itself, where there are unclear parameters in the regulation. As a result of the unclear parameters, the legal certainty related to hate speech will be difficult to achieve other than that the greater the possibility of arbitrariness. This research is intended to find out and understand how the history of regulations regarding hate speech in Indonesia, what is the parameter of an act including hate speech and law enforcement practices against hate speech in Indonesia. Through juridical-normative research with historical, legal and conceptual approaches, this research resulted in three conclusions, namely: 1. The history of

hate speech regulations in Indonesia actually originated from the British Indian Penal Code which was then in force in India which was colonized by the British. Based on the London Treaty, all French colonies were handed over to the British. The Netherlands which was a French colony then fell into the hands of the British, then it was England who brought the article to the Netherlands, then the Dutch

applied the article to Indonesia because it was considered to have similarities with India which had a variety of cultures and religions. 2. Parameters of hate speech, namely acts committed in public; hostility, humiliation or humiliation, and hatred; done intentionally both directly and indirectly; lead to riots that cause material, immaterial and life losses. 3. law enforcement against hate speech based on an analysis of the seven decisions is that the judge does not provide interpretations and arguments about the unclear elements of the article and there are judges who expand the meaning of groups to be not as narrow as ethnic, religious and racial only.

Depok: Fakultas Hukum Universitas Indonesia, 2020

T54598

UI - Tesis Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian