Hasil Pencarian

Ditemukan 186838 dokumen yang sesuai dengan query

Nabila Khansa

Deteksi Ujaran Kebencian dan Bahasa Kasar pada Blog Mikro Berbahasa Indonesia = Detection of Hate Speech and Abusive Language on Indonesian Microblogs

"Ujaran kebencian dan bahasa kasar mempermudah penyebaran kekerasan di kehidupan nyata, sehingga muncul urgensi adanya pendeteksian secara otomatis. Untuk melanjutkan pekerjaan yang sudah dilakukan oleh Ibrohim dan Budi (2019), penelitian ini membahas dua isu terkait deteksi ujaran kebencian dan bahasa kasar pada mikroblog berbahasa Indonesia. Isu pertama adalah kajian terkait effect size fitur dan pengembangan model menggunakan fitur-fitur tersebut. Metode Analysis of Variance f-test, Logistic Regression Analysis, dan nilai Shapley digunakan untuk melakukan kajian effect size pada fitur-fitur yang dirancang secara manual. Kemudian, digunakan beberapa algoritma pemelajaran mesin untuk mengembangkan model prediksi berbasis fitur-fitur tersebut. Isu kedua adalah kajian bias dalam pengembangan model terkait keberadaan kata-kata bersifat netral pada data yang merupakan ujaran kebencian atau bahasa kasar. Kajian terkait bias dilakukan dengan menggunakan dataset uji bias. Dataset ini dikembangkan dengan menggantikan kata-kata yang dideteksi memiliki potensi adanya bias pada model yang dilatih menggunakan dataset hasil pekerjaan Ibrohim dan Budi (2019). Penelitian ini menunjukkan bahwa keberadaan kata-kata tertentu berpengaruh terhadap hasil deteksi ujaran kebencian dan bahasa kasar. Di antara kata-kata tersebut, terdeteksi beberapa kata-kata yang berpotensi bias, karena memiliki pengaruh terhadap pendeteksian padahal secara sendiri kata-kata yang dideteksi sebagai potensi bias tidak memiliki unsur kebencian atau bersifat kasar. Hasil evaluasi pengambilan sampel bootstrap menunjukkan Logistic Regression dan XGBoost sebagai model dengan akurasi terbaik dalam pendeteksian ujaran kebencian dan bahasa kasar. Namun, ketika model yang sudah dikembangkan digunakan untuk memprediksi dataset sintetis, didapatkan penurunan akurasi dalam pendeteksian ujaran kebencian. Hasil ini menandakan adanya bias pada model yang dikembangkan. Hasil tersebut didukung juga oleh hasil prediksi dengan akurasi rendah ketika model digunakan untuk melakukan pendeteksian ujaran kebencian pada dataset yang dikembangkan secara manual, tetapi ketika kata-kata bias digantikan dari data, akurasi model meningkat. Kontribusi yang diberikan oleh penelitian ini adalah pengembangan dataset uji bias secara otomatis dari dataset yang dikembangkan oleh Ibrohim dan Budi (2019) dan juga dataset uji bias yang dikembangkan secara manual.

Hate speech and abusive language facilitate the spread of violence in real life, hence the urgency of automatic detection. To continue the work done by Ibrohim dan Budi (2019), this research addresses two issues related to the detection of hate speech and abusive language on Indonesian-language microblogs. The first issue is a study on the effect size of features and the development of models using these features. Analysis of Variance f-test, Logistic Regression Analysis, and Shapley values are used to investigate the effect size of manually designed features. Several machine learning algorithms are then employed to develop prediction models based on these features. The second issue involves studying bias in model development concerning the presence of neutral words in data that constitute hate speech or abusive language. The study related to bias is conducted by using a bias test dataset. This dataset is developed by replacing words that are detected to have the potential for bias in models trained using the dataset resulting from the work of Ibrohim dan Budi (2019). This research demonstrates that certain words significantly influence the detection of hate speech and abusive language. Among these words, some are identified as potentially biased, as they affect detection despite not inherently containing hate or abusive elements. The results of bootstrap sampling evaluation indicate that Logistic Regression and XGBoost are the models with the highest accuracy in detecting hate speech and abusive language. However, when the developed models are used to predict synthetic datasets, a significant decrease in accuracy is observed in hate speech detection. This finding indicates the presence of bias in the developed models. This result is further supported by low-accuracy predictions when the models are used to detect hate speech in manually developed datasets. However, when biased words are replaced in the data, the model’s accuracy significantly improves. The contributions of this research include the development of an automatically generated bias test dataset from the dataset created by Ibrohim dan Budi (2019), as well as a manually developed bias test dataset."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Ahmad Sirulhaq

Dimensi Ideologis Ujaran Kebencian dalam Wacana Politik di Indonesia: Kajian Wacana Kritis = Ideological Dimensions of Hate Speech in Political Discourse in Indonesia: A Critical Discourse Study

"Sebagai fenomena politik global, kajian ujaran kebencian sudah banyak dieksplorasi oleh para peneliti terdahulu, tetapi sebagai fenomena kognitif yang terkait dengan ideologi, kajian ujaran kebencian masih sangat terbatas. Pada masa pemerintahan Presiden Joko Widodo, ekspresi ujaran kebencian kerap kali ditemukan, terutama yang disampaikan oleh para elite simbolik. Namun, di Indonesia, hampir tidak ada kajian yang menghubungkan ujaran-ujaran tersebut dengan ideologi kelompok politik tertentu. Oleh karena itu, penelitian ini bertujuan untuk menemukan dimensi ideologis ujaran kebencian dalam wacana politik di Indonesia pada masa pemerintahan Presiden Joko Widodo. Data diambil dari ujaran kebencian yang diucapkan oleh enam elite simbolik di Indonesia, yang dipadukan dengan data konteks sosial-politik ujaran tersebut. Dengan menggunakan pendekatan kajian wacana kritis (KWK) sosiokognitif model van Dijk, penelitian ini memperlihatkan bahwa ujaran-ujaran kebencian yang diekspresikan oleh elite-elite simbolik mengandung proposisi makro yang berhubungan dengan model konteks politik dalam wacana politik di Indonesia. Di samping itu, proposisi-proposisi ideologis tersebut memiliki basis kognitif dalam representasi sosial masyarakat indonesia, yang muncul ke permukaan karena didorong oleh faktor politik. Hal ini membentuk model-mental situasi politik Indonesia, terutama terkait dengan polarisasi kelompok prooposisi dan propemerintah, termasuk aktor, aksi, dan relasi di dalamnya. Dengan demikian, dapat disimpulkan bahwa pada masa pemerintahan Presiden Joko Widodo ujaran kebencian dalam wacana politik di Indonesia memperlihatkan adanya relasi antara struktur dan makna ujaran kebencian dengan kognisi sosial-politik di Indonesia yang mengarah pada polarisasi berdasarkan dimensi ideologis yang direproduksi oleh kelompok Kami dan Mereka. Secara teoretis, penelitian ini merupakan terobosan baru terkait dengan cara memahami sikap kelompok berdasarkan keberpihakan politik (propemerintah dan prooposisi) yang tidak disinggung dalam teori ideologi van Dijk. Sumbangan teoretis lain yang dapat diberikan penelitian ini adalah kontribusi pada pengembangan disiplin ilmu linguistik forensik, terutama terkait dengan konsep ujaran kebencian dan bagaimana ujaran kebencian tersebut harus ditafsirkan dengan pendekatan sosiokognitif. Hal ini bersandar pada konsep bahwa ujaran kebencian adalah fenomena ideologis, sementara ideologi adalah parameter kognitif yang paling signifikan yang mengontrol sikap dan tindakan aktor dalam suatu kelompok. Selebihnya, penelitian ini diharapkan dapat memberikan kontribusi berharga untuk memahami situasi politik di Indonesia belakangan ini dalam upaya untuk terus mengasah sikap kritis dan mendorong adanya sistem yang mendasar untuk melakukan perubahan sosial.

As a global political phenomenon, the study of hate speech has been widely explored by previous researchers, but as a cognitive phenomenon related to ideology, the study of hate speech is still very limited. During President Joko Widodo's administration, expressions of hate speech were often found, especially those conveyed by symbolic elites. However, in Indonesia, there are almost no studies that link these utterances to the ideology of certain political groups. Therefore, this research aims to discover the ideological dimensions of hate speech in political discourse in Indonesia during the administration of President Joko Widodo. Data was taken from hate speech uttered by six symbolic elites in Indonesia, which was combined with data on the socio-political context of the speech. By using the van Dijk model of the sociocognitive critical discourse study (CDA) approach, this research shows that hate speech expressed by symbolic elites contains macro propositions related to the political context model in political discourse in Indonesia. Apart from that, these ideological propositions have a cognitive basis in the social representation of Indonesian society, which emerges to the surface because political factors drive it. This forms a mental model of the Indonesian political situation, especially related to the polarization of pro-opposition and pro-government groups, including actors, actions and relations within them. Thus, it can be concluded that during the administration of President Joko Widodo, hate speech in political discourse in Indonesia showed a relationship between the structure and meaning of hate speech and socio-political cognition in Indonesia, leading to polarization based on the ideological dimensions reproduced by the group of We and They. Theoretically, this research is a new breakthrough regarding how to understand group attitudes based on political alignments (pro-government and pro-opposition), which are not mentioned in van Dijk's ideological theory. Another theoretical contribution that this research can make is a contribution to the development of the discipline of forensic linguistics, especially related to the concept of hate speech and how hate speech should be interpreted using a sociocognitive approach. This relies on the concept that hate speech is an ideological phenomenon, while ideology is the most significant cognitive parameter that controls the attitudes and actions of actors in a group. Furthermore, it is hoped that this research can provide a valuable contribution to understanding the recent political situation in Indonesia in an effort to continue to hone critical attitudes and encourage the existence of a fundamental system for carrying out social change."

Depok: Fakultas Ilmu Pengetahuan Budaya Universitas Indonesia, 2024

D-pdf

UI - Disertasi Membership Universitas Indonesia Library

Muhammad Okky Ibrohim

Klasifikasi multi label untuk identifikasi ujaran kebencian dan ujaran kasar pada Twitter berbahasa Indonesia = Multi-label classification to identify hate speech and abusive language on Indonesian Twitter

"ABSTRAK

Penyebaran ujaran kebencian dan ujaran kasar di media sosial merupakan hal yang harus diidentifikasi secara otomatis untuk mencegah terjadinya konflik masyarakat. Selain itu, ujaran kebencian mempunyai target, golongan, dan tingkat tersendiri yang juga perlu diidentifikasi untuk membantu pihak berwenang dalam memprioritaskan kasus ujaran kebencian yang harus segera ditangani. Tesis ini membahas klasifikasi teks multi label untuk mengidentifikasi ujaran kasar dan ujaran kebencian disertai identifikasi target, golongan, dan tingkatan ujaran kebencian pada Twitter berbahasa Indonesia. Permasalahan ini diselesaikan menggunakan pendekatan machine learning menggunakan algoritma klasifikasi Support Vector Machine (SVM), NaÃ¯ve Bayes (NB), dan Random Forest Decision Tree (RFDT) dengan metode transformasi data Binary Relevance (BR), Label Power-set (LP), dan Classifier Chains (CC). Jenis fitur yang digunakan antara lain fitur frekuensi term (word n-grams dan character n-grams), fitur ortografi (tanda seru, tanda tanya, huruf besar/kapital, dan huruf kecil), dan fitur leksikon (leksikon sentimen negatif, leksikon sentimen positif, dan leksikon kasar). Hasil eksperimen menunjukkan bahwa secara umum algoritma klasifikasi RFDT dengan metode transformasi LP memberikan akurasi yang terbaik dengan waktu komputasi yang cepat. Algoritma klasifikasi RFDT dengan metode transformasi LP menggunakan fitur word unigram memberikan akurasi sebesar 66,16%. Jika hanya mengidentifikasi ujaran kasar dan ujaran kebencian (tanpa disertai identifikasi target, golongan, dan tingkatan ujaran kebencian), algoritma klasifikasi RFDT dengan metode transformasi LP menggunakan gabungan fitur word unigram, character quadgrams, leksikon sentimen positif, dan leksikon kasar mampu memberikan akurasi sebesar 77,36%.

Hate speech and abusive language spreading on social media needs to be identified automatically to avoid conflict between citizen. Moreover, hate speech has target, criteria, and level that also needs to be identified to help the authority in prioritizing hate speech which must be addressed immediately. This thesis discusses multi-label text classification to identify abusive and hate speech including the target, category, and level of hate speech in Indonesian Twitter. This problem was done using machine learning approach with Support Vector Machine (SVM), NaÃ¯ve Bayes (NB), and Random Forest Decision Tree (RFDT) classifier and Binary Relevance (BR), Label Power-set (LP), and Classifier Chains (CC) as data transformation method. The features that used are term frequency (word n-grams and character n-grams), ortography (exclamation mark, question mark, uppercase, lowercase), and lexicon features (negative sentiment lexicon, positif sentiment lexicon, and abusive lexicon). The experiment results show that in general RFDT classifier using LP as the transformation method gives the best accuracy with fast computational time. RFDT classifier with LP transformation using word unigram feature give 66.16% of accuracy. If only for identifying abusive language and hate speech (without identifying the target, criteria, and level of hate speech), RFDT classifier with LP transformation using combined fitur word unigram, character quadgrams, positive sentiment lexicon, and abusive lexicon can gives 77,36% of accuracy.

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2019

T52442

UI - Tesis Membership Universitas Indonesia Library

Alif Mahardhika

Identifikasi Ujaran Kebencian dan Ujaran Kasar pada Twit Berbahasa Campuran Indonesia-Jawa dengan Pre-Trained Language Model Berbasis BERT = Hate-Speech and Abusive Language Identification on Code-Mixed Indonesian and Javanese Language Tweets Using BERT-based Pre-trained Language Model

"Ujaran kasar dan ujaran kebencian telah menjadi fenomena yang banyak ditemukan di media sosial. Penyalahgunaan kebebasan berpendapat ini berpotensi memicu terjadinya konflik dan ketidakstabilan sosial dikalangan masyarakat, baik dalam interaksi sosial secara digital maupun secara fisik. Diperlukan upaya identifikasi ujaran kasar dan ujaran kebencian secara otomatis, akurat, dan efisien untuk mempermudah penegakkan hukum oleh pihak berwenang. Penelitian pada skripsi ini melakukan perbandingan performa klasifikasi ujaran kasar dan ujaran kebencian pada data teks mixed-coded berbahasa Indonesia-Jawa, menggunakan model klasifikasi berbasis BERT. Eksperimen perbandingan dilakukan dengan membandingkan pre-trained model berbasis BERT dengan berbagai arsitektur dan jenis berbeda, yaitu BERT (dengan arsitektur base dan large), RoBERTa (arsitektur base), dan DistilBERT (arsitektur base). Untuk mengatasi keterbatasan mesin dalam memahami teks mixed-coded, penelitian ini dirancang dalam dua skenario yang membandingkan performa klasifikasi pada teks mixed-coded Indonesia-Jawa dan teks mixed coded yang diterjemahkan ke Bahasa Indonesia. Hasil terbaik berdasarkan F1-Score didapatkan pada klasifikasi menggunakan model berbasis BERT dengan nama IndoBERT-large-p2 pada kedua skenario, dengan F1-Score 78,86% pada skenario tanpa proses translasi, dan F1-Score 77,22% pada skenario dengan proses translasi ke Bahasa Indonesia.

Hateful and abusive speech has become a phenomenon that becomes common in social media. This abuse of freedom of speech presents significant risk of starting social conflicts, be it in the form of digital or physical social interactions. An accurate, efficient, and automated hate speech and abusive language identification effort needs to be developed to help authorities address this problem properly. This research conducts a comparison on hate speech and abusive language identification using several BERT-based language models. The comparisons are made using a variety of BERT-based language models with different types and architecture, including BERT (base and large architecture), RoBERTa (base architecture), and DistilBERT (base architecture). To address the mixed-coded nature of social media texts, this research was conducted under two different scenario that compares the classification performance using a mixed-coded Indonesian-Javanese text and texts that have been translated to Indonesian. The best classification output was measured using F1-Score, with a BERT-based model named IndoBERT-large-p2 outscoring the other BERT-based models in both scenario, scoring an F1-Score of 78.86% in untranslated scenario, and 72.22% F1-Score on the Indonesian-translated scenario."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Nur Indah Pratiwi

Identifikasi ujaran kebencian menggunakan kode kebencian pada twit berbahasa Indonesia = Identification of hate speech using hate code on Indonesian tweets

"Saat ini pengguna media sosial semakin kreatif dalam menyampaikan ujaran kebencian. Untuk menghindari peraturan kebijakan di media sosial, pengguna menggunakan kode untuk berinteraksi satu sama lain. Kode tersebut merupakan istilah atau julukan berisi kebencian yang ditargetkan pada suatu pihak untuk menyampaikan ujaran kebencian. Penelitian ini bertujuan untuk menggunakan kode kebencian dalam mengidentifikasi ujaran kebencian pada media sosial. Penelitian ini menggunakan twit berbahasa Indonesia serta menggunakan metode Logistic Regression, Support Vector Machine, Naïve Bayes, dan Random Forest Decision Tree. Hasil penelitian menunjukkan bahwa fitur kode

kebencian (hate-code HC) yang diusulkan, dapat digunakan sebagai fitur untuk identifikasi

ujaran kebencian. Jika tanpa fitur kode kebencian, F-Measure menghasilkan tidak lebih dari 55%. Namun, performa meningkat jika menggunakan fitur kode kebencian dengan hasil F-Measure sebesar 80.71% yang dikombinasikan dengan metode Logistic Regression Nowadays social media users are increasingly creative in expressing hate speech.

To avoid policy regulations on social media, users use code to interact with each other. The code is a term or nickname containing hatred that is targeted at a individual or groups to convey the utterance of hate. This study aims to use hate codes in identifying hate speech on social media. This study uses twit in Indonesian and uses the Logistic Regression, Support Vector Machine, Naïve Bayes, and Random Forest Decision Tree. The results show the hate code features (HC) that proposed can be used as a feature to identify hate speech. If without the hate code feature, F Measure generates nomore than 55%. However, performance increases if using this feature, with the result of F-Measure of 80.71%
combined with Logistic Regression method."

Depok: Fakultas Komputer Universitas Indonesia, 2019

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Tansa Trisna Astono Putri

Analisis dan Deteksi Hate Speech pada Media Sosial Twitter Berbahasa Indonesia = Hate Speech Analysis and Detection in Indonesian Language in Twitter Social Media

"ABSTRAK

Kebebasan berpendapat melalui media sosial untuk mengungkapkan pikiran, pendapat dan tanggapan terhadap suatu topik tertentu menimbulkan dampak negatif berupa konten yang menebarkan kebencian. Penelitian ini bertujuan untuk melakukan deteksi sebuah informasi yang merupakan ujaran kebencian di media sosial Twitter. Data yang digunakan berjumlah 4.002 data sentimen terkait topik politik, agama, suku dan ras di Indonesia. Pada pembangunan model, penelitian ini menggunakan metode klasifikasi sentimen dengan algoritma machine learning seperti Na ve Bayes, Multi Level Perceptron, AdaBoost Classifier, Random Forest Decision Tree dan Support Vector Machine SVM . Di samping itu, penelitian ini juga melakukan perbandingan performa model dengan menggunakan unigram, bigram dan unigram-bigram dalam proses fitur ekstraksi dan penggunaan SMOTE untuk mengatasi imbalanced data. Evaluasi dari percobaan yang dilakukan menunjukkan bahwa algoritma AdaBoost menghasilkan model terbaik dengan nilai recall tertinggi yaitu 99.5 yang memiliki nilai akurasi sebesar 70.0 dan nilai F1-score sebesar 82.2 untuk klasifikasi ujaran kebencian apabila menggunakan bigram.

ABSTRACT

Freedom of expression through social media to express idea, opinion and view about current topic causes negative impact as the rise of hateful content. This study aims to detect a hate speech information through Twitter. Dataset of this study consists of 4.002 sentiment data related to politic, race, religion and clan topic. The model development of this study conducted by sentiment classification method with machine learning algorithm such as Na ve Bayes, Multi Level Perceptron, AdaBoost Classifier, Random Forest Decision Tree and Support Vector Machine SVM . We also conduct a comparison of model performance that used unigram, bigram, unigram bigram feature and SMOTE to handle imbalanced data. Evaluation of this study showed that AdaBoost algorithm resulted the best classification model with the highest recall model which was 99.5 , accuracy score as much as 70.0 and F1 score 82.2 to classify hate speech when using bigram features."

2018

TA-Pdf

UI - Tugas Akhir Universitas Indonesia Library

Oky Ade Irmawan

Deteksi Ujaran Kebencian di Twitter dalam Konteks Pemilihan Presiden Indonesia 2024 = Identifying Hate Speech on Twitter in the Context of the 2024 Indonesian Presidential Election

"Ujaran kebencian telah menjadi perhatian yang semakin meningkat di era digital, terutama selama masa pemilu. Kompetisi politik dan polarisasi opini publik dapat menciptakan lingkungan yang rentan terhadap penyebaran ujaran kebencian. Berdasarkan hasil penelitian, ditemukan bahwa jumlah ujaran kebencian meningkat secara signifikan menjelang pemilu 2024. Fenomena ini menggambarkan tantangan berkelanjutan dalam mengendalikan dan mengurangi ujaran kebencian, terutama selama periode pemilu. Mengingat volume konten yang sangat besar di platform media sosial, mengidentifikasi ujaran kebencian secara manual menjadi tugas yang sulit dan memakan waktu, sehingga diperlukan solusi otomatis yang efisien dan akurat. Penelitian ini bertujuan menemukan model terbaik untuk mendeteksi ujaran kebencian dan mengidentifikasi topik-topik utama yang dibahas selama periode Pemilu Presiden 2024. Data dari Twitter yang diambil sejak Januari hingga Maret 2024 diproses dan diklasifikasi untuk mendeteksi ujaran kebencian dengan menggunakan algoritma machine learning Random Forest, SVM, dan Decision Tree serta algoritma deep learning CNN dan BERT. Hasilnya menunjukkan bahwa BERT memberikan tingkat akurasi terbaik sebesar 95%. Pemodelan topik dengan Latent Dirichlet Allocation (LDA) menghasilkan 17 topik utama, termasuk diantaranya ajakan untuk tidak memilih pasangan calon tertentu, penghinaan terhadap calon presiden, isu dinasti politik, dan tuduhan kecurangan oleh rezim dalam Pemilihan Presiden 2024.

Hate speech has become an increasing concern in the digital age, especially during elections. Political competition and polarization of public opinion can create an environment vulnerable to the spread of hate speech. Research results show that the amount of hate speech leading up to the 2024 election has increased significantly. This phenomenon illustrates the ongoing challenges of controlling and reducing hate speech, especially during elections. Given the massive volume of content on social media platforms, manually identifying hate speech becomes a difficult and time-consuming task, thus efficient and accurate automated solutions are needed. This research aims to find the best model to detect hate speech and identify the main topics discussed during the 2024 Presidential Election period. Data from Twitter taken from January to March 2024 was processed and classified to detect hate speech using Random Forest, SVM, and Decision Tree machine learning algorithms as well as CNN and BERT deep learning algorithms. The results show that BERT provides the best accuracy rate of 95%. Topic modeling with Latent Dirichlet Allocation (LDA) produced 17 main topics, including influences to not to vote for specific candidates, insults to presidential candidates, political dynastic issues, and allegations of fraud by the regime in the 2024 Presidential Election."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024

TA-pdf

UI - Tugas Akhir Universitas Indonesia Library

Fairuz Astari Devianty

Ekspansi Data Menggunakan Forward-Backward Translation untuk Deteksi Ujaran Kebencian Multi-Label dalam Bahasa Indonesia = Data Expansion Using Forward-Backward Translation for Multi-Label Hate Speech Detection in Bahasa Indonesia

"Dengan tumbuh dan berkembangnya platform media sosial, komunikasi bisa menjadi lebih mudah dilakukan. Namun, hal tersebut dapat disalahgunakan, seperti penyebaran hate speech melalui media sosial yang semakin marak terjadi. Meski kebebasan berekspresi adalah hak setiap orang di Indonesia, namun karena dampak negatifnya konten kebencian harus dihilangkan. Salah satu solusinya adalah dengan membangun sebuah model yang dapat mendeteksi hate speech secara otomatis. Untuk membangun model pendeteksian hate speech yang baik, dibutuhkan data beranotasi dengan jumlah yang besar untuk melatih model. Selain itu perlu juga diperhatikan target dan kategori dari hate speech tersebut. Namun, saat ini hanya ada satu multi-label hate speech dataset Bahasa Indonesia yang tersedia dan memiliki kekurangan proposi data dari setiap label yang tidak seimbang. Untuk mengatasi masalah kekurangan data ini, penulis mengusulkan sebuah metode yaitu Forward-Backward Translation untuk menghasilkan data secara otomatis. Metode ini merupakan gabungan dari forward translation dan back-translation. Forward translation dilakukan pada dataset dari high-resource language dan back-translation dilakukan pada dataset dari low-resource language. Dengan digabungkannya kedua proses ini dataset yang dihasilkan akan memiliki jumlah yang besar dan memiliki kualitas terjemahan yang baik. Metode ini digunakan untuk menambahkan data pada deteksi multi-label hate speech Bahasa Indonesia dengan tambahan data dari Bahasa Inggris. Performa pendeteksian multi-label hate speech pada dataset baru hasil penelitian ini berhasil meningkat bila dibandingkan dengan pada dataset hate speech Bahasa Indonesia yang sudah ada. Dataset ini mendapatkan F1-score sebesar 0.76 saat melakukan multi-label classification dan F1-score sebesar 0.78 saat melakukan hierarchical classification.

The growth and development of social media platforms make communication easier. However, this can be misused. For example, the spread of hate speech via social media is increasing. Freedom of speech is everyone's right in Indonesia, but malicious content must be eliminated due to its negative impact. One solution is to build a model that can automatically detect hate speech. Building a good hate speech detection model requires a large amount of annotated data to train the model. It is also necessary to pay attention to the target, category, and level of hate speech. However, there is currently only one multi-label hate speech dataset in Bahasa Indonesia available and the proportion of data for each label is unequal. To overcome this data scarcity problem, we propose a forward-backward translation method to generate data automatically. This method combines forward and backward translation. A forward translation is performed for dataset in high-resource languages and a backward translation is performed for dataset in low-resource languages. By combining these two processes, the resulting dataset will have a large amount of data and good translation quality. This method will be used to add data on multi-label hate speech detection in Bahasa Indonesia with additional data from English. As a result of this study, the performance of multi-label hate speech detection in the new dataset improved compared to the existing Bahasa Indonesia hate speech dataset. This dataset gets an F1-score of 0.76 for multi-label classification and an F1-score of 0.78 for hierarchical classification."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

T-pdf

UI - Tesis Membership Universitas Indonesia Library

Mohammad Rizky Adrian

Deteksi Ujaran Kebencian dan Ujaran Kasar Terkait Covid-19 Berbahasa Indonesia di Twitter = Hate Speech and Abusive Language Detection Related to COVID-19 in Indonesian Language on Twitter

"Salah satu upaya pengendalian konten negatif media sosial seperti ujaran kebencian dan ujaran kasar adalah dengan mengotomasi proses filter dari konten media sosial. Dalam konteks COVID19, proses otomasi ini dapat dimanfaatkan oleh KOMINFO, virtual police, satuan tugas COVID19, ataupun para akademisi. Data dikumpulkan dari Twitter selama bulan Mei sampai Juni 2021. Penelitian memanfaatkan korpus dari penelitian terdahulu untuk mengetahui apakah pengetahuan dari penelitian terdahulu dapat digunakan pada domain COVID19. Dataset dievaluasi menggunakan algoritma Support Vector Machine (SVM), Naïve Bayes, Random Forest Decision Tree (RFDT), Logistic Regression, dan ADABoost, dengan variasi SMOTE dan undersampling. Unigram-bigram kata digunakan sebagai fitur dikombinasikan dengan fitur lexicon dan orthogonal, serta diekstraksi menggunakan Term Frequency-Inverse Document Frequency dan Count Vectorizer. Hasil anotasi menunjukkan perbandingan data imbalance sebesar 1:73 untuk ujaran kebencian dan 1:24 untuk ujaran kasar. Evaluasi dari hasil penelitian menunjukkan bahwa pemanfaatan model klasifikasi dari penelitian terdahulu (2019) dikombinasikan dengan dataset COVID19 memiliki nilai recall dan F1 klasifikasi ujaran kebencian (nilai recall 69.23%) dan ujaran kasar (nilai recall 71.3%) yang lebih baik. Algoritma pembangun model terbaik didominasi oleh algoritma SVM dan ADABoost. Hasil dari penelitian perlu ditindaklanjuti agar dapat dirasakan manfaatnya secara langsung, misalnya dengan membungkus model klasifikasi pada API (application programmable interface).

One of the efforts to control negative aspect of social media like hate speech and abusive language is by automating the filtering process of content on social media. In the context of COVID19, KOMINFO, the virtual police, the COVID19 task force, or academics can benefit from this solution. Data was collected from Twitter in the period of May to June 2021. The study utilizes the corpus from previous studies to find out whether previous research knowledge can be used in the COVID19 domain. The COVID19 dataset uses the Support Vector Machine (SVM), Naïve Bayes, Random Forest Decision Tree (RFDT), Logistic Regression, and ADABoost algorithms, with variations of data imbalances handling (SMOTE and undersampling). Unigram-bigram words, lexicon, and orthogonal are used as features extracted by TF-IDF and Count Vectorizer. The annotation results show a comparison of the imbalanced data of 1:73 for hate speech and 1:24 for abusive language in COVID19 dataset. Results of the study shows that the use of the classification model from previous studies (2019) combined with the COVID19 dataset has a better recall value and F1 classification of hate speech (with recall score of 69.23%) and abusive language (with recall score of 71.3%). The best classifier models mostly built using SVM and ADABoost. The results of this research need to be followed up so that they can be used directly, for example by wrapping the best classifier model on API (application programmable interface)."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021

TA-pdf

UI - Tugas Akhir Universitas Indonesia Library

Hutagaol, Ester Josephin Pratiwi

Penegakan hukum terhadap tindak pidana ujaran kebencian (hate speech) di Indonesia = law enforcement of hate speech in Indonesia

"Ujaran kebencian merupakan perkataan, perilaku, tulisan, ataupun pertunjukan yang dilarang karena dapat memicu terjadinya tindakan kekerasan, diskriminasi, permusuhan atas dasar suku, agama, ras dan antargolongan (SARA). Salah satu faktor lemahnya penegakan hukum terhadap fenomena ujaran kebencian yaitu terletak pada pengaturan mengenai ujaran kebencian itu sendiri, dimana terdapat

ketidakjelasan parameter dalam pengaturannya. Akibat dari ketidakjelasan parameter tersebut, maka kepastian hukum terkait ujaran kebencian akan sulit dicapai selain itu akan semakin besar kemungkinan terjadinya kesewenangwenangan. Penelitian ini ditujukan untuk mengetahui dan memahami bagaimanakah sejarah peraturan tentang ujaran kebencian di Indonesia, apa yang menjadi parameter suatu perbuatan termasuk sebagai ujaran kebencian (hate speech) serta praktik penegakan hukum terhadap tindak pidana ujaran kebencian (hate speech) di Indonesia. Melalui penelitian Yuridis-Normatif dengan

pendekatan sejarah, undang-undang dan konseptual, maka penelitian ini menghasilkan tiga kesimpulan yaitu: 1. Sejarah peraturan tindak pidana ujaran kebencian (hate speech) di Indonesia sesungguhnya berasal dari British Indian Penal Code yang saat itu berlaku di India yang dijajah oleh Inggris. Berdasarkan Traktat London, semua jajahan Perancis diserahkan ke tangan Inggris. Belanda

yang merupakan jajahan Perancis kemudian jatuh ke tangan Inggris, maka Inggrislah yang membawa pasal tersebut ke Belanda, kemudian Belanda menerapkan pasal tersebut ke Indonesia karena dianggap memiliki kesamaan dengan India yang memiliki ragam kultur dan agama. 2. Parameter ujaran

kebencian yaitu perbuatan yang dilakukan di muka umum; bersifat permusuhan, penghinaan atau merendahkan, dan kebencian; dilakukan dengan sengaja baik langsung maupun tidak langsung; menimbulkan terjadinya kerusuhan yang

menyebabkan terjadinya kerugian materiil, immateriil dan jiwa. 3. Penegakan hukum terhadap tindak pidana ujaran kebencian berdasarkan analisis dari tujuh putusan ialah bahwa hakim kurang memberikan tafsiran dan argumen terhadap unsur pasal yang tidak jelas tersebut dan ada hakim yang memperluas makna golongan menjadi tidak sesempit pada suku, agama dan ras saja.

Hate speech is a word, behavior, writing, or show that is prohibited because it can trigger acts of violence, discrimination, animosity on the basis of ethnicity,

religion, race and intergroup (SARA). One factor that is weak law enforcement against the phenomenon of hate speech is located in the regulation of the hate speech itself, where there are unclear parameters in the regulation. As a result of the unclear parameters, the legal certainty related to hate speech will be difficult to achieve other than that the greater the possibility of arbitrariness. This research is intended to find out and understand how the history of regulations regarding hate speech in Indonesia, what is the parameter of an act including hate speech and law enforcement practices against hate speech in Indonesia. Through juridical-normative research with historical, legal and conceptual approaches, this research resulted in three conclusions, namely: 1. The history of

hate speech regulations in Indonesia actually originated from the British Indian Penal Code which was then in force in India which was colonized by the British. Based on the London Treaty, all French colonies were handed over to the British. The Netherlands which was a French colony then fell into the hands of the British, then it was England who brought the article to the Netherlands, then the Dutch

applied the article to Indonesia because it was considered to have similarities with India which had a variety of cultures and religions. 2. Parameters of hate speech, namely acts committed in public; hostility, humiliation or humiliation, and hatred; done intentionally both directly and indirectly; lead to riots that cause material, immaterial and life losses. 3. law enforcement against hate speech based on an analysis of the seven decisions is that the judge does not provide interpretations and arguments about the unclear elements of the article and there are judges who expand the meaning of groups to be not as narrow as ethnic, religious and racial only.

Depok: Fakultas Hukum Universitas Indonesia, 2020

T54598

UI - Tesis Membership Universitas Indonesia Library

<< 1 2 3 4 5 6 7 8 9 10 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian