Hasil Pencarian

Ditemukan 50 dokumen yang sesuai dengan query

Dwinanda Kinanti Suci Sekarhati

Tinjauan Pustaka Sistematik Deteksi Informasi Palsu dan Kondisinya pada Media Sosial Indonesia = False Information Detection Process and Indonesia’s Social Media Condition – A Systematic Literature Review

"Perkembangan web khususnya media sosial sudah melaju dengan cepat dan sudah menjadi tempat penyebaran informasi dan ilmu pengetahuan. Namun, informasi yang tersebar juga ada yang berupa hoaks dan informasi palsu seperti misinformasi, disinformasi, dan bullshit. Hal ini pun terjadi di Indonesia dimana jumlah dari situs penyebar hoaks sendiri sudah mencapai 800,000 dengan 75,19% dari 2032 koresponden berdasarkan survey DailySocial sering mendapatkan dan sulit mendeteksi hoaks. Penelitian dan proses deteksi hoaks dan informasi palsu di Indonesia pun masih dalam tahap awal pengembangan dan mempunyai banyak tantangan. Karena hal tersebut, karya akhir ini akan membahas penelitian-penelitian terdahulu menggunakan metode tinjauan pustaka sistematik menurut Guideline EBSE untuk menghasilkan best practice dari penelitian saat ini dan melakukan perbandingan dengan kondisi media sosial Indonesia saat ini untuk mendapatkan rekomendasi yang dapat diimplementasikan di Indonesia. Hasil dari penelitian ini adalah Indonesia masih mempunyai beberapa hal yang harus dibenahi dan dapat melakukan rekomendasi seperti melakukan dan mendalami pemahaman definisi, pembaruan literasi, pendetailan hasil evaluasi, pengembangan dataset, metode deteksi, crowdsourcing, serta chatbot sesuai kapabilitas dan kondisi.

The development of the web, especially social media has been going fast and has become a place of dissemination of information and science. However, there is also scattered information in the form of hoax and false information. This also happened in Indonesia, where the number of hoax distribution sites alone had reached 800,000, with 75.19% of the 2032 correspondents based on the DailySocial survey often getting and finding it challenging to detect hoax. Research and the hoax detection process and false information in Indonesia are still in the early stages of development and have many challenges. This final paper will discuss previous studies using a systematic literature review method according to the EBSE Guidelines to produce best practices from current research and make comparisons with current conditions of Indonesian social media to obtain recommendations that can be implemented in Indonesia. The results of this study are that Indonesia still has several things that need to be addressed and recommended to conducting and deepening understanding of definitions, literacy updates, detailed evaluation results, dataset development, detection methods, crowdsourcing, and chatbots according to capabilities and conditions.
"

Depok: Fakultas Ilmu Komputer Universitas Indonesia , 2020

TA-Pdf

UI - Tugas Akhir Universitas Indonesia Library

Muhammad Anwar Farihin

Pengenalan Entitas Bernama pada Twit Berbahasa Indonesia Menggunakan Model Pre-Trained BERT = BERT Pre-Trained Language Model for Named Entity Recognition on Indonesian Tweets

"Pengenalan Entitas Bernama (NER) telah diteliti cukup dalam, khususnya pada korpus berbahasa Inggris. Namun, penelitian NER pada korpus twit berbahasa Indonesia masih sangat sedikit karena minimnya dataset yang tersedia secara publik. BERT sebagai salah satu model state-of-the-art pada permasalahan NER belum diimplementasikan pada korpus twit berbahasa Indonesia. Kontribusi kami pada penelitian ini adalah mengembangkan dataset NER baru pada korpus twit berbahasa Indonesia sebanyak 7.426 twit, serta melakukan eksperimen pada model CRF dan BERT pada dataset tersebut. Pada akhirnya, model terbaik pada penelitian ini menghasilkan nilai F1 72,35% pada evaluasi tingkat token, serta nilai F1 79,27% (partial match) dan 75,40% (exact match) pada evaluasi tingkat entitas.

Named Entity Recognition (NER) has been extensively researched, primarily for understanding the English corpus. However, there has been very little NER research for understanding Indonesian-language tweet corpus due to the lack of publicly available datasets. As one of the state-of-the-art models in NER, BERT has not yet been implemented in the Indonesian-language tweet corpus. Our contribution to this research is to develop a new NER dataset on the corpus of 7.426 Indonesian-language tweets and to conduct experiments on the CRF and BERT models on the dataset. In the end, the best model of this research resulted in an F1 score of 72,35% at the token level evaluation and an F1 score of 79,27% (partial match) and 75,40% (exact match) at the entity level evaluation."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Yudhistira Erlandinata

Pembangunan Korpus dan Model Relasi Semantik Hiponim-Hipernim Bahasa Indonesia dengan Pendekatan Pattern-Based, Crowdsourcing, dan Machine Learning = Building Indonesian Hyponym-Hypernym Semantic Relations Corpus and Model Using Pattern-Based, Crowdsourcing, and Machine Learning Approach.

"Korpus relasi semantik dapat menunjang berbagai penelitian di bidang pengolahan bahasa manusia. Untuk Bahasa Indonesia, korpus relasi semantik yang berukuran besar dan berkualitas baik masih belum tersedia. Korpus relasi semantik dapat dibuat secara manual dengan melibatkan anotator dan juga dapat dihasilkan secara otomatis menggunakan algoritma rule-based atau machine learning. Penelitian ini bertujuan untuk mengevaluasiseberapa baik kualitas korpus relasi semantik Bahasa Indonesia, khususnya relasi hiponim-hipernim, apabila dibangun dengan pendekatan machine learning dan metode crowdsourcing yang menerapkan gamifikasi. Algoritma pattern-based yang sebelumnya pernah diteliti untuk Bahasa Indonesia akan digunakan untuk menghasilkan data training algoritma machine learning dan kandidat entri korpus untuk dianotasi dengan metode crowdsourcing. Kualitas korpus hasil metode crowdsourcing diukur berdasarkan tingkat persetujuan antar anotator dan diperoleh hasil yang cukup baik walaupun belum sempurna. Untuk pendekatan machine learning, beberapa model

machine learning yang diterapkan masih belum memberikan hasil optimal karena

keterbatasan resource.

Kata kunci: relasi semantik, hiponim-hipernim, crowdsourcing, gamifikasi, machine

learning, pattern-based

Semantic relations corpus is vital to support research in the field of Natural Language
Processing. Currently, there is no existing corpus of semantic relations in Indonesian
language which is enormous and high-quality. The corpus can be constructed manually
by employing human annotators or built automatically using rule-based or machine
learning algorithms. This research aims to evaluate the quality of Indonesian hyponym-
hypernym semantic relations corpus that is produced by crowdsourcing mechanism with
gamification, and to test the model for semantic relations prediction using machine
learning algorithms. The pattern-based method is applied to obtain the training data for
machine learning experiments and corpus entry candidates to be annotated using the
crowdsourcing method. The quality of the crowdsourced corpus is measured using inter-
annotator agreement. The experimental result shows that the gamification-based
crowdsourcing method is promising to produce the corpus. On the other hand, machine
learning models tested in this research have not given optimal results yet due to the
limitations of the lexical resources in Indonesian language."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2021

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Muhammad Fairuzi Teguh

Ekstraksi Informasi Numerik dari Teks Berbahasa Indonesia = Numerical Information Extraction from Indonesian Text

"Open Information Extraction (Open IE) merupakan topik yang telah diteliti cukup lama terutama pada bahasa Inggris. Pada pekerjaan open information extraction, dikembangkan banyak model baik yang melakukan ekstraksi relasi umum maupun yang berfokus pada relasi khusus, misalnya relasi numerik. Pada bahasa Indonesia, telah dikembangkan beberapa model open information extraction namun belum ada model yang berfokus pada relasi numerik. Padahal, sangat banyak informasi yang disajikan dalam bentuk numerik sehingga informasi tersebut belum dapat dimanfaatkan dengan baik. Karena itu, pada riset ini kami berfokus pada ekstraksi relasi numerik pada teks berbahasa Indonesia. Tantangan dalam pekerjaan ini adalah banyaknya relasi yang mungkin dari ekspresi numerik serta kategori ekspresi numerik yang beragam yaitu kardinal, kuantitas, persen, dan uang. Selain itu, banyak juga ekspresi numerik yang tidak menyatakan sebuah relasi numerik. Kontribusi riset ini adalah model ekstraksi atribut numerik dari teks berbahasa Indonesia. Walaupun pekerjaan ini adalah pilot task, model kami memperoleh hasil yang cukup baik dengan precision score 61.06%.

Open Information Extraction (Open IE) is a widely studied topic, especially in English. In open information extraction research, many models have been developed for general relation extraction or for specific relations, for instance, numerical relations. In Indonesian language, there have been some works on open information extraction models but none is focusing on numerical relations. With so much information given in numerical expression, it is so unfortunate if that information can not be used. Thus, in this research, we focus on numerical relation extraction in Indonesian texts. The challenge in this work is a huge number of relations that can be produced from numerical expressions as well as several categories of numerical expressions: cardinal, quantity, percent, and money. Furthermore, many numerical expressions do not express any numerical relation. Our contribution is a numerical relation extraction model from Indonesian texts. While this work is a pilot task, our model obtained a good result with precision score of 61.06%."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Alif Iqbal Hazairin

Web Crawling Untuk Pembangunan Korpus Bahasa-Bahasa Daerah Indonesia = Building Corpora for Indonesian Regional Languages by Web Crawling

"Bahasa daerah adalah bahasa yang digunakan sebagai penghubung pada masyarakat suatu daerah atau suatu kelompok masyarakat tertentu di samping bahasa utama, yaitu bahasa Indonesia. Keragaman bahasa daerah di Indonesia merupakan kekayaan budaya yang harus dipertahankan sepanjang zaman. Sayangnya, penggunaan bahasa daerah yang berkurang serta minimnya perhatian masyarakat pada digitalisasi bahasa daerah membuat bahasa daerah semakin terpinggirkan. Tak terkecuali pada bidang NLP, belum ada perkembangan signifikan dalam puluhan tahun terakhir yang melibatkan bahasa daerah sebagai subjek penelitian. Oleh karena itu, penelitian ini mencoba memberikan salah satu cara untuk meningkatkan kembali pelibatan bahasa daerah dalam penelitian khususnya NLP. Penelitian ini mencoba membangun korpus teks untuk sebanyak mungkin bahasa daerah di Indonesia menggunakan metode web crawling. Sistem melakukan crawling untuk mengumpulkan web berbahasa daerah sebanyak-banyaknya dan kontennya diambil dengan melakukan web scraping. Teks hasil scraping selanjutnya dinormalisasikan dan dilakukan language identification pada tiap kalimatnya. Kalimat dengan bahasa mayor seperti Indonesia dan Inggris dibuang, dan kalimat yang berbahasa daerah dipertahankan. Hasilnya adalah korpus teks untuk ratusan bahasa daerah di Indonesia. Harapannya hasil penelitian ini dapat menjadi batu loncatan penelitian bahasa daerah NLP di Indonesia selanjutnya.

Regional languages are languages used as a means of communication within a specific region or community, in addition to the main language, which is Indonesian. The diversity of regional languages in Indonesia is a cultural wealth that should be preserved throughout time. Unfortunately, the diminishing use of regional languages and the lack of attention given by society to the digitization of these languages have led to their marginalization. This holds true even in the field of Natural Language Processing (NLP), where there has been little significant development involving regional languages as research subjects in recent decades. Therefore, this study aims to provide a method to re-engage regional languages, particularly in NLP research. The research attempts to build a text corpus for as many regional languages in Indonesia as possible using web crawling methods. The system will crawl the web to collect regional language websites and extract their content through web scraping. The scraped texts will then undergo a normalization process and language identification process for each sentence. Sentences in major languages such as Indonesian and English will be discarded, while sentences in regional languages will be retained. The outcome of this research will be a text corpus for hundreds of regional languages in Indonesia. The hope is that the results of this study can serve as a stepping stone for the next NLP research on regional languages in Indonesia."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Machffud Tra Harana Vova

Klasifikasi Dokumen dan Ekstraksi Lokasi pada Berita Bencana Alam dengan Pendekatan Neural Network dan Pre-Trained Language Model = Document Classification and Location Extraction in Natural Disaster News with Neural Network Approach and Pre-Trained Language Model

"Indonesia merupakan negara yang wilayahnya sering mengalami bencana alam. Salah satu penanganan bencana alam adalah pengumpulan informasi berita bencana seperti artikel atau koran, yang mana berguna untuk meningkatkan readability. Meskipun be- gitu, sekadar pengumpulan artikel saja cukup sulit karena identfikasinya dapat memakan waktu serta makna yang termuat pada berita juga masih perlu diserap. Oleh karena itu perlu dilakukan klasifikasi dokumen untuk memilih teks dokumen yang relevan dengan bencana alam, kemudian dari teks dokumen yang relevan dilakukan ekstraksi informasi. Penelitian mengenai klasifikasi teks bencana alam serta ekstraksi informasi yang sudah dilakukan masih menggunakan pendekatan pemelajaran mesin tradisional serta belum memanfaatkan pre-trained model berbasis bahasa Indonesia. Penggunaan pre-trained model dan pendekatan deep learning sendiri sering memperoleh performa yang lebih baik, sehingga ada kemungkinan performa yang dihasilkan dapat ditingkatkan. Dalam penelitian ini dilakukan eksperimen menggunakan pre-trained word embedding seperti Word2Vec dan fastText, pendekatan deep learning seperti BERT dan BiLSTM untuk task klasifikasi. Hasil dengan pendekatan pemelajaran mesin tradisional dengan BoW yang sudah direproduksi menjadi yang terbaik hampir secara keseluruhan, meskipun jenis classifier yang digunakan adalah MLP yang mana sudah menerapkan deep learning karena memiliki beberapa neuron. Kemudian pada penggunaan model pre-trained seperti BERT, terdapat keterbatasan panjang masukan. Keterbatasan ini dapat ditangani dengan membuat representasi dokumen menjadi lebih pendek menggunakan metode peringkasan teks. Hasil representasi ringkasan dokumen dalam penelitian ini mampu meningkatkan performa akurasi klasifikasi baik pada pendekatan pemelajaran mesin tradisional maupun deep learning. Penelitian ini juga melakukan ekperimen penggunaan pre-trained model yang sudah fine-tuned untuk task ekstraksi lokasi seperti NER dan dependency parsing berbasis bahasa Indonesia, meskipun belum dihasilkan performa yang cukup baik.

Indonesia is a country whose often experiences natural disasters. One way to deal with natural disasters is to collect disaster news information such as articles or newspapers, which are useful for increasing readability. Even so, just collecting articles is quite difficult because identification can take time and the meaning contained in the news still needs to be absorbed. Therefore, it is necessary to classify documents to select document texts that are relevant to natural disasters, then extract information from the relevant document texts. Research on natural disaster text classification and information extraction that has been carried out still uses the traditional machine learning approach and has not yet utilized Indonesian language-based pre-trained models. The use of pre- trained models and deep learning approaches themselves often get better performance, so there is a possibility that the resulting performance can be improved. In this study, experiments were carried out using pre-trained word embedding such as Word2Vec and fastText, deep learning approaches such as BERT and BiLSTM for classification tasks. The results with traditional machine learning approaches with reproducible BoW are the best almost overall, even though the type of classifier used is MLP which already implements deep learning because it has few neurons. Then in the use of pre-trained models such as BERT, there are limitations to the length of the input. This limitation can be overcome by making the document representation shorter using the text summary method. The results of the document summary representation in this study were able to improve the performance of classification accuracy in both traditional and deep learning machine learning approaches. This study also conducted experiments using pre-trained models that had been fine-tuned for location extraction tasks such as NER and Indonesian language-based dependency parsing, although they did not produce sufficiently good performance."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Ricky Chandra Johanes

Normalisasi teks pada judul Produk E-Commerce = Text normalization on E-Commerce Product title

"Judul produk pada suatu platform e-commerce berperan cukup besar dalam menarik per- hatian konsumen terhadap produk. Kualitas judul produk yang kurang baik perlu diper- baiki dan perihal ini menyebabkan munculnya suatu kebutuhan untuk melakukan nor- malisasi teks pada judul produk agar judul produk dapat terstandardisasi. Namun, stan- dardisasi tersebut tidak dapat dilakukan secara manual oleh manusia karena produk baru setiap harinya akan terus meningkat sehingga membutuhkan suatu sistem yang dapat melakukan pekerjaan tersebut dengan baik. Kriteria atau indikator suatu judul produk yang baik pada platform e-commerce di Indonesia belum pernah didefinisikan sebelumnya sehingga penelitian ini mengajukan empat kriteria yang dapat menjadi parameter kualitas suatu judul produk, yaitu consistency, conciseness, discoverability, dan clarity. Selain itu, penelitian ini juga mengajukan sebuah pendekatan untuk melakukan normalisasi teks pada judul produk e-commerce, yakni dengan pendekatan pipeline yang terdiri atas em- pat tahapan, yaitu chunking, language identification, promotion words identification, dan normalization. Model yang digunakan pada modul chunking, language identification, dan promotion words identification adalah model Conditional Random Field. Evaluasi dilakukan terpisah pada setiap modul dan dilakukan secara integrasi pada pipeline. Pada setiap modul, pengujian yang dilakukan adalah evaluasi kontribusi setiap fitur terhadap kualitas prediksi, menghasilkan suatu kesimpulan bahwa terdapat beberapa potensi ke- mungkinan, yaitu fitur yang berkontribusi positif atau negatif terhadap seluruh metrik, atau fitur dapat berkontribusi positif pada metrik tertentu, namun berkontribusi negatif pada metrik lainnya. Pengujian pada pipeline dilakukan dengan memasukkan judul pro- duk ke seluruh modul mengikuti alur pemodelan dengan dua buah pengaturan evaluasi, menghasilkan akurasi terbaik sebesar 49,14% untuk nilai WER dan 82,61% untuk nilai BLEU. Berdasarkan seluruh hasil tersebut, performa Conditional Random Field dapat dikatakan bekerja dengan baik dalam melakukan identifikasi bahasa dan identifikasi pro- motion words, dan masih dapat dioptimisasi lagi pada tahapan chunking.

The product title on a e-commerce platform has a significant role in attracting consumers’ attention to the product. Poor quality of a product title needs to be fixed and standard- ized, led to a need of text normalization on e-commerce product title. However, this standardization cannot be done manually by humans because new products will continue to increase everyday, so it requires a machine that can do the job properly. Criteria or in- dicators of a good product title on the Indonesian e-commerce platform have never been defined before, so that this research proposes four criteria that can be parameters for a product title quality, namely consistency, conciseness, discoverability, and clarity. In ad- dition, this research also proposes an approach to normalize text on e-commerce product title, with a pipeline approach that consisting of four stages, namely chunking, language identification, promotion words identification, and normalization. The model used in module chunking, language identification, and promotion words identification involves the Conditional Random Field model. Evaluation was separated for each module and in- tegrated for pipeline evaluation. For each module, the experiment was used to evaluate the contribution of each feature towards the quality of the prediction, resulting in conclusion that there are several potential possibilities, which are features that contribute positively or negatively to all metrics, or features can contribute positively to certain metrics, but contribute negatively to the other metrics. The experiment was carried out by inserting product titles into all modules followed the modelling flow with two evaluation settings, resulting for the best accuracy of 49,14% for the WER value and 82,61% for the BLEU value. Based on all of these results, the performance of Conditional Random Field can be said to work well in language identification and promotion words identification module, and can still can be optimized in the chunking module."

Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020

S-pdf

UI - Skripsi Membership Universitas Indonesia Library

Rangga Kharisma Putra

Klasifikasi produk secara otomatis menggunakan Machine Learning: studi kasus perusahaan E-Commerce Indonesia = Automatic products classification using Machine Learning: a case study of Indonesian E-Commerce Company

"ABSTRAK

Tren belanja yang terus meningkat mendorong tumbuhnya bisnis e-commerce di Indonesia yang salah satunya adalah suatu perusahaan e-commerce di Indonesia. Salah satu peran penting untuk mendukung bisnis e-commerce adalah kategorisasi produk yang baik. Kategorisasi produk yang baik akan membuat pencarian produk sesuai dengan kebutuhan dari pelanggan. Hal ini berdampak baik pada tingkat penjualan, pengalaman pengguna, maupun pengelolaan produk di sisi internal perusahaan. Akan tetapi, terdapat temuan kesalahan kategori yang penyebab utamanya adalah proses kategorisasi yang masih bersifat manual, berulang, dan massive.

Penelitian ini bertujuan untuk membantu menyelesaikan permasalahan tersebut dengan membuat suatu model yang mampu melakukan klasifikasi produk secara otomatis. Data yang digunakan adalah judul produk, sedangkan untuk label adalah kategori dari setiap produk. Penelitian ini melakukan percobaan terhadap dua representasi yaitu bag-of-words (BoW) dan TF-IDF. Selain itu, penelitian ini menggunakan algoritma naïve bayes dan SVM dalam percobaannya.

Hasil dari penelitian ini didapatkan model yang mampu melakukan klasifikasi produk salah satu perusahaan e-commerce secara baik. Kombinasi BoW dan SVM mampu menghasilkan model performa yang terbaik dengan nilai akurasi 96.40% dan F-measure 95.90%. Selain itu dari penelitian ini didapatkan hasil representasi BoW memberikan performa yang lebih baik dibandingkan dengan TF-IDF.

ABSTRACT

The increasing shopping trend encourages the growth of e-commerce businesses in Indonesia, one of which is e-commerce company in Indonesia. On of the important role to support e-commerce business is well-managed product categorization. Good product categorization will impact the product search according to the customer needs. This will affect the level of sales, user experience, and product management in the internal side of the company. However, some errors were found in the product category, the main causes are the manual categorization, repetitive, and massive process.

This study is aimed to solve the problem by making a model that able to classify products automatically. The data that used in this study is the product title, while the label is the category of each product. This study conducted experiments on two representations; bag-of-words (BoW) and TF-IDF. In addition, this study is using naïve bayes and SVM algorithms in the experiment.

This study resulted a model that able to classify one of e-commerce company products properly. The combination of BoW and SVM is able to produce the best performance model with an accuracy value of 96.40% and F-measure 95.90%. On the other hand, the results of the BoW representation provided the better performance than the TF-IDF."

2019

TA-Pdf

UI - Tugas Akhir Universitas Indonesia Library

Yosia Rimbo Deantama

Penggunaan text mining pada berita daring dan sosial media LAPOR! untuk penggalian informasi kedaulatan pangan di Indonesia = Text mining on online news and social media LAPOR! to extract information on food sovereignty in Indonesia

"ABSTRAK

Pangan merupakan hak asasi manusia yang harus senantiasa terpenuhi oleh masyarakat dengan daya beli yang sesuai dan mempunyai kualitas pangan yang tinggi dan aman. Hal tersebut mendorong kedaulatan pangan suatu negara, yang secara mandiri memenuhi kebutuhan pangan masyarakatnya berdasarkan sistem pangan yang adil bagi seluruh masyarakat. Peraturan Pemerintah Republik Indonesia Nomor 17 Tahun 2015 yang mewajibkan adanya sistem informasi tentang pangan dan gizi dan teori evolusi e-government 3.0. Oleh karena itu salah satu solusi yang mendukung peraturan tersebut dan pendekatan e-government 3.0 adalah dengan pendekatan text mining. Penelitian ini mengolah data dari LAPOR! dan berita daring mengenai kedaulatan pangan untuk mengekstrak informasi dan menemukan pola-pola yang akan menghasilkan informasi tentang kedaulatan pangan di Indonesia sehingga dapat membantu pengambilan keputusan yang berdasar pada data melalui representasi visualisasi berbasis web. Jenis analisis informasi yang digunakan adalah Klasifikasi Dokumen untuk penyaringan dokumen, Named Entitiy Recognition yang digunakan untuk mengetahui entitas lokasi dan komoditas pangan dari data tekstual, dan Topic Modelling untuk menemukan topik dari sekumpulan teks dokumen berita dan aduan LAPOR!. Algoritma yang dipakai dalam penelitian ini adalah Conditional Random Fields dan Conditional Markov Model untuk implementasi Named Entity Recognition. Latent Dirichlet Allocation dan Non-Negative Matrix Factorization untuk implementasi Topic Modelling. Selain itu NaÃ¯ve Bayes, Support Vector Machine, dan Logistic Regression digunakan untuk klasifikasi dokumen. Sedangkan pemilihan model ini menggunakan Conditional Random Field dengan nilai F1-score pada entitas lokasi sebesar 83.85 dan entitas komoditas pangan sebesar 90.98 yang digunakan pada data berita daring, pada data aduan LAPOR!, entitas lokasi menggunakan Conditional Markov Model dengan nilai F1-Score sebesar 60.35 dan entitas komoditas pangan sebesar 89.74. Pada klasfikasi dokumen, model Support Vector Machine dengan fitur unigram memiliki nilai presisi sebesar 92.00. Pada Topic Modelling, model Non-Negative Matrix Factorization memiliki nilai coherence yang lebih tinggi daripada Latent Direchlete Allocation pada tiga eksperimen dengan dataset yang berbeda. Di samping itu, dilakukan visualisasi tentang kedaulatan pangan berdasarkan pengolahan data tersebut di atas untuk memudahkan pengambilan kebijakan oleh pimpinan seperti Tim Ahli di Kantor Staf Presiden.

ABSTRACT

Food is a human right that must always be fulfilled by the society with the appropriate purchasing power and high and safe food quality. This encourages food sovereignty of a country, which independently meets the food needs of its people based on a food system that is fair to the entire community. Peraturan Pemerintah Republik Indonesia Nomor 17 Tahun 2015 requires an information system on food and nutrition and the theory of e-government 3.0 evolution. Therefore, one solution that supports these regulations and the e-government 3.0 approach is the text mining approach. This research processes data from LAPOR! and online news on food sovereignty to extract information and find patterns that will produce information on food sovereignty in Indonesia so that it can assist decision-making based on data through web-based visualization representation. The type of information analysis used is Document Classification for document filtering, Named Entity Recognition which is used to find out location entities and food commodities from textual data, and Topic Modeling to find topics from a collection of text news documents and complaints LAPOR !. The algorithm used in this study is Conditional Random Fields and Conditional Markov Models for the implementation of Named Entity Recognition. Latent Dirichlet Allocation and Non-Negative Matrix Factorization for the implementation of Topic Modeling. In addition NaÃ¯ve Bayes, Support Vector Machine, and Logistic Regression are used for document classification. Whereas the selection of this model uses Conditional Random Field with an F1-score value for location entities of 83.85 and a food commodity entity of 90.98 used in online news data. In the LAPOR! Complaint data, the location entity uses Conditional Markov Model with an F1-Score value of 60.35 and food commodity entities amounting to 89.74. In classifying documents, the Support Vector Machine model with unigram features has a precision value of 92.00. In Topic Modeling, the Non-Negative Matrix Factorization model has a higher coherence value than the Latent Direchlete Allocation in three experiments with different datasets. In addition, visualization of food sovereignty is based on the processing of the data above to facilitate policy making by leaders such as the Expert Team at the Kantor Staf Presiden.

2019

TA-Pdf

UI - Tugas Akhir Universitas Indonesia Library

Nia Dwi Rahayuningtyas

Analisis Teks pada Tweet Berbahasa Indonesia untuk Mendeteksi Pro Kontra Vaksinasi Menggunakan Pendekatan Stance Detection dan Topic Modeling = Text Analytics on Indonesian Tweets to Detect Pro vs Anti Vaccination Using Stance Detection and Topic Modeling

"Keraguan dan penolakan orang tua terhadap vaksinasi meningkat secara global. Maraknya penyebaran isu vaksinasi melalui media sosial mengarahkan persepsi publik pada keraguan terhadap vaksin yang berujung pada penurunan cakupan imunisasi dan tidak tercapainya target IDL di Indonesia. Pada media sosial Twitter terdapat dua kelompok, yaitu kelompok pro-vaksin yang mendukung vaksinasi dan anti-vaksin yang menolak vaksinasi.

Penelitian ini bertujuan untuk mengidentifikasi apakah sebuah Tweet memiliki kecenderungan ke arah pro- atau anti-vaksin dan untuk mengeksplorasi topik-topik terkait pro-vaksin dan anti-vaksin. Dataset diambil dari Twitter dengan kata kunci "vaksin" dan "imunisasi" lebih dari 9.000 data Tweet antara 11 Agustus sampai 10 September 2019. Anotasi dilakukan dalam 3 langkah berturut-turut dengan tiga pasangan label yaitu RELEVANT/IRRELEVANT, SUBJECTIVE/NEUTRAL, dan PRO/ANTI. Tiga eksperimen yaitu pemilihan fitur, algoritma, dan pipeline klasifikasi dilakukan untuk mendapatkan model stance detection terbaik yaitu nilai rata-rata micro tertinggi dari precision, recall, dan f1-score.

Fitur terpilih adalah kombinasi 3 fitur teks Count +Unigram+Bigram dengan algoritma Logistic Regression dan pipeline Two-stage Classification (f1-score = 80,5%). Algoritma terpilih pada pembentukan topic modeling adalah NMF dan LDA masing-masing untuk korpus pro-vaksin dan anti-vaksin dengan nilai koherensi sebesar 0.999.

Topik-topik anti-vaksin meliputi kritik terhadap fatwa halal MUI untuk Vaksin MR, kandungan babi pada Vaksin Meningitis Haji, komersialisasi vaksin, vaksin palsu, KIPI dan bahaya vaksin, vaksin sebagai alat konspirasi dan agenda Yahudi, tuntutan vaksin halal, dan seterusnya. Sedangkan topik-topik pro-vaksin lebih bersifat homogen yaitu mengenai manfaat dan pentingnya imunisasi, aturan pemberian vaksin, dan kampanye dalam bentuk publisitas kegiatan imunisasi, dan anjuran vaksin.

Parents hesitancy and refusal toward immunization was rising globally. The rise of the issue of vaccination through social media directs the public's perception of vaccine hesitancy that lead to a reduction in immunization coverage and the unfulfilled IDL target in Indonesia. There are two groups: pro-vaccine that support vaccines and anti-vaccine that refuse vaccines for various reasons that expressed in tweets on Twitter.
This research aims to identify whether a tweet has a tendency to support, or oppose immunization or vaccines and exploring the topic of pro-vaccine and anti-vaccine corpus. The dataset was taken from Twitter with the keywords "vaksin" and "imunisasi" of more than 9,000 tweets at 11 August until 10 September 2019. Annotation was carried out in 3 consecutive steps with three couple label namely RELEVANT vs IRRELEVANT, SUBJECTIVE vs NEUTRAL, and PRO vs ANTI.
Three experiments, namely the selection of features, algorithms, and pipeline were carried out to get the best model of stance detection which has the highest micro average precision, recall, and f1-scores. The selected feature is combination of Count +Unigram+Bigram features with Logistic Regression and pipeline Two-stage Classification (f1-score = 80,5%).
The selected topic modeling algorithms are NMF and LDA for the corpus pro-vaccine and anti-vaccine with coherence score 0.999. Anti-vaccine topics include criticism of the halal MUI fatwa for MR vaccine, pork gelatine in the Hajj Meningitis Vaccine, vaccines for business fields, fake vaccines, KIPI and vaccine hazards, vaccines as part of conspiracy and Jewish agenda, demands for halal vaccines, etc. Whereas pro-vaccine topics are more homogeneous, namely the benefits and importance of immunization, vaccine administration rules, and campaigns with publicity of immunization activities and vaccine recommendations."

Depok: Fakultas Ilmu Komputer Universitas Indonesia , 2020

TA-Pdf

UI - Tugas Akhir Universitas Indonesia Library

<< 1 2 3 4 5 >>

Hasil Pencarian :: Simpan CSV :: Kembali

Hasil Pencarian