Ditemukan 26959 dokumen yang sesuai dengan query
Tang, Lei, 1982-
[San Rafael, Calif.] : Morgan and Claypool, 2010
006.754 TAN c
Buku Teks Universitas Indonesia Library
Zafarani, Reza, 1983-
"The growth of social media over the last decade has revolutionized the way individuals interact and industries conduct business. Individuals produce data at an unprecedented rate by interacting, sharing, and consuming content through social media. Understanding and processing this new type of data to glean actionable patterns presents challenges and opportunities for interdisciplinary research, novel algorithms and tool development. Social Media Mining integrates social media, social network analysis, and data mining to provide a coherent platform to understand the basics and potentials of social media mining. It introduces the unique problems arising from social media data and presents fundamental concepts, emerging issues, and effective algorithms for network analysis and data mining. Suitable for use in advanced undergraduate and beginning graduate courses as well as professional short courses, the text contains exercises of different degrees of difficulty that improve understanding and help apply concepts, principles and methods for social media mining."
New York: Cambridge University Press, 2014
006.312 ZAF s
Buku Teks Universitas Indonesia Library
Nedya Farisia
"
ABSTRAKMedia sosial berkembang dengan pesat saat ini dan menyediakan kenyamanan untuk berkomunikasi. Namun kenyamanan tersebut banyak disalahgunakan untuk memperlakukan orang lain dengan tidak layak di hadapan seluruh komunitas internet yang biasa disebut cyberbullying. Apabila cyberbullying gagal dicegah, akan sulit untuk melacak dan menanganinya. Salah satu senjata utama untuk mencegah aksi cyberbullying adalah dengan melakukan deteksi pada media sosial. Deteksi cyberbullying dapat dilakukan dengan menentukan apakah suatu post menyinggung topik sensitif yang bersifat pribadi seperti ras atau tidak. Dengan menentukan kata-kata terkait topik sensitif tersebut dan filter sentimen, deteksi tweet cyberbullying dilakukan dengan menggunakan metode klasifikasi Hyperpipes, Tree-based J48, dan SVM. Hasil menunjukkan bahwa algoritma hyperpipes dan decision tree menghasilkan hasil evaluasi yang terbaik dengan tingkat akurasi 85,32% dan 86,24%.
ABSTRACTSocial media is growing rapidly at the moment and provide convenience to communicate. But such convenience widely misused to treat other people with not decent before the entire internet community commonly called cyberbullying. If cyberbullying fail to prevent, it will be difficult to track down and deal with it. One of the main weapons to prevent acts of cyberbullying is to perform detection on social media. Detection of cyberbullying can be done by determining whether a post offend the sensitive topic of a personal nature such as racist or not. By determining the related words such sensitive topics and filter sentiment, cyberbullying tweet detection is done by using the method of classification Hyperpipes, Tree-based J48, and SVM. The results show that the algorithm hyperpipes and decision tree produces the best evaluation results with the accuracy of 85.32% and 86.24%.
"
2016
TA-pdf
UI - Tugas Akhir Universitas Indonesia Library
Nabila Dita Putri
"Saat ini, dataset yang tersedia untuk melakukan analisis emosi di Indonesia masih terbatas, baik dari segi jumlah data, cakupan emosi, serta sumbernya. Pada penelitian ini, peneliti membangun dataset besar untuk tugas analisis emosi pada data teks berbahasa Indonesia, di mana dataset ini dikumpulkan dari berbagai domain dan sumber. Dataset ini mengandung 33 ribu teks, yang terdiri dari tweet yang dikumpulkan dari Twitter, serta komentar unggahan yang dikumpulkan dari Instagram dan Youtube. Domain yang dicakup pada dataset ini adalah domain olahraga, hiburan, dan life chapter. Dataset ini dianotasi oleh 36 annotator dengan label emosi fine-grained secara multi-label, di mana label emosi yang digunakan ini merupakan hasil dari taksonomi emosi baru yang diusulkan oleh peneliti. Pada penelitian ini, peneliti mengusulkan taksonomi emosi baru yang terdiri dari 44 fine-grained emotion, yang dikelompokkan ke dalam 6 basic emotion. Selain itu, peneliti juga membangun baseline model untuk melakukan analisis emosi. Didapatkan dua baseline model, yaitu hasil fine-tuning IndoBERT dengan f1-score micro tertinggi sebesar 0.3786, dan model hierarchical logistic regression dengan exact match ratio tertinggi sebesar 0.2904. Kedua baseline model tersebut juga dievaluasi di lintas domain untuk dilihat seberapa general dan robust model yang telah dibangun.
Currently, no research in Indonesia utilises fine-grained emotion for emotion analysis. In addition, the available datasets for analysing emotions still need to be improved in terms of the amount of data, the range of emotions, and their sources. In this study, researchers built a large dataset for analysing emotion. This dataset contains 33k texts, consisting of tweets collected from Twitter and comments collected from Instagram and Youtube posts. The domains covered in this dataset are sports, entertainment, and life chapter. Thirty-six annotators annotated this dataset with fine-grained emotion labels and a multi-label scheme, where the emotion labels resulted from a new emotion taxonomy proposed by the researcher. In this study, the researchers propose a new emotion taxonomy consisting of 44 fine-grained emotions which are grouped into six basic emotions. Two baseline models were obtained, the first one is the fine-tuned IndoBERT model, which achieved the highest f1-score micro of 0.3786, and the second one is hierarchical logistic regression model, which achieved the highest exact match ratio of 0.2904. Both baseline models were also evaluated to determine their cross-domain applicability. The dataset and baseline models that are produced in this study are expected to be valuable resources for future research purposes."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership Universitas Indonesia Library
Kaysa Syifa Wijdan Amin
"Saat ini, dataset yang tersedia untuk melakukan analisis emosi di Indonesia masih terbatas, baik dari segi jumlah data, cakupan emosi, serta sumbernya. Pada penelitian ini, peneliti membangun dataset besar untuk tugas analisis emosi pada data teks berbahasa Indonesia, di mana dataset ini dikumpulkan dari berbagai domain dan sumber. Dataset ini mengandung 33 ribu teks, yang terdiri dari tweet yang dikumpulkan dari Twitter, serta komentar unggahan yang dikumpulkan dari Instagram dan Youtube. Domain yang dicakup pada dataset ini adalah domain olahraga, hiburan, dan life chapter. Dataset ini dianotasi oleh 36 annotator dengan label emosi fine-grained secara multi-label, di mana label emosi yang digunakan ini merupakan hasil dari taksonomi emosi baru yang diusulkan oleh peneliti. Pada penelitian ini, peneliti mengusulkan taksonomi emosi baru yang terdiri dari 44 fine-grained emotion, yang dikelompokkan ke dalam 6 basic emotion. Selain itu, peneliti juga membangun baseline model untuk melakukan analisis emosi. Didapatkan dua baseline model, yaitu hasil fine-tuning IndoBERT dengan f1-score micro tertinggi sebesar 0.3786, dan model hierarchical logistic regression dengan exact match ratio tertinggi sebesar 0.2904. Kedua baseline model tersebut juga dievaluasi di lintas domain untuk dilihat seberapa general dan robust model yang telah dibangun.
Currently, no research in Indonesia utilises fine-grained emotion for emotion analysis. In addition, the available datasets for analysing emotions still need to be improved in terms of the amount of data, the range of emotions, and their sources. In this study, researchers built a large dataset for analysing emotion. This dataset contains 33k texts, consisting of tweets collected from Twitter and comments collected from Instagram and Youtube posts. The domains covered in this dataset are sports, entertainment, and life chapter. Thirty-six annotators annotated this dataset with fine-grained emotion labels and a multi-label scheme, where the emotion labels resulted from a new emotion taxonomy proposed by the researcher. In this study, the researchers propose a new emotion taxonomy consisting of 44 fine-grained emotions which are grouped into six basic emotions. Two baseline models were obtained, the first one is the fine-tuned IndoBERT model, which achieved the highest f1-score micro of 0.3786, and the second one is hierarchical logistic regression model, which achieved the highest exact match ratio of 0.2904. Both baseline models were also evaluated to determine their cross-domain applicability. The dataset and baseline models that are produced in this study are expected to be valuable resources for future research purposes."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership Universitas Indonesia Library
Gilang Catur Yudishtira
"Saat ini, dataset yang tersedia untuk melakukan analisis emosi di Indonesia masih terbatas, baik dari segi jumlah data, cakupan emosi, serta sumbernya. Pada penelitian ini, peneliti membangun dataset besar untuk tugas analisis emosi pada data teks berbahasa Indonesia, di mana dataset ini dikumpulkan dari berbagai domain dan sumber. Dataset ini mengandung 33 ribu teks, yang terdiri dari tweet yang dikumpulkan dari Twitter, serta komentar unggahan yang dikumpulkan dari Instagram dan Youtube. Domain yang dicakup pada dataset ini adalah domain olahraga, hiburan, dan life chapter. Dataset ini dianotasi oleh 36 annotator dengan label emosi fine-grained secara multi-label, di mana label emosi yang digunakan ini merupakan hasil dari taksonomi emosi baru yang diusulkan oleh peneliti. Pada penelitian ini, peneliti mengusulkan taksonomi emosi baru yang terdiri dari 44 fine-grained emotion, yang dikelompokkan ke dalam 6 basic emotion. Selain itu, peneliti juga membangun baseline model untuk melakukan analisis emosi. Didapatkan dua baseline model, yaitu hasil fine-tuning IndoBERT dengan f1-score micro tertinggi sebesar 0.3786, dan model hierarchical logistic regression dengan exact match ratio tertinggi sebesar 0.2904. Kedua baseline model tersebut juga dievaluasi di lintas domain untuk dilihat seberapa general dan robust model yang telah dibangun.
Currently, no research in Indonesia utilises fine-grained emotion for emotion analysis. In addition, the available datasets for analysing emotions still need to be improved in terms of the amount of data, the range of emotions, and their sources. In this study, researchers built a large dataset for analysing emotion. This dataset contains 33k texts, consisting of tweets collected from Twitter and comments collected from Instagram and Youtube posts. The domains covered in this dataset are sports, entertainment, and life chapter. Thirty-six annotators annotated this dataset with fine-grained emotion labels and a multi-label scheme, where the emotion labels resulted from a new emotion taxonomy proposed by the researcher. In this study, the researchers propose a new emotion taxonomy consisting of 44 fine-grained emotions which are grouped into six basic emotions. Two baseline models were obtained, the first one is the fine-tuned IndoBERT model, which achieved the highest f1-score micro of 0.3786, and the second one is hierarchical logistic regression model, which achieved the highest exact match ratio of 0.2904. Both baseline models were also evaluated to determine their cross-domain applicability. The dataset and baseline models that are produced in this study are expected to be valuable resources for future research purposes."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership Universitas Indonesia Library
Teuku Varrensha Aqiila Qeyvashah
Depok: Fakultas Ilmu Sosial dan Ilmu Politik Universitas Indonesia, 2023
TA-pdf
UI - Tugas Akhir Universitas Indonesia Library
Aldi Naufal Fitrah
"Dengan bertambahnya jumlah pengguna internet seiring waktu, bertambah pula jumlah data yang dihasilkan dari aktivitas yang berasal dari media sosial. Data tersebut dapat digunakan untuk berbagai keperluan, salah satunya untuk keperluan moderasi supaya aktivitas pengguna internet tetap tunduk pada hukum yang berlaku. Namun, diperlukan cara yang optimal untuk melakukan proses tersebut mengingat data yang jumlahnya sangat besar. Penelitian ini mengajukan sebuah platform yang dapat menjadi salah satu pilihan untuk memproses data media sosial yang berjumlah besar tersebut. Rancangan platform pada penelitian ini ditujukan untuk dapat memiliki throughput yang besar. Selain itu, platform dirancang untuk dapat dimodifikasi demi memenuhi berbagai kebutuhan. Karenanya, aspek extensibility juga menjadi perhatian utama dalam proses pengembangan platform. Kedua tujuan utama dalam pengembangan platform ini dapat diwujudkan dengan bantuan sebuah klaster Apache Kafka yang membuat platform memiliki sifat loosely-coupled dan juga extensible. Dengan berpusat pada klaster Apache Kafka, proses pengolahan data yang ada dapat dilakukan secara paralel, dan terbukti dapat meningkatkan throughput dari platform secara keseluruhan. Sebagai pembanding, penelitian ini diuji coba dengan suatu skenario bersama dengan platform Tweetream yang dikembangkan oleh Susanto (2022). Hasil dari uji coba tersebut membuktikan bahwa platform pada penelitian ini dapat mengungguli Tweetream.
As the number of internet users increases over time, so does the amount of data generated from activities originating from social media. This data can be used for various purposes, one of which is for moderation purposes so that the activities of internet users remain subject to applicable laws. However, an optimal way to do the process is needed considering the huge amount of data. This research proposes a platform that can be one of the options for processing large amounts of social media data. The design of the platform in this research is intended to have a large throughput. In addition, the platform is designed to be modifiable to meet various needs. Therefore, extensibility is also a major concern in the platform development process. These two main objectives in the development of the platform can be realized with the help of an Apache Kafka cluster that makes the platform loosely-coupled and extensible. By centering on the Apache Kafka cluster, the data processing can be done in parallel, which has been proven to increase the throughput of the platform as a whole. For comparison, this study was tested in a scenario with the Tweetream platform developed by Susanto (2022). The results of the test proved that the platform in this study can outperform Tweetream."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership Universitas Indonesia Library
Hancock, Monte F., Jr.
Boca Raton: CRC Press, 2012
006.312 HAN p
Buku Teks Universitas Indonesia Library
Han, Jiawei
"Summary:
Equips you with an understanding and application of the theory and practice of discovering patterns hidden in large data sets. This title focuses on important topics in the field: data warehouses and data cube technology, mining stream, mining social networks, and mining spatial, multimedia and other complex data."
Burlington: Elsevier, 2012
006.312 HAN d
Buku Teks Universitas Indonesia Library