Ditemukan 11 dokumen yang sesuai dengan query
Yumna Pratista Tastaftian
"Speech Emotion Recognition adalah teknologi yang mampu bisa mendeteksi emosi lewat data suara yang diproses oleh sebuah mesin. Media yang sering digunakan untuk menjadi media interaksi antara 2 orang atau lebih yang saat ini sedang digunakan oleh banyak orang adalah Podcast, dan Talkshow. Seiring berkembangya SER, penelitian terakhir menunjukkan bahwa penggunaan metode Deep Learning dapat memberikan hasil yang memuaskan terhadap sistem SER. Pada penelitian ini akan diimplementasikan model Deep Learning yaitu dengan Recurrent Neural Network (RNN) variasi Long Short Term Memory (LSTM) untuk mengenali 4 kelas emosi (marah, netral, sedih, senang). Penelitian ini menguji model yang digunakan untuk mengenali emosi dari fitur akustik pada data secara sekuensial. Skenario training dan testing dilakukan dengan metode one-against-all dan mendapatkan hasil (1) Dataset talkshow mengungguli dataset podcast untuk tipe 1 dan 2 dan untuk semua emosi yang dibandingkan; (2) Untuk dataset podcast pada emosi marah, senang, dan sedih didapatkan akurasi optimal pada dataset tipe 1 yaitu 67.67%, 71.43%, dan 68,29%, sedangkan untuk emosi netral didapatkan akurasi terbaik pada dataset tipe 2 dengan 77.91%; (3) Untuk dataset talkshow pada emosi marah, netral, dan sedih didapatkan akurasi terbaik pada dataset tipe 2 yaitu 78.13%, 92.0%, dan 100%. Dapat disimpulkan bahwa dataset talkshow secara garis besar memberikan hasil yang lebih optimal namun memiliki variasi data yang lebih sedikit dari dataset podcast. Dari sisi panjang data, pada penelitian ini didapatkan akurasi yang lebih optimum pada dataset dengan tipe 2.
Speech Emotion Recognition is a technology that is able to detect emotions through voice data that is processed by a machine. Media that is often used to be a medium of interaction between two or more people who are currently being used by many people are Podcasts, and Talkshows. As SER develops, recent research shows that the use of the Deep Learning method can provide satisfactory results on the SER system. In this study a Deep Learning model will be implemented, this study uses Long Short Term Memory (LSTM) as one of the variation of Recurrent Neural Network (RNN) to recognize 4 classes of emotions (angry, neutral, sad, happy). This study examines the model used to recognize emotions from acoustic features in sequential data. Training and testing scenarios are conducted using the one-against-all method and get results (1) The talkshow dataset outperforms the podcast dataset for types 1 and 2 and for all emotions compared; (2) For the podcast dataset on angry, happy, and sad emotions, the optimal accuracy in type 1 dataset is 67.67%, 71.43%, and 68.29%, while for neutral emotions the best accuracy is obtained in type 2 dataset with 77.91%; (3) For the talkshow dataset on angry, neutral, and sad emotions the best accuracy is obtained for type 2 datasets, namely 78.13%, 92.0%, and 100%. It can be concluded that the talkshow dataset in general gives more optimal results but has fewer data variations than the podcast dataset. In terms of data length, this study found more optimum accuracy in dataset with type 2."
Depok: Fakultas Ilmu Kompter Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership Universitas Indonesia Library
Nicholas Pangestu
"Panjangnya suatu berita terkadang mengurangi minat seseorang untuk membaca berita, hal ini dapat kita lihat dari banyaknya istilah “tl:dr” pada thread di internet. Peringkasan dokumen dapat menciptkan ringkasan berita dan mengurangi waktu yang dibutuhkan untuk membaca. Salah satu cara yang dapat digunakan untuk melakukan peringkasan dokumen adalah menggunakan algoritma Textrank. Pada penelitian ini akan diimplementasikan word embedding untuk membantu algoritma Textrank memahami makna suatu kata dengan lebih baik. Hasil yang didapatkan menunjukkan bahwa penggunaan word embedding meningkatkan performa dari algoritma Textrank hingga 13% pada ROUGE-1 dan hingga 21% pada ROUGE-2. Model word embedding BERT memiliki performa tertinggi jika dibandingkan dengan word2vec (3% lebih tinggi pada ROUGE-1 dan 7% lebih tinggi pada ROUGE-2) dan fasttext (5% lebih tinggi pada ROUGE-1 dan 10% lebih tinggi pada ROUGE-2). Pada penelitian ini juga mengimplementasikan pembobotan TF-IDF dalam membuat sebuah representasi suatu kata. Hasil yang didapatkan menunjukkan bahwa pembobotan TF-IDF dapat meningkatkan performa dari tiap model word embedding yang digunakan hingga 11% pada ROUGE-1 dan hingga 19% pada ROUGE-2 dibandingkan performa tanpa pembobotan TF-IDF.
The length of article news sometimes reduces one's interest in reading the news, we can see this from the many terms "tl:dr" in threads on the internet. Document summarization can create news summaries and reduce the time it takes to read. One way to do document summarization is to use the Textrank algorithm. In this research, word embedding will be implemented to help the Textrank algorithm understand the meaning of a word better. The results show that the use of word embedding improves the performance of the Textrank algorithm up to 13% in ROUGE-1 and up to 21% in ROUGE-2. BERT word embedding model has the highest performance when compared to word2vec (3% higher in ROUGE-1 and 7% higher in ROUGE-2) and fasttext (5% higher in ROUGE-1 and 10% higher in ROUGE-2). This study also implements TF-IDF weighting to make a word representation. The results show that TF-IDF weighting can improve the performance of each word embedding model used up to 11% in ROUGE-1 and 19% in ROUGE-2 compared to the performance without using TF-IDF."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership Universitas Indonesia Library
Alif Ahsanil Satria
"Pengenalan entitas bernama (named-entity recognition atau NER) adalah salah satu topik riset di bidang pemrosesan bahasa alami (natural language processing atau NLP). Pengenalan entitas bernama merupakan langkah awal mengubah unstructured text menjadi structured text. Pengenalan entitas bernama berguna untuk mengerjakan NLP task yang lebih high-level seperti ekstraksi informasi (information extraction atau IE), Question Answering (QA), dan lain-lain. Penelitian ini memanfaatkan data berita dan wikipedia masing-masing sebanyak 200 dokumen yang digunakan untuk proses pengujian dan pelatihan. Penelitian ini mencoba mengeksplorasi entitas bernama baru yang tidak sebatas Person, Location, dan Organization. Named entity baru tersebut adalah Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), dan Miscellaneous. Jadi, penelitian ini menggunakan 11 entitas bernama. Dalam penelitian ini, permasalahan tersebut dipandang sebagai sequence labelling. Penelitian ini mengusulkan penggunaan model conditional random field sebagai solusi permasalahan ini. Penelitian ini mengusulkan penggunaan fitur tambahan seperti kata sebelum, kata sesudah, kondisi huruf kapital di awal kata, dan lain-lain, serta word embedding. Penelitian ini menghasilkan performa dengan nilai F-measure terbaik sebesar 67.96% untuk data berita dan 67.09% untuk data wikipedia.
"
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership Universitas Indonesia Library
Putri Rizqiyah
"Vaksinasi COVID-19 merupakan salah satu solusi jangka panjang untuk mengatasi pandemi COVID-19 di Indonesia. Topik vaksinasi COVID-19 menjadi perbincangan yang hangat, khususnya di media sosial. Berbagai macam pro dan kontra mengenai program vaksinasi terus bermunculan sehingga penelitian mengenai analisis publik terhadap program vaksinasi COVID-19 sangat berguna untuk komunikasi publik. Penelitian ini berfokus kepada lima jenis vaksin yang banyak digunakan di Indonesia yaitu, AstraZeneca, Moderna, Pfizer, Sinopharm dan Sinovac. Sebanyak 252,805 data dikumpulkan melalui media sosial twitter menggunakan Twitter API di tahun 2021. Lalu sebanyak 11,361 dipilih secara acak untuk dianotasi secara manual. Selanjutnya, proses klasifikasi dilakukan menggunakan model bahasa XLMR dan beberapa metode baseline berbasis pre-trained language model, deep learning, machine learning dan lexicon. Augmentasi data seperti Easy Data Augmentation (EDA), An Easier Data Augmentation (AEDA) dan Seqgan juga dilakukan untuk menyeimbangkan jumlah kelas data minoritas. Pembagian data latih dan data uji dilakukan dengan menggunakan dua metode yaitu simple random sampling dan stratified sampling untuk mengetahui performa model yang dilatih. Hasil penelitian menunjukkan bahwa metode yang diusulkan yaitu XLMR, memiliki performa yang tinggi dibandingkan metode baseline lainnya, dengan akurasi sebesar 71.91% sebelum dilakukan augmentasi dan 72.19% setelah dilakukan augmentasi menggunakan Seqgan menggunakan metode pembagian data simple random sampling. Lalu, dengan menggunakan metode pembagian data stratified, XLMR juga memiliki performa terbaik dengan akurasi 59.96% sebelum dilakukan augmentasi dan 74.37% setelah dilakukan augmentasi menggunakan EDA. Penelitian ini akan sangat bermanfaat untuk komunikasi publik dengan kasus serupa. Di masa yang akan datang, penelitian ini bisa dilanjutkan dengan melakukan domain transfer untuk meningkatkan performa model.
COVID-19 vaccination is one of the long-term solutions to address the COVID-19 pandemic in Indonesia. The topic of COVID-19 vaccination has become a hot discussion, especially on social media. Various pros and cons regarding the vaccination program continue to emerge, making research on public analysis of the COVID-19 vaccination program very useful for public communication. This study focuses on five types of vaccines widely used in Indonesia, namely AstraZeneca, Moderna, Pfizer, Sinopharm, and Sinovac. A total of 252,805 data were collected through social media Twitter using the Twitter API in 2021. Then, 11,361 were randomly selected to be manually annotated. Subsequently, the classification process was performed using the XLMR language model and several baseline methods based on pre-trained language models, deep learning, machine learning, and lexicon. Data augmentation such as Easy Data Augmentation (EDA), An Easier Data Augmentation (AEDA), and Seqgan was also carried out to balance the number of minority class data. The division of training data and test data was done using two methods, namely simple random sampling and stratified sampling, to determine the performance of the trained model. The results of the study show that the proposed method, XLMR, has high performance compared to other baseline methods, with an accuracy of 71.91% before augmentation and 72.19% after augmentation using Seqgan with the simple random sampling data splitting method. Then, using the stratified data splitting method, XLMR also had the best performance with an accuracy of 59.96% before augmentation and 74.37% after augmentation using EDA. This research will be very useful for public communication with similar cases. In the future, this research can be continued by conducting domain transfer to improve model performance."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2024
T-pdf
UI - Tesis Membership Universitas Indonesia Library
Alif Ahsanil Satria
"Pengenalan entitas bernama (named-entity recognition atau NER) adalah salah satu topik riset di bidang pemrosesan bahasa alami (natural language processing atau NLP). Pen- genalan entitas bernama merupakan langkah awal mengubah unstructured text menjadi structured text. Pengenalan entitas bernama berguna untuk mengerjakan NLP task yang lebih high-level seperti ekstraksi informasi (information extraction atau IE), Question Answering (QA), dan lain-lain. Penelitian ini memanfaatkan data berita dan wikipedia masing-masing sebanyak 200 dokumen yang digunakan untuk proses pengujian dan pelatihan. Penelitian ini mencoba mengeksplorasi entitas bernama baru yang tidak sebatas Person, Location, dan Organization. Named entity baru tersebut adalah Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), dan Miscellaneous. Jadi, penelitian ini menggunakan 11 entitas bernama. Dalam penelitian ini, permasalahan tersebut dipandang sebagai se- quence labelling. Penelitian ini mengusulkan penggunaan model conditional random field sebagai solusi permasalahan ini. Penelitian ini mengusulkan penggunaan fitur tambahan seperti kata sebelum, kata sesudah, kondisi huruf kapital di awal kata, dan lain-lain, serta word embedding. Penelitian ini menghasilkan performa dengan nilai F-measure terbaik sebesar 67.96% untuk data berita dan 67.09% untuk data wikipedia.
Named Entity Recognition or NER is one of research topics in Natural Language Pro- cessing (NLP) subject. NER is the first step to transform unstructured text to structured text. NER is used for doing more high-level NLP task such as Information Extraction (IE), Question Answering (QA), etc. This research uses news and wikipedia data with 200 documents of each, which is used for training and testing process. This research tries exploring new named entities in addition to Person, Location, and Organization. These named entities are Event, Product, Nationalities Or Religious or Political groups (NORP), Art, Time, Language, NonHuman or Fictional Character (NHFC), and Miscellaneous. Therefore, this research uses 11 named entities. This research views this problem as sequence labelling. This research proposes conditional random field model as the solution for this problem. This research proposes some features, for example additional features such as previous word, next word, initial capital letter condition, etc, and word embedding. This research results p1qerformance with the best F-Measure of 67.09% for wikipedia data and 67.96% for news data."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2020
S-pdf
UI - Skripsi Membership Universitas Indonesia Library
Fairuz Astari Devianty
"Dengan tumbuh dan berkembangnya platform media sosial, komunikasi bisa menjadi lebih mudah dilakukan. Namun, hal tersebut dapat disalahgunakan, seperti penyebaran hate speech melalui media sosial yang semakin marak terjadi. Meski kebebasan berekspresi adalah hak setiap orang di Indonesia, namun karena dampak negatifnya konten kebencian harus dihilangkan. Salah satu solusinya adalah dengan membangun sebuah model yang dapat mendeteksi hate speech secara otomatis. Untuk membangun model pendeteksian hate speech yang baik, dibutuhkan data beranotasi dengan jumlah yang besar untuk melatih model. Selain itu perlu juga diperhatikan target dan kategori dari hate speech tersebut. Namun, saat ini hanya ada satu multi-label hate speech dataset Bahasa Indonesia yang tersedia dan memiliki kekurangan proposi data dari setiap label yang tidak seimbang. Untuk mengatasi masalah kekurangan data ini, penulis mengusulkan sebuah metode yaitu Forward-Backward Translation untuk menghasilkan data secara otomatis. Metode ini merupakan gabungan dari forward translation dan back-translation. Forward translation dilakukan pada dataset dari high-resource language dan back-translation dilakukan pada dataset dari low-resource language. Dengan digabungkannya kedua proses ini dataset yang dihasilkan akan memiliki jumlah yang besar dan memiliki kualitas terjemahan yang baik. Metode ini digunakan untuk menambahkan data pada deteksi multi-label hate speech Bahasa Indonesia dengan tambahan data dari Bahasa Inggris. Performa pendeteksian multi-label hate speech pada dataset baru hasil penelitian ini berhasil meningkat bila dibandingkan dengan pada dataset hate speech Bahasa Indonesia yang sudah ada. Dataset ini mendapatkan F1-score sebesar 0.76 saat melakukan multi-label classification dan F1-score sebesar 0.78 saat melakukan hierarchical classification.
The growth and development of social media platforms make communication easier. However, this can be misused. For example, the spread of hate speech via social media is increasing. Freedom of speech is everyone's right in Indonesia, but malicious content must be eliminated due to its negative impact. One solution is to build a model that can automatically detect hate speech. Building a good hate speech detection model requires a large amount of annotated data to train the model. It is also necessary to pay attention to the target, category, and level of hate speech. However, there is currently only one multi-label hate speech dataset in Bahasa Indonesia available and the proportion of data for each label is unequal. To overcome this data scarcity problem, we propose a forward-backward translation method to generate data automatically. This method combines forward and backward translation. A forward translation is performed for dataset in high-resource languages and a backward translation is performed for dataset in low-resource languages. By combining these two processes, the resulting dataset will have a large amount of data and good translation quality. This method will be used to add data on multi-label hate speech detection in Bahasa Indonesia with additional data from English. As a result of this study, the performance of multi-label hate speech detection in the new dataset improved compared to the existing Bahasa Indonesia hate speech dataset. This dataset gets an F1-score of 0.76 for multi-label classification and an F1-score of 0.78 for hierarchical classification."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
T-pdf
UI - Tesis Membership Universitas Indonesia Library
Nabila Dita Putri
"Saat ini, dataset yang tersedia untuk melakukan analisis emosi di Indonesia masih terbatas, baik dari segi jumlah data, cakupan emosi, serta sumbernya. Pada penelitian ini, peneliti membangun dataset besar untuk tugas analisis emosi pada data teks berbahasa Indonesia, di mana dataset ini dikumpulkan dari berbagai domain dan sumber. Dataset ini mengandung 33 ribu teks, yang terdiri dari tweet yang dikumpulkan dari Twitter, serta komentar unggahan yang dikumpulkan dari Instagram dan Youtube. Domain yang dicakup pada dataset ini adalah domain olahraga, hiburan, dan life chapter. Dataset ini dianotasi oleh 36 annotator dengan label emosi fine-grained secara multi-label, di mana label emosi yang digunakan ini merupakan hasil dari taksonomi emosi baru yang diusulkan oleh peneliti. Pada penelitian ini, peneliti mengusulkan taksonomi emosi baru yang terdiri dari 44 fine-grained emotion, yang dikelompokkan ke dalam 6 basic emotion. Selain itu, peneliti juga membangun baseline model untuk melakukan analisis emosi. Didapatkan dua baseline model, yaitu hasil fine-tuning IndoBERT dengan f1-score micro tertinggi sebesar 0.3786, dan model hierarchical logistic regression dengan exact match ratio tertinggi sebesar 0.2904. Kedua baseline model tersebut juga dievaluasi di lintas domain untuk dilihat seberapa general dan robust model yang telah dibangun.
Currently, no research in Indonesia utilises fine-grained emotion for emotion analysis. In addition, the available datasets for analysing emotions still need to be improved in terms of the amount of data, the range of emotions, and their sources. In this study, researchers built a large dataset for analysing emotion. This dataset contains 33k texts, consisting of tweets collected from Twitter and comments collected from Instagram and Youtube posts. The domains covered in this dataset are sports, entertainment, and life chapter. Thirty-six annotators annotated this dataset with fine-grained emotion labels and a multi-label scheme, where the emotion labels resulted from a new emotion taxonomy proposed by the researcher. In this study, the researchers propose a new emotion taxonomy consisting of 44 fine-grained emotions which are grouped into six basic emotions. Two baseline models were obtained, the first one is the fine-tuned IndoBERT model, which achieved the highest f1-score micro of 0.3786, and the second one is hierarchical logistic regression model, which achieved the highest exact match ratio of 0.2904. Both baseline models were also evaluated to determine their cross-domain applicability. The dataset and baseline models that are produced in this study are expected to be valuable resources for future research purposes."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership Universitas Indonesia Library
Kaysa Syifa Wijdan Amin
"Saat ini, dataset yang tersedia untuk melakukan analisis emosi di Indonesia masih terbatas, baik dari segi jumlah data, cakupan emosi, serta sumbernya. Pada penelitian ini, peneliti membangun dataset besar untuk tugas analisis emosi pada data teks berbahasa Indonesia, di mana dataset ini dikumpulkan dari berbagai domain dan sumber. Dataset ini mengandung 33 ribu teks, yang terdiri dari tweet yang dikumpulkan dari Twitter, serta komentar unggahan yang dikumpulkan dari Instagram dan Youtube. Domain yang dicakup pada dataset ini adalah domain olahraga, hiburan, dan life chapter. Dataset ini dianotasi oleh 36 annotator dengan label emosi fine-grained secara multi-label, di mana label emosi yang digunakan ini merupakan hasil dari taksonomi emosi baru yang diusulkan oleh peneliti. Pada penelitian ini, peneliti mengusulkan taksonomi emosi baru yang terdiri dari 44 fine-grained emotion, yang dikelompokkan ke dalam 6 basic emotion. Selain itu, peneliti juga membangun baseline model untuk melakukan analisis emosi. Didapatkan dua baseline model, yaitu hasil fine-tuning IndoBERT dengan f1-score micro tertinggi sebesar 0.3786, dan model hierarchical logistic regression dengan exact match ratio tertinggi sebesar 0.2904. Kedua baseline model tersebut juga dievaluasi di lintas domain untuk dilihat seberapa general dan robust model yang telah dibangun.
Currently, no research in Indonesia utilises fine-grained emotion for emotion analysis. In addition, the available datasets for analysing emotions still need to be improved in terms of the amount of data, the range of emotions, and their sources. In this study, researchers built a large dataset for analysing emotion. This dataset contains 33k texts, consisting of tweets collected from Twitter and comments collected from Instagram and Youtube posts. The domains covered in this dataset are sports, entertainment, and life chapter. Thirty-six annotators annotated this dataset with fine-grained emotion labels and a multi-label scheme, where the emotion labels resulted from a new emotion taxonomy proposed by the researcher. In this study, the researchers propose a new emotion taxonomy consisting of 44 fine-grained emotions which are grouped into six basic emotions. Two baseline models were obtained, the first one is the fine-tuned IndoBERT model, which achieved the highest f1-score micro of 0.3786, and the second one is hierarchical logistic regression model, which achieved the highest exact match ratio of 0.2904. Both baseline models were also evaluated to determine their cross-domain applicability. The dataset and baseline models that are produced in this study are expected to be valuable resources for future research purposes."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership Universitas Indonesia Library
Gilang Catur Yudishtira
"Saat ini, dataset yang tersedia untuk melakukan analisis emosi di Indonesia masih terbatas, baik dari segi jumlah data, cakupan emosi, serta sumbernya. Pada penelitian ini, peneliti membangun dataset besar untuk tugas analisis emosi pada data teks berbahasa Indonesia, di mana dataset ini dikumpulkan dari berbagai domain dan sumber. Dataset ini mengandung 33 ribu teks, yang terdiri dari tweet yang dikumpulkan dari Twitter, serta komentar unggahan yang dikumpulkan dari Instagram dan Youtube. Domain yang dicakup pada dataset ini adalah domain olahraga, hiburan, dan life chapter. Dataset ini dianotasi oleh 36 annotator dengan label emosi fine-grained secara multi-label, di mana label emosi yang digunakan ini merupakan hasil dari taksonomi emosi baru yang diusulkan oleh peneliti. Pada penelitian ini, peneliti mengusulkan taksonomi emosi baru yang terdiri dari 44 fine-grained emotion, yang dikelompokkan ke dalam 6 basic emotion. Selain itu, peneliti juga membangun baseline model untuk melakukan analisis emosi. Didapatkan dua baseline model, yaitu hasil fine-tuning IndoBERT dengan f1-score micro tertinggi sebesar 0.3786, dan model hierarchical logistic regression dengan exact match ratio tertinggi sebesar 0.2904. Kedua baseline model tersebut juga dievaluasi di lintas domain untuk dilihat seberapa general dan robust model yang telah dibangun.
Currently, no research in Indonesia utilises fine-grained emotion for emotion analysis. In addition, the available datasets for analysing emotions still need to be improved in terms of the amount of data, the range of emotions, and their sources. In this study, researchers built a large dataset for analysing emotion. This dataset contains 33k texts, consisting of tweets collected from Twitter and comments collected from Instagram and Youtube posts. The domains covered in this dataset are sports, entertainment, and life chapter. Thirty-six annotators annotated this dataset with fine-grained emotion labels and a multi-label scheme, where the emotion labels resulted from a new emotion taxonomy proposed by the researcher. In this study, the researchers propose a new emotion taxonomy consisting of 44 fine-grained emotions which are grouped into six basic emotions. Two baseline models were obtained, the first one is the fine-tuned IndoBERT model, which achieved the highest f1-score micro of 0.3786, and the second one is hierarchical logistic regression model, which achieved the highest exact match ratio of 0.2904. Both baseline models were also evaluated to determine their cross-domain applicability. The dataset and baseline models that are produced in this study are expected to be valuable resources for future research purposes."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
S-pdf
UI - Skripsi Membership Universitas Indonesia Library
Parluhutan, Matthew Tumbur
"Pandemi COVID-19 mengubah pola kehidupan manusia, termasuk sistem perkuliahan yang berubah ke metode daring. Video perkuliahan dengan salindia menjadi salah satu pilihan sarana penyampaian materi kuliah secara daring. Penelitian ini bermaksud menguji keabsahan rancangan sistem yang mampu melakukan segmentasi temporal sesuai topik secara otomatis pada video perkuliahan. Sistem yang diajukan dibagi menjadi tiga sub-sistem yang memanfaatkan teknologi keyframe extraction, optical character recognition (OCR), dan topic modelling. Pertama, video perkuliahan akan diubah menjadi kumpulan keyframe dengan memanfaatkan metode Slide Detector yang dimodifikasi. Selanjutnya, akan dilakukan ekstraksi teks dari frame-frame tersebut menggunakan Tesseract OCR dengan preprocessing tambahan. Akhirnya, BERTopic dengan beragam algoritma clustering dan LDA diuji kemampuannya dalam topic modelling yang berguna untuk mengambil topik yang koheren dari teks tersebut. Penelitian pada tahap keyframe extraction menunjukkan bahwa terdapat peningkatan recall sebesar 0,235-025 dari 0 dan precision sebesar 0,619-0,75 dari 0 pada beberapa video pada Slide Detector termodifikasi. Sebaliknya, penelitian pada tahap OCR menunjukkan bahwa tambahan preprocessing belum bisa membantu meningkatkan performa Tesseract OCR. Pada tahap terakhir, ditemukan bahwa BERTopic lebih unggul daripada LDA dalam menarik topik yang koheren untuk use case penelitian ini. Agglomerative dan KMeans clustering ditemukan lebih optimal untuk kasus video perkuliahan jika dibandingkan dengan metode density-based. Augmentasi data dengan takaran yang sesuai diperlukan untuk mendapatkan hasil sedemikian rupa pada tahap ini. Secara umum, sistem dengan tiga bagian yang diusulkan pada penelitian ini sudah mampu melakukan segmentasi video perkuliahan sesuai tujuan, namun, video perkuliahan bersalindia merupakan dataset yang sangat heterogen dan merancang sebuah sistem yang mampu memanfaatkan dataset tersebut adalah tantangan tersendiri.
The COVID-19 pandemic changed the lifestyle of many people, including university lectures that moved to online delivery. Lecture videos with slides became an option to deliver lecture materials online. This work attempts to show a proof of concept for a system design that is able to automatically segment a lecture video temporally based on the topic. The proposed system is divided into three subsystems that make use of keyframe extraction, optical character recognition (OCR), and topic modelling techniques. First, a lecture video will be converted to a collection of keyframes using a modified Slide Detector technique. Next, those frames will be processed using Tesseract OCR with some additional preprocessing steps to extract text. Lastly, BERTopic with various clustering techniques and LDA will be used for topic modelling to obtain a coherent topic from the text extracted earlier. The research in the keyframe extraction step shows that there is an increase of 0.235-0,5 points from 0 for recall and 0,619-0,75 points from 0 for precision for certain videos using the modified Slide Detector. On the other hand, the research in the OCR step shows that the additional preprocessing is not yet able to help increase the performance of Tesseract OCR. At the last step, BERTopic proves to be better than LDA to obtain the coherent topic for this system's use case. Agglomerative and KMeans clustering is better for lecture videos compared to density-based methods. Appropriate amounts of data augmentation is needed to obtain the best results at this step. Overall, the three-part system in this research is able to segment lecture videos as intended, however, lecture videos with slides is a dataset that is very heterogeneous and designing a system to handle all types of videos is a large challenge."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2023
TA-pdf
UI - Tugas Akhir Universitas Indonesia Library