Hasil Pencarian  ::  Simpan CSV :: Kembali

Hasil Pencarian

Ditemukan 129656 dokumen yang sesuai dengan query
cover
Ali Alatas
"Dalam kehidupan sehari-hari, emosi memainkan peran penting dalam membentuk cara manusia berkomunikasi dan berinteraksi, baik dengan sesama maupun dengan teknologi. Dalam bidang Human-Computer Interaction (HCI), pengenalan emosi menjadi salah satu inovasi yang memungkinkan sistem komputer memahami perasaan manusia secara lebih mendalam. Penelitian ini bertujuan untuk mengembangkan sistem Speech Emotion Recognition (SER) berbasis suara percakapan berbahasa Indonesia menggunakan kombinasi model Convolutional Neural Network (CNN) dan Gated Recurrent Unit (GRU), dengan dukungan teknik augmentasi data untuk meningkatkan performa dan generalisasi model. Penelitian ini dilakukan melalui tiga tahap pengujian: pertama, eksperimen menggunakan benchmark dari TESS Dataset yang berbahasa Inggris; kedua, eksperimen terhadap jumlah augmentasi data untuk menentukan konfigurasi terbaik; dan ketiga, eksperimen membandingkan kinerja model CNN, GRU, dan CNN-GRU. CNN digunakan untuk mengekstraksi fitur suara utama, seperti MFCC, Chroma, Zero-Crossing Rate (ZCR), RMS, dan Spectral Contrast, sementara GRU menangkap pola temporal dalam data. Hasil penelitian menunjukkan bahwa kombinasi CNN-GRU dengan 6 jenis augmentasi data memberikan performa terbaik, dengan akurasi 94.49% dan loss 0.8136 pada dataset berbahasa Indonesia, serta akurasi 99.72% dan loss 0.1915 pada benchmark dari TESS Dataset yang berbahasa Inggris. Temuan ini menegaskan bahwa teknik augmentasi data efektif dalam meningkatkan stabilitas dan akurasi model, bahkan ketika dihadapkan pada variasi kualitas data. Penelitian ini berkontribusi pada pengembangan teknologi HCI yang lebih intuitif, dengan potensi penerapan dalam mendukung kesehatan mental, layanan berbasis suara, dan sistem pendidikan yang responsif terhadap emosi manusia.

In daily life, emotions play a crucial role in shaping how humans communicate and interact, both with each other and with technology. In the field of Human-Computer Interaction (HCI), emotion recognition has become one of the innovations that enable computer systems to deeply understand human feelings. This research aims to develop a Speech Emotion Recognition (SER) system based on Indonesian speech using a combination of Convolutional Neural Network (CNN) and Gated Recurrent Unit (GRU) models, supported by data augmentation techniques to improve the performance and generalization of the model. The research was conducted through three stages of testing: first, an experiment using the TESS Dataset benchmark in English; second, an experiment on the number of data augmentations to determine the optimal configuration; and third, an experiment comparing the performance of CNN, GRU, and CNN-GRU models. CNN was utilized to extract key audio features, such as MFCC, Chroma, Zero-Crossing Rate, RMS, and Spectral Contrast, while GRU captured temporal patterns in the data. The results showed that the combination of CNN-GRU with 6 types of data augmentation provided the best performance, achieving an accuracy of 94.49% and a loss of 0.8136 on the Indonesian dataset, as well as an accuracy of 99.72% and a loss of 0.1915 on the benchmark TESS Dataset in English. These findings affirm that data augmentation techniques are effective in improving model stability and accuracy, even when faced with variations in data quality. This research contributes to the development of more intuitive HCI technologies, with potential applications in supporting mental health, voice-based services, and educational systems that are responsive to human emotions."
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Fajri Rahmadi
"ABSTRAK
Emosi merupakan suatu keadaan psikologis yang dipicu oleh aktivitas sensorik manusia baik secara sadar maupun tidak sadar. Emosi berperan penting dalam kehidupan manusia seperti dalam pengambilan keputusan, dalam mengekspresikan diri, dan lain sebagainya. Emosi dapat dihasilkan menggunakan rangsangan/stimulus tertentu seperti emosi takut dihasilkan menggunakan hal-hal yang menyeramkan seperti gambar pembunuhan, emosi bahagia dapat dipicu menggunakan stimulus gambar-gambar yang menyenangkan seperti gambar pemandangan, emosi sedih dapat dipicu menggunakan musik-musik sendu, menangis, dan hal-hal menyedihkan lainnya, dan emosi jijik dapat dipicu mengunakan stimulus yang menjijikkan seperti kotoran manusia. Beberapa stimulus yang biasa digunakan dalam penelitian adalah gambar, text, audio, atau video. Pada proses penghasilan emosi, terdapat aktivitas elektrik dalam otak manusia yang dapat direkam menggunakan perangkat bernama Elektroensefalografi EEG , rekaman gelombang otak ini juga dapat dilakukan menggunakan perangkat yang bernama neuroheadset. Penelitian ini membahas tentang pengembangan sistem akuisisi data sinyal otak menggunakan neuroheadset dan menghasilkan database yang digunakan untuk analisis emosi. Dalam penelitian ini digunakan stimulus berupa video yang terdiri dari kumpulan gambar. Setiap gambar dalam video telah melalui proses validasi sesuai dengan kelas emosi yang diinginkan. Kelas emosi yang digunakan dalam penelitian ini yaitu bahagia, jijik, sedih, dan takut. Setiap kelas emosi memiliki empat stimulus video. Proses validasi dilakukan oleh lima orang partisipan dan proses pengambilan data sinyal otak dilakukan terhadap empat orang partisipan. Pengambilan data dilakukan menggunakan perangkat neuroheadset dengan vendor Emotiv tipe Epoc. Hasil rekaman sinyal diproses menggunakan Matlab dan menghasilkan database berukuran 16x14x7680, dimana angka 16 merepresentasikan jumlah stimulus video, 14 merepresentasikan sensor Emotiv Epoc yang digunakan, dan 7680 merupakan data sinyal yang diambil selama 60 detik dengan frekuensi sampling 128 Hertz. Tingkat keberhasilan tertinggi untuk emosi bahagia, jijik, sedih, dan takut secara berurut adalah 75 , 62.5 , 62.5 , dan 75 . Tingkat keberhasilan tertinggi ini dicapai untuk variasi channel frekuensi alpha, sensor yang digunakan yaitu F7, F3, F4, dan F8. Teknik klasifikasi yang digunakan adalah feed-forward backpropagation neural network.

ABSTRACT
Emotion is a psychological state that triggered by human sensory activity both consciously and unconsciously. Emotions play an important role in human life such as decision making, self expression, and others. Emotions can be generated using certain stimuli such as feared emotions generated using scary things like murder images, happy emotions can be triggered by stimuli of fun images such as sight images, sad emotions can be triggered using melodic music, crying, and other sad things, and disgusted emotions can be triggered using disgusting stimuli like human feces. Some of the stimuli commonly used in research are using images, text, audio, or video. In the process of earning emotions, there is electrical activity in the human brain that can be recorded and processed to obtain brain signals using a device called Electroencephalography EEG , these brainwave records can also be recorded using a device called neuroheadset. This study discusses the development of data acquisition system of brain signals using neuroheadset and generate database used for emotion analysis. In this study used a video stimulus consisting of a collection of images. Each image in the video has gone through the validation process according to the desired emotion class. Four kind of emotion used in research that are happy, disgusted, sad, and scared. Each emotional class has four video stimuli. Five participants carried out the validation process and the process of retrieving the brain signals data performed on four participants. Data retrieval performed using a neuroheadset device with Emotiv vendor with Epoc type. The recording of the signal is processed using Matlab and generates a 16x14x7680 database, where the number 16 represents the number of video stimuli, 14 represents the Epoc Emotion sensor used, and 7680 is the signal data taken for 60 seconds with 128 Hertz sampling frequency. The highest recognition rate for happy, disgusted, sad, and fearful emotions are 75 , 62.5 , 62.5 , and 75 . The highest success rate achieved for alpha frequency channel variation the sensors used are F7, F3, F4, and F8. The classification technique used is feed forward backpropagation neural network."
2018
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Jonathan
"Emosi atau perasaan manusia adalah salah satu faktor yang tidak dapat dikendalikan dalam aktivitas apapun. Tidak sedikit juga pekerjaan yang seringkali berkaitan dengan emosi manusia terutama di industri hiburan dan juga kesehatan. Oleh karena itu, 1 dekade kebelakang banyak riset yang dilakukan untuk mempelajari emosi manusia secara langsung maupun menggunakan teknologi. Pengembangan model speech emotion recognition berbahasa Indonesia masih sangat sedikit dan oleh karena itu dibutuhkan perbandingan secara spesifik pada penelitian ini diantara dua model classifier yaitu Convolutional Neural Network (CNN) dan juga Multilayer Perceptron (MLP) untuk menentukan model yang menghasilkan akurasi terbaik dalam memprediksi emosi dari suara manusia.
Dalam speech recognition secara umum, salah satu faktor penting dalam mendapatkan model dengan akurasi terbaik adalah metode ekstraksi fiturnya. Oleh karena itu, penelitian ini menggunakan 3 fitur untuk melakukan pelatihan terhadap model yaitu Mel-frequency Cepstral Coefficients (MFCC), Mel-Spectrogram dan chroma. Dari 3 fitur ini, divariasikan dan menghasilkan 7 metode ekstraksi yang berbeda untuk digunakan sebagai input pelatihan model.
Terakhir, untuk memastikan bahwa model sudah menggunakan parameter terbaik, dilakukan eksperimen dengan membandingkan model yang menggunakan batch size serta activation function yang berbeda. Ditemukan bahwa dengan menggunakan CNN dan fitur gabungan antara MFCC, mel-spectrogram dan juga chroma menghasilkan model dengan skor akurasi 50.6% sedangkan menggunakan MLP dengan fitur yang sama menghasilkan model dengan skor akurasi 58.47%.

Emotions or human feelings are one of the factors that cannot be controlled in any activity. There are also many jobs that are often related to human emotions, especially in the entertainment and health industries. The development of speech emotion recognition models in Indonesian is still very little and therefore a specific comparison is needed in this study between two classifier models, namely Convolutional Neural Network (CNN) and Multilayer Perceptron (MLP) to determine the model that produces the best accuracy in predicting the emotion of the human voice.
In speech recognition in general, one of the important factors in acquiring a model with the best accuracy is the feature extraction method. Therefore, this study uses 3 features to train the model, namely Mel-frequency Cepstral Coefficients (MFCC), Mel-Spectrogram and chroma. From these 3 features, they were varied and resulted in 7 different extraction methods to be used as model training inputs.
Finally, to ensure that the model has used the best parameters, an experiment was conducted by comparing models using different batch sizes and activation functions. It was found that using CNN and the combined features of MFCC, mel-spectrogram and also chroma resulted in a model with an accuracy score of 50.6% while using MLP with the same features resulted in a model with an accuracy score of 58.47%.
"
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Mohammad Darrel Tristan Budiroso
"Penelitian ini menangani masalah pengenalan emosi dalam percakapan berbahasa Indonesia, yang penting untuk aplikasi seperti pengenalan ucapan, interaksi manusiamesin, dan analisis sentimen. Untuk mengatasi kompleksitas data suara dan teks, penelitian ini menggabungkan Word Embedding (Word2Vec) dan spektrum suara (MFCC) menggunakan Convolutional Neural Network (CNN). Word2Vec mengubah dataset suara menjadi representasi teks vektor, sementara MFCC digunakan untuk ekstraksi fitur dari spektrum suara. Model yang dikembangkan dievaluasi dengan dataset percobaan berbahasa Indonesia, dan pendekatan Weighted Average Ensemble yang mengintegrasikan kedua metode ini mencapai akurasi 70%. Hasil ini menunjukkan bahwa integrasi teknologi Word Embedding dan analisis spektrum suara dapat meningkatkan akurasi pengenalan emosi dalam bahasa Indonesia. Penelitian ini berkontribusi signifikan terhadap teknologi pengenalan emosi dan berpotensi meningkatkan interaksi manusia dengan teknologi serta aplikasi dalam analisis sentimen dan pengolahan bahasa alami.

This research addresses the issue of emotion recognition in Indonesian language conversations, which is crucial for applications such as speech recognition, humanmachine interaction, and sentiment analysis. To tackle the complexity of voice and text data, this study combines Word Embedding (Word2Vec) and sound spectrum analysis (MFCC) using Convolutional Neural Network (CNN). Word2Vec is used to convert voice datasets into vector text representations, while MFCC is employed for feature extraction from the sound spectrum. The developed models were evaluated using an experimental dataset in Indonesian, and the Weighted Average Ensemble approach, which integrates both methods, achieved an accuracy of 70%. These results indicate that integrating Word Embedding technology and sound spectrum analysis can significantly enhance the accuracy of emotion recognition in Indonesian conversations. This research contributes significantly to the development of emotion recognition technology and has the potential to improve human interaction with technology, as well as applications in sentiment analysis and natural language processing."
Depok: Fakultas Teknik Universitas Indonesia, 2024
S-pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Arvalinno
"

Kecerdasan buatan atau Artificial Intelligence (AI) banyak berkembang dalam sektor-sektor seperti: speech recognition, computer vision, Natural Language Processing, dll. Salah satu sektor penting yang banyak dikembangkan oleh peneliti adalah Speech Emotion Recognition atau pengenalan emosi berdasarkan suara manusia. Penelitian ini semakin berkembang karena timbul sebuah tantangan bagi manusia untuk memiliki interaksi mesin dan manusia yang lebih natural yaitu suatu mesin yang dapat merespon emosi manusia dengan memberikan balasan yang tepat juga. Perancangan Speech Emotion Recognition pada penelitian ini menggunakan dataset berupa fitur ekstraksi audio MFCC, Spectrogram, Mel Spectrogram, Chromagram, dan Tonnetz serta memanfaatkan metode Transfer Learning VGG-16 dalam pelatihan modelnya. Dataset yang digunakan diperoleh dari pemotongan audio dari beberapa film berbahasa Indonesia dan kemudian audio yang diperoleh diekstraksi fitur dalam kelima bentuk fitur yang disebut sebelumnya. Hasil akurasi model paling baik dalam penelitian ini adalah model transfer learning VGG-16 dengan dataset Mel Spectrogram yaitu dengan nilai akurasi 56.2%. Dalam pengujian model dalam pengenalan setiap emosi, f1-score terbaik diperoleh model transfer learning VGG-16 dengan dataset Mel Spectrogram dengan f1-score yaitu 55.5%. Skala mel yang diterapkan pada ekstraksi fitur mel spectrogram berpengaruh terhadap baiknya kemampuan model dalam mengenali emosi manusia.


Artificial Intelligence has been used in many sectors, such as speech recognition, computer vision, Natural Language Processing, etc. There was one more important sector that has been developed well by the scientists which are Speech Emotion Recognition. This research is developing because of the new challenge by human to have a better natural interaction between machines and humans where machines can respond to human’s emotions and give proper feedback. In this research, to create the speech emotion recognition system, audio feature extraction such as MFCC, Spectrogram, Mel Spectrogram, Chromagram, and Tonnetz were used as input, and using VGG-16 Transfer Learning Method for the model training. The datasets were collected from the trimming of audio from several Indonesian movies, the trimmed audio will be extracted to the 5 features mentioned before. The best model accuracy is VGG-16 with Mel Spectrogram dataset which has reached 56.2% of accuracy. In terms of recognizing the emotion, the best f1-score is reached by the model VGG-16 with Mel Spectrogram dataset which has 55.5% of f1-score. Mel scale that is applied to the feature extraction of mel spectrogram affected the model’s ability to recognize human emotion.

"
Depok: Fakultas Teknik Universitas Indonesia, 2022
S-Pdf
UI - Skripsi Membership  Universitas Indonesia Library
cover
Janu Dewandaru
Depok: Fakultas Teknik Universitas Indonesia, 1993
S38366
UI - Skripsi Membership  Universitas Indonesia Library
cover
Inzra Benyamin
Depok: Fakultas Teknik Universitas Indonesia, 1993
S38357
UI - Skripsi Membership  Universitas Indonesia Library
cover
Wava Carissa Putri
"Pembuatan dataset emosi wajah membutuhkan sumber daya dan waktu yang banyak. Salah satu solusi menyelesaikan permasalahan ini adalah menggunakan Generative Adversarial Network (GAN) untuk melakukan augmentasi data pada data emosi wajah. Namun, jumlah data yang terbatas membuat GAN belum dapat menghasilkan citra yang beragam. Salah satu pendekatan yang dapat dilakukan untuk mengatasi hal tersebut adalah penggunaan energy function untuk membuat probability function yang lebih detail. Penelitian ini bertujuan untuk merancang sebuah model dengan menggunakan EB-GAN dan attention untuk mengatasi masalah translasi gambar dengan emosi Neutral menjadi gambar dengan emosi dasar. Eksperimen yang dilakukan pada penelitian ini bertujuan untuk melakukan modifikasi terhadap arsitektur DINO dengan menambahkan attention untuk meningkatkan kualitas hasil translasi model. Hasil translasi model dievaluasi menggunakan emotion recognition untuk mengetahui akurasi emosi yang dihasilkan. Pada penelitian ini terlihat bahwa penggunaan attention tidak dapat meningkatkan akurasi DINO dikarenakan terdapat banyaknya fitur pembeda antar emosi yang tersebar pada wajah. Pada penelitian ini DINO pada dataset berwarna menghasilkan akurasi sebesar 96.78% dan DINO pada dataset grayscale menghasilkan akurasi sebesar 94.50%. Dalam pembuatan dataset baru, DINO menghasilkan akurasi sebesar 83% untuk dataset berwarna dan 85.6% untuk dataset grayscale.

Creating a facial emotion dataset requires a lot of resources. To solve this problem, previous research utilizes Generative Adversarial Networks (GANs) to create artificial data. However due to the limited number of available data, this would affect the GANs itself and would result in generating a less diverse data. One way to solve this problem is to use an energy function to create a more detailed probability function. This research aimed to create a model based on EB-GAN and attention to solve problems during translating a neutral image into an image with a basic emotion. This experiment uses a variation of EB-GAN for image translation, DINO, and modify its architecture by adding attention modules to improve the performance of the model during translation. The result of the experiments are evaluated using emotion recognition systems. This results show that the use of attention did not improve the performance of DINO. This is due the fact that each emotion have multiple features and the location of the features are scattered within a face. This experiment shows that DINO obtained the highest accuracy in both colored (RGB) and grayscale data. DINO obtains a 96.78% accuracy for colored (RGB) data and 94.50% for grayscale data. During the creation of new dataset, DINO obtained an accuracy of 83% for colored (RGB) data and 85.6% for grayscale data."
Depok: Fakultas Ilmu Komputer Universitas Indonesia, 2022
T-pdf
UI - Tesis Membership  Universitas Indonesia Library
cover
Melin, Patricia
"This book describes hybrid intelligent systems using type-2 fuzzy logic and modular neural networks for pattern recognition applications. Hybrid intelligent systems combine several intelligent computing paradigms, including fuzzy logic, neural networks, and bio-inspired optimization algorithms, which can be used to produce powerful pattern recognition systems. Type-2 fuzzy logic is an extension of traditional type-1 fuzzy logic that enables managing higher levels of uncertainty in complex real world problems, which are of particular importance in the area of pattern recognition. The book is organized in three main parts, each containing a group of chapters built around a similar subject. The first part consists of chapters with the main theme of theory and design algorithms, which are basically chapters that propose new models and concepts, which are the basis for achieving intelligent pattern recognition. The second part contains chapters with the main theme of using type-2 fuzzy models and modular neural networks with the aim of designing intelligent systems for complex pattern recognition problems, including iris, ear, face and voice recognition. The third part contains chapters with the theme of evolutionary optimization of type-2 fuzzy systems and modular neural networks in the area of intelligent pattern recognition, which includes the application of genetic algorithms for obtaining optimal type-2 fuzzy integration systems and ideal neural network architectures for solving problems in this area."
Berlin: [, Springer], 2012
e20398550
eBooks  Universitas Indonesia Library
cover
Nadia Mana, editor
"This book constitutes the refereed proceedings of the 5th INNS IAPR TC3 GIRPR International Workshop on Artificial Neural Networks in Pattern Recognition, ANNPR 2012, held in Trento, Italy, in September 2012. The 21 revised full papers presented were carefully reviewed and selected for inclusion in this volume. They cover a large range of topics in the field of neural network- and machine learning-based pattern recognition presenting and discussing the latest research, results, and ideas in these areas."
Berlin: [, Springer-Verlag], 2012
e20409989
eBooks  Universitas Indonesia Library
<<   1 2 3 4 5 6 7 8 9 10   >>